Geavanceerd zoeken en query-taal. Taal van de zoekmachine

computers

De querytaal is een kunstmatig gemaakte programmeertaal die wordt gebruikt om query's uit te voeren in databases en informatiesystemen.

zoektaal

Over het algemeen kunnen dergelijke zoekmethoden zijnclassificeren, afhankelijk van of ze dienen voor een database of voor het ophalen van informatie. Het verschil is dat verzoeken om dergelijke diensten worden gedaan om feitelijke antwoorden op de gestelde vragen te verkrijgen, terwijl de zoekmachine documenten probeert te vinden die informatie bevatten met betrekking tot de regio van belang voor de gebruiker.

databases

De query-talen voor databases bevatten de volgende voorbeelden:

  • QL - objectgericht, verwijst naar relationele databases; opvolger van Datalog.
  • Contextueel (CQL) is een formele query-weergavetaal voor informatie-zoeksystemen (zoals webindexen of bibliografische mappen).
  • CQLF (CODYASYL) - voor CODASYL-TYPE-databases.
  • Concept-oriented query language (COQL) -wordt gebruikt in de respectieve modellen (com). Het is gebaseerd op de principes van data-modellering, en maakt gebruik van operaties als projectie en de-projectie van multidimensionale analyses, analytische operaties en conclusies.
  • DMX - gebruikt voor datamining-modellen.
  • Datalog is de taal van query's naar deductieve databases.
  • Gellish English is een taal die dat wel kanWordt gebruikt voor query's in Gellish English-databases en stelt u in staat om dialogen (query's en antwoorden) uit te voeren en dient ook voor het modelleren van kennis.
  • HTSQL - vertaalt http-verzoeken naar SQL.
  • ISBL - gebruikt voor PRTV (een van de eerste relationele databasebeheersystemen).
  • LDAP is een protocol voor aanvragen en directoryservices dat wordt uitgevoerd via TCP / IP.
  • MDX is vereist voor OLAP-databases.

Yandex-querytaal

Zoekmachines

De taal van zoekopdrachten, op hun beurt,is gericht op het vinden van gegevens in zoekmachines. Het verschil is dat de verzoeken vaak platte tekst of hypertext bevatten met extra syntaxis (bijvoorbeeld "en" / "of"). Het verschilt aanzienlijk van standaard vergelijkbare talen, die worden geregeld door strikte rules of command-syntaxis of die positionele parameters bevatten.

Hoe worden zoekvragen geclassificeerd?

Er zijn drie brede categorieëndekt de meeste zoekopdrachten: informatie, navigatie en transacties. Hoewel deze classificatie theoretisch niet was vastgelegd, werd deze empirisch bevestigd door de aanwezigheid van daadwerkelijke zoekopdrachten in de zoekmachines.

Informatieverzoeken zijn diebrede onderwerpen behandelen (bijvoorbeeld een bepaalde stad of model van vrachtwagens) waarvoor duizenden relevante resultaten kunnen worden behaald.

Navigatie - dit zijn zoekopdrachten die zoeken naar één site of een webpagina over een specifiek onderwerp (bijvoorbeeld YouTube).

taal van zoekopdrachten

Transactie - weerspiegelen de intentie van de gebruiker om een ​​bepaalde actie uit te voeren, bijvoorbeeld een auto kopen of een ticket boeken.

Zoekmachines ondersteunen vaak de vierdetype aanvraag, dat veel minder vaak wordt gebruikt. Dit zijn zogenaamde verbindingsverzoeken die een rapport bevatten over de connectiviteit van de geïndexeerde webafbeeldingen (het aantal links naar een specifieke URL, of hoeveel pagina's worden geïndexeerd vanuit een specifiek domein).

Hoe wordt het ophalen van de informatie uitgevoerd?

De meeste zoekbronnen onthullen hun nietzoeklogboeken, zodat de informatie die gebruikers op het web zoeken erg moeilijk te vinden is. Niettemin verscheen in 1998 het eerste wetenschappelijke onderzoek. Later werd in 2001 een vervolgonderzoek uitgevoerd, waarbij vragen werden geanalyseerd die als zeer relevant werden weergegeven. Ook werd duidelijk hoe de zoekmachine query-taal gebruikt.

Interessante kenmerken met betrekking tot zoeken op het web werden bekend:

De gemiddelde lengte van de zoekopdracht was 2,4 woorden.

  • Ongeveer de helft van de gebruikers stuurde één verzoek en iets minder dan een derde van de gebruikers deed één voor één drie of meer unieke vragen.
  • Bijna de helft van de gebruikers heeft alleen de eerste één of twee pagina's van de resultaten bekeken.
  • Minder dan 5% van de gebruikers gebruikt geavanceerde zoekmogelijkheden (bijvoorbeeld de keuze van bepaalde categorieën of zoeken in de zoekopdracht).

Kenmerken van aangepaste acties

De studie vond ook dat 19% van de vrageneen geografische term bevatten (bijvoorbeeld namen, postcodes, geografische objecten, enz.). Het is ook vermeldenswaard dat, naast korte vragen (dat wil zeggen onder verschillende omstandigheden), voorspelbare schema's vaak aanwezig waren, volgens welke gebruikers hun zoektermen veranderden.

logische vraagtaal

Het is ook gebleken dat 33% van de verzoeken vanéén gebruiker wordt herhaald en in 87% van de gevallen zal de gebruiker op hetzelfde resultaat klikken. Dit suggereert dat veel gebruikers herhaalde verzoeken gebruiken om informatie te herzien of opnieuw te vinden.

Frequentie Query Distributies

Bovendien hebben specialisten dat bevestigdfrequentietoewijzing verzoeken corresponderen met een machtswet. Dat wil zeggen dat een klein deel van het zoekwoord voorkomt in de grootste lijst van vragen (bijvoorbeeld meer dan 100 miljoen), en ze worden het meest gebruikt. De rest van de zin onder dezelfde onderwerpen worden minder vaak en meer individueel gebruikt. Dit verschijnsel heet het Pareto-principe (of "80-20" -regel), en het is mogelijk om een ​​dergelijke zoekmachine optimalisatie technieken gebruiken, zoals het indexeren of te partitioneren van de database, caching en voorspanning, en ook een gelegenheid om de taal van de zoekmachine queries te verbeteren.

In de afgelopen jaren is gebleken dat de gemiddelde lengtevragen zijn gestaag gegroeid in de tijd. Dus de gemiddelde zoekopdracht in het Engels werd langer. In dit verband introduceerde Google een update genaamd "Hummingbird" (augustus 2013), die in staat is om lange zoektermen te verwerken met niet-spraak, "gesproken" query-taal (zoals "waar is het dichtstbijzijnde koffiehuis?").

verzoek in het Engels

Voor langere vragen wordt de verwerking ervan gebruikt - ze zijn onderverdeeld in zinnen, geformuleerd in de standaardtaal en de antwoorden op de verschillende delen worden afzonderlijk weergegeven.

Gestructureerde zoekopdrachten

Zoekmachines die logisch ondersteunenbewerkingen en syntaxis, gebruik meer uitgebreide query-talen. Een gebruiker die documenten doorzoekt die verschillende onderwerpen of gezichten behandelen, kan ze allemaal beschrijven aan de hand van de logische karakterisering van het woord. In de kern is de logische querytaal een verzameling specifieke woordgroepen en leestekens.

Wat is geavanceerd zoeken?

De query-taal van "Yandex" en "Google" is in staat omOm gerichter zoeken uit te voeren onder bepaalde voorwaarden. Geavanceerd zoeken kan zoeken naar een deel van de paginanaam of het voorvoegsel van de koptekst, evenals naar bepaalde categorieën en lijsten met namen. Het kan ook het zoeken naar pagina's met specifieke woorden in de titel beperken of zich in bepaalde onderwerpgroepen bevinden. Met het juiste gebruik van de querytaal, kan het parameters een orde van grootte meer complex verwerken dan de oppervlakteresultaten van de meeste zoekmachines, inclusief die gegeven door de gebruiker met woorden met een variabel einde en een vergelijkbare spelling. Wanneer u de resultaten van een geavanceerde zoekopdracht weergeeft, wordt een koppeling naar de relevante secties van de pagina weergegeven.

zoekmachine taal

Het is ook mogelijk om naar alle pagina's te zoeken,een bepaalde zin bevatten, terwijl bij een standaardvraag zoekmachines op geen enkele pagina van de discussie kunnen stoppen. In veel gevallen kan de querytaal leiden naar een pagina in de noindex-tags.

In sommige gevallen kunt u met een goed gevormde query informatie vinden met een aantal speciale tekens en letters van andere alfabetten (bijvoorbeeld Chinese tekens).

Hoe worden de tekens van de querytaal gelezen?

Hoofdletters en kleine letters, evenals enkelediacritische markeringen (umlauts en accenten) worden niet meegenomen in zoekopdrachten. Bijvoorbeeld, de zoektocht naar het sleutelwoord Citroen vindt geen pagina's met het woord "Citroen". Maar sommige ligaturen komen overeen met individuele letters. Een zoekopdracht naar het woord "aeroscope" zal bijvoorbeeld gemakkelijk pagina's vinden die "Ereskebing" bevatten (AE = Æ).

Veel niet-alfanumerieke tekens zijn constantgenegeerd. Bijvoorbeeld, is het onmogelijk om informatie voor query's met de string te vinden | L | (De letter tussen twee verticale strepen), hoewel dit symbool wordt gebruikt in sommige sjablonen te zetten. Het resultaat zal alleen "LT" data. Sommige symbolen en zinnen worden behandeld op verschillende manieren: met de zoekopdracht "lening (Financiën)" geeft het artikel met de woorden "krediet" en "finance", het negeren van beugels, zelfs als er een artikel met de exacte naam "credit (Financiën)".

querytalen voor databases

Er zijn veel functies die kunnen worden gebruikt met de querytaal.

syntaxis

De query-taal van "Yandex" en "Google" kangebruik wat interpunctie om de zoekopdracht te verfijnen. De accolades zijn bijvoorbeeld {{search}}. De frase die erin is opgenomen, wordt volledig doorzocht, zonder wijzigingen.

Met de zin in dubbele aanhalingstekens kunt u definiërenvoorwerp van zoeken. Een geciteerd woord wordt bijvoorbeeld herkend als zijnde figuurlijk of als een fictief personage, zonder aanhalingstekens - als informatie van meer documentaire aard.

Bovendien ondersteunen alle belangrijke zoekmachines het "-" teken voor het logische "niet", evenals en / of. Een uitzondering zijn termen die niet kunnen worden gescheiden met een koppelteken of streepjesprefix.

Onnauwkeurige aanpassing van de zoekterm is gemarkeerd.symbool ~. Als u bijvoorbeeld de exacte bewoording van een term of naam niet meer weet, kunt u deze specificeren in de zoekbalk met het opgegeven symbool en kunt u resultaten krijgen met een maximale gelijkenis.

Aangepaste zoekopties

Er zijn ook zoekopties zoals intitle,en incategorie. Het zijn door dubbele punten gescheiden filters in de vorm van "filter: queryreeks". De queryreeks kan de zoekterm of zin, of een deel of de volledige naam van de pagina bevatten.

Functie "intitle: query "geeft voorrang aan zoekresultaten op naam, maar toont ook de gebruikelijke resultaten op de inhoud van de titel. Verschillende van deze filters kunnen tegelijkertijd worden gebruikt. Hoe deze kans te benutten?

Verzoek van het formulier "intitle: luchthavennaam "toont alle artikelen met de naam van de luchthaven in de titel. Als we het als 'parkeerintitel: de naam van de luchthaven' formuleren, ontvangt u artikelen met de naam van de luchthaven in de titel en met vermelding van parkeren in de tekst.

Zoeken op filter "incategory: Categorie "werkt volgens het principe van de eerste uitgave van artikelen die behoren tot een bepaalde groep of een lijst met pagina's. Een zoekopdracht als 'Temples incategory: History' levert bijvoorbeeld resultaten op met betrekking tot de geschiedenis van tempels. Deze functie kan ook als een uitgebreide functie worden gebruikt door verschillende parameters in te stellen.