Căutați informații despre sistemul Yandex. motor de căutare Yandex ru. Compoziția și principiile motorului de căutare

Nu suntem atât de unici pe cât credem: milioane de oameni dinaintea noastră sunt nedumeriți și milioane după noi vor deruta motorul de căutare cu aproape aceleași întrebări. Pe de altă parte, suntem prea imprevizibili: formularea cererii noastre este influențată de un număr imens de factori inconștienți pentru noi. Și cel puțin din acest motiv, cererea fiecăruia dintre noi, oricât de banală ar fi, necesită o abordare individuală.

De fapt, toată munca motorului de căutare Yandex se rezumă la două lucruri simple: să înțeleagă ceea ce o persoană dorește cu adevărat să știe și, în câteva secunde, să le găsească pe cele potrivite pentru el printre miliardele de documente de pe web.

Luați amprentele digitale

Sistemul motorului de căutare este oarecum similar cu Matrix, iar robotul de căutare (un program complex, independent de luare a deciziilor, creat de acesta) este ca agentul Smith.

Pentru a nu căuta în întregul Internet de fiecare dată când cineva trebuie să știe ceva, motorul de căutare face o parte din muncă în avans - verifică ce este pe Web și unde se află cu ajutorul a mii de roboți de căutare. Sunt de două tipuri: de bază și rapide. Principalul ocolește și procesează Internetul în întregime, iar cel rapid - documente care au apărut acum un minut sau chiar câteva secunde. Sarcina programelor roboți este să selecteze informații adecvate și utile pentru utilizatori, să le proceseze, eliminând tot ce este învechit și inutil. Într-un fel, acest lucru amintește de sortarea gunoiului: hârtie într-un recipient, sticlă într-altul, plastic într-un al treilea, deșeuri alimentare într-un al patrulea ...

Informațiile colectate de roboți formează așa-numita matriță Internet. Este stocat pe mii de servere Yandex și este actualizat în mod constant. Impresia este ca o listă care indică unde ce informații pot fi găsite. În această listă, fiecare cuvânt cheie are nu una, ci milioane de „pagini”. Pentru ca toate actualizările instantanee să fie disponibile pentru utilizatori, acestea sunt transferate din depozit în „căutarea de bază”. Datele de la robotul principal sunt transferate la fiecare câteva zile, iar de la robotul rapid - în timp real.

Aduceți la apă curată

ILUSTRARE: EUGENE TONKONOGI

Caut un răspuns la întrebare pusăîn baza pregătită, mașina se confruntă cu două dificultăți principale. Prima dificultate este limbajul. Înainte de a căuta un răspuns la o întrebare, este important ca mașina să înțeleagă în ce limbă să facă acest lucru. De exemplu, pentru o persoană vorbitoare de limbă rusă, căutarea pentru interogarea „echipă prințului Igor” va găsi documente cu informații despre armată, iar pentru un ucrainean, „echipă prințului Igor” va returna și documente care menționează prințesa Olga, soția sa, deoarece în ucraineană „soția” este „echipă”. Și în limba rusă bogată, același cuvânt sau derivatele sale pot însemna lucruri diferite. De exemplu, cuvântul „oțel” este una dintre formele substantivului „oțel” și verbul „deveni”. A doua dificultate este psihologia umană. Introducând o interogare, ne așteptăm la un răspuns rapid și precis, fără a ne îngrijora, desigur, de conformitatea formulării interogării cu principiile analizei matematice, conform cărora creierul mașinii funcționează. De exemplu, introducând cuvântul „Napoleon” în caseta de căutare, ce vrea o persoană să obțină: o rețetă de tort sau o biografie a împăratului francez, să cumpere coniac sau să găsească adresa unui spital de psihiatrie?

În astfel de situații, mai multe tehnologii intră în joc simultan. Vă puteți oferi câteva indicii sub bara de căutare care specifică interogarea. Ca, alegeți ceea ce aveți nevoie: rețete Napoleon sau Napoleon - Bonaparte. Dacă utilizatorul nu răspunde la cererea mașinii și nu adaugă cuvinte la „Napoleon”, atunci tehnologia Spectrum ajută: fără să spere în ajutor, mașina caută imediat informații în mai multe categorii (atât despre tort, cât și despre despre împărat și despre calul iac...). În plus, mecanismele de personalizare ajută la înțelegerea utilizatorului - cunoașterea mașinii despre ceea ce acest utilizator a căutat de pe computerul său cu o zi sau două sau trei luni în urmă: dacă ați adresat adesea întrebări Yandex despre gătit, atunci mașina va afișa mai întâi rezultate care spun că Napoleon este o prăjitură.

Combinații: cluburi de interese

Sarcina motorului de căutare nu se limitează la simpla selectare a documentelor care conțin cuvinte și expresii din interogarea de căutare. Aparatul trebuie să înțeleagă ce documente îndeplinesc cerințele noastre conflictuale și de ce le îndeplinesc. Vrem să obținem informații despre Napoleon - o prăjitură, sau poate că am vizitat un club de fitness cu un nume jalnic de câțiva ani, sau chiar suntem complet preocupați de complexe de oameni de statură mică. În orice caz, rezolvarea problemei necesită o abordare non-trivială.

Creatorii programului de căutare Yandex au găsit o astfel de abordare delegând dreptul de a alege unei mașini. Pe de o parte, o mașină fără suflet, dar foarte rapidă și inteligentă nu știe și nu vrea să știe nimic despre noi ca indivizi, iar pe de altă parte, încearcă să afle cât mai multe despre toată lumea.

În afară de locație geografică utilizator și analiză lingvistică a interogărilor sale, motorul de căutare folosește câteva mii de criterii care nu sunt deloc evidente pentru o persoană.

Trucul este că mașina dezvoltă și actualizează singur aceste criterii.

Pur și simplu folosește date despre preferințele și comportamentul utilizatorilor a milioane de oameni și asociază această „medie aritmetică” cu istoricul solicitărilor noastre. Principiile care ghidează Matricea în sine, comparând miile de categorii de interese ale utilizatorilor pe care le-a dezvoltat, adesea nu se încadrează în ideile umane tradiționale despre ceea ce pot fi „interesele” în principiu. Sunt zeci de mii. Ele creează combinații diferite, uneori amuzante, între ele. De exemplu, o astfel de combinație ar putea fi potrivirea rezultatelor căutării cu interesele unei persoane care cresc tritoni. În același timp, o persoană nu este interesată doar de tritoni, ci îi crește deja, ci doar în primul an.

Estimări. mâini de ajutor

Matricea, desigur, decide (cu ajutorul matematicii superioare) ce și în ce secvență să arate utilizatorilor pe baza a zeci de mii de criterii. Dar Matrix folosește și oameni vii - 1000 de angajați Yandex, așa-numiții evaluatori, evaluează rezultatele căutării pentru o anumită interogare (desigur, nu fiecare interogare este evaluată, iar acest lucru nu se face în timp real) pentru conformitatea lor cu așteptările. a unui utilizator obișnuit: nu la fel de rațional ca o mașină, nu la fel de precis în termeni, contradictori și emoționali.

Bună ziua, dragi cititori ai blogului meu SEO . Acest articol este despre cum funcționează motorul de căutare Yandex ce tehnologii și algoritmi folosește pentru a clasifica site-urile, ce face pentru a pregăti un răspuns pentru utilizatori. Mulți oameni știu că acest flagship al căutării rusești dă tonul în Runet, deține cea mai mare bază de date din Eurasia, operează cu conținut de peste un miliard de pagini, cunoaște răspunsul la orice întrebare. Conform datelor Liveinternet pentru august 2012, cota Yandex în Rusia este de 60,5%. Audiența lunară a portalului este de 48,9 milioane de oameni. Dar cel mai important lucru pentru noi, bloggerii, este modul în care motorul de căutare primește cererile noastre, cum le procesează și care este rezultatul. Pe de o parte, cunoscând și înțelegând aceste informații, ne este mai ușor să folosim toate resursele Yandex, pe de altă parte, este mai ușor să ne promovăm blogurile. De aceea, iti propun sa te uiti cu mine la cele mai importante tehnologii ale celui mai bun motor de cautare de pe Runet.

Când un utilizator de internet dorește pentru prima dată să apeleze la un motor de căutare pentru informații, el poate avea o întrebare: „Cum funcționează căutarea?” Dar când o primește, adesea această întrebare se schimbă cu alta: „De ce atât de repede?” Și într-adevăr, de ce durează 20 de secunde pentru a căuta un fișier pe un computer, dar rezultatul unei interogări de la o întreagă rețea de computere din întreaga lume apare într-o secundă? Cel mai interesant lucru este că primele două întrebări (cum funcționează căutarea și de ce 1 secundă) pot fi într-un singur răspuns - motorul de căutare s-a pregătit din timp pentru solicitarea utilizatorului.

Pentru a înțelege principiul Yandex, precum și alte motoare de căutare, să facem o analogie cu un director telefonic. Pentru a găsi orice număr de telefon, trebuie să cunoașteți numele abonatului și orice căutare în acest caz durează maximum un minut, deoarece toate paginile directorului sunt un index alfabetic continuu. Dar imaginați-vă dacă căutarea a mers după o altă opțiune, în care numerele de telefon ar fi ordonate după numerele în sine. După astfel de căutări, care se vor prelungi deja pentru mai mult timp, figurile vor rămâne foarte mult timp în fața ochilor căutătorului. 🙂

Deci, motorul de căutare prezintă toate informațiile de pe Internet într-o formă convenabilă pentru el. Și cel mai important, toate aceste date sunt plasate în avans în directorul ei, înainte ca vizitatorul să sosească cu cererile lor. Adică, atunci când punem o întrebare Yandex, acesta știe deja răspunsul nostru. Și ni-l oferă într-o secundă. Dar această secundă include o serie de procese importante, pe care acum le vom analiza în detaliu.

Indexarea Internetului

Yandex ru colectează pe internet toate informațiile la care poate ajunge. Cu ajutorul unor echipamente speciale, este vizualizat tot conținutul, inclusiv imaginile conform parametrilor vizuali. Motorul de căutare este angajat într-o astfel de colectare, iar procesul de colectare și pregătire a datelor se numește indexare. Baza unei astfel de mașini este un sistem informatic, care altfel se numește robot de căutare. Acesta accesează cu crawlere în mod regulat site-urile indexate, le verifică pentru conținut nou și, de asemenea, scanează Internetul pentru pagini șterse. Dacă detectează că o astfel de pagină nu mai există sau este închisă de la indexare, atunci o elimină din căutare.

Cum găsește un robot de căutare site-uri noi? În primul rând, datorită link-urilor de pe alte site-uri. Pentru că dacă un link este plasat pe o nouă resursă web de pe un site deja indexat, atunci data viitoare când îl vei vizita pe al doilea, robotul îl va vizita și pe primul. În al doilea rând, există un serviciu minunat, numit popular „addurilka” (din expresia în limba engleză-addurl - adăugați o adresă). În ea, poți introduce adresa noului tău site, care după un timp va fi vizitată de robotul de căutare. În al treilea rând, cu ajutorul unui program special Yandex.Bar, vizitele utilizatorilor care îl folosesc sunt urmărite. În consecință, dacă o persoană a aterizat pe o nouă resursă web, un robot va apărea în curând acolo.

Toate paginile apar în căutare? Milioane de pagini sunt indexate în fiecare zi. Printre acestea există pagini de calitate diferită, care pot conține informații diferite - de la conținut unic până la gunoi complet. Mai mult, conform statisticilor, pe internet există mult mai mult gunoi. Robotul de căutare analizează fiecare document folosind algoritmi speciali. Stabilește dacă are informații utile, dacă poate răspunde solicitării utilizatorului. Dacă nu, atunci astfel de pagini nu sunt luate „astronauți”, dar dacă da, atunci este inclus în căutare.

După ce robotul a vizitat pagina și a determinat utilitatea acesteia, aceasta apare în stocarea motorului de căutare. Iată analiza oricărui document până la elementele de bază, așa cum spun maeștrii centrului auto - până la roți. Pagina este ștearsă de markup html, textul curat trece printr-un inventar complet - se calculează locația fiecărui cuvânt. În această formă dezasamblată, pagina se transformă într-un tabel cu cifre și litere, care altfel se numește index. Acum, orice s-ar întâmpla cu resursa web care conține această pagină, cea mai recentă copie a acesteia este întotdeauna în căutare. Chiar dacă site-ul nu mai există, copii ale documentelor sale sunt încă stocate pe Internet de ceva timp.

Fiecare index, împreună cu datele despre tipurile de documente, codificare, limbă, împreună cu copiile, constituie baza de cautare . Este actualizat periodic, prin urmare se află pe servere speciale, cu ajutorul cărora sunt procesate solicitările utilizatorilor motoarelor de căutare.

Cât de des are loc procesul de indexare? În primul rând, depinde de tipurile de site-uri. O resursă web de primul tip modifică foarte des conținutul paginilor sale. Adică, atunci când un robot de căutare ajunge la aceste pagini de fiecare dată, acestea conțin de fiecare dată conținut diferit. Nu veți putea găsi nimic pe ele data viitoare, așa că astfel de site-uri nu sunt incluse în index. Al doilea tip de site-uri sunt depozitele de date, pe paginile cărora se adaugă periodic link-uri către documente pentru descărcare. Conținutul unui astfel de site de obicei nu se schimbă, așa că robotul îl vizitează rar. Alte site-uri depind de cât de des este actualizat materialul. Aceasta înseamnă următoarele - cu cât apare mai rapid conținut nou pe site, cu atât mai des apare robotul de căutare. Și se acordă prioritate în primul rând celor mai importante resurse web (un site de știri este cu un ordin de mărime mai important decât orice blog, de exemplu).

Indexarea vă permite să îndepliniți prima funcție a unui motor de căutare - colectarea de informații pe pagini noi de pe Internet. Dar Yandex are și o a doua funcție - căutarea unui răspuns la solicitarea unui utilizator într-o bază de date de căutare deja pregătită.

Yandex pregătește un răspuns

Procesul de procesare a cererii și emiterea de răspunsuri relevante este gestionat de sistemul informatic "Metapoisk" . Pentru activitatea sa, mai întâi colectează toate informațiile introductive: din ce regiune a fost făcută cererea, din ce clasă aparține, dacă există erori în cerere etc. După o astfel de procesare, metasearch verifică dacă există exact aceleași interogări cu aceiași parametri în baza de date. Dacă răspunsul este da, atunci sistemul arată utilizatorului rezultatele salvate anterior. Dacă o astfel de întrebare nu există în baza de date, metacăutarea se referă la baza de date de căutare care conține datele indexului.

Și aici se întâmplă lucruri uimitoare. Imaginați-vă că există un computer super-puternic care stochează întregul Internet procesat de roboții de căutare. Utilizatorul setează o solicitare și căutarea tuturor documentelor implicate în cerere începe în celulele de memorie. Răspunsul este găsit și toată lumea este fericită. Dar să luăm un alt caz, când există o mulțime de cereri care conțin aceleași cuvinte în corpul lor. Sistemul trebuie să treacă prin aceleași celule de memorie de fiecare dată, ceea ce poate crește timpul de procesare a datelor uneori. În consecință, timpul crește, ceea ce poate duce la pierderea utilizatorului - acesta va apela la un alt motor de căutare pentru ajutor.

Pentru a evita astfel de întârzieri, toate copiile din indexul site-ului sunt distribuite pe diferite computere. După trimiterea cererii, metasearch instruiește astfel de servere să caute piesa lor cu text. După aceea, toate datele de la aceste mașini sunt returnate la computerul central, combină toate rezultatele și oferă utilizatorului primele zece cele mai bune răspunsuri. Cu această tehnologie, două păsări dintr-o singură lovitură sunt ucise imediat: timpul de căutare este redus de mai multe ori (răspunsul se obține într-o fracțiune de secundă) și, datorită creșterii site-urilor, informațiile sunt dublate (datele nu se pierd din cauza defecțiunilor bruște). ). Calculatoarele în sine cu informații duplicate formează centrul de date - aceasta este o cameră cu servere.

Când un utilizator de motor de căutare își trimite interogarea, de 20 de ori din 100 de ori există ținte ambigue în întrebare. De exemplu, dacă scrie cuvântul „Napoleon” în bara de căutare, atunci nu se știe încă ce răspuns așteaptă - o rețetă de tort sau o biografie a marelui comandant. Sau expresia „Frații Grimm” - basme, filme, un grup muzical. Pentru a restrânge un astfel de posibil fan al obiectivelor la răspunsuri specifice, Yandex are o tehnologie specială Gamă. Ia în considerare nevoile utilizatorilor care utilizează statisticile privind interogările de căutare. Dintre toate întrebările adresate în Yandex de către vizitatori, Spectrum evidențiază diverse obiecte din ele (nume de persoane, titluri de cărți, modele de mașini etc.) Aceste obiecte sunt împărțite în anumite categorii. Până în prezent, există peste 60 de astfel de categorii. Cu ajutorul acestora, motorul de căutare are în baza sa de date diferite semnificații ale cuvintelor în interogările utilizatorilor. Interesant este că aceste categorii sunt verificate periodic (analiza are loc de câteva ori pe săptămână), ceea ce permite Yandex să răspundă mai precis la întrebările puse.

Pe baza tehnologiei Spectrum, Yandex a organizat solicitări de dialog. Acestea apar sub bara de căutare în care utilizatorul își scrie interogarea ambiguă. Această linie reflectă categoriile cărora le poate aparține obiectul întrebare. Rezultatele viitoare ale căutării depind de alegerea utilizatorului pentru o astfel de categorie.

De la 15 la 30% din toți utilizatorii motorului de căutare Yandex doresc să primească doar informații locale (date din regiunea în care locuiesc). De exemplu, despre filme noi în cinematografele din orașul tău. Prin urmare, răspunsul la o astfel de solicitare ar trebui să fie diferit pentru fiecare regiune. În acest sens, Yandex își folosește tehnologia căutare bazată pe regiuni . De exemplu, iată răspunsurile pe care le pot obține rezidenții care caută un repertoriu de filme în cinematograful lor Oktyabr:

Și acesta este rezultatul pe care locuitorii orașului Stavropol îl vor primi pentru aceeași cerere:

Regiunea utilizatorului este determinată în primul rând de adresa sa ip. Uneori, aceste date nu sunt exacte, deoarece un număr de furnizori pot lucra pentru mai multe regiuni simultan și, prin urmare, pot schimba adresele IP ale utilizatorilor lor. În principiu, dacă vi s-a întâmplat acest lucru, vă puteți schimba cu ușurință regiunea în setările din motorul de căutare. Este listat în colțul din dreapta sus pe pagina de rezultate. Îl poți schimba.

Motor de căutare Yandex ru - rezultate de răspuns

Când Metapoisk a pregătit un răspuns, motorul de căutare Yandex ar trebui să îl afișeze pe pagina de rezultate. Este o listă de link-uri către documente găsite cu câteva informații despre fiecare. Sarcina tehnologiei de livrare a rezultatelor este de a oferi utilizatorului cele mai relevante răspunsuri cât mai informative posibil. Șablonul pentru un astfel de link arată astfel:

Să luăm în considerare această formă a rezultatului mai detaliat. Pentru antetul rezultatului căutării Yandex folosește adesea numele titlului paginii (ceea ce optimizatorii scriu în eticheta de titlu). Dacă nu este acolo, atunci cuvintele din titlul articolului sau postării apar aici. Dacă textul titlului este mare, motorul de căutare pune în acest câmp fragmentul său, care este cel mai relevant pentru interogarea dată.

Foarte rar, dar se întâmplă ca titlul să nu se potrivească cu conținutul cererii. În acest caz, Yandex generează propriul titlu de rezultat al căutării folosind textul din articol sau postare. Cu siguranță va avea cuvinte de interogare.

Pentru fragment motorul de căutare folosește tot textul din pagină. Selectează toate fragmentele în care este prezent răspunsul la interogare, apoi le selectează pe cele mai relevante dintre ele și inserează link-uri către document în câmpul formularului. Datorită acestei abordări, un optimizator competent poate reface fragmentul după ce l-a văzut, îmbunătățind astfel atractivitatea conexiunii.

Pentru o mai bună percepție a rezultatului la cererea utilizatorului, titlurile sunt formatate ca link-uri în text (evidențiate cu albastru cu subliniere). Pentru atractivitatea resursei web și recunoașterea acesteia, se adaugă un favicon - o mică pictogramă corporativă a site-ului. Apare în stânga textului pe primul rând înainte de titlu. Toate cuvintele care au fost incluse în cerere în răspuns sunt, de asemenea, cu caractere aldine pentru a facilita percepția.

Recent, motorul de căutare Yandex a adăugat diverse informații la fragment, care vor ajuta utilizatorul să-și găsească răspunsul și mai rapid și mai precis. De exemplu, dacă un utilizator scrie numele unei organizații în cererea sa, atunci Yandex va adăuga adresa, numerele de contact și un link către locația din hărțile geografice în fragment. Dacă motorul de căutare este familiarizat cu structura site-ului, care are un document cu un răspuns pentru utilizator, cu siguranță îl va afișa. În plus, Yandex poate adăuga imediat cele mai vizitate pagini ale unei astfel de resurse web la fragment, astfel încât, dacă dorește, vizitatorul să poată merge imediat la secțiunea de care are nevoie, economisindu-și timpul.

Există fragmente care conțin prețul unui produs pentru un magazin online, ratingul unui hotel sau restaurant sub formă de stele și alte informații interesante cu diverse numere despre obiectele din documentele de căutare. Sarcina unor astfel de informații este de a oferi o listă completă de date despre acele subiecte sau obiecte care sunt de interes pentru utilizator.

În general, deja cu diverse exemple, pagina de răspuns va arăta astfel:

Clasament și evaluatori

Sarcina lui Yandex nu este doar să caute toate răspunsurile posibile, ci și să le selecteze pe cele mai bune (relevante). La urma urmei, utilizatorul nu va scotoci prin toate linkurile pe care Yandex i le va furniza ca rezultat al căutării. Procesul de ordonare a rezultatelor căutării este numit clasament . Adică clasamentul este cel care determină calitatea răspunsurilor propuse.

Există reguli prin care Yandex determină paginile relevante:

o scădere a pozițiilor pe pagina de rezultate așteaptă site-uri care degradează calitatea căutării. De obicei, acestea sunt resurse web ai căror proprietari încearcă să înșele motorul de căutare. De exemplu, acestea sunt site-uri cu pagini care conțin text fără sens sau invizibil. Desigur, este vizibil și de înțeles pentru robotul de căutare, dar nu pentru vizitatorul care citește acest document. Sau site-uri care, atunci când dau clic pe un link din zona rezultatelor căutării, transferă imediat utilizatorul pe un site complet diferit.
site-urile care conțin conținut erotic nu intră în rezultate sau sunt mult reduse în clasament. Acest lucru se datorează faptului că astfel de resurse web folosesc adesea metode de promovare agresive.
site-urile infectate cu viruși nu sunt reduse în rezultatele căutării și nu sunt excluse din rezultatele căutării - în acest caz, utilizatorul este informat despre pericol folosind o pictogramă specială. Acest lucru se datorează faptului că Yandex presupune că astfel de resurse web pot conține documente importante la cererea unui vizitator al motorului de căutare.

De exemplu, acesta este modul în care Yandex va clasifica site-urile pentru interogarea „măr”:

Pe lângă factorii de clasare, Yandex folosește mostre speciale cu solicitări și răspunsuri pe care utilizatorii motoarelor de căutare le consideră cele mai potrivite. Nicio mașină nu poate face astfel de mostre în acest moment - aceasta este prerogativa omului. În Yandex, sunt chemați astfel de specialiști evaluatori. Sarcina lor este să analizeze complet toate documentele de căutare și să evalueze răspunsurile la întrebările date. Ei aleg cele mai bune răspunsuri și fac un eșantion special de antrenament. În acesta, motorul de căutare vede relația dintre paginile relevante și proprietățile acestora. Cu aceste informații, Yandex poate alege formula optimă de clasare pentru fiecare solicitare. Metoda de construire a unei astfel de formule se numește Matrixnet. Avantajul acestui sistem este că este rezistent la supraajustare, ceea ce vă permite să luați în considerare un număr mare de factori de clasare fără a crește numărul de estimări și modele inutile.

La sfârșitul postării mele, vreau să vă arăt statistici interesante colectate de motorul de căutare Yandex în timpul muncii mele.

1. Popularitatea numelor personale în Rusia și orașele rusești (date preluate de la blogger și conturile de utilizator retele socialeîn martie 2012).

mare văzător

În 1863, marele scriitor Jules Verne a creat următoarea sa carte, Paris in the 20th Century. În el, el a descris în detaliu metroul, mașina, scaunul electric, computerul și chiar internetul. Cu toate acestea, editorul a refuzat să tipărească cartea și a rămas mai mult de 120 de ani până când strănepotul lui Jules Verne a găsit-o în 1989. Cartea a fost publicată în 1994.

Ele au devenit de multă vreme o parte integrantă a internetului rusesc. Motoarele de căutare sunt acum mecanisme uriașe și complexe care nu sunt doar un instrument de găsire a informațiilor, ci și zone tentante pentru afaceri.

Majoritatea utilizatorilor motoarelor de căutare nu s-au gândit niciodată (sau s-au gândit, dar nu au găsit un răspuns) despre principiul de funcționare a motoarelor de căutare, despre schema de procesare a cererilor utilizatorilor, despre ce constau aceste sisteme și cum funcționează ...

Această clasă de master este concepută pentru a răspunde la întrebarea cum funcționează motoarele de căutare. Totuși, nu veți găsi aici factorii care influențează clasarea documentelor. Și cu atât mai mult, nu ar trebui să contați pe o explicație detaliată a algoritmului Yandex. El, potrivit lui Ilya Segalovici, - directorul tehnologiei și dezvoltării motorului de căutare Yandex, poate fi recunoscut „sub tortură” doar de Ilya Segalovici însuși ...

2. Conceptul și funcțiile motorului de căutare

Un motor de căutare este un complex software și hardware conceput să caute pe Internet și să răspundă la cererea unui utilizator, specificată sub forma unei fraze text (interogare de căutare), prin emiterea unei liste de link-uri către surse de informații, în ordinea relevanței (în conform cererii). Cele mai mari motoare de căutare internaționale: Google, Yahoo , MSN . În internetul rusesc, acesta este Yandex, Rambler, Aport.

Să luăm în considerare mai detaliat conceptul unei interogări de căutare folosind motorul de căutare Yandex ca exemplu. Interogarea de căutare ar trebui să fie formulată de utilizator în conformitate cu ceea ce dorește să găsească, cât mai scurt și simplu posibil. Să presupunem că vrem să găsim informații în Yandex despre cum să alegem o mașină. Pentru a face acest lucru, deschideți pagina principală a „Yandex” și introduceți textul interogării de căutare „cum să alegeți o mașină”. Mai mult, sarcina noastră este să deschidem legăturile furnizate în cererea noastră către surse de informații de pe Internet. Cu toate acestea, este foarte posibil să nu găsim informațiile de care avem nevoie. Dacă s-a întâmplat acest lucru, atunci fie trebuie să reformulați cererea, fie baza de date a motorului de căutare chiar nu are informații relevante despre solicitarea noastră (acest lucru se poate întâmpla atunci când setați interogări foarte „înguste”, cum ar fi „cum să alegeți o mașină în Arkhangelsk ”)

Scopul principal al oricărui motor de căutare este să furnizeze exact informațiile pe care le caută. Și să învețe utilizatorii să facă cereri „corecte” către sistem, de exemplu. cererile care corespund principiilor de funcționare a motoarelor de căutare nu sunt posibile. Prin urmare, dezvoltatorii creează astfel de algoritmi și principii ale motoarelor de căutare care ar permite utilizatorilor să găsească informațiile pe care le caută.

Aceasta înseamnă că motorul de căutare trebuie să „gândească” la fel cum gândește utilizatorul atunci când caută informații. Atunci când un utilizator face o solicitare către un motor de căutare, el dorește să găsească ceea ce are nevoie cât mai rapid și simplu posibil. Primind rezultatul, el evaluează performanța sistemului, ghidat de mai mulți parametri de bază. A găsit ceea ce căuta? Dacă nu a fost găsit, de câte ori a trebuit să reformuleze interogarea pentru a găsi ceea ce căuta? Cât costă informații la zi ar putea găsi? Cât de repede a procesat motorul de căutare interogarea? Cât de convenabil au fost prezentate rezultatele căutării? Rezultatul dorit a fost primul sau al sutelea? Câte deșeuri au fost găsite împreună cu informații utile? Informațiile necesare vor fi găsite la accesarea motorului de căutare, să zicem, într-o săptămână, sau într-o lună?

Pentru a satisface toate aceste întrebări cu răspunsuri, dezvoltatorii de motoare de căutare îmbunătățesc constant algoritmii și principiile de căutare, adaugă noi funcții și capacități și încearcă în toate modurile posibile să accelereze sistemul.

3. Principalele caracteristici ale motorului de căutare

Să descriem principalele caracteristici ale motoarelor de căutare:

completitudine
Completitudinea este una dintre principalele caracteristici ale unui motor de căutare, care este raportul dintre numărul de documente găsite prin cerere și numărul total de documente de pe Internet care satisfac această solicitare. De exemplu, dacă există 100 de pagini pe Internet care conțin expresia „cum să alegi o mașină” și doar 60 dintre ele au fost găsite pentru interogarea corespunzătoare, atunci rechemarea căutării va fi 0,6. Evident, cu cât căutarea este mai completă, cu atât este mai puțin probabil ca utilizatorul să nu găsească documentul de care are nevoie, cu condiția ca acesta să existe deloc pe Internet.
Precizie
Precizia este o altă caracteristică principală a unui motor de căutare, care este determinată de gradul în care documentele găsite se potrivesc cu interogarea utilizatorului. De exemplu, dacă interogarea „cum să alegi o mașină” conține 100 de documente, 50 dintre ele conțin expresia „cum să alegi o mașină”, iar restul pur și simplu conțin aceste cuvinte („cum să alegi radioul potrivit și să-l instalezi în o mașină”), atunci precizia căutării este considerată egală cu 50/100 (=0,5). Cu cât căutarea este mai precisă, cu atât utilizatorul va găsi mai repede documentele de care are nevoie, cu atât vor apărea mai puține tipuri de „gunoaie” între ele, cu atât mai rar documentele găsite nu se vor potrivi cu cererea.
Relevanţă
Relevanța este o componentă la fel de importantă a căutării, care se caracterizează prin timpul care trece din momentul în care documentele sunt publicate pe Internet și până când sunt introduse în baza de date index a motorului de căutare. De exemplu, a doua zi după apariția știrilor interesante, un număr mare de utilizatori au apelat la motoarele de căutare cu interogări relevante. Obiectiv, a trecut mai puțin de o zi de la publicarea informațiilor de știri pe această temă, însă, principalele documente au fost deja indexate și căutate, datorită existenței așa-numitei „baze rapide” a marilor motoare de căutare, care este actualizat de mai multe ori pe zi.
Viteza de căutare
Viteza de căutare este strâns legată de toleranța sa de încărcare. De exemplu, conform OOO Rambler Internet Holding, astăzi aproximativ 60 de solicitări pe secundă ajung la motorul de căutare Rambler în timpul orelor de lucru. Un astfel de volum de muncă necesită o reducere a timpului de procesare a unei singure solicitări. Aici, interesele utilizatorului și ale motorului de căutare coincid: vizitatorul dorește să obțină rezultate cât mai repede, iar motorul de căutare trebuie să proceseze cât mai repede cererea pentru a nu încetini calculul următoarelor solicitări.
vizibilitate

4. O scurtă istorie a dezvoltării motoarelor de căutare

În perioada inițială a dezvoltării Internetului, numărul utilizatorilor acestuia a fost mic, iar cantitatea de informații disponibile este relativ mică. În cea mai mare parte, doar cercetătorii au avut acces la internet. La acea vreme, sarcina de a căuta informații pe internet nu era la fel de relevantă ca acum.

Una dintre primele modalități de organizare a accesului la resursele informaționale ale rețelei a fost crearea de cataloage deschise de site-uri, link-uri către resurse în care au fost grupate în funcție de subiect. Primul astfel de proiect a fost Yahoo.com, care a fost deschis în primăvara anului 1994. După ce numărul de site-uri din catalog a crescut semnificativ, a fost adăugată posibilitatea de a căuta informațiile necesare în catalog. În sensul deplin, nu era încă un motor de căutare, deoarece sfera de căutare era limitată doar la resursele prezente în director, și nu la toate resursele de pe Internet.

Directoarele de link-uri au fost utilizate pe scară largă în trecut, dar și-au pierdut aproape complet popularitatea în prezent. Deoarece chiar și cataloagele moderne, uriașe, conțin informații doar despre o parte neglijabilă a Internetului. Cel mai mare director de rețea DMOZ (numit și Proiectul Open Directory) conține informații despre 5 milioane de resurse, în timp ce baza de date a motorului de căutare Google este formată din peste 8 miliarde de documente.

În 1995 au apărut motoarele de căutare Lycos și AltaVista. Acesta din urmă este lider în domeniul căutării de informații pe Internet de mulți ani.

În 1997, Sergey Brin și Larry Page au creat motorul de căutare Google ca parte a unui proiect de cercetare la Universitatea Stanford. Google este în prezent cel mai popular motor de căutare din lume!

În septembrie 1997, motorul de căutare Yandex, care este cel mai popular de pe internetul vorbitor de limbă rusă, a fost anunțat oficial.

În prezent, există trei motoare de căutare principale (internaționale) - Google, Yahoo și care au propriile baze și algoritmi de căutare. Majoritatea celorlalte motoare de căutare (dintre care există un număr mare) folosesc rezultatele celor trei enumerate într-o formă sau alta. De exemplu, căutarea AOL (search.aol.com) folosește Google, în timp ce AltaVista, Lycos și AllTheWeb folosesc Yahoo.

5. Compoziția și principiile motorului de căutare

În Rusia, principalul motor de căutare este Yandex, mai departe - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Mai mult, în acest moment, Mail.ru utilizează motorul de căutare și baza de date Yandex.

Aproape toate motoarele de căutare majore au propria lor structură, diferită de celelalte. Cu toate acestea, este posibil să se evidențieze principalele componente comune tuturor motoarelor de căutare. Diferențele de structură pot fi doar sub forma implementării mecanismelor de interacțiune a acestor componente.

Modul de indexare

Modulul de indexare este format din trei programe auxiliare (roboți):

Spider (păianjen) - un program conceput pentru a descărca pagini web. „Păianjenul” descarcă pagina și extrage toate linkurile interne din această pagină. Codul html al fiecărei pagini este descărcat. Roboții folosesc protocoale HTTP pentru a descărca pagini. „Pianjenul” funcționează după cum urmează. Robotul trimite cererea „get/path/document” și alte comenzi de solicitare HTTP către server. Ca răspuns, robotul primește un flux de text care conține informații de serviciu și documentul în sine.

Adresa URL a paginii
data la care pagina a fost descărcată
antet http de răspuns al serverului
corpul paginii (cod html)

Crawler ("călător") spider - un program care urmărește automat toate linkurile găsite pe pagină. Selectează toate linkurile prezente pe pagină. Sarcina sa este de a determina unde ar trebui să meargă păianjenul, pe baza legăturilor sau pe baza unei liste predefinite de adrese. Crawler, urmând linkurile găsite, caută documente noi care sunt încă necunoscute motorului de căutare.

Indexer (robot-indexer) - un program care analizează paginile web descărcate de păianjeni. Indexatorul parsează pagina în părțile sale componente și le analizează folosind proprii algoritmi lexicali și morfologici. Sunt analizate diverse elemente ale paginii, precum text, titluri, link-uri, caracteristici structurale și de stil, etichete html pentru servicii speciale etc.

Astfel, modulul de indexare face posibilă parcurgerea unui anumit set de resurse prin referință, descărcarea paginilor întâlnite, extragerea legăturilor către pagini noi din documentele primite și efectuarea unei analize complete a acestor documente.

Bază de date

O bază de date sau index al motorului de căutare este un sistem de stocare a datelor, o matrice de informații care stochează parametrii special convertiți ai tuturor documentelor descărcate și procesate de modulul de indexare.

server de căutare

Serverul de căutare este cel mai important element al întregului sistem, deoarece calitatea și viteza căutării depind direct de algoritmii care stau la baza funcționării acestuia.

Serverul de căutare funcționează astfel:

Solicitarea primită de la utilizator este supusă analizei morfologice. Se generează un mediu informațional pentru fiecare document conținut în baza de date (care va fi ulterior afișat în formularul , adică corespunzător solicitării de informații text în pagina de emitere a rezultatelor căutării).
Datele primite sunt transmise ca parametri de intrare la un modul special de clasare. Datele sunt prelucrate pentru toate documentele, în urma cărora, pentru fiecare document, se calculează propriul rating, care caracterizează relevanța interogării introduse de utilizator și diferitele componente ale acestui document stocate în indexul motorului de căutare.
În funcție de alegerea utilizatorului, acest rating poate fi ajustat prin condiții suplimentare (de exemplu, așa-numita „căutare avansată”).
În continuare, se generează un fragment, adică pentru fiecare document găsit, din tabelul de documente sunt extrase un titlu, o scurtă adnotare care se potrivește cel mai bine cu interogarea și un link către documentul în sine, iar cuvintele găsite sunt evidențiate.
Rezultatele căutării rezultate sunt transmise utilizatorului sub forma unui SERP ( motor de căutare Pagina de rezultate) - pagini pentru emiterea rezultatelor căutării.

După cum puteți vedea, toate aceste componente sunt strâns legate între ele și funcționează în interacțiune, formând un mecanism clar, destul de complex pentru motorul de căutare, care necesită o cantitate imensă de resurse.

6. Concluzie

Acum să rezumam toate cele de mai sus.

Scopul principal al oricărui motor de căutare este să furnizeze exact informațiile pe care le caută.
Principalele caracteristici ale motoarelor de căutare:
1. completitudine
2. Precizie
3. Relevanţă
4. Viteza de căutare
5. vizibilitate
Primul motor de căutare cu drepturi depline a fost proiectul WebCrawler, care a fost lansat în 1994.
Motorul de căutare include următoarele componente:
1. Modul de indexare
2. Bază de date
3. server de căutare

Sperăm că clasa noastră de master vă va permite să vă familiarizați mai bine cu conceptul de PS, să înțelegeți mai bine principalele funcții, caracteristici și principii de funcționare a motoarelor de căutare.

1. Termeni și definiții În acest acord privind prelucrarea datelor cu caracter personal (denumit în continuare Acord), următorii termeni au următoarele definiții: Operator - IP Dneprovskiy Oleg Alexandrovich. Acceptarea Acordului - acceptarea deplină și necondiționată a tuturor termenilor Acordului prin trimiterea și prelucrarea datelor cu caracter personal. Date personale – informații introduse de Utilizator (subiect al datelor personale) pe site și legate direct sau indirect de acest Utilizator. Utilizator - orice persoană fizică sau juridică care a finalizat cu succes procedura de completare a câmpurilor de introducere de pe site. Completarea câmpurilor de introducere - procedura de trimitere a numelui, prenumelui, numărului de telefon, adresei personale de e-mail (denumite în continuare Date Personale) al Utilizatorului către baza de date a utilizatorilor înregistrați ai site-ului, efectuată în vederea identificării Utilizatorului . Ca urmare a completării câmpurilor de introducere, datele personale sunt trimise în baza de date a Operatorului. Completarea câmpurilor de introducere este voluntară. site - un site găzduit pe Internet și format dintr-o pagină. 2. Prevederi generale 2.1. Acest acord a fost întocmit pe baza cerințelor Legii federale nr. 152-FZ din 27 iulie 2006 „Cu privire la datele cu caracter personal” și a prevederilor articolului 13.11 privind „Încălcarea legii”. Federația Rusă în domeniul datelor cu caracter personal” din Codul de infracțiuni administrative al Federației Ruse și se aplică tuturor datelor personale pe care Operatorul le poate primi despre Utilizator în timpul utilizării Site-ului. 2.2. Completarea câmpurilor de introducere de către Utilizator pe Site înseamnă consimțământul necondiționat al Utilizatorului cu privire la toți termenii acestui Acord (Acceptarea Acordului). În caz de dezacord cu aceste condiții, Utilizatorul nu completează câmpurile de introducere de pe Site. 2.3. Consimțământul Utilizatorului pentru furnizarea de date cu caracter personal către Operator și prelucrarea acestora de către Operator este valabil până la încetarea activităților Operatorului sau până la retragerea consimțământului de către Utilizator. Prin acceptarea acestui Acord, și după ce a trecut procedura de Înregistrare, precum și prin efectuarea accesului ulterior pe Site, Utilizatorul confirmă că acesta, acționând din proprie voință și în interes propriu, transferă datele sale personale pentru prelucrare către Operator și este de acord cu prelucrarea acestora. Utilizatorul este informat că prelucrarea datelor sale personale va fi efectuată de către Operator în baza Legii Federale din 27 iulie 2006 Nr. 152-FZ „Cu privire la Datele cu Caracter Personal”. 3. Lista datelor personale și alte informații despre utilizator care urmează să fie transferate Operatorului 3.1. Atunci când utilizează Site-ul web al Operatorului, Utilizatorul furnizează următoarele date personale: 3.1.1. Informații personale de încredere pe care Utilizatorul le furnizează despre sine la completarea câmpurilor de introducere și/sau în procesul de utilizare a serviciilor Site-ului, inclusiv nume, prenume, patronimic, număr de telefon (de acasă sau mobil), e-mail personal abordare. 3.1.2. Date care sunt transmise automat către serviciile Site-ului în procesul de utilizare a acestora folosind software-ul instalat pe dispozitivul Utilizatorului, inclusiv adresa IP, informații din Cookie-uri, informații despre browserul Utilizatorului (sau alt program care accesează serviciile). 3.2. Operatorul nu verifică acuratețea datelor cu caracter personal furnizate de Utilizator. Totodată, Operatorul pornește din faptul că Utilizatorul furnizează informații personale de încredere și suficiente cu privire la problemele propuse în Câmpurile de intrare. 4. Scopuri, reguli de colectare și utilizare a datelor cu caracter personal 4.1. Operatorul prelucrează datele personale care sunt necesare pentru furnizarea de servicii și furnizarea de servicii către Utilizator. 4.2. Datele personale ale Utilizatorului sunt folosite de Operator în următoarele scopuri: 4. 2.1. Identificarea utilizatorului; 4.2.2. Furnizarea Utilizatorului de servicii și servicii personalizate (precum și informarea cu privire la noile promoții și servicii ale companiei prin trimiterea de scrisori); 4.2.3. Menținerea comunicării cu Utilizatorul, dacă este necesar, inclusiv trimiterea de notificări, solicitări și informații legate de utilizarea serviciilor, furnizarea de servicii, precum și procesarea cererilor și aplicațiilor de la Utilizator; 4.3. In timpul prelucrarii datelor cu caracter personal se vor efectua urmatoarele actiuni: colectare, inregistrare, sistematizare, acumulare, stocare, clarificare (actualizare, modificare), extragere, utilizare, blocare, stergere, distrugere. 4.4. Utilizatorul nu se opune că informațiile specificate de el în anumite cazuri pot fi furnizate organismelor de stat autorizate ale Federației Ruse în conformitate cu legislația actuală a Federației Ruse. 4.5. Datele cu caracter personal ale Utilizatorului sunt stocate și prelucrate de Operator în modul prevăzut de prezentul Acord pentru întreaga perioadă a activităților Operatorului. 4.6. Prelucrarea datelor cu caracter personal se realizează de către Operator prin menținerea bazelor de date, metode automate, mecanice, manuale. 4.7. Site-ul folosește cookie-uri și alte tehnologii pentru a urmări utilizarea serviciilor Site-ului. Aceste date sunt necesare pentru a optimiza funcționarea tehnică a Site-ului și pentru a îmbunătăți calitatea furnizării serviciilor. Site-ul înregistrează automat informații (inclusiv adresa URL, adresa IP, tipul browserului, limba, data și ora solicitării) despre fiecare vizitator al Site-ului. Utilizatorul are dreptul de a refuza furnizarea de date personale atunci când vizitează Site-ul sau de a dezactiva cookie-urile, dar în acest caz, este posibil ca nu toate funcțiile Site-ului să funcționeze corect. 4.8. Condițiile de confidențialitate prevăzute în prezentul Acord se aplică tuturor informațiilor pe care Operatorul le poate primi despre Utilizator în timpul șederii acestuia din urmă pe Site și utilizării Site-ului. 4.9. Informațiile dezvăluite public în timpul executării prezentului Acord, precum și informațiile care pot fi obținute de către părți sau terți din surse la care orice persoană are acces liber, nu sunt confidențiale. 4.10. Operatorul ia toate măsurile necesare pentru a proteja confidențialitatea datelor cu caracter personal ale Utilizatorului împotriva accesului, modificării, dezvăluirii sau distrugerii neautorizate, inclusiv: asigură verificarea internă constantă a proceselor de colectare, stocare și prelucrare a datelor și a securității; asigură securitatea fizică a datelor, împiedicând accesul neautorizat la sisteme tehnice , asigurarea functionarii Site-ului, in care Operatorul stocheaza date personale; oferă acces la datele personale doar acelor angajați ai Operatorului sau persoanelor autorizate care au nevoie de aceste informații pentru îndeplinirea sarcinilor legate direct de furnizarea de servicii către Utilizator, precum și de funcționarea, dezvoltarea și îmbunătățirea Site-ului. 4.11. În ceea ce privește datele personale ale Utilizatorului, confidențialitatea acestora este păstrată, cu excepția cazurilor în care Utilizatorul furnizează în mod voluntar informații despre sine pentru acces general la un număr nelimitat de persoane. 4.12. Transferul de către Operator al datelor personale ale Utilizatorului este legal la reorganizarea Operatorului și transferul de drepturi către succesorul Operatorului, în timp ce cesionarul transferă toate obligațiile de a respecta termenii prezentului Acord în legătură cu informațiile personale primite de acesta. . 4.13. Prezentul Regulament se aplică numai site-ului web al Operatorului. Compania nu controlează și nu este responsabilă pentru site-urile (serviciile) terților către care utilizatorul poate urmări linkurile disponibile pe Site-ul Operatorului, inclusiv în rezultatele căutării. Pe astfel de Site-uri (servicii), alte informații personale pot fi colectate sau solicitate de la utilizator și pot fi efectuate și alte acțiuni 5. Drepturile utilizatorului ca subiect al datelor cu caracter personal, modificarea și ștergerea datelor cu caracter personal de către utilizator 5.1. Utilizatorul are dreptul: 5.1.2. Solicitați Operatorului să își clarifice datele cu caracter personal, să le blocheze sau să le distrugă în cazul în care datele cu caracter personal sunt incomplete, depășite, inexacte, obținute ilegal sau nu sunt necesare pentru scopul declarat al prelucrării, precum și să ia măsuri legale pentru a le proteja drepturile. 5.1.3. Primește informații referitoare la prelucrarea datelor sale cu caracter personal, inclusiv informații care conțin: 5.1.3.1. confirmarea faptului prelucrării datelor cu caracter personal de către Operator; 5.1.3.2. scopurile și metodele utilizate de operator pentru prelucrarea datelor cu caracter personal; 5.1.3.3. numele și locația Operatorului; 5.1.3.4. datele cu caracter personal prelucrate referitoare la subiectul relevant al datelor cu caracter personal, sursa primirii acestora, cu excepția cazului în care legea federală prevede o procedură diferită pentru furnizarea acestor date; 5.1.3.5. termenii de prelucrare a datelor cu caracter personal, inclusiv termenii de stocare a acestora; 5.1.3.6. alte informații prevăzute de legislația actuală a Federației Ruse. 5.2. Retragerea consimțământului pentru prelucrarea datelor cu caracter personal poate fi efectuată de către Utilizator prin transmiterea Operatorului unei notificări scrise adecvate (tipărite pe un suport tangibil și semnate de Utilizator). 6. Obligațiile Operatorului. Accesul la datele personale 6.1. Operatorul se angajează să asigure prevenirea accesului neautorizat și nedirecționat la datele personale ale Utilizatorilor Site-ului Operatorului. În același timp, accesul autorizat și direcționat la datele personale ale Utilizatorilor Site-ului va fi considerat acces la acestea de către toate părțile interesate, implementat în cadrul scopurilor activității și obiectului Site-ului Operatorului. În același timp, Operatorul nu este responsabil pentru posibila utilizare nedirecționată a datelor cu caracter personal ale Utilizatorilor care a apărut ca urmare a: probleme tehnice în software și în mijloace tehniceși rețele dincolo de controlul Operatorului; în legătură cu utilizarea intenționată sau neintenționată a Site-urilor Operatorului, care nu este destinată scopului lor de către terți; 6.2 Operatorul ia măsurile organizatorice și tehnice necesare și suficiente pentru a proteja informațiile personale ale utilizatorului de accesul neautorizat sau accidental, distrugerea, modificarea, blocarea, copierea, distribuirea, precum și de alte acțiuni ilegale ale terților cu acesta. 7. Modificarea Declarației privind politica de confidențialitate. Legea aplicabilă 7.1. Operatorul are dreptul de a aduce modificări prezentului Regulament fără nicio notificare specială către Utilizatori. Când faceți modificări în versiunea curentă, este indicată data ultima actualizare. Noua versiune a Regulamentelor intră în vigoare din momentul plasării acestuia, cu excepția cazului în care noua versiune a Regulamentelor nu prevede altfel. 7.2. Prezentul Regulament și relația dintre Utilizator și Operator care decurge în legătură cu aplicarea Regulamentului vor fi supuse legii Federației Ruse. Accept nu accept

Yandex, astăzi, este cel mai popular motor de căutare din Rusia. Statistica serviciului internet live, arată ponderea Yandex în masa publicului integral rus - aceasta este 53,4%, dacă luăm în considerare doar Moscova și regiunea, apoi chiar mai mare - 67,9% (Moscova, la cerere, ocupă mai mult de 50% din toată Rusia).

Site-ul www.yandex.ru a fost creat în 1997, avea nevoie de un singur server, care se afla sub desktop-ul unuia din grupul primilor dezvoltatori Yandex, Dmitry, cu numele Teyblum. Foarte repede după deschidere, am achiziționat un al doilea server și, în curând, când a fost necesar să instalăm altul, a devenit clar că era suficient spațiu sub masă fie pentru trei servere Yandex, fie […]

Dezvoltatorii motoarelor de căutare se străduiesc să ofere utilizatorilor cele mai bune răspunsuri la întrebările lor. Uneori, un astfel de răspuns poate fi un număr (de exemplu, vremea într-un oraș), o imagine (de exemplu, o adresă pe o hartă), o traducere a unui cuvânt sau un catren. Când o gamă adecvată de informații este la îndemână, răspunsul poate fi dat imediat. Prin urmare, Yandex completează rezultatele căutării pe Internet cu răspunsuri de la […]

Aproximativ fiecare a zecea cerere către Yandex este „de navigație”, adică constă din numele unei organizații sau al unui site, iar utilizatorul dorește să acceseze site-ul acestei organizații. În acest caz, șirul de căutare Yandex este utilizat în locul barei de adrese a browserului, iar utilizatorul nu este de obicei interesat de celelalte nouă rezultate ale căutării. Fără a distrage atenția utilizatorului de la obiectivul principal, am adăugat după […]

Sarcina principală a motorului de căutare este să răspundă la întrebarea utilizatorului. Atunci când un utilizator setează o interogare, motorul de căutare nu accesează fiecare site de pe Internet, ci caută prin baza de date a paginilor cunoscute de acesta - indexul de căutare. Acolo găsește toate paginile cu cuvinte din cerere. Legături către aceste pagini pe care utilizatorul le vede în paginile cu rezultatele căutării.

După cum putem vedea, Yandex nu stă pe loc și sunt sigur că tehnologiile de căutare ale acestui sistem vor continua să se dezvolte pentru a îmbunătăți calitatea căutării, ceea ce este încă greu de numit ideal.

La 10 noiembrie 2009, Yandex a anunțat o nouă versiune a algoritmului de căutare - Snezhinsk. Au avut loc modificări fundamentale în algoritmul de calcul al relevanței - reprezentanții Yandex au scris următoarele: „Am reușit să creăm un model matematic mai precis și mult mai complex, ceea ce a condus la o creștere semnificativă a calității căutării. Datorită reproiectării arhitecturii de clasare de căutare, a fost posibilă implementarea contabilității a câteva mii de […]

Testarea noii versiuni a algoritmului Yandex a început pe 9 iulie 2008. Potrivit Yandex, „principalele modificări ale programului sunt asociate cu o nouă abordare a învățării automate și, ca urmare, diferențe în modul în care factorii de clasare sunt luați în considerare în formulă”.

Pe 14 aprilie 2008, un nou algoritm de căutare „Magadan” a început să fie testat pe buki.yandex.ru. Pe lângă dublarea numărului de factori de clasare, au fost adăugate și următoarele inovații:

Înainte de a sări în jungla algoritmică, să ne amintim cum funcționează un motor de căutare în general. Structura logică a motorului de căutare poate fi reprezentată ca trei module (vezi diagrama) Robot (crawler, crawler) este un program special care ocolește site-urile de Internet și descarcă conținutul acestora. Robotul are un program special conform căruia își face turul. Pagini de site încărcate de un robot, un […]

66. Ce are mai multă influență: un link de pe o platformă gratuită (blogspot, livejournal etc.) sau de pe un site/blog de sine stătător? De pe platformele gratuite, greutatea este transferată mai mică decât de pe site-urile independente. Cu toate acestea, impactul poate fi mai mare. Acest lucru se datorează multor factori: lista actuală de ancorare, starea site-urilor comparate etc. Este imposibil să dai un răspuns clar la această întrebare. 67. Cea mai mare parte a greutății este transferată între […]

Tur Vamana - călătorii, bilete de avion și vize în întreaga lume și în India, Nepal, Sri Lanka, Maldive, Mauritius și multe alte locuri de pe planetă. Sfaturi pentru călători și pelerini. Cum să profitați la maximum de călătoria dvs. Cronici istorice uimitoare și povești ale călătorilor experimentați.

Care este scopul luării în considerare a legăturilor externe către site După cum puteți vedea din secțiunea anterioară, aproape toți factorii care afectează clasarea sunt sub controlul autorului paginii. Astfel, motorul de căutare devine imposibil să distingă un document cu adevărat de înaltă calitate de o pagină creată special pentru o anumită expresie de căutare sau chiar de o pagină generată de un robot și care nu conține deloc informații utile. […]