Hakukoneiden perusperiaatteet. Mikä on hakukone, miten haku toimii Internetin hakukoneet miten ne toimivat

Määritelmän mukaan Internet-hakukone on tiedonhakujärjestelmä, joka auttaa meitä löytämään tietoa maailman laajuinen verkko. Tämä helpottaa maailmanlaajuista tiedonvaihtoa. Mutta Internet on jäsentämätön tietokanta. Se kasvaa eksponentiaalisesti ja siitä on tullut valtava tietovarasto. Tietojen löytäminen Internetistä on vaikea tehtävä. Tarvitsemme työkalun näiden valtameritietojen hallintaan, suodattamiseen ja hakemiseen. Hakukone palvelee tätä tarkoitusta.

Kuinka se toimii hakujärjestelmä?

Internetin hakukoneet ovat koneita, jotka etsivät ja hakevat tietoa Internetistä. Useimmat niistä käyttävät indeksointirobotti-indeksointiarkkitehtuuria. Ne riippuvat raitamoduuleistaan. Indeksointirobotit, joita kutsutaan myös roboteiksi, ovat pieniä ohjelmia, jotka indeksoivat verkkosivuja.

Indeksointirobotit käyvät ensimmäisissä URL-osoitteissa. He louhivat indeksoiduilla sivuilla näkyvät URL-osoitteet ja lähettävät nämä tiedot indeksointirobotin ohjausmoduuliin. Indeksointirobotti päättää, millä sivuilla se vierailee seuraavaksi, ja antaa kyseiset URL-osoitteet indeksointiroboteille.

Eri hakukoneiden käsittelemät aiheet vaihtelevat niiden käyttämien algoritmien mukaan. Jotkut hakukoneet on ohjelmoitu hakemaan tiettyä aihetta käsittelevistä sivustoista, kun taas toisten indeksointirobotit voivat vierailla mahdollisimman monessa paikassa.

Indeksointimoduuli poimii tiedot jokaiselta sivulta, jolla se vierailee, ja syöttää URL-osoitteen tietokantaan. Tämä johtaa valtavaan hakutaulukkoon, jossa on luettelo tietosivuille osoittavista URL-osoitteista. Taulukossa näkyvät sivut, jotka käsiteltiin indeksoinnin aikana.

Analyysimoduuli on toinen tärkeä osa hakukonearkkitehtuuria. Se luo hyödyllisyysindeksin. Hakemistoapuohjelma voi tarjota pääsyn tietyn pituisille sivuille tai sivuille, joilla on tietty määrä kuvia.

Indeksoinnin aikana hakukone tallentaa hakemansa sivut. Ne tallennetaan väliaikaisesti sivun tallennustilaan. Hakukoneet ylläpitävät välimuistia vierailemistaan ​​sivuista nopeuttaakseen jo vierailtujen sivujen hakua.

Hakukonekyselymoduuli vastaanottaa hakukyselyt käyttäjiltä avainsanojen muodossa. Ranking-moduuli lajittelee tulokset.

Indeksointirobotin arkkitehtuurilla on monia muunnelmia. Ne muuttuvat hajautetussa hakukonearkkitehtuurissa. Nämä arkkitehtuurit koostuvat keräilijöistä ja välittäjistä. Keräilijät keräävät indeksointitietoja verkkopalvelimista, kun taas välittäjät tarjoavat indeksointimoottorin ja kyselyliittymän. Välittäjät indeksoivat päivityksen keräilijöiltä ja muilta välittäjiltä saatujen tietojen perusteella. He voivat suodattaa tietoa. Monet hakukoneet nykyään käyttävät tämän tyyppistä arkkitehtuuria.

Hakukoneet ja sivujen sijoitus

Kun luomme kyselyn hakukoneessa, tulokset näytetään tietyssä järjestyksessä. Useimmat meistä vierailevat ylimmillä sivuilla ja jättävät huomioimatta alimmat sivut. Tämä johtuu siitä, että uskomme, että muutamat ylimmät sivut vastaavat paremmin kyselyämme. Joten kaikki ovat kiinnostuneita siitä, että heidän sivunsa sijoittuvat kymmenen parhaan hakukonetuloksen joukkoon.

Hakukoneen kyselyliittymässä luetellut sanat ovat hakukoneissa pyydettyjä avainsanoja. Ne ovat luettelo sivuista, jotka liittyvät pyydettyä avainsanoja. Tämän prosessin aikana hakukoneet hakevat sivut, joilla näitä avainsanoja esiintyy usein. He etsivät suhteita avainsanojen välillä. Myös avainsanojen sijoittelulla on merkitystä, samoin kuin niitä sisältävien sivujen sijoituksella. Sivujen otsikoissa tai URL-osoitteissa esiintyvät avainsanat saavat enemmän painoarvoa. Sivut, joilla on niihin osoittavia linkkejä, tekevät niistä entistä suositumpia. Jos monet muut sivustot linkittävät sivulle, sitä pidetään arvokkaana ja osuvampana.

Jokainen hakukone käyttää luokittelualgoritmia. Algoritmi on tietokoneistettu kaava, joka on suunniteltu tarjoamaan asiaankuuluvat sivut käyttäjän pyynnöstä. Jokaisella hakukoneella voi olla erilainen sijoitusalgoritmi, joka analysoi hakukoneen tietokannan sivuja ja määrittää asiaankuuluvat vastaukset hakukyselyt. Hakukoneet indeksoivat eri tiedot eri tavalla. Tämä tarkoittaa, että kahdelle eri hakukoneelle tehty kysely voi palauttaa sivuja eri järjestyksessä tai hakea eri sivuja. Verkkosivuston suosio ovat tekijöitä, jotka määrittävät osuvuuden. Sivuston suosio napsautussuhde on toinen tekijä, joka määrittää sen sijoituksen. Tämä mittaa kuinka usein sivustolla vierailee.

Verkkovastaavat yrittävät huijata hakukonealgoritmeja parantaakseen sivustonsa sijoitusta hakutuloksissa. Web-sivustojen sivujen täyttäminen avainsanoilla tai sisällönkuvauskenttien käyttäminen hakukoneiden sijoitusstrategioiden huijaamiseen. Mutta hakukoneet ovat tarpeeksi älykkäitä! He parantavat algoritmejaan, jotta verkkovastaavien juonittelut eivät vaikuta hakutuloksiin.

Sinun on ymmärrettävä, että jopa luettelon muutaman ensimmäisen jälkeiset sivut voivat sisältää juuri etsimääsi tietoa. Mutta voit olla varma, että hyvät hakukoneet tuovat sinulle aina erittäin osuvat sivut huippujärjestyksessä!

Myyntigeneraattori

Lukuaika: 13 minuuttia

Lähetämme materiaalin sinulle:

Tästä artikkelista opit:

  • Millä periaatteella ensimmäiset hakukoneet toimivat?
  • Kuinka nykyaikaiset hakukoneet toimivat
  • Mihin periaatteisiin minkä tahansa hakukoneen työ perustuu?
  • Mitä kaavoja hakukoneet käyttävät työssään?
  • Kuinka sivustot luokitellaan
  • Mitkä ovat Yandex-hakukoneen toimintaperiaatteet

Ennen kuin aloitat verkkosivuston SEO-promootiotyön, on tärkeää tutustua hakukoneiden periaatteisiin haluttujen tulosten saavuttamiseksi. Nämä tiedot ovat hyödyllisiä kehitettäessä yksilöllistä strategiaa Internet-resurssin optimoimiseksi tietyille avainsanoille ja auttavat nostamaan sen hakutulosten TOP:iin.

Mitkä periaatteet ovat ensimmäisten hakukoneiden työn taustalla?


Internetin kynnyksellä vain pieni määrä käyttäjiä pystyi muodostamaan yhteyden siihen. Myös saatavilla olevan tiedon määrä oli pieni. Tuolloin Internetissä työskentelivät pääasiassa tutkimusorganisaatioiden työntekijät. Tietojen etsiminen Internetistä ei ollut niin suosittua kuin nyt.

Ensimmäinen yritys järjestää pääsy sähköisiin tietoihin Internetin kautta tehtiin Yahoo!-hakukoneella, joka ilmestyi vuonna 1994. Yrityksen kehittäjät loivat avoimen luettelon sivustoista, joiden linkit ryhmiteltiin asiaankuuluvien aiheiden mukaan. Kun tietokannan resurssien määrä kasvoi, tuli tarpeelliseksi lisätä luettelohakuvaihtoehto. Se ei ollut vielä hakukone siinä muodossa, johon olemme tottuneet, koska se etsi tietoa sivustojen sisäisestä tietokannasta, ei kaikista olemassa olevista Internet-resursseista.

Tällaiset linkkihakemistot olivat aiemmin erittäin suosittuja, mutta nykyään ne ovat menettäneet merkityksensä, koska sivustojen määrä kasvaa jatkuvasti. Esimerkiksi Internetin suurin nykyaikainen hakemisto DMOZ (toinen nimi on Open Directory Project) sisältää noin 5 miljoonaa sivustoa, kun taas Googlen hakukoneen tietokanta sisältää yli 8 miljardia linkkiä.

Vuonna 1994 ilmestyi ensimmäinen todellinen hakukone, WebCrawler.


Vuonna 1995 luotiin kaksi muuta hakukonetta: Lycos ja AltaVista. Jälkimmäinen hakukone on pitkään ollut johtavassa asemassa online-tiedonhaun alalla.

Vuonna 1997 Stanfordin yliopiston opiskelijat Sergey Brin ja Larry Page kehittivät Google-hakukoneen, josta tuli maailman suosituin.

Myös vuonna 1997 Runetissa suosittu Yandex-hakukone aloitti toimintansa.

Miten hakukoneet toimivat nykyään?

Jos et ole ohjelmoija ja ammattisi ei liity mitenkään tietotekniikkaan, miksi sinun pitää ymmärtää hakukoneiden periaatteet? Tosiasia on, että niin sanottu orgaaninen liikenne tulee yrityksen verkkosivustolle hakukoneiden kautta - nämä ovat käyttäjiä, jotka itse löysivät Internet-resurssi käyttämällä avainsanoja Yandexista tai Googlesta. Luomuliikenne on maukas pala piirakasta (kohderyhmä). Mitä korkeampi sen taso, sitä suurempi on sivuston muunnos ja myynti.

Jotta käyttäjät löytävät Internet-resurssi helposti, on tärkeää täyttää se oikealla sisällöllä. Hakukoneet luokittelevat sivustot sisällön laadun perusteella, mikä vaikuttaa niiden paikkaan hakutuloksissa. Osoittautuu, että kun tiedät kuinka hakukoneet indeksoivat Internet-resursseja, voit optimoida niiden sisällön ja mainostaa sen TOP:iin.

Toisaalta hakukoneita käyttämällä voit analysoida käyttäjien toimia. Tutki, mitä he etsivät, mitkä tiedot, tuotteet tai palvelut ovat heille tällä hetkellä tärkeitä. Jos Yandex-tilastojen mukaan on mahdollista muodostaa kuva Runet-käyttäjien toimista, niin sen mukaan Googlen mukaan- Maailmanlaajuinen Internet.


Pääkonsepti, jonka kanssa mikä tahansa hakukone toimii, on hakuindeksi - tietty tietorakenne, joka heijastaa tietoja asiakirjoista ja avainsanojen sijainnista niissä.

Monien hakukoneiden toimintaperiaatteet ovat hyvin samanlaisia. Suurin ero on lähestymistapa sivuston sijoitukseen (menetelmä resurssien järjestämiseen hakutuloksissa).


Joka päivä valtava määrä käyttäjiä etsii erilaisia ​​​​tietoja hakukoneiden avulla.

Esimerkiksi seuraavat hakukyselyt ovat suosittuja:

"Kirjoita abstrakti":


"Ostaa":


Hakukoneen nopeuden lisäämiseksi hakuarkkitehtuuri koostuu kahdesta osasta:

  • perushaku;
  • metahaku.

Perushaku- ohjelma, joka tekee hakuja hakemiston osasta ja tarjoaa käyttäjälle kaikki linkit, jotka vastaavat hakukyselyä.

Metahaku- ohjelma, joka pyyntöä käsitellessään määrittää käyttäjän sijainnin ja tuottaa valmiita hakutuloksia, jos avainsana on suosittu, mutta jos vastaavia pyyntöjä ei ole aiemmin ollut, aktivoituu perushaku, joka koneoppiminen, käsittelee tietokannassa olevat linkit ja antaa niistä luettelon käyttäjälle .

Hakukone analysoi samanaikaisesti käyttäjän ja itse hakukyselyn seuraavien kriteerien mukaisesti:

  • pituus;
  • määritelmä;
  • suosio;
  • kilpailukyky;
  • syntaksi;
  • maantiede.

Seuraavat pyyntötyypit erotellaan:

  • navigointi;
  • tiedottava;
  • liiketoimi;
  • multimedia;
  • yleinen;
  • virallinen

Kun hakukysely on lajiteltu parametrien mukaan ja luokiteltu johonkin luetelluista tyypeistä, hakukone valitsee sijoitustoiminnon.


Hakukoneet eivät paljasta tietoja hakukyselyiden sijoituksesta, joten yllä olevan kuvan esimerkki on vain SEO-asiantuntijoiden oletus.

Pyyntötyyppien tunteminen on välttämätöntä verkkosivuston edistämisstrategian valitsemiseksi. Jos käyttäjä esimerkiksi kirjoittaa yleisen kyselyn, hakukone antaa hänelle linkkejä eri tyyppejä(kaupallinen, multimedia, tiedotus jne.). Jos mainostat samalla kaupallista verkkosivustoasi yleisestä pyynnöstä ja haluat tuoda sen hakutulosten kymmenen parhaan joukkoon, et suurella todennäköisyydellä päädy TOPiin, vaan vain paikkojen määrään kaupalliset Internet-resurssit hakukoneen sijoituskaavan mukaan. Osoittautuu, että verkkosivuston mainostaminen hakutulosten ensimmäisille riveille yleisillä hakukyselyillä on paljon vaikeampaa kuin muiden tyyppien kohdalla.

Yandex-hakukone on käyttänyt koneoppimista vuodesta 2009 lähtien. Matrixnet- erityinen algoritmi, joka asettaa sivustot paremmuusjärjestykseen tietyille kyselyille.


Tämän algoritmin perustoimintaperiaate on seuraava: arvioijaosasto kerää ensisijaisia ​​tietoja arvioidakseen sijoituskaavan tehokkuutta. Tämän osaston työntekijät arvioivat kokeellisen kaavan perusteella otoksen Internet-resursseista tiettyjen parametrien mukaan:

1. Tärkeä- yrityksen virallinen Internet-resurssi vai ei. Tämä voi olla verkkosivusto, sosiaalisen verkoston sivu tai tietoa hyvämaineisista resursseista.

2. Hyödyllinen(pisteet 5) - sivusto, joka tarjoaa kaiken tarvittavat tiedot hakukyselyllä. Esimerkiksi käyttäjä kirjoittaa hakupalkkiin "banneri kangas". Jotta algoritmi arvioi resurssin hyödylliseksi, sen on sisällettävä seuraavat tiedot:

  • mikä on bannerikangas;
  • tekniset tiedot;
  • Valokuvat;
  • Erilaisia;
  • hinta lista;
  • Lisäinformaatio.

Esimerkkejä kyselyistä, jotka pääsevät hakutulosten TOP:iin:


3. Relevant+(pistemäärä 4) - tämä pistemäärä osoittaa, että sivustolla olevat tiedot vastaavat hakukyselyä.

4. Asiaankuuluvat-(pisteet 3) - sivusto ei täysin vastaa hakukyselyä. Jos esimerkiksi vastaat kyselyyn "Galaksin vartijat istunnot", hakukone näyttää linkkejä elokuvaa koskeville sivuille, mutta ilman esitysaikataulua tai vanhentuneen aikataulun kanssa.

5. Epäolennainen(pisteet 2) - sivusto ei vastaa hakukyselyyn. Esimerkiksi: käyttäjä etsii tietoa yhdestä hostellista, ja hakukone antaa hänelle täysin toisen sivun.

Mainostaaksesi sivustoa yleisillä tai informatiivisilla hakukyselyillä, sinun on optimoitava sen sisältö siten, että hakukone antaa luokituksen "hyödyllinen" sijoituksen aikana.

Mihin minkä tahansa hakukoneen toimintaperiaate perustuu?


Hakukoneen avulla voit perinteisesti:

Hakukoneen toimintaperiaatteet perustuvat kolmen pääelementin vuorovaikutukseen. Ensin haku suoritetaan syöttämän käyttäjän perusteella avainsanoja tai lauseita, sitten sisään matemaattinen muodostusprosessi Tulokset on ryhmitelty linkkien ja sivustojen mukaan. Ja lopuksi, sitä käytetään tietojen lukemiseen valituista Internet-resursseista hakurobotti tai muita työkaluja. Tärkeimmät tällä hetkellä suositut hakurobotit:

  • indeksoija(toinen nimi on "indeksoija") - ohjelma "kävely" Internetissä. Se vierailee vain niillä sivustoilla, joissa se löytää vähintään minimaalisen vastaavuuden hakukyselyssä määritettyyn kohtaan. Työ alkaa saatavilla olevien tietokantojen osoiteluettelolla tai hakemistolla.
  • Indeksi. Indeksointirobotti lähettää kaikki vastaanotetut tiedot hakuhakemistoon. Siten jälkimmäisellä on aina ajan tasalla olevaa tietoa löydetyistä sivustoista ja verkkosivuista. Jos päivitykset ladataan resurssille tai sivulle, nämä tiedot päivitetään hakemistoon.
  • Hakukone (palvelin)- tämä on erikoista ohjelmisto, jonka päätehtävänä on analysoida hakuhakemistoon kerättyjä tietoja. Hakukonealgoritmi toimii periaatteella, että se tukee vain Internet-resurssien lopullisia hakutuloksia. Hakukone itse päättää, kuinka sivut jaetaan hakutuloksissa.

Mikä tahansa hakukone pyrkii tarjoamaan käyttäjälle osuvimmat ja hyödyllisimmät sivustot, jotka vastaavat hakukyselyä. Teknisesti tätä kutsutaan "vastauksen relevanssiksi". Esimerkiksi verkkokaupan mainostamiseksi on erittäin tärkeää, että siihen lähetettävä sisältö vastaa käyttäjien tarpeita. Sivuston optimointi parantaa sen asemaa hakutuloksissa.

Tarkastellaan Internet-hakukoneiden pääominaisuuksia ja niiden toimintaperiaatteita:

  • Täydellisyys- hakukoneen keskeinen ominaisuus. Se lasketaan käyttäjän pyynnöstä valittujen asiakirjojen lukumäärän ja hakukyselyä vastaavien Internet-asiakirjojen kokonaismäärän suhteena. Esimerkiksi Internetissä on 200 sivua, joilla käytetään lausetta "miten valita jääkaappi", tämän kyselyn hakukone palautti vain 40, joten haun täydellisyys on 0,2. Mitä korkeampi täydellisyyspistemäärä, sitä todennäköisemmin käyttäjä löytää etsimänsä (olettaen, että nämä tiedot ovat saatavilla Internetissä).
  • Tarkkuus- toinen, mutta ei vähempää tärkeä ominaisuus hakukoneen toimintaa. Näyttää löydettyjen asiakirjojen vastaavuuden käyttäjän hakukyselyyn. Oletetaan, että esimerkissämme on 200 sivua kyselylle "miten valita jääkaappi", joista 80 sisältää lauseen "miten valita jääkaappi" ja loput sisältävät vain yksittäisiä sanoja (esimerkiksi "miten sijoitetaan ergonomisesti keittiösarja ja valitse paikka jääkaapille" ). Tässä tapauksessa hakutarkkuus on yhtä suuri: 80 / 200 = 0,4. Mitä suurempi hakutarkkuus on, sitä nopeammin käyttäjä löytää tarvitsemansa ja sitä vähemmän "roskapostia" hän kohtaa matkan varrella.
  • Merkityksellisyys- toinen tärkeä hakukoneen parametri. Se kuvastaa aikaa, joka on kulunut aineiston julkaisemisesta Internetissä ja sen saapumisesta hakukoneen hakemistotietokantaan. Esimerkiksi muutama tunti lento-onnettomuuden jälkeen suuri joukko käyttäjiä etsi Internetistä tietoa tapahtumasta. Huolimatta siitä, että ensimmäisten tätä aihetta koskevien viestien julkaisemisesta on kulunut vähän aikaa, hakukoneet onnistuivat indeksoimaan ne ja käyttäjät pystyivät saamaan selville katastrofin yksityiskohdat.
  • Nopeus Hakukoneen suorituskyky riippuu suoraan sen kuormituskestävyydestä. Esimerkiksi Rambler Internet Holding LLC:n mukaan hakukone käsittelee noin 60 hakukyselyä sekunnissa joka päivä. Tämä nopeus varmistetaan kunkin yksittäisen käyttäjän pyynnön lyhennetyllä käsittelyajalla.
  • Näkyvyys tulosten esittäminen tekee hakukoneen kanssa työskentelystä käyttäjäystävällistä. Hakukone voi löytää satoja ja jopa tuhansia sivustoja hakukyselyn perusteella. Jos kyselyä ei ole laadittu täysin oikein, hakutulosten ensimmäisellä sivullakin voi olla sivuja, jotka eivät aivan vastaa sitä, mitä käyttäjä haluaa löytää. Tämän seurauksena henkilö pakotetaan suodattamaan tiedot tuloksena olevasta luettelosta. Hakukoneen tulossivun yksittäiset elementit auttavat sinua navigoimaan hakutuloksissa. Yksityiskohtaiset selitykset hakutulossivulla, esimerkiksi Yandexissa, löytyvät linkistä http://help.yandex.ru/search/?id=481937.

Jotta sivusto olisi suurella todennäköisyydellä hakutulosten ensimmäisellä sivulla, sinun on:

  1. Käytä ankkurilinkkejä, jotka ohjaavat käyttäjät temaattisilta Internet-sivustoilta yrityksesi verkkosivustolle. Tämä lisää Internet-resurssin näkyvyyttä hakukoneelle, koska hakutuloksiin voidaan sisällyttää sivuston linkin sisältävän tekstin lisäksi myös sen URL-osoite.
  2. Käytä sisällönkuvauskenttiä oikeiden avainsanojen kanssa. Tämä tekee verkkosivuston yhteenvedosta ainutlaatuisemman ja tehokkaamman.
  3. Käytä otsikkootsikkoa.
  4. Muodosta sivuston semanttinen ydin oikein. Avainsanojen jakaminen koko sivuston sisältöön ei riitä, vaan se on tärkeää tehdä huolellisesti ja huomaamattomasti. Sinun ei pitäisi lisätä avainsanoja jokaiseen lauseeseen. Hakukone voi arvioida tämän roskapostiksi.
  5. Käytä sivuston URL-osoitetta (sijainnin osoite Internetissä). Osoitteen oikeinkirjoitus vaikuttaa sen sijoitukseen hakukoneessa.

Tietoja kaikkien hakukoneiden toimintaperiaatteista yksinkertaisin sanoin

Hakujärjestelmä - erikoisohjelma kätevällä verkkoliittymällä, jonka avulla käyttäjät voivat nopeasti ja helposti etsiä tarvittavia tietoja Internetistä. Tarkastellaan minkä tahansa hakukoneen toimintaperiaatetta menemättä yksityiskohtiin ja tekniseen terminologiaan.

Jotta hakukone voisi tarjota käyttäjälle luettelon hakukyselyn tietoja sisältävistä sivulinkeistä, sen on tunnettava kunkin sivuston kaikkien osien sisältö. Miten hakukone kerää nämä tiedot?

Internet on erityinen verkko, joka koostuu yksittäisistä sivuista, jotka linkittävät toisiinsa. Hakukoneen ei tarvitse mennä kuhunkin niistä, riittää, että sinulla on tiedot korkeimman arvosanan saaneista sivustoista ja hakemistoista, jotta sivuista voidaan kerätä tietoja myöhempää latausta varten.

Hakukone pohjimmiltaan luo aihehakemiston, johon kaikkien Internet-sivujen osoitteet on ryhmitelty erityisellä tavalla. Jos Internetiin on ilmestynyt uusi sivusto, johon muut resurssit eivät liity, hakukoneen on vaikea löytää sitä indeksoidakseen sen ja lisätäkseen sen tietokantaansa.

Kun hakukone on luonut luettelon sivuista, indeksointiprosessi alkaa (työ kaikkien tietojen lataamiseksi sivuilta). Erityisesti tähän tarkoitukseen luotujen ohjelmien avulla hakujärjestelmä tallentaa uusia tietoja tai korvaa vanhat tiedot poistaen asiaankuuluvat tiedot. Internetin sivustojen indeksointityö jatkuu.

Ohjelmat keräävät tietoja väliaikaiseen tallennustilaan. Siellä niitä kertyy tiettyyn määrään asti, minkä jälkeen käynnistetään päivitysprosessi, jonka pääperiaate on tietojen päivittäminen hakukoneen päätietokannassa.

Hakukoneen hakemistossa on valtava määrä sivuja. Kun käyttäjä kirjoittaa kyselyn hakupalkkiin, hakukone valitsee asiaankuuluvat linkit tietokannastaan. Toisin sanoen se kokoaa luettelon sivustoista, joiden sivuilla mainitaan käyttäjän määrittämät avainsanat.

Koska hakukoneen sisäinen tietokanta on valtava, hakutuloksissa voi olla kymmeniä sivuja. Miten hakukone asettaa ne paremmuusjärjestykseen? Millä periaatteella se määrittää, mitkä sivut näytetään käyttäjälle ensin? Kaikki sivut on lajiteltu hakukyselyä vastaavan sisällön mukaan. Mitä korkeampi sivun sisältämien tietojen täydellisyysaste on, sitä lähempänä sivu on luettelon kärkeä.

Nykyään hakukoneet käyttävät koneoppimista sijoittaakseen sivut hakutuloksissa. Tämän prosessin toimintaperiaate voidaan nähdä käyttämällä abstraktia esimerkkiä.

Oletetaan, että meidän on koulutettava robotti erottamaan kypsät omenat kypsymättömistä. Ohjelma hedelmän ominaisuuksien määrittämiseksi perustuu sen ominaisuuksiin:

  • väri;
  • koko;
  • kovuus;
  • sokeripitoisuus;
  • happopitoisuus.


Analysointia varten robotille annetaan kaksi omenaa: kypsymätön ja valmis. Hän vertaa niitä. Sitten koulutamme koneen - näytämme mitkä omenan ominaisuudet ovat positiivisia ja mitkä negatiivisia. Selitämme, millä parametreilla hedelmä voidaan luokitella kypsäksi tai ei.

Meillä on siis omenoiden analysointialgoritmi, jolla robotti voi lajitella ne itsenäisesti. Nyt et voi antaa kahta hedelmää, vaan paljon enemmän; kone itse jakaa ne kypsiin ja kypsiin.

Samanlainen toimintaperiaate on luontainen hakukoneen toiminnalle. On asiantuntijoita, jotka kouluttavat koneita lajittelemaan sisältöalgoritmeja. Ensin he analysoivat itsenäisesti hakutuloksissa näkyvät sivut ja jakavat ne osuviin ja epäolennaisiin. Sitten robotti koulutetaan lajittelemaan sivut.

Sivun osuvuus on murtoluku. Jokaiselle sivulle on määritetty erilainen osuvuusarvo. Sitten kaikki resurssit lajitellaan tämän indikaattorin mukaiseen laskevaan järjestykseen. Hakutulosten TOPissa näkyvät osuvimmat sivustot.

Päälajittelualgoritmin lisäksi hakukoneet käyttävät erilaisia ​​lisäalgoritmia, jotka voivat myös vaikuttaa hakutuloksiin. Esimerkiksi heidän avullaan voit suodattaa häikäilemättömiä sivustoja, jotka käyttävät erilaisia ​​"harmaita" järjestelmiä edistämiseen.

Hakukoneiden perusperiaatteet: kaavat


Jokainen hakukone käyttää omia ainutlaatuisia algoritmejaan sivujen ja sivustojen etsimiseen ja sijoittumiseen, mutta kaikkien hakukoneiden toimintaperiaatteet ovat samat.

Käyttäjän pyyntöä vastaavien tietojen etsiminen koostuu useista vaiheista: tiedon kerääminen Internetissä, sivustojen indeksointi, haku avainsanoilla ja tulosten sijoittelu. Katsotaanpa jokaista vaihetta tarkemmin.

  1. Tiedonkeruu.

Kun sivusto on valmis, sinun on varmistettava, että hakukonerobotit tietävät sen ulkonäöstä. Voit sijoittaa ulkoisia linkkejä Internet-resurssiisi tai käyttää muita menetelmiä. Heti kun robotti tulee sivustolle, se alkaa kerätä tietoja jokaiselta sivulta. Tätä prosessia kutsutaan indeksoimiseksi. Tietojen kerääminen sivustolta ei tapahdu vasta sen luomisen jälkeen. Robotti tarkistaa ajoittain Internet-resurssin tarkistaakseen tietojen merkityksen ja päivittääkseen saatavilla olevat tiedot.

Sekä sinulle että robotille (robotille) tällaisen vuorovaikutuksen pitäisi olla molempia osapuolia hyödyttävää ja mukavaa. Sivuston omistajana olet kiinnostunut siitä, että botti tekee työnsä nopeasti, ylikuormittamatta palvelinta, samalla kun se kerää tietoja kaikilta sivuilta mahdollisimman täydellisesti. On myös tärkeää, että botti tekee kaiken mahdollisimman nopeasti, jotta se voi siirtyä keräämään tietoja luettelossaan seuraavalta sivustolta. Omalta osaltasi voit tarkistaa, että sivusto toimii, navigoinnissa ei ole ongelmia, 404-virheen antavia sivuja ei ole jne.

  1. Indeksointi.

Vaikka robotti olisi käynyt sivustollasi useammin kuin kerran, tämä ei tarkoita, että Internet-resurssi tulee välittömästi näkyviin hakukoneelle ja näkyy tuloksissa. Tietojen keräämisen jälkeen sivuston käsittelyprosessin seuraava vaihe on sen indeksointi (käänteisen hakemistotiedoston luominen jokaiselle sivulle). Hakemistoa tarvitaan nopeaan hakuun. Yleensä se koostuu luettelosta tekstin sanoista ja niistä tiedoista (paikat tekstissä, paino jne.).

Kun indeksointi on valmis, sivusto ja yksittäiset sivut näkyvät hakukoneen tuloksissa käyttäjien hakukyselyissä. Yleensä indeksointiprosessi ei vie paljon aikaa.

  1. Etsi tietoa.

Tässä vaiheessa tietoa haetaan suoraan käyttäjien hakukyselyiden perusteella. Ensin hakukone analysoi pyynnön ja määrittää kunkin avainsanan painon. Sitten se etsii osumia käyttämällä käänteisiä indeksejä ja valitsee hakukoneen tietokannasta kaikki hakukyselyn vastaavat asiakirjat.

Asiakirjan yhteensopivuus pyynnön kanssa määritetään erityisellä kaavalla:

samankaltaisuus(Q,D) = SUM(w qk * w dk),

Missä samankaltaisuus (Q, D)- pyynnön samankaltaisuus K asiakirja D; w qk- k:nnen sanan paino kyselyssä; wdk- asiakirjan k:nnen sanan paino.

Asiakirjat, jotka muistuttavat eniten käyttäjän pyyntöä, näkyvät hakutuloksissa.

  1. Rangeissa.

Viimeisessä vaiheessa hakukone ryhmittelee tulokset niin, että käyttäjä näkee ensin linkit tärkeimmille sivuille. Jokaisella hakukoneella on oma ainutlaatuinen sijoituskaavansa, joka ottaa huomioon seuraavien parametrien vaikutuksen:

  • sivun paino (viittausindeksi, PageRank);
  • verkkotunnuksen viranomainen;
  • tekstin merkitys pyynnön kannalta;
  • ulkoisten linkkien tekstien osuvuus kyselyyn;
  • sekä monet muut sijoitustekijät.

Harkitse esimerkiksi yksinkertaistettua sijoituskaavaa:

RA(x) = (m * TA(x) + p * LA(x)) * F(PRa),

Missä Ra(x)- asiakirjan lopullinen vaatimustenmukaisuus A pyyntö x, Verottaa)- asiakirjan tekstin (koodin) relevanssi A pyyntö x, La(x)- muista asiakirjoista peräisin olevien linkkien tekstin osuvuus asiakirjaan A pyyntö x, PRa- sivun auktoriteetin ilmaisin A, vakio suhteellinen X,
F(PRa) on monotonisesti ei-pienevä funktio, ja F(0) = 1, voimme olettaa sen F(PRa) = (1 + q * PRa), m, s, q- jotkut kertoimet.

Siten sivun paikkaan hakutuloksissa vaikuttavat useat tekijät, jotka liittyvät hakukyselyyn ja joilla ei ole mitään tekemistä sen kanssa.

Miten tiedonhakujärjestelmät toimivat: sijoituskriteerit

Jos haluat Internet-resurssi olevan kolmen parhaan tai vähintään kymmenen parhaan joukossa hakutuloksissa, sinun on tiedettävä hakukoneiden periaatteet ja sijoituskriteerit, jotta voit jatkuvasti optimoida sivuston vastaamaan niiden vaatimuksia. Tällaisia ​​kriteereitä on kaksi pääryhmää:

  • Hakukoneen tekstin kriteerit.

Hakukone tässä tapauksessa asettaa sivut paremmuusjärjestykseen niiden tekstisisällön laadun perusteella. Tämän sivuston osan optimointi edellyttää semanttisen ytimen käyttöä Internet-resurssin luonti- ja täyttämisvaiheessa.

Hakukone, joka käsittelee käyttäjän pyyntöä, näyttää osuvimmat tulokset hakutulosten ensimmäisellä sivulla. Asiakirjoja etsiessään hakukone analysoi otsikkolauseen (otsikon), sivun kuvauksen (kuvauksen) täytön oikeellisuuden ja avainkyselyn olemassaolon otsikoissa (H1, H2 jne.).

  • Ei-tekstihakukonekriteerit.

Hakukone analysoi nämä kriteerit sen jälkeen, kun sivusto on julkaistu ja indeksoitu. Tämän ryhmän kriteerien mukaisen sijoituksen pääperiaate ei ole arvioida niiden sisällön laatua, vaan ulkoisen linkin profiilia.

Hakukone analysoi sivustolle muiden Internet-resurssien linkkien määrän, arvioi niiden auktoriteetin ja tarkastelee rekisteröintejä hakemistoista. Jos vedämme vertauksen, hakukone, kuten pankki, joka päättää myöntää lainan yritykselle, kerää siitä arvosteluja vastapuolilta, toimittajilta ja muilta velkojilta.

Hakukoneiden toiminnan tunteminen auttaa sinua luomaan ja optimoimaan verkkosivustoja, jotka sijoittuvat helposti hakutuloksissa ensimmäiseksi ja pysyvät siellä pitkään, koska ne vastaavat käyttäjien hakukyselyitä.

Kuinka Yandex-hakukone toimii

Tällaisten suurten ja tunnettujen hakukoneiden, kuten Googlen ja Yandexin, toiminta perustuu klusterijärjestelmään. He ryhmittelevät kaiken tiedon mukaan tietyillä alueilla sidottu yhteen tai toiseen klusteriin. Erityisiä robottiskannereita käytetään verkkosivustojen ja yksittäisten sivujen indeksointiin ja tietojen keräämiseen niiltä. Niitä on kahta tyyppiä: päärobottiskanneri (suunniteltu keräämään tietoja säännöllisesti päivitettävistä Internet-resursseista) ja robottiskanneri (tarvitaan indeksoitujen sivustojen luettelon ja niiden indeksien päivittämiseksi mahdollisimman lyhyessä ajassa). Jotta Yandex-hakujärjestelmä voisi kerätä tietoa Internetistä mahdollisimman täydellisesti, hakutietokanta päivitetään säännöllisesti ja ohjelmakoodi:

  1. Hakutietokanta päivitetään useita kertoja kuukaudessa, ja käyttäjät saavat päivitetyt tiedot Internet-resursseista tehdessään kyselyitä hakupalkkiin. Päärobottiskanneri lisää nämä tiedot.
  2. Ohjelmakoodin tai, kuten ohjelmoijat sitä kutsuvat, "moottorin" päivittäminen on tarkoitettu etsimään ja poistamaan puutteita hakutuloksissa olevien sivujen sijoittumiseen liittyvien algoritmien toiminnassa. Yandex yleensä varoittaa käyttäjiä tulevista muutoksista.

Yandex-hakujärjestelmän tärkein etu, joka selittää sen suosion Runetissa, on kyky löytää erilaisia ​​sanamuotoja ottaen huomioon venäjän kielen morfologiset ominaisuudet. Maantieteellinen kohdistaminen ja hakukaava mahdollistavat mahdollisimman tarkan sanamuodon. Yandexillä on myös oma ainutlaatuinen algoritmi sivujen ja sivustojen luokitteluun. Järjestelmän kiistaton etu on käyttäjien hakupyyntöjen käsittelyn nopeus ja palvelimien vakaa toiminta.

Kuten jo mainittiin, resursseja indeksoidessaan hakukone tarkastelee dynaamisia linkkejä, joiden olemassaolo voi saada botin kieltäytymään määrittämästä sivustoindeksiä.

Yandexin toimintaperiaate perustuu tekstisisällön analysointiin asiakirjoissa, joissa on eri päätteet (.pdf, .rtf, .doc, .xls, .ppt jne.).

Indeksoiessaan Internet-resurssia hakukone ottaa tiedot robots.txt-tiedostosta, kun taas Allow-attribuuttia ja joitakin sisällönkuvauskenttiä tuetaan, mutta Reviit-After- ja Keywords-sisällönkuvauskenttiä ei oteta huomioon.

Katkelmat (lyhyet kuvaukset) tekstiasiakirjoja) koostuvat etsimäsi sivun lauseista, joten kuvaukseen ei tarvitse kirjoittaa tunnisteita, mutta niitä voidaan tarvittaessa lisätä.

Monien kehittäjien mukaan indeksoitujen asiakirjojen koodi määritetään automaattinen tila, joten koodaussisällönkuvauskentällä ei ole suurta merkitystä.

Yandex kiinnittää suurta huomiota indikaattoriin viimeinen mahdollisuus tiedot (muokattu viimeksi). Jos palvelin lopettaa näiden tietojen lähettämisen hakukoneeseen, sivusto indeksoidaan paljon harvemmin.

Jos Internet-resurssilla on omat "peilinsä" (esimerkiksi http://www.site.ru, http://site.ru, https://www.site.ru), sinun on varmistettava, että hakukonetta ei ole indeksoitu. Jos tämä ei ole mahdollista, tällaiset sivustot voidaan yhdistää tekemällä tarvittavat muutokset robots.txt-dokumenttiin.

Kun Internet-resurssi pääsee Yandex.Catalogiin, hakukone luokittelee sen sivustoksi, joka vaatii erityistä huomiota, mikä vaikuttaa sen mainostamiseen. Tämä yksinkertaistaa myös menettelyä sivuston aiheen määrittämiseksi, mikä on epäilemättä plussaa, koska sillä on merkittävä ulkoinen linkki.

Yandex-kehittäjät eivät paljasta robottiensa IP-osoitteita. Eri sivustojen lokitiedostoista löytyy kuitenkin tekstimerkkejä, jotka kuuluvat tämän hakukoneen roboteille.

Kaikista hakuroboteista tärkein on tärkein. Sivuston merkitys Yandexille riippuu sen sivun indeksointityön tuloksista.

Jokaisella robotilla on oma aikataulu Internet-resurssien indeksoimiseksi. Eri robottien työaika hakukonetietokannan kunkin sivuston kanssa ei välttämättä ole sama.

Päärobottien lisäksi hakukoneessa on muita, jotka käyvät säännöllisesti Internet-resurssien sivuilla tarkistaakseen saatavuuden. Nämä ovat esimerkiksi Yandex.Catalogin ja Yandex-mainosverkoston robotteja.

Yandex-hakukone keskittyy seuraaviin ulkoisen optimoinnin avainindikaattoreihin:

  1. TCI (julkinen temaattinen lainausindeksi) - näyttää sivustolle avautuvien linkkien keskimääräisen määrän. Ei vaikuta suoraan sijoitustuloksiin; sitä käytetään määrittämään sijoituksia Yandex.Catalogin temaattisessa ryhmässä. Käytetään Internet-resurssien edistämiseen.
  2. vCI (painotettu lainausindeksi) on erityinen algoritmi, joka on suunniteltu laskemaan sivustolle johtavien ulkoisten linkkien määrä. Se on ensiarvoisen tärkeää sijoitettaessa sivuja hakukoneiden mukaan.
  3. Sivuston läsnäolo Yandex.Cataloguessa.
  4. Sivuston indeksoitujen sivujen kokonaismäärä.
  5. Internet-resurssin sisällön indeksoinnin tiheys.
  6. Linkkien läsnäolo ja puuttuminen sivustolta, sivuston läsnäolo hakusuodattimissa.

Viittausindeksi on aihe- ja painotetun lainausindeksin perusta.

Lainausindeksi(CI) - viittausten (tai linkkien alkuperäiseen lähteeseen) lukumäärän indikaattori auttaa määrittämään, mitkä äskettäin luoduista dokumenteista viittaavat aikaisempiin julkaisuihin. IC:tä käytetään sekä artikkeleiden että tekijöiden analysointiin (esimerkiksi tiedeyhteisössä).

Yandexissä, kuten muissakin hakukoneissa, viittausindeksiä pidetään käänteisten linkkien lukumääränä ottamatta huomioon linkkejä seuraavan tyyppisiltä sivustoilta: moderoimattomat hakemistot, viestitaulut, verkkokonferenssit, palvelimen tilastosivut, XSS-linkit jne., joiden määrä voi jatkuvasti kasvaa ilman resurssin omistajan osallistumista.

On syytä selventää, että Aport-luettelossa IC:tä pidetään painotettuna viittausindeksinä.

Tämän indeksin laskemiseen käytetään linkkigraafia: jos sivustot ovat graafin kärjet ja linkit muihin sivustoihin ovat yhteyksiä graafin kärkien tai reunojen välillä, linkkikaavio näkyy kuvassa esitetyn kaavion muodossa:


Missä A, B, ..., F ovat tiettyjä sivustoja Yandex-hakukonehakemistossa, ja nuolet osoittavat niiden välisten yhteyksien suunnat (yksisuuntainen tai kaksisuuntainen).

Viittausindeksillä on suuri rooli hakukoneen asiakirjojen luokittelussa, mutta lopputulokset eivät riipu vain tästä indikaattorista.

Viittausindeksin uskotaan kuvaavan julkaisun merkitystä, mutta se ei heijasta sivuston linkkirakennetta, joten resurssit, joissa on eri määrä ulkoisia linkkejä, voidaan indeksoida tasapuolisesti.

Tämän puutteen poistamiseksi käytetään painotettua viittausindeksiä, joka kuvaa viittausresurssien määrän lisäksi myös laatua. Linkkihaun ja staattisen linkin suosion käyttö helpottaa hakukoneiden työtä säästäen niitä erilaisilta tekstiroskapostilta. Hakukoneessa Google-järjestelmä Käytetään PageRank-indikaattoria, joka on samanlainen kuin painotettu viittausindeksi.

VIC:n ja muiden sijoitukseen vaikuttavien tekijöiden laskemiseen käytetään vertailukaaviota. Sivuston omistaja voi itsenäisesti arvioida Internet-resurssinsa VIC-arvon tarkistamalla sen PageRank-arvon käyttämällä mitä tahansa saatavilla olevaa online-palvelua. Mutta on syytä pitää mielessä, että Yandex-hakemisto sisältää vain venäjänkielisiä asiakirjoja ja vain muutamia suosittuja ulkomaisista, joten Yandex VIC:n arvo eroaa Google PageRankista.


Taulukko ( => 26 [~ID] => 26 => 22.10.2019 21:34:24 [~TIMESTAMP_X] => 22/10/2019 21:34:24 => 1 [~MODIFIED_BY] => 1 => 22.10.2019 21:34:24 [~DATE_CREATE] => 22/10/2019 21:34:24 => 1 [~CREATED_BY] => 1 => 6 [~IBLOCK_ID] => 6 => [~IBLOCK_SECTION_ID] => => Y [~ACTIVE] => Y => Y [~GLOBAL_ACTIVE] => Y => 500 [~SORT] => 500 => Sergei Nezhnikovin artikkelit [~NAME] => Artikkelit tekijältä Sergei Nezhnikov => 12013 [~PICTURE] => 12013 => 17 [~LEFT_MARGIN] => 17 => 18 [~RIGHT_MARGIN] => 18 => 1 [~DEPTH_LEVEL] => 1 => Sergey Nezhnikov [~KUVAUS] => Sergei Nezhnikov => teksti [~DESCRIPTION_TYPE ] => teksti => Sergei Nezhnikovan artikkelit Sergei Nezhnikova [~SEARCHABLE_CONTENT] => Sergei Nezhnikovin artikkelit Sergei Nezhnikova => stati-sergeya-nezhnikova [~ stati-sergeya] => -nezhnikova => [~XML_ID] => => [~TMP_ID] => => [~DETAIL_PICTURE] => => [~SOCNET_GROUP_ID] => => /blog/index.php?ID=6 [~LIST_PAGE_URL] => /blog/index.php?ID=6 => /blog/list.php?SECTION_ID=26 [~SECTION_PAGE_URL] => /blog/list.php?SECTION_ID=26 => blogi [~IBLOCK_TYPE_ID] => blogi => blogi [~IBLOCK_CODE] => blogi => [~IBLOCK_EXTERNAL_ID] => => [~EXTERNAL_ID] =>)

Ne ovat yksi tärkeimmistä ja tärkeimmistä Internet-palveluista.

Hakukoneiden avulla miljardit Internetin käyttäjät löytävät tarvitsemansa tiedon.

Mikä on hakukone?

Hakukone on ohjelmisto- ja laitteistokompleksi, joka käsittelee erikoisalgoritmeilla valtavan määrän tietoa useista eri sivustoista ja niiden sisällöstä jokaiselle sivulle asti.

Hakukone on tavallisen vierailijan näkökulmasta niin älykäs sivusto, joka sisältää paljon tietoa ja tarjoaa vastauksia kaikkiin käyttäjien kysymyksiin.

Internetin käyttäjät käyttävät eri hakukoneita eri maissa. Internetin englanninkielisessä segmentissä suosituin hakukone on Google.

Hakukoneet RuNetissä

Venäjällä yli puolet käyttäjistä suosii Yandex-hakukonetta, ja Google vastaa noin 35 % kyselyistä. Muut käyttäjät käyttävät Rambleria, Mail.ru:ta, Nigmaa ja muita palveluita.

Ukrainassa noin 60 % käyttäjistä käyttää Googlea, Yandexin osuus käsitellyistä pyynnöistä on hieman yli 25 %.

Siksi asiantuntijat yrittävät mainostaa sivustoja Runetissa mainostaessaan sivustoa keskittyen hakukoneisiin Yandex ja Google.

Hakukonetehtävät

Vastatakseen vierailijoiden kysymyksiin mahdollisimman tarkasti hakukoneiden on suoritettava seuraavat tehtävät:

  1. Kerää nopeasti ja tehokkaasti tietoa eri sivustojen eri sivuista.
  2. Käsittele näitä sivuja koskevia tietoja ja määritä, mitä kyselyä tai kyselyitä ne vastaavat.
  3. Luo ja tarjoa hakutuloksia vastauksena käyttäjien pyyntöihin.

Hakukoneiden komponentit

Hakukoneet ovat monimutkainen ohjelmistokompleksi, joka koostuu seuraavista päälohkoista:

  1. Tiedonkeruu.
  2. Indeksointi.
  3. Laskeminen.
  4. Rangeissa.

Tämä jako on ehdollinen, koska eri hakukoneiden työ eroaa jonkin verran toisistaan.

1. Tiedonkeruu

Tässä vaiheessa tehtävänä on etsiä uusia asiakirjoja, tehdä suunnitelma niiden vierailemisesta ja skannauksesta.

Verkkovastaavien on kerrottava hakukoneille uusien materiaalien ilmestymisestä asettamalla sivun osoite lisäsivulle tai lähettämällä sivun ilmoitus sosiaalisiin verkostoihin.

Henkilökohtaisesti käytän viimeinen tapa ja mielestäni tämä riittää.

Kommentti. Poikkean hieman ja puhun ilmoitusten tekemisen tehokkuudesta sosiaalisissa verkostoissa uusien verkkosivujen indeksoinnin nopeudesta.

Käytän text.ru-palvelua valvomaan ja tallentamaan tekstin ainutlaatuisuutta verkkosivustoni sivuilla.

Se tarkistaa laadullisesti ainutlaatuisuuden, tallentaa sen ja mahdollistaa ainutlaatuisuusbannerin sijoittamisen verkkosivustosi sivuille.

Mutta joskus tämän palvelun käsittelyyn on pitkä jono. Minulla on ollut useita tapauksia, joissa en odottanut ainutlaatuisuustarkastusta, julkaisin artikkelin sivustolle ja levitin sitä sosiaalisessa mediassa.

Jos ainutlaatuisuuden tarkistus viivästyi noin tunnin tai enemmän, yksilöllisyysprosentti oli aina 0 %. Tämä tarkoittaa, että alle tunnin kuluttua lähettämisestä sivu oli jo indeksoitu ja syötetty hakukoneen tietokantaan.

2. Indeksointi

Hakukoneet kerättyään tietoja uusista verkkosivuista sijoittavat ne tietokantaansa. Tässä tapauksessa muodostetaan hakemisto, eli avain tämän sivun tietojen nopeaan käyttöön, jos sellainen tarve ilmenee.

3. Laskenta

Tietokantaan syöttämisen jälkeen sivustojemme sivut käyvät läpi erilaisten parametrien ja indikaattoreiden laskentavaiheen.

Kukaan muu kuin hakukonealgoritmien kehittäjät itse ei voi sanoa tarkalleen kuinka monta näistä indikaattoreista on ja miten ne lasketaan.

4. Ranking

Sitten laskettujen parametrien ja indikaattoreiden perusteella määritetään sivun relevanssi tiettyihin kyselyihin ja sivu sijoitetaan.

Tämä on tärkeää näiden kyselyiden hakutulossivujen nopean ja laadukkaan luomisen kannalta.

Hakukoneet tuottavat vastauksia käyttäjien kyselyihin ja tuottavat niille tuloksia hakutulossivun muodossa.

On huomattava, että sivutietojen käsittelyyn, indikaattoreiden luomiseen ja sijoitusmenetelmiin liittyviä algoritmeja parannetaan jatkuvasti. Prioriteetit, joiden mukaan luokitus tapahtuu, muuttuvat.
Hakukoneet pyrkivät vastaamaan käyttäjien pyyntöihin mahdollisimman tarkasti, yrittäen ottaa huomioon pyynnön luonteen, tietyn käyttäjän edut, hänen asuinpaikkansa, ikänsä, sukupuolensa, tottumukset ja taipumukset.

Monet meistä käyttävät hakukoneita, kuten Google, Yandex, Yahoo jne., mutta ymmärtävätkö kaikki kuinka hakukonemekanismi toimii? Huolimatta siitä, että jokaisella hakukoneella on omat ominaisuutensa hakualgoritmeissa ja sijoitustuloksissa, kaikkien hakukoneiden toimintaperiaatteet ovat yhteisiä.

Jos tarkastelemme Internetistä tiedonhakuprosessia, se voidaan jakaa seuraaviin vaiheisiin: tiedon kerääminen Internetin sivustojen sivuilta, sivustojen indeksointi, kyselyn etsiminen ja tulosten luokitus. Tarkastellaan jokaista vaihetta erikseen.

Tiedonkeruu

Heti kun olet käynnistänyt sivustosi ja antanut jonkin hakukoneen robotin ymmärtää, että uusi resurssi on ilmestynyt (käyttämällä ulkoisia linkkejä sivustollesi, lisäämällä sen tai muilla tavoilla), robotti tulee luoksesi, alkaa kävellä läpi. sivuille ja kerätä tietoja niiden datasta (tämä voi olla tekstisisältöä, kuvia, videoita ja muita tiedostoja). Tätä prosessia kutsutaan tiedonkeruuksi. ryömiminen) ja se voi tapahtua paitsi silloin, kun sivusto käynnistetään. Robotti luo sivustolle aikataulun, milloin sen tulee vierailla sillä seuraavan kerran, tarkistaa vanhat tiedot ja lisätä uusia sivuja, jos sellaisia ​​on.

On tärkeää, että kommunikointi sivustosi ja botin välillä on miellyttävää molemmille osapuolille. On sinun etujesi mukaista, että botti ei pysy sivustolla pitkään, jotta se ei ylikuormittaisi palvelinta, ja samalla on välttämätöntä, että se kerää oikein kaikki tiedot kaikilta tarvittavilta sivuilta. On myös robotin edun mukaista tehdä keräyksestä riittävän nopea aloittaakseen aikataulutaulukon seuraavan sivuston käsittelyn. Tätä varten sinun on varmistettava, että sivusto on saavutettavissa, että sivustolla navigoinnissa ei ole ongelmia (robotit tunnistavat edelleen huonosti flash- ja javascript-valikot), ettei niissä ole rikkinäisiä sivuja (antaa 404-virheitä) ja älä pakota bottia käymään läpi sivuja, jotka ovat vain rekisteröityneiden käyttäjien käytettävissä ja niin edelleen. Muista myös, että verkkohämähäkkeille on rajattu tunkeutumissyvyys (pesämistaso) ja skannatun tekstin enimmäiskoko (yleensä 256 kt).

Voit hallita hakurobotin eri resurssien käyttöä robots.txt-tiedoston avulla. Sitemap.xml voi myös auttaa robottia, jos hänen on jostain syystä vaikea navigoida sivustolla.

Hyödyllinen linkki: Tietoja hakurobotista
http://ru.wikipedia.org/wiki/Search_robot

Indeksointi

Robotti voi kävellä sivustollasi pitkään, mutta tämä ei tarkoita, että se näkyy heti hakutuloksissa. Sivuston sivujen on käytävä läpi seuraava vaihe: indeksointi– käänteisen (käänteisen) hakemistotiedoston kokoaminen jokaiselle sivulle. Indeksiä käytetään sen nopeaan hakuun, ja se koostuu yleensä luettelosta tekstistä ja niistä tiedoista (paikat tekstissä, paino jne.).

Kun sivusto tai yksittäiset sivut on indeksoitu, ne näkyvät päähakukoneen tuloksissa ja löytyvät tekstissä olevien avainsanojen avulla. Indeksointiprosessi tapahtuu yleensä melko nopeasti sen jälkeen, kun robotti hakee tietoja sivustostasi.

Voit myös lukea: Miten hakukoneet toimivat
http://download.yandex.ru/company/iworld-3.pdf
Käänteinen tiedosto
http://wiki.liveinternet.ru/IR/InvertirovannyjjFajjl

Etsi tietoa

Haettaessa ensin analysoidaan käyttäjän syöttämä kysely (kysely esikäsitellään), minkä seurauksena kunkin sanan painoarvot lasketaan (ns. re-enchantment Yandexissä).

Seuraavaksi haku suoritetaan käänteisillä indekseillä, kaikki kokoelman asiakirjat (hakukonetietokanta) löydetään, jotka sopivat parhaiten tämä pyyntö. Toisin sanoen asiakirjan samankaltaisuus kyselyn kanssa lasketaan käyttämällä suunnilleen seuraavaa kaavaa

samankaltaisuus(Q,D) = SUMMA (w qk * w dk),

Missä samankaltaisuus (Q, D)— pyynnön samankaltaisuus K asiakirja D;
w qk— k:nnen sanan paino kyselyssä;
wdk— asiakirjan k:nnen sanan paino.

Asiakirjat, jotka muistuttavat eniten kyselyä, sisällytetään hakutuloksiin.

Hyödyllinen materiaali: AUTOMAATTINEN TEKSTIANALYYSI
http://www.dcs.gla.ac.uk/Keith/Chapter.2/Ch.2.html
Minychin Yandex-algoritmin selitys
http://www.minich.ru/business/seo/

Rangeissa

Kun ydinkokoelmasta on valittu samankaltaisimmat asiakirjat, ne tulee asettaa paremmuusjärjestykseen, jotta parhaat tulokset kuvastavat käyttäjälle hyödyllisimpiä resursseja. Tätä varten käytetään erityistä sijoituskaavaa, jolla on eri muoto eri hakukoneille, mutta niille kaikille tärkeimmät sijoitustekijät ovat:

  • sivupaino ( , );
  • verkkotunnuksen viranomainen;
  • tekstin merkitys pyynnön kannalta;
  • ulkoisten linkkien tekstien osuvuus kyselyyn;
  • sekä monet muut sijoitustekijät.

Joistakin optimointiartikkeleista löytyy yksinkertaistettu sijoituskaava:

Ra(x)=(m*TA(x)+p*Lа(x))* F(PRa),

Missä:
Ra(x)– asiakirjan lopullinen vaatimustenmukaisuus A pyyntö x,
Verottaa)– asiakirjan tekstin (koodin) relevanssi A pyyntö x,
La(x)– muista asiakirjoista peräisin olevien linkkien tekstin osuvuus asiakirjaan A pyyntö x,
PRa– sivun auktoriteetin ilmaisin A, vakio suhteellinen X,
F(PRa) on monotonisesti ei-pienevä funktio, ja F(0) = 1, voimme olettaa sen F(PRa) = (1+q*PRa),
m, s, q- jotkut kertoimet.

Eli meidän on tiedettävä, että asiakirjoja järjestettäessä käytetään sekä sisäisiä että ulkoisia tekijöitä. Voit myös jakaa ne pyynnöstä riippuviin tekijöihin (asiakirjan tekstin tai linkkien relevanssi) ja pyynnöstä riippumattomiin tekijöihin. Tietenkin tämä kaava antaa hyvin yleinen idea algoritmeista asiakirjojen sijoitteluun hakutuloksissa.

Tarkempia tietoja hakukoneiden toimintaperiaatteista suosittelen lukemaan tällä sivulla olevien linkkien materiaalit.

Hyödyllisiä linkkejä sijoituksesta: ROMIP 2004
http://company.yandex.ru/articles/romip2004.xml
Yandexin tekstin luokittelualgoritmi ROMIP-2006:ssa
http://download.yandex.ru/company/03_yandex.pdf
Relevanssiin vaikuttavat keskeiset tekijät