Jutut »

Googlen algoritmin historia pikakelauksella

Nofollow

Linkit ja sisältö ovat aina olleet Googlen algoritmin tärkeimpiä rakennusosia. Voimmeko ottaa opiksi algoritmin historiasta? Älä tee sivustollesi toimia vain ja ainoastaan Google-sijoitusten parantamiseksi.


Googlen hakutulosnäkymä on pysynyt varsin samankaltaisena koko sen reilun 20-vuotisen historian ajan. Alunperin hakukoneen nimi oli BackRub, kun Larry Page ja Sergey Brin kehittivät sen opiskeluaikoinaan Stanfordin yliopistossa vuonna 1996.

hakutulokset

Googlen algoritmi tarkoittaa tapaa, jolla Google laskee hakutulossivulleen tulevat luonnolliset halutulokset ja miten niiden järjestys määräytyy.

Myös algoritmin perusratkaisut ovat säilyneet hyvin samanlaisina vuosien saatossa, vaikka muutoksia on tietenkin tapahtunut ja algoritmia on kehitetty eteenpäin.

Vuonna 2016 Googlen Andrey Lipattsev paljasti, että kaksi Googlen kolmesta tärkeimmästä hakutuloksiin vaikuttavasta tekijästä ovat linkit ja sisältö. Tästä näkökulmasta voisi jopa sanoa, ettei Googlen algoritmin sisältö ole juuri muuttunut. Tulemme kolmanteen tekijään jutun lopussa.

Googlen algoritmista puhuttaessa on pakko antaa varoituksen sana. Sen tarkka toiminta on liikesalaisuus. Kuitenkin toimintaperiaatteet tunnetaan yleisellä tasolla aika tarkkaan.

Tämä esitys pohjautuu 1) varhaisen Googlen algoritmin toimintaan, joka on esitelty Brinin ja Pagen yliopistotyössä (The Anatomy of a Large-Scale Hypertextual Web Search Engine), 2) Googlen ja sen työntekijöiden julkisuuteen antamiin tietoihin, 3) Googlen toimintaa seuraavien asiantuntijoiden arvioihin ja 4) omaan kokemukseeni aiheesta.

Kaikki alkoi - linkeistä ja sisällöstä

Lähden liikkeelle esimerkillä, joka kuvaa tilannetta ennen Googlea. Meillä on sivu, jossa puhutaan monitoimitulostimista, mustesuihkutulostimista, lasertulostimista ja monitoimilaitteista. Nämä sanat edustavat sitä terminologiaa, jota sivustoa ylläpitävät haluavat käyttää.

Hakijat kuitenkin hakevat termillä "printteri".

Googlea edeltävillä hakukoneilla ei ollut oikein eväitä yhdistää tätä sivua ja printteriä hakevia ihmisiä. Varhaiset hakukoneet pystyivät hyödyntämään pääsääntöisesti vain yksittäisten sivujen tekstiä ja lähdekoodia. Se, miten tämä sivu kytkeytyy ympäröivään maailmaan, oli liian vaikea pala ratkaistavaksi.

monitoimilaite

Ratkaisu löytyy kyseisen sivun ulkopuolelta tulevista linkeistä.

Alla kuvassa toinen sivu, jonka teksti on lähempänä hakijoiden käyttämää kieltä. Sivu voisi olla keskustelufoorumi, jossa kysellään suosituksia hyvistä printtereistä. Linkki on tarjottu linkittämällä "printteri"-sanalla.

Nämä linkkitekstit eli ankkuritekstit tarjosivat Googlelle lisää sanoja ja ilmauksia. Käytyään läpi tämän, Google osaisi tarjota "printteri"-hakijalle linkitetyn sivun, vaikka siellä eli olekaan sanaa "printteri".

printterilinkki

Entä miten Google on osannut laittaa hakijan hakemat sivut keskenään järjestykseen? On paljon sivuja, joissa puhutaan printtereistä ja tulostimista, miten Google valitsee sen, jota tarjotaan "printteri" hakijalle ensimmäiseksi, mitä toiseksi?

websivut

Meillä on joukko yksittäisiä websivuja. Tarvitaan jotakin, joka määrittelee näiden sivujen keskinäisen tärkeysjärjestyksen.

websivulinkit

Tämä jokin löytyy näiden sivujen keskinäisistä linkeistä. Tässä kuvassa sivu D linkittää sivuja A ja B. Sivulta B löytyy linkki, joka johtaa sivulle C, jne.

Näiden linkitysten avulla varhaisessa Googlessa eli Backrubissa laskettiin jokaiselle sivulle PageRank, joka tarkoittaa näillä sivuilla satunnaisesti linkkejä klikkailevan henkilön todennäköisyyttä olla kyseisellä sivulla.

pagerank

Yllä lopputulos nyt esitetyillä sivuilla ja niiden välisillä linkityksillä. Satunnaisen surffailijan todennäköisyys olla sivulla B on 38,4%. Sillä on näistä sivuista suurin PageRank. Tämä on ymmärrettävää, kun huomataan kuinka paljon linkkejä johtaa tälle sivulle. Toisaalta melkein yhtä paljon linkkivoimaa on myös sivulla C. Tämä on ymmärrettävää, sillä sivulta B satunnainen surffailija ei voi klikata muualle kuin sivulle C.

Tällä on tärkeä merkitys myös sivuston navigaation suunnittelussa. Ne sivut, jotka keräävät paljon linkityksiä ulkopuolelta (kuten yleensä etusivu), voivat edelleen kanavoida tätä linkkivoimaa eteenpäin niille sivuille, joiden erityisesti halutaan pärjäävän hakukoneissa.

Näin Google on pystynyt laskemaan kaikille webin sivuille arvon, joka kuvaa tämän sivun tärkeyttä suhteessa muihin sivuihin. Voidaan tavallaan ajatella, että webin sivut äänestävät toisiaan.

Googlen PageRank - ainakin muuntuneena - on edelleen käytössä Googlella. Lisäksi sen matematiikasta on helppo johtaa jatkotuotteita.

Linkit ja sisältö kietoutuivat algoritmissa uudella tavalla

Google toi pöydälle kaksi tärkeää innovaatiota. Toinen oli PageRank ja toinen linkittävällä sivulla käytetty linkkiteksti eli ankkuriteksti. Linkit ja sisältö kietoutuivat Googlen algoritmissa uudella tavalla.Tämä on tietynlaista webin sisäistä "demokratiaa". Toisaalta webin sivut äänestävät toisiaan, toisaalta pyritään ottamaan huomioon sitä kieltä, mitä sivuston ulkopuolella käytetään.

Tällainen webin "demokratia" toimii varsin hyvin ainakin niin kauan kuin ei aleta keinotekoisesti tehtailemaan ääniä. Foorumeihin on helppo ujuttaa linkkejä, joiden ainoa tarkoitus on yrittää vaikuttaa Googlen hakutuloksiin haluttuja sivuja nostavasti.

nofollow

2005: Nofollow vie linkin äänioikeuden

Tätä ehkäistääkseen Google ehdotti vuonna 2005 käyttöön nofollow-attribuuttia. Linkin voi koodata siten, että siinä on käytössä tämä nofollow ja se tarkoittaa sitä, että kyseiseltä linkiltä on viety äänioikeus. Se ei vie linkkivoimaa eteenpäin - myöskään linkin teksti ei välity Googlen algoritmissa linkitetylle sivulle.

Ja hupsista, hetkessä suurelta joukolta vilpillisesti asetetuilta linkeiltä katosi voima. Valitettavasti sama tapahtui samalla myös monille aidoillekin linkkiäänille.

Tällainen nofollow on nykyään yleisesti käytössä niin keskustelufoorumeissa kuin Wikipediassa linkeissä, jotka johtavat näiltä sivustoilta ulospäin. Samoin Google edellyttää, että ostetuissa linkeissä pitäisi olla nofollow.

No miten linkkivoimaa eli PageRankia on voinut käytännössä hyödyntää websivujen rakenteen suunnittelussa?

Esimerkki linkkivoiman kanavoitumiseen

Otetaan esimerkiksi hyvin yksinkertainen sivusto, jossa etusivulta johtavat linkit yhteys, palvelut ja tuotteet sivulle sekä yhteistyökumppanin ulkopuoliselle sivulle.

Tuotteet sivulta taas löytyy linkit eteenpäin vasara, lapio ja saha -sivuille.

Kyseessä nyt tosiaan yksinkertaistus, sillä käytännössä sivustoilla jokainen sivu linkittää esimerkiksi takaisin etusivulle jne. mutta näin saadaan linkkivoiman kanavoituminen korostetusti esitettyä.

Etusivulle tulee linkkejä 100 PageRankin verran. Tämä on jälleen yksinkertaistus, sillä PageRankhan on todennäköisyys ja kaikkien webin sivujen yhteenlaskettu PageRank on tasan 1.

sivusto

Etusivulla on linkkivoimaa 100. Etusivu kanavoi oman linkkivoimansa omien linkkiensä kautta, joita on 4. 100/4 on 25. Tämän verran menee etusivulta linkitetyille sivuille: Yhteys, palvelut, tuotteet ja kumppanin sivu. Tuotesivulta 25 jakaantuu kolmelle sivulle: vasara, lapio, saha, siten että kullekin tulee noin 8.3.

Yleensä juuri nämä tuotesivut ovat niitä, joilla olisi tarpeen pärjätä Googlessa - silloin kun haetaan vasaraa, lapiota tai sahaa.

Etusivulle päädytään pääsääntöisesti, kun haetaan yrityksen nimellä, eikä silloin yleensä kilpailla kenenkään kanssa.

sivusto

Yksi vaihtoehto voisi olla linkittääkin etusivulta kaikki sivut, eli nostaa tuotesivut ylemmäs sivuston hierarkiassa. Näin yksittäisten tuotesivujen PageRank nousee 8.3:sta 14.3:een. Tällöin huomataan, että ehkä tuotesivu onkin tässä tapauksessa turha ja se voidaan poistaa.

sivusto

Näin saadaan PageRank jakautumaan pienemmälle määrälle sivuja ja saadaan se nousemaan yksittäisellä tuotesivulla 16.7:ään.

Minusta tähän saakka toiminta on ihan linjassa hyvän käyttökokemuksen kanssa. Jos keskeiset tuotteet ovat vasara, lapio ja saha, miksei niitä muutenkin (riippumatta hakukonesijoituksista) voisi nostaa näkymään suoraan etusivulle.

Mutta eihän tämäkään tilanne tietenkään kaikille riitä, jos voi mennä vielä pidemmälle. Annan nyt esimerkin toimenpiteestä, joka tehdään yksinomaan Googlen-hakutuloksiin vaikuttamisen tarkoituksessa. Muistatte linkin nofollow-attribuutin. Hetkinen, sitähän voisi käyttää linkkivoiman kanavoimiseen edelleen. Entäpä jos laitetaan nofollow tuohon yhteystietosivuun johtavaan linkkiin sekä yhteistyökumppanille johtavaan linkkiin. Nehän imevät turhaan linkkimehua.

sivusto

Näin saatiin tärkeiden tyotesivujen PageRank nostettua jo 25:een.

Eikö tämä ole teistäkin kikkailua?

2008: Linkin äänioikeutta ei voi siirtää

Googlen Matt Cutts ilmoittikin blogissaan vuonna 2009, että nofollow ei toimi enää näin, vaan nofollow:lla varustettujen linkkien linkkivoimaa eivät sivun muut linkit pysty enää käyttämään. Nofollow-linkin linkkivoima ikään kuin haihtuu ilmaan.

sivusto

Olemme siis alkuperäisessä tilanteessa. Tosin itse asiassa tilanne onkin oikeasti kehnompi. Yhteystietosivu on menettänyt sitä linkkivoimaa, jota se voisi edelleen kanavoida omien linkkiensä kautta. Kuvan tilanteessa siis haihdutetaan ilmaan 16.7 verran PageRankkia, jonka voisi muutoin kanavoida eteenpäin.

Tästä esimerkistä käy ilmi se, miten ei kannata toimia, huomioiden Googlen algoritmin kehitys:

Älä tee sivustosi eteen sellaisia toimenpiteitä, jotka ovat vain ja ainoastaan Googlen ränkkien parantamiseksi. Niiden tekemiseen menevä aika on hukkaan heitettyä aikaa, jonka olisi voinut käyttää paremmin. Tällaisilla toimenpiteillä voi saada hetkellistä hyötyä, mutta pidemmässä juoksussa ne jättävät jälkeen.

James Bond

Algoritmille tärkeitä elementtejä

Yllä on James Bond -sivu wikipediassa. Se käy esimerkistä siitä, mitä elementtejä Google on painottanut algoritmissaan.

Nythän kurkistamme aiheeseen aika kapeasta näkökulmasta ja sivuutamme kokonaan kysymyksen siitä, onko "James Bond" hyvä hakutermi. Algoritmin kannalta on jo alunperin hyvä palastella sivusto sellaisiin sivuihin, jotka kukin edustavat yksittäisiä asioita, joilta kultakin löytyy vastaus Google-hakijan esittämään hakuun tai kysymykseen - ja rakentaa sivuston navigaatiorakenne sopivaksi linkkivoimaa silmälläpitäen.

Ankkuriteksti, title, sisältö, h1 ja url

Meillä on sivulla uniikkia ja hyvää sisältöä, joka kertoo kattavasti James Bondista. Sivun sisällössä on myös esillä ilmaus "James Bond". Sivun titlessä, joka näkyy selaimen yläpalkissa tai välilehden kohdalla, on "James Bond". Sivua linkitetään ulkopuolelta ja joissakin linkeissä linkkitekstissä on myös "James Bond".

Samaan hengenvetoon on syytä todeta, että jos linkit ulkopuolelta ovat epäaitoja, esim. hankittu ostamalla tai spämmäämällä foorumeita, Googlella on keinot sen selvittämiseen.

Myös näkyvä otsikko (tässä tapauksessa H1-elementti) sekä sivun url eli osoite ovat tärkeitä elementtejä, tosin niiden merkitys on ollut vähenemään päin.

Toki hakutuloksiin vaikuttavia tekijöitä on leegio, mutta suurimmaksi osaksi ne ovat sellaisia, ettei niihin käytännössä voi juurikaan vaikuttaa.

Titlen merkitystä korostaa se, että se näkyy myös Googlen tuloksissa napsautettavana otsikkona. Googlen kuvausteksti puolestaan tulee joko itse sivun sisällöstä tai sivun lähdekoodissa näkyvästä meta descriptionista.

James Bond -haku

2013: Sanoista käsitteisiin

Optimoitavaan hakutermiin keskittymisen paradigma on murtumassa, sillä Google on siirtynyt yksittäisistä hakusanoista kohti sanojen ja ilmausten merkitystä, erityisesti 2013 Hummingbird-päivityksen myötä.

Onkin paljon parempi miettiä Googlesta hakijoiden tarkoitusta kyselyilleen. Mitä he oikeasti hakevat? Ja sen jälkeen tarjota näitä asioita oikein annosteltuina paloina sivustolla. Näin tullaan mahdollisesti antaneeksi parhaita vastauksia hakijoiden kysymyksiin ja se on oikea tie Googlen huipulle.

Aikajana Googlen algoritmin kehitykseen

1996: Backrub oli Googlen alkuperäinen nimi. Sen algoritmissa on ennen kaikkea kysymys backlinkkien, sivulle osoittavien linkkien tutkimisesta. Jotta voidaan laskea minkä tahansa sivun PageRank oikein, pitää käydä läpi kaikki webin sivut ja niiden väliset linkitykset.

1997: Google.com julkaistiin.

2000: AdWords on Googlen rahantekokone. 2018 AdWordsin nimi muuttui Google Adsiksi.

2003: Florida oli ensimmäinen iso Googlen algoritmin muutos. Se siivosi tuloksista väärillä keinoilla ylös kivunneita.

2004: IPO - Googlesta tuli pörssiyhtiö.

2005: Nofollow otettiin käyttöön.

2005: Google Local - Paikalliset tulokset.

2007: Universal Search. Samasta Googlen hakutulosnäkymästä saattoi löytää myös kuvia, uutisia, videoita ja paikallisia tuloksia.

2008: Search Quality Rating Guidelines ensi kertaa. Google käyttää myös ihmisiä arvioimaan omien tulostensa hyvyyttä. Nämä ohjeet on päivitetty useampaan otteeseen tämän jälkeen.

2008: Nofollow muutos siten, että sitä ei pystynyt enää hyödyntämään linkkivoiman uudelleenkanavoimiseen.

2008: Suggestin myötä hakukenttään kirjoittaessa Google alkoi ehdottaa suosituimpia hakuja.

2009: Caffeinen myötä Google alkoi tarjota tuoreempia tuloksia. Uudet sivut indeksoitiin nopeammin. Hakijat halusivat enemmän ajantasaista tietoa. Ehkäpä tämän seurauksena myös roskaa tuli enemmän suodattamattomana sisään.

2011: Panda siivosi tuloksista heikkolaatuisia sivuja.

2012: Penguin taklasi tuloksia, joita yritettiin edistää vilpillisillä linkeillä

2013: Knowledge Graph on tietopankki, joka näkyy hakujen yhteydessä eri asioita käsittelevinä tietolaatikoina.

2013: Hummingbird eli kolibri oli suuremman luokan algoritmipäivitys, jonka myötä Google on siirtynyt sanojen ja sanaryhmien hakemisesta enemmän merkitysten hakemiseen.

2014: Pigeon eli kyyhky toi paikallisuuteen pohjautuvia tuloksia ja paikallisia listaustuloksia paremmin esiin Google-haussa

2015: Mobile friendly otti hakutuloksissa huomioon sen, toimiko sivu hyvin myös mobiililaitteella.

2015: RankBrain pyrkii ikään kuin arvaamaan, mitä hakija on tarkoittanut. Otettuaan RankBrainin käyttöön 2015 Google kertoi, että 15% sen kyselyistä on sellaisia, joita kukaan ei ole ennen hakenut. RankBrain on koneoppiva järjestelmä, joka pyrkii tarjoamaan hakijalle mahdollisimman hyvin sen, mitä tämä hakee, vaikka ei oikein ymmärräkään mistä on kysymys. Ja koettaa lisätä omaa ymmärrystään siinä samalla.

2018: Mobile indexin myötä Google on alkanut indeksoida eli ottaa omaan muistiinsa sivujen sisältöjä samalla tavalla kuin mobiililaite. Jos sivut on toteutettu siten, että jokin osa tekstiä ei ole nähtävissä mobiililaitteella, ei se myöskään päädy Googleen.

RankBrain ymmärtää hakijaa - tai arvaa haun merkityksen

Google kertoi vuonna 2015, että RankBrain on yksi kolmesta tärkeimmästä Googlen hakutuloksiin vaikuttavasta tekijästä, mutta ei paljastanut kahta muuta. Nyt palataan esityksen alun mainintaan. Seuraavana vuonna 2016 Andrey Lipattsev siis paljasti näiden kahden muun olevan linkit ja sisältö.

"kuka voitti jalkapallon maailmanmestaruuden kaksikymmentä vuotta sitten?"

Tästä kyselystä ei joitakin vuosia sitten olisi irronnut Googlesta taatusti mitään. Tänä päivänä Google voi heittää kyselyn RankBrainille, joka epätäydellisen tiedon valossa arvaa, mistä tässä on kysymys. Tai ehkä voidaan jo sanoa, että Googlen nykyinen Hummingbird-algoritmi tavoittaa oikean merkityksen tälle kyselylle. Joka tapauksessa nyt kun tämän haun tekee niin vastaus on aivan oikein. Ja voi varmaan sanoa, että Google on ymmärtänyt haun kysymyksen.

Ranska

Se historiasta, entä tulevaisuus? No ... ainakin tämän kysymyksen kohdalla toivon, että Google osaa jo ennustaa tulevaisuuden. Vaikka ehkä tässä nyt onkin vain RankBrain toiminnassa.

Suomi

Kirjoittaja: Jussi Honkanen


Lähteitä:

Larry Page & Sergey Brin: The Anatomy of a Large-Scale Hypertextual Web Search Engine

Ian Rogers: The Google Pagerank Algorithm and How It Works

Wikipedia: PageRank

Matt Cutts: PageRank sculpting

Google’s 200 Ranking Factors: The Complete List (2018)

Moz: Google Algorithm Change History

Now we know: Here are Google’s top 3 search ranking factors

Wikipedia: RankBrain

Nettibisnes.info: Hakukoneoptimointi lyhyesti

Julkaistu: 30.8.2018

Uusimmat samoilla tageilla varustetut:

Tagien ja extrojen ylläpito

Extra-kenttä blogisoftassa luo linkit sivujen välille
Kaikilla artikkeleita julkaisevilla sivustoilla on nyt käytössä uusi blogisofta. Nimipaivat.fi:ssä softa mahdollistaa myös artikkelien näkymisen niihin liittyvien nimien sivuilla.

Polkadotin kurssigraafi päivämäärän ja summan valinnalla

Kryptovaluutat valuuttalaskureihin ja kisailua Googlen kanssa
Palvelu listaa nyt 12 suosituinta kryptovaluuttaa. Google Suggest ja Googlen oman valuuttamuuntimen käyttöönotto ovat tiputtaneet palveluiden kävijämääriä.

Nimipaivat.fi liikenteen kehitys 10 vuoden ajalta

Onnea 10-vuotias Nimipaivat.fi!
Yksi vanhimmista verkkopalveluistani on 10 vuoden ikään ehtinyt Nimipaivat.fi. Sivuston Google-näkyvyyden tarkastelu paljastaa suosion saloja ja uusia ideoita sivustokehitykseen.

Hakukoneoptimointi Top Secret :)

Hakukoneoptimoinnin salaisuus
Haluat tietää, miten tehdä menestyksekästä hakukoneoptimointia? Olet tullut oikeaan paikkaan! Lue lisää ... :)

PageRank

Onko Google demokratia?
Googlen algoritmin sydän on ollut PageRankin eli linkkivoiman laskeminen. Tästä websivujen demokratiasta ollaan nyt siirtymässä toisenlaiseen demokratiaan.