Robots.txt on tiedosto, joka kertoo Googlelle ja muille hakukoneille, mitkä sivuston sivut niillä on lupa indeksoida ja ottaa mukaan hakutuloksiin. Robots.txt sijaitsee aina sivuston juuressa, esim. www.sivusto.fi/robots.txt. Kerään tälle sivulle robots.txt-tiedostoon liittyviä kysymyksiä.
Jos haluat, että Google voi käydä läpi ja indeksoida kaikki sivustollasi olevat sivut tai määrittelet indeksointikiellot sivukohtaisesti meta-robots-tagilla, voit jättää tiedoston kokonaan pois. Robots.txt -tiedosto ei ole pakollinen.
Huomaa, että aina kun Googlen hakurobotti saapuu ensimmäistä kertaa jonain päivänä tutkimaan sivujasi, se yrittää alkutöikseen hakea robots.txt -tiedoston, ja jos tiedostoa ei ole, www-palvelimen virhelokiin tulee yrityksestä merkintä. Tämä on kuitenkin lähinnä esteettinen murhe.
Tiheys, jolla Google käy tutkimassa sivujasi voi vaihdella minuuteista päiviin. Kun Googlen hakurobotti saapuu tutkimaan sivujasi, se haluaa ensimmäiseksi tutustua robots.txt-tiedoston ohjeisiin. Jos hakurobotti on jo käynyt kuluvan päivän aikana sivuillasi, se ei välttämättä hae robots.txt-tiedostoa uudestaan vaan käyttää välimuistissaan olevaa versiota. Robots.txt tiedosto haetaan uudestaan viimeistään kun edellisestä lukukerrasta on kulunut päivän verran.
Robots.txt-tiedosto, joka sallii kaikille hakukoneille pääsyyn kaikkiin sivustosi sivuihin (ellei tätä ole sivukohtaisesti estetty esimerkiksi meta-robots-tagilla) on seuraava:
User-agent: *
Allow: /
Robots.txt-tiedosto, joka kieltää kaikilta hakukoneilta pääsyyn sivuillesi on seuraava. Käytä tätä harkiten, se johtaa yleensä koko sivuston poistumiseen hakutuloksista. Kiellot sisältävän robots.txt-tiedoston unohtaminen epähuomiossa paikalleen esim. sivustouudistuksen yhteydessä on mielestäni hakukoneoptimoinnin salakavalin moka.
User-agent: *
Disallow: /
Herättikö teksti lisäkysymyksiä tai haluatko kysyä jotain ihan muuta? Vastaan hakukoneita ja sivustojen optimointia koskeviin kysymyksiin.