Robots.txt – dire ai motori di ricerca come indicizzare il tuo sito

I motori di ricerca, per l’indicizzazione dei siti Web, fanno uso di un sistema denominato “The Robots Exclusion Standard” per capire quali parti del tuo sito visitare ed indicizzare.

I moderni motori di ricerca utilizzano degli agenti intelligenti, i cosiddetti “spider”, in grado di recuperare informazioni sui siti disponibili in rete ed effettuarne un’indicizzazione.

Gli spider ricercano come primo file all’interno di un sito Web, il file “robots.txt”.

Si tratta di un semplice file di testo, organizzato in righe: la prima riga specifica gli spider “ammessi” a visitare il sito, mentre le righe successive istruiscono lo spider sui file da non visitare.

Per scrivere il file robots.txt è importante non fare uso di editor HTML WYSIWYG o altro, ma di un semplice editor di testo come “Notepad” (Blocco Note) per sistemi Microsoft Windows o “vi” per sistemi Unix.

Il formato seguito all’interno del file è il seguente:

<Field> ":" <value>

Vediamo subito degli esempi.

Inserendo come prima linea nel file:

User-agent: googlebot

permettiamo allo spider di google (http://www.google.com) di navigare sul nostro sito.

Se volessimo accettare tutti gli spider, basterebbe un:

User-agent: *

La rimanente parte del file “robots.txt” è costituito da direttive di tipo “Disallow”: inserendo ad esempio

Disallow: email.htm

impediamo allo spider di accedere al file email.htm, mentre con un

Disallow: /cgi-bin/

impediamo la navigazione della directory /cgi-bin/.

Vediamo alcuni esempi “classici” del file, più da vicino.

Nel seguente modo permettiamo a tutti gli spider di accedere a tutti i file del sito:

User-agent: *
Disallow:

Questo è invece quello che dobbiamo scrivere per impedire l’accesso a qualsiasi spider:

User-agent: *
Disallow: /

Così impediamo a tutti gli spider la lettura delle directory /cgi-bin/ e /images/:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

Se volessimo tener lontano solo lo spider di google, basterebbe:

User-agent: googlebot
Disallow: /

Attenzione: lasciando in bianco il campo “Disallow: “, lo spider avrà accesso a tutti i file del sito! Per tanto ricordiamoci di scrivere il file “robots.txt” con molta cura…. Buona Scrittura!