Meta Tag Robots – l’alternativa al robots.txt

Il meta tag “Robots” è il metodo più semplice per escludere dall’indicizzazione sui motori di ricerca alcune pagine del tuo sito gestendo il comportamento degli “spider”.

Gli spider sono agenti intelligenti dei motori di ricerca che interrogano i siti per registrare le informazioni necessarie all’indicizzazione. Seguono i link e passano da una pagina all’altra del tuo sito e da un sito all’altro senza soluzione di continuità.

In passato abbiamo visto come usare il file robots.txt per gestire l’accesso degli Spider alle varie pagine e directory del sito, specificandone funzionalità e sintassi. Come visto il robots.txt è uno strumento molto potente, grazie anche alla sua completa personalizzazione da parte dell’amministratore del sito ma, data l’ampia possibilità di opzioni, non è adatto agli utenti meno esperti. Il meta tag “Robots” è più semplice ed è sufficiente per le funzioni base.

Iniziamo dalla sintassi:

<META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

Le principali operazioni sono le seguenti:

<meta name="robots" content="index, follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">

dove la direttiva index/noindex comunica allo spider che quella pagina può essere (index) o non può essere (noindex) indicizzata, mentre la direttiva follow/nofollow, indica che lo spider può o meno scendere attraverso i link presenti nella pagina.

Per semplificare ulteriormente è possibile anche utilizzare le direttive ALL e NONE le quali stabiliscono il comportamento del tag relativamente a index,follow e noindex,nofollow

<meta name="robots" content="ALL">

equivale a:

<meta name="robots" content="index,follow">

mentre

<meta name="robots" content="NONE">

equivale a:

<meta name="robots" content="noindex,nofollow">

Questi strumenti sono stati creati per impedire o limitare il recupero delle informazioni agli spider, quindi se nessun meta tag viene specificato o nessun file robots.txt viene trovato, gli spider svolgono la loro regolare attività indicizzando tutte le pagine del tuo sito.