SEO: il file robots
30/01/2012Nella root del sito web è importante inserire un file, robots.txt, che serve per comunicare agli spider dei motori di ricerca se indicizzare o non indicizzare tutto o parte dei contenuti.
E' un semplice file di testo che può esser editato con blocco note.
All'interno del file ogni riga contiene un record.
La sintassi da seguire è:
Campo - spazio - due punti - spazio - valore
I campi principali che è possibile utilizzare sono due: User-Agent e Disallow.
Il nome del campo è case insensitive.
Per commentare una riga si usa il carattere #
User-agent
il nome del robot a cui il record sta descrivendo i permessi di accesso (si possono inserire diversi robot per lo stesso permesso, con il carattere * nel campo user-agent tutti i robot avranno quel permesso di accesso.
Disallow
specifica una parte di URL che non deve essere visitata
Sitemap
indica al robot dove si trova la sitemap del sito.
Esempio:
User-agent: *
Disallow: /admin/ # disabilito l'accesso all'area amministrativa
Disallow: /prova/ # disabilito l'accesso all'area sviluppo
Disallow: /nomefile.html # disabilito l'accesso a un file specifico
Per maggior approfondimenti, lista dei bot etc The Web Robot Pages