Principe de fonctionnement et exemple d'un fichier robots.txt
Pour des raisons de confidentialité
on peut exclure sur les moteurs
de recherche, des répertoires entiers ou quelques pages
particulières.
Pour cela, deux moyens s'offrent à vous : -
La balise Meta tag avec l'attribut robots -
La construction d'un fichier robots.txt
Le schéma de
droite montre le fonctionnement d'un spider ou robot
face à un fichier robots.txt.
Ce fichier indiquera au spider du moteur
de recherche ce qu'il est ou n'est pas autorisé à faire
!
Construction du fichier robots.txt
Pour construire un fichier robots.txt, il faut ouvrir n'importe quel éditeur texte puis l'enregistrer après avoir placée une ligne pour chaque(s) répertoire(s) où fichier(s) à interdire !
Note : Lors du transfert de ce fichier via FTP, assurez-vous d'être en mode ASCII et que votre fichier robots soit avec l'extension .txt
Dans
cet exemple la structure du fichier robots.txt est la suivante
:
User-agent: *
Cette première ligne indique aux robots
(spiders) des
moteurs de recherche (representé par *) que l'accès au site leur est accordé.
Disallow: /admin/
Cette directive interdit aux spiders d'explorer
le répertoire
admin
Disallow: /cgi/
Cette directive interdit aux spiders d'explorer le répertoire cgi
Disallow: /index2.php
cette directive interdit aux spiders d'indexer le fichier
index2.php situé à la racine du site.
Faites très attention aux syntaxes dans votre fichier robots.txt sinon celui-ci ne sera pas pris en compte, voir même créer quelques erreurs si vous oubliez des ( / ) .
En comparaison avec Disallow: /admin/ la directive Disallow: /admin interdira non
seulement l'indexation du
répertoire admin mais aussi tous
les fichiers situés à la racine du site
commençant par admin ex : http::/www.referencement-team.com/admin.html
Dans User-agent: à la place de *
, il est possible d'interdire ou d'autoriser l'accès de certaines pages ou
de répertoires à un spider
spécifique. Par exemple, en
suivant les directives ci-dessous le spider
de google s'appellant googlebot sera
interdit d'accès sur toutes les pages du
site
web
:
User-agent: googlebot Disallow: /
Autres commandes possibles dans le fichier robot.txt
Disallow:
Tout est indexé. Identique à un fichier robots.txt inexistant
Disallow:/
Toutes les pages et répertoires du site ne sont pas indexés
# commentaires
Vos commentaires doit être précédé d'un #
Remarques Importantes
Tous les spiders ne reconnaissent pas correctement le fichier robots.txt Vous
pouvez dans ce cas protéger vos fichiers et répertoires confidentiels avec un mot de passe dans un fichier .htpasswd
-
Un seul fichier robots.txt doit
exister sur l'ensemble de votre site.
- Le fichier robots.txt devra toujours être situé à la racine de votre site et être écrit en minuscules.
-
L'astérisque (*) n'est acceptée que dans le
champ User-agent
-
Plusieurs sections User-agent peuvent
être créées dans votre fichier
robots.txt
-
Il n'existe pas de champs
Allow.
-
Vous pouvez inclure avant chaques directives
des lignes commençant par # pour vos
commentaires.
-
Le fichier robots.txt ne doit pas contenir de lignes blanches.
Fiches techniques
des balises meta tags et fichier robot.txt