Comment paramétrer le fichier robots.txt pour le crawl par google?

A quoi sert le fichier robots.txt ?

Ce fichier est votre liste d’instructions pour les différents ” bots” des moteurs de recherche (un bot, diminutif de robot, est un logiciel automatique qui est envoyé par le moteur de recherche pour analyser les pages de votre site). Il vous permettra de leur indiquer les répertoires et urls qu’ils peuvent indexer et ceux qu’ils doivent ignorer. Il vous permettra également de préciser la fréquence de crawl des moteurs. C’est également là que vous indiquez la ou les urls de vos sitemaps. Ce fichier doit toujours et uniquement être placé à la racine de votre site: www.410-gone.fr/robots.txt par exemple. C’est l’un des premiers point que notre Agence SEO vérifie dans le cadre d’un audit. Ce fichier est un outil précieux dans le cadre des améliorations seo on site.

Gagnez en visibilité et en chiffre d’affaires avec nos techniques SEO gratuites.

Quels sont les moteurs concernés ?

Tous les moteurs principaux sont concernés car ils prennent en charge le fichier robots.txt . Je parle évidement de Yahoo, Google et Bing. Pour préciser à quel moteur vos instructions sont destinées vous les précéder du paramètre : “User-agent:” suivi soit du nom du bot soit d’une astérisque pour indiquer que tous les moteurs doivent avoir les même instructions. Exemple : User-agent: * Si vous souhaitez indiquer des instructions à un moteur spécifique utilisez les noms suivants:

User-agent: Googlebot
User-agent: Googlebot-Image
User-agent: Googlebot-Mobile
User-agent: Yahoo! Slurp
User-agent: Bingbot

Les paramètres d’indexation

Allow et disallow

Tout d’abord, la directive ” Allow: *” ne sert pas vraiment, elle est considérée comme le paramètre par défaut. La directive “Disallow: /” tout comme “Disallow: *” vous permettra d’interdire l’indexation de votre site en entier grâce à cette seule ligne. Pour interdire un seul répertoire il faudra utiliser la commande suivante: “Disallow: /nomdurépertoire“.

Les interdictions précises : Les expressions régulières

Pas de panique il ne s’agit pas des expressions régulière que vous connaissez dans vos lignes de code, il s’agit juste ici d’utiliser la wildcard “*” à bon escient. Vous souhaiterez par exemple interdire tout ce qui se trouve après un “?” un “&” ou encore un “#” pour éviter de vous retrouver avec un phénomène de duplicate content. Cette technique est utilise pour tous les sites qui utilisent des paramètres conditionnels dans leurs URLs qui ne font varier qu’une infime partie du contenu de la page. On utilisera ici par exemple :

Disallow: /*?limit=all
Disallow: /*search*
Disallow: /*?pdf*

Les commentaires

Pour saisir un commentaire il suffit de précéder chaque ligne par le signe ” #“, par exemple : #Instruction qui ne sera pas interprétée

La fréquence d’indexation

Il faut ici utiliser le paramètre ” crawl-delay” qui permet de préciser le temps en secondes entre deux pages parcourues, mais google ne le prend pas en compte. Il faudra pour cela paramétrer google webmaster tools. De plus, il est bon de s’interroger si ralentir un moteur est judicieux.

Crawl-delay : 5

Les sitemaps

C’est tout simplement ici que vous définissez comment accéder à vos sitemaps, vous remarquerez que chacun des bots commencent par ouvrir votre fichier robots.txt avant de parcourir votre site.

Sitemap: /sitemaps/sitemapdesproduits.xml
Sitemap: /sitemaps/sitemapdespagesdecontenus.xml

Les limites du fichiers robots.txt

Depuis que je fais de l’analyse de log, j’ai remarqué que google n’écoute le fichier que quand il le veut bien. En effet pour les paramètres d’url, qu’on les bloque via le fichiers robots ou via la search console, il les consulte quand même. La seule solution efficace est donc bien de les supprimer.

Comment créer et paramétrer le fichier robots.txt pour google ?