Comment créer et paramétrer le fichier robots.txt pour google ?

A quoi sert le fichier robots.txt ?

Ce fichier est votre liste d'instructions pour les différents "bots" des moteurs de recherche (un bot, diminutif de robot, est un logiciel automatique qui est envoyé par le moteur de recherche pour analyser les pages de votre site). Il vous permettra de leur indiquer les répertoires et urls qu'ils peuvent indexer et ceux qu'ils doivent ignorer. Il vous permettra également de préciser la fréquence de crawl des moteurs. C'est également là que vous indiquez la ou les urls de vos sitemaps. Ce fichier doit toujours et uniquement être placé à la racine de votre site: www.410-gone.fr/robots.txt par exemple. C'est l'un des premiers point que notre Agence SEO vérifie dans le cadre d'un audit. Ce fichier est un outil précieux dans le cadre des améliorations seo on site.

Quels sont les moteurs concernés ?

Tous les moteurs principaux sont concernés car ils prennent en charge le fichier robots.txt . Je parle évidement de YahooGoogle et Bing. Pour préciser à quel moteur vos instructions sont destinées vous les préceder du paramètre : "User-agent:" suivi soit du nom du bot soit d'une astérisque pour indiquer que tous les moteurs doivent avoir les même instructions. Exemple : User-agent: * Si vous souhaitez indiquer des instructions à un moteur spécifique utilisez les noms suivants:

  • User-agent: Googlebot
  • User-agent: Googlebot-Image
  • User-agent: Googlebot-Mobile
  • User-agent: Yahoo! Slurp
  • User-agent: Bingbot

Les paramètres d'indexation

Allow et disallow

Tout d'abord, la directive "Allow: *" ne sert pas vraiment, elle est considérée comme le paramètre par défaut. La directive "Disallow: /" tout comme "Disallow: *" vous permettra d'interdir l'indexation de votre site en entier grâce à cette seule ligne. Pour interdire un seul répertoire il faudra utiliser la commande suivante: "Disallow: /nomdurépertoire".

Les interdictions précises : Les expressions régulières 

Pas de panique il ne s'agit pas des expressions régulière que vous connaissez dans vos lignes de code, il s'agit juste ici d'utiliser la wildcard "*" à bon escient. Vous souhaiterez par exemple interdire tout ce qui se trouve après un "?" un "&" ou encore un "#" pour éviter de vous retrouver avec un phénomène de duplicate content. Cette technique est utilise pour tous les sites qui utilisent des paramètres conditionels dans leurs URLs qui ne font varier qu'une infime partie du contenu de la page. On utilisera ici par exemple :

  • Disallow: /*?limit=all
  • Disallow: /*search*
  • Disallow: /*?pdf*

Les commentaires

Pour saisir un commentaire il suffit de précèder chaque ligne par le signe "#", par exemple : #Instruction qui ne sera pas interprétée

La fréquence d'indexation

Il faut ici utiliser le paramètre "crawl-delay" qui permet de préciser le temps en secondes entre deux pages parcourues, mais google ne le prend pas en compte. Il faudra pour cela paramètrer google webmaster tools. De plus, il est bon de s'interroger si ralentir un moteur est judicieux.

  • Crawl-delay : 5

Les sitemaps

C'est tout simplement ici que vous définissez comment accèder à vos sitemaps, vous remarquerez que chacun des bots commencent par ouvrir votre fichier robots.txt avant de parcourir votre site.

  • Sitemap: /sitemaps/sitemapdesproduits.xml
  • Sitemap: /sitemaps/sitemapdespagesdecontenus.xml

Les limites du fichiers robots.txt

Depuis que je fais de l'analyse de log, j'ai remarqué que google n'écoute le fichier que quand il le veut bien. En effet pour les paramètres d'url, qu'on les bloque via le fichiers robots ou via la search console, il les consulte quand même. La seule solution efficace est donc bien de les supprimer.

Souhaitez vous également consulter ces articles ?
  • Migration https
    migration https


  • Maillage interne
    maillage interne

    Savez-vous que le maillage interne est la base d'une bonne organisation des contenus orientés SEO ?


  • Longue traine
    longue traine

    La longue traine est un aspect du seo bien souvent négligé. Qu'est ce que la longue la longue traine et comment la travailler? Découvrez les pistes ici !


  • Duplicate interne
    duplicate interne

    Comment optimiser le duplicate content grâce aux redirections 301 et à google webmaster tools.


  • Rich snippets
    rich snippets

    Présentation des micro data et rich snippets permettant d'enrichir le contenu des recherches relatives à vos pages dans google.


  • Visibilité boutique en ligne
    visibilité boutique en ligne

    Quels sont les moyens d'optimiser la visibilité de votre boutique en ligne ?


  • Algo ecom
    algo ecom

    Que contient la mise à jour google dédiée au e-commerce ?


  • Analyse de logs
    analyse de logs

    Qu'est ce que l'analyse de logs? Comment faire en sorte d'optimiser le parcours de Google bot pour gagner en visibilité ?


  • Recrutement Référencement 410 gone
    recrutement Référencement 410 gone

    Nous recrutons en septembre 2018 un alternant en tant que consultant en référencement chez 410 Gone, rejoins nous !