Le crawl budget : pourquoi analyser ses logs?

Commençons par définir ce qu’est le crawl budget : C’est le temps de parcours de votre site que google s’autorise quotidiennement. On peut faire un calcul simple: crawl budget/temps de chargement moyen = nombres de pages visitées quotidiennement. Bien entendu, plus google crawl votre site fréquemment, plus il découvrira de nouvelles pages vite, plus votre référencement s’améliorera ! L’analyse de logs apache est donc une arme très puissante de l’optimisation on site de votre seo.

Optimiser le crawl budget en réduisant le temps de chargement

On l’a dit le nombre de pages analysées par googlebot (et les autres) dépend en partie du temps de chargement. On va donc avoir pour objectif de réduire celui-ci au maximum. Pour cela des outils d’analyses comme la search console ou même gtmetrix peuvent vous aider. Quoi qu’il en soit plus vous baisser le temps de chargement, plus le nombre de page parcourues quotidiennement augmentera. On observe d’ailleurs une corrélation à ce sujet dans la search console dans la section statistiques sur l’exploration. A noter que google crawl toujours en http 1 et pas encore en http2 donc pour l’instant il faut continuer de merger css et Js.

Optimiser le crawl budget en limitant le nombre de requêtes :

Une fois que toutes nos pages se chargent (pour la partie html) en moins de 250ms (on y croit, vous allez y arriver, un peu de cache varnish de nginx et c’est réglé !) on va passer à l’étape 2 : choisir quelles pages google va parcourir. Là on rentre dans le plus technique car on va aller au delà du simple rel=nofollow. On va essayer de réduire le nombre de requêtes faites par google. Objectif: retirer le crawl des facettes des feeds x ou y, des images du thèmes. On utilisera pour ses dernières un sprite en css. (C’est une technique qui consiste à mettre tous les pictogrammes dans un même fichier jpg ou png puis grâce aux css définir quelle zone du fichier on appel. On peut également mettre des pictogrammes dans un fichier de police d’écriture.

 Comment récupérer ses logs google bot ?

Bon vous allez me demander où les trouver ces logs ? Alors c’est assez simple et presque pas technique. Il faut simplement aller glisser ces quelques lignes dans votre virtual host et reload la configuration apache ensuite. Vous aurez un fichier log qui va commencer à se remplir avec le bon format de données pour screaming frog log analysis.

Cette configuration spécifique permet d’isoler dans un dossier et des fichiers dédiés uniquement les requêtes faites par des bots seo.

Screaming frog log analysis

Vous l’avez compris dans la vidéo je vous parle de screaming frog log analysis. L’avantage de ce logiciel est qu’il est extrêmement simple à installer ne nécessite quasiment aucun paramétrage et propose une version gratuite illimitée. Autant dire que si vous souhaitez checker le seo d’un site jusqu’à 2 à 300 pages : c’est clairement suffisant, et si vous avez besoin de plus la licence est à un prix tout à fait abordable. J’apprécie tout particulièrement la fonction import url pour tester les urls orphilines et identifier les urls à retirer (dont on parlait au paragraphe précèdent.

Pour le télécharger c’est ici : https://www.screamingfrog.co.uk/log-file-analyser/

Si vous n’avez pas vu la vidéo tutoriel youtube c’est ici :

Les autres outils d’analyse de logs:

Oncrawl

Oncrawl propose différentes solutions y compris sans engagement en fonction du nombres de lignes à analyser. Les prix vont des 9.90€ mensuel à 250€ et plus si besoin. On est donc sur un tarif assez faible pour débuter. L’avantage de oncrawl c’est qu’on a beaucoup de graphiques et que l’analyse est très visuelle et moins technique, si vous devez faire du reporting à des équipes métiers, c’est appréciable. Il vous faudra cependant pousser les logs régulièrement vers leur ftp mais cela s’automatise assez facilement avec un cron jenkins ou autre. Plus d’informations sur : http://fr.oncrawl.com

Watussi box

La watussi box est un produit également gratuit, je n’ai malheureusement pas eu le temps de le tester, je vous invite à le faire si vous le souhaitez et n’hésitez pas à me faire vos retours. plus d’informations sur : http://box.watussi.fr/

Botify

J’ai eu la chance d’assister à une démo de botify récemment, et je dois reconnaitre que l’outils est également très complet. Les tarifs sont plus élevés que sur oncrawl mais de ce que j’ai pu en voir les possibilités sont énormes et les graphiques produits sont super qualitatifs. La partie pages orphelines ressort particulièrement bien pour une analyse très visuel. Bravo ! Plus d’informations sur : https://www.botify.com/

Conclusion ?

Que vous souhaitiez faire une analyse ponctuelle et une maintenance dans la durée, il existe des outils à tous les tarifs. N’hésitez donc pas à passer à l’analyse de logs votre site pour en tirer le maximum de « seo juice » et doper votre visibilité sur internet !