On parle souvent du fichier robot.txt comme d’une des pierres fondatrices de votre référencement naturel.
Qu’est-il ? A quoi sert-il ? Comment ne pas générer d’erreurs ?
Comment créer votre fichier robots.txt en quelques minutes seulement ?
Ce n’est pas une configuration complexe à activer sur votre site mais elle peut vous être vraiment bénéfique selon votre structure et les éventuels cas de duplication de contenus qui pourraient consommer une part importante du crawl des moteurs sur vos pages.
Le fichier robots.txt (respectez cette syntaxe, pas robot.txt par exemple) permet d’indiquer les url ou variables d’url qu’on ne souhaite pas voir crawlées et donc affichées dans l’index de Google.
Il ne faut le modifier que si vous êtes sûr.e de votre manipulation. Sinon les conséquences, en cas d’erreurs, peuvent s’avérer catastrophiques.
Par exemple, au tout début lorsque j’ai commencé le SEO en stage, je devais modifier le fichier robots.txt.
J’ai ajouté par erreur la ligne Disallow : /.
Ce qui signifie simplement que j’avais bloqué au crawl des moteurs l’ensemble des pages du site sur lequel je travaillais. Au bout de quelques jours, et après constat d’une forte baisse de trafic , l’erreur a été identifiée et corrigée.
Je peux vous assurer que je ne faisais pas le malin.
Pour information, ou pour rappel, le fichier sitemap.xml se place au même endroit sur le serveur que le fichier robots.txt.
Par exemple cette page
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes.html
est accessible de X manières différentes :
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-10-20.html => Filtre prix bas
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-20-30.html => Filtre prix haut
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/saison-ete.html => Filtre saison
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/couleur-marron.html => Filtre couleur
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/taille-6-mois-3-ans.html => Filtre taille
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/sexe-mixte.html => Filtre sexe
Pour complexifier le problème il est également possible d’associer plusieurs filtres en même temps :
Couleur marron pour garçon été.
Couleur rose pour fille hiver.
etc.
On se retrouve donc avec beaucoup de pages « inutiles » pour le SEO.
Donc pour éviter que Google et autres moteurs se perdent dans ces pages, on indique dans le fichier robots.txt que toutes les url qui comportent au moins une de ces variables ne doivent pas être crawlées et donc non indexées.
Une fois le crawl fini, filtrez les pages html dans l’ascenseur de gauche, et classez les url par ordre alphabétique vous verrez les url en doublon. Prenez bien le temps de regarder toutes les url.
Seconde étape pour créer le fichier robots.txt :
Identifiez les pages de votre site qui n’ont pas vocation à être dans l’index Google (pages formulaires par exemple, pages en duplication, pages présentant trop peu de contenu). Si vous avez un doute, regardez sur Analytics ou autre outil de suivi de trafic, le volume de trafic de ces pages, et les sources de trafic de ces pages.
Troisième étape pour créer le fichier robots.txt :
Regardez dans le listing d’url récupérées depuis Screaming Frog, les url en duplication dont vous n’aviez peut-être même pas conscience d’où l’intérêt de ce genre d’exercice).
Ou même des pages dont vous aviez oublié l’existence.
Quatrième étape :
L’idée ensuite est de formaliser les résultats de vos analyses dans le robots.txt. Que ce soient des url complètes ou de simples variables d’url.
Via WordPress, la procédure est assez simple.
Installez le plugin Yoast SEO.
Allez ensuite dans Outils puis éditeur de fichiers.
Là vous activez la création par défaut du fichier robots.txt. Le contenu par défaut est celui-ci :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Une fois le fichier créé vous pouvez le modifier ou compléter directement dans Yoast SEO.
Pour les plus téméraires, il y a une autre solution très sympa.
Vous créez un fichier robots.txt que vous enregistrez en local sur votre machine.
Vous pouvez le compléter dès le départ.
Ensuite, via un outil ftp tel que FileZilla vous allez uploader votre fichier dans le répertoire /public_html.
Une fois fait, testez l’url du fichier dans votre navigateur pour vérifier que la manipulation était bonne.
Qu’est ce que le référencement naturel ?
L’objectif du référencement naturel, ou SEO, Search Engine Optimization est de faire apparaitre vos pages sur les listes de résultats des moteurs de recherche sur des requêtes stratégiques en lien avec votre activité, votre secteur, votre coeur de métier. Pour ce faire vous avez défini en amont, selon vos besoins, des landing pages ou pages de destination, chacune d’entre elle ayant un objectif sémantique. Etape suivante, il faut que les robots des moteurs de recherche soient capables (dans le sens que vous leur donniez la possibilité de) d’identifier et crawler ces pages. Une fois cette étape finie, vos pages seront certainement indexées si elles présentent de la valeur et de l’intérêt pour vos utilisateurs. Si ce n’est pas le cas, retravaillez la conception et le contenu de vos pages. Si vos pages sont indexées, il ne reste plus qu’à faire en sorte qu’elles se positionnent sur les fameuses requêtes qui nous intéressent tant. Donc la première étape de votre stratégie de référencement sera de permettre aux robots des moteurs de recherche d’accéder en priorité aux pages génératrices de trafic et de conversions, c’est à dire accéder aux pages qui ont un intérêt référencement. Ce qui revient à bloquer au crawl de Google les pages ne présentant pas d’intérêt SEO et / ou les pages en duplication de contenu et / ou les pages affichant trop peu de contenu. Notre objectif est donc d’orienter le crawl des moteurs sur les zones « utiles au SEO » de votre site et d’éviter les zones « inutiles au SEO ». Une des actions qui nous permet de bloquer le crawl des moteurs aux zones inutiles est l’utilisation du fichier de configuration robots.txt. L’objectif du fichier robots.txt est très clair : Indiquer aux robots des moteurs les zones de votre site à ne pas crawler. Indirectement donc, la configuration du robots.txt permet d’orienter le crawl de Google sur les pages dites utiles pour le SEO. Concrètement, le robot.txt est là pour vous aider à gagner du temps. Dossier : Qu’est ce que le référencement naturel ?Qu’est ce que le fichier robots.txt ? A quoi sert-il ?
Le fichier robots.txt est un fichier au format .txt comme son extension l’indique, qui se place à la racine du serveur (de telle sorte qu’il soit accessible au type d’url suivant : nomdedomaine.com/robots.txt). Exemple avec mon propre robots.txt :https://nicolas-vidal.com/robots.txt.
Le fichier robots.txt (respectez cette syntaxe, pas robot.txt par exemple) permet d’indiquer les url ou variables d’url qu’on ne souhaite pas voir crawlées et donc affichées dans l’index de Google.
Il ne faut le modifier que si vous êtes sûr.e de votre manipulation. Sinon les conséquences, en cas d’erreurs, peuvent s’avérer catastrophiques.
Par exemple, au tout début lorsque j’ai commencé le SEO en stage, je devais modifier le fichier robots.txt.
J’ai ajouté par erreur la ligne Disallow : /.
Ce qui signifie simplement que j’avais bloqué au crawl des moteurs l’ensemble des pages du site sur lequel je travaillais. Au bout de quelques jours, et après constat d’une forte baisse de trafic , l’erreur a été identifiée et corrigée.
Je peux vous assurer que je ne faisais pas le malin.
Pour information, ou pour rappel, le fichier sitemap.xml se place au même endroit sur le serveur que le fichier robots.txt.
Indication d’Url dans le fichier robots.txt
Une url correspond à l’adresse d’une page. Par exemple : https://https://nicolas-vidal.com/inscription.html Pour rappel, la règle absolue est : une url = une page. Une page = une url. Dans le robots.txt on peut interdire aux moteurs de recherche d’accéder à cette url complète. Ou à une variable d’url.Qu’est-ce qu’une variable d’url ?
Une variable d’url correspond à un élément dynamique dans l’url pour trier, filtrer, paginer par exemple. D’ailleurs, sur les pages catégories des sites e-commerce, il est la plupart du temps possible de filtrer les produits de multiples manières : Par couleurs, matières, prix, taille, marques, coupe etc. Selon la technologie employée derrière, on peut avoir des variables d’url qui se rajoutent à la fin des url (exemple : ?prix= ou ?order=price). L’utilisateur ne voit rien, c’est uniquement côté url que ça se passe. On peut donc se retrouver avec 10 url pour une seule et même page. On gonfle artificiellement le volume de pages du site. Est-ce une bonne chose ? Oui ? Non ? Non, bien sûr, cette situation provoque de la duplication de contenus en masse. Cela signifie que les moteurs se perdent dans vos pages, perdent du temps et des ressources à ne pas crawler les « bonnes » pages, c’est à dire les pages canoniques, les pages de référence (après on peut utiliser les pages en duplication différemment en donnant un autre objectif sémantique à la page mais ce n’est pas l’objectif de cet article). Ajoutons à cela la notion de crawl budget : selon l’historique de votre site, sa popularité, la masse de contenus présentes, Google défini un volume de pages à crawler par jour sur votre site. Par exemple, votre site comporte 1000 url, Google peut décider de n’en crawler que 500 soit à peine 50% des contenus du site. Cela signifie que vous avez plutôt intérêt à ce que les 500 url crawlées par jour soient des pages utiles au référencement. Si vous avez une structure complexe avec beaucoup de duplications, Google pourrait n’analyser que 10% de pages dites utiles au SEO.
Par exemple cette page
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes.html
est accessible de X manières différentes :
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-10-20.html => Filtre prix bas
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-20-30.html => Filtre prix haut
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/saison-ete.html => Filtre saison
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/couleur-marron.html => Filtre couleur
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/taille-6-mois-3-ans.html => Filtre taille
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/sexe-mixte.html => Filtre sexe
Pour complexifier le problème il est également possible d’associer plusieurs filtres en même temps :
Couleur marron pour garçon été.
Couleur rose pour fille hiver.
etc.
On se retrouve donc avec beaucoup de pages « inutiles » pour le SEO.
Donc pour éviter que Google et autres moteurs se perdent dans ces pages, on indique dans le fichier robots.txt que toutes les url qui comportent au moins une de ces variables ne doivent pas être crawlées et donc non indexées.
Comment créer et / ou modifier le fichier robots.txt ?
Le fichier robots.txt est constitué du format suivant : User-agent: * Disallow: * User-Agent : Ce sont les robots des moteurs auxquels vous donnez des instructions. Si vous n’avez pas d’instructions pour un robot en particulier, vous laissez tel quel. Cela signifie que les règles que vous énoncez après s’appliquent à n’importe quel robot. Disallow : cette commande indique que le robot ne devra pas crawler l’url ou variable d’url indiquée. Allow : Au contraire, indique que les robots sont autorisés à suivre cette url ou variable d’url. Cette dernière syntaxe n’est quasiment pas utilisée. Focalisez vous sur le disallow. Si on reprend l’exemple vu plus haut cela donnera : User-agent :*- Disallow : /prix-10-20.html
- Disallow : /prix-20-30.html
- Disallow : /saison-ete.html
- Disallow : /couleur-marron.html
- Disallow : /taille-6-mois-3-ans.html
- Disallow : /sexe-mixte.html
- Disallow : /prix-*.html => Toutes les variables prix
- Disallow : /saison-*.html => Toutes les variables saison
- Disallow : /couleur-*.html => Toutes les variables couleur
- Disallow : /taille-*.html => Toutes les variables taille
- Disallow : /sexe-mixte.html => Toutes les variables sexe
Comment remplir le fichier robots.txt ?
Alors effectivement, bonne question, suite à ce qui a été mentionné plus haut, comment remplir efficacement le fichier robots.txt ? Maintenant que vous avez conscience de l’importance de ce fichier, comment pouvez-vous le remplir afin qu’il puisse aider les robots des moteurs de recherche à crawler en priorité les contenus utiles ? Première étape fondamentale pour créer le fichier robots.txt : Il vous convient d’identifier l’ensemble des pages que vous avez sur votre site. Pour ce faire, la meilleure solution reste encore l’utilisation de l’outil Screaming Frog. Découvrez le guide ici pour l’utiliser correctement.
Une fois le crawl fini, filtrez les pages html dans l’ascenseur de gauche, et classez les url par ordre alphabétique vous verrez les url en doublon. Prenez bien le temps de regarder toutes les url.
Seconde étape pour créer le fichier robots.txt :
Identifiez les pages de votre site qui n’ont pas vocation à être dans l’index Google (pages formulaires par exemple, pages en duplication, pages présentant trop peu de contenu). Si vous avez un doute, regardez sur Analytics ou autre outil de suivi de trafic, le volume de trafic de ces pages, et les sources de trafic de ces pages.
Troisième étape pour créer le fichier robots.txt :
Regardez dans le listing d’url récupérées depuis Screaming Frog, les url en duplication dont vous n’aviez peut-être même pas conscience d’où l’intérêt de ce genre d’exercice).
Ou même des pages dont vous aviez oublié l’existence.
Quatrième étape :
L’idée ensuite est de formaliser les résultats de vos analyses dans le robots.txt. Que ce soient des url complètes ou de simples variables d’url.
Comment créer le fichier robots.txt sur WordPress ?
Via WordPress, la procédure est assez simple.
Installez le plugin Yoast SEO.
Allez ensuite dans Outils puis éditeur de fichiers.
Là vous activez la création par défaut du fichier robots.txt. Le contenu par défaut est celui-ci :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Une fois le fichier créé vous pouvez le modifier ou compléter directement dans Yoast SEO.
Pour les plus téméraires, il y a une autre solution très sympa.
Vous créez un fichier robots.txt que vous enregistrez en local sur votre machine.
Vous pouvez le compléter dès le départ.
Ensuite, via un outil ftp tel que FileZilla vous allez uploader votre fichier dans le répertoire /public_html.
Une fois fait, testez l’url du fichier dans votre navigateur pour vérifier que la manipulation était bonne.