On parle souvent du fichier robot.txt comme d’une des pierres fondatrices de votre référencement naturel.
Qu’est-il ? A quoi sert-il ? Comment ne pas générer d’erreurs ?
Comment créer votre fichier robots.txt en quelques minutes seulement ?
Ce n’est pas une configuration complexe à activer sur votre site mais elle peut vous être vraiment bénéfique selon votre structure et les éventuels cas de duplication de contenus qui pourraient consommer une part importante du crawl des moteurs sur vos pages.
Qu’est ce que le référencement naturel ?
L’objectif du référencement naturel, ou SEO, Search Engine Optimization est de faire apparaitre vos pages sur les listes de résultats des moteurs de recherche sur des requêtes stratégiques en lien avec votre activité, votre secteur, votre coeur de métier.
Pour ce faire vous avez défini en amont, selon vos besoins, des landing pages ou pages de destination, chacune d’entre elle ayant un objectif sémantique.
Etape suivante, il faut que les robots des moteurs de recherche soient capables (dans le sens que vous leur donniez la possibilité de) d’identifier et crawler ces pages.
Une fois cette étape finie, vos pages seront certainement indexées si elles présentent de la valeur et de l’intérêt pour vos utilisateurs. Si ce n’est pas le cas, retravaillez la conception et le contenu de vos pages.
Si vos pages sont indexées, il ne reste plus qu’à faire en sorte qu’elles se positionnent sur les fameuses requêtes qui nous intéressent tant.
Donc la première étape de votre stratégie de référencement sera de permettre aux robots des moteurs de recherche d’accéder en priorité aux pages génératrices de trafic et de conversions, c’est à dire accéder aux pages qui ont un intérêt référencement.
Ce qui revient à bloquer au crawl de Google les pages ne présentant pas d’intérêt SEO et / ou les pages en duplication de contenu et / ou les pages affichant trop peu de contenu.
Notre objectif est donc d’orienter le crawl des moteurs sur les zones “utiles au SEO” de votre site et d’éviter les zones “inutiles au SEO”.
Une des actions qui nous permet de bloquer le crawl des moteurs aux zones inutiles est l’utilisation du fichier de configuration robots.txt.
L’objectif du fichier robots.txt est très clair : Indiquer aux robots des moteurs les zones de votre site à ne pas crawler.
Indirectement donc, la configuration du robots.txt permet d’orienter le crawl de Google sur les pages dites utiles pour le SEO.
Concrètement, le robot.txt est là pour vous aider à gagner du temps.
Dossier : Qu’est ce que le référencement naturel ?
Qu’est ce que le fichier robots.txt ? A quoi sert-il ?
Le fichier robots.txt est un fichier au format .txt comme son extension l’indique, qui se place à la racine du serveur (de telle sorte qu’il soit accessible au type d’url suivant : nomdedomaine.com/robots.txt).
Exemple avec mon propre robots.txt :https://nicolas-vidal.com/robots.txt.
Le fichier robots.txt (respectez cette syntaxe, pas robot.txt par exemple) permet d’indiquer les url ou variables d’url qu’on ne souhaite pas voir crawlées et donc affichées dans l’index de Google.
Il ne faut le modifier que si vous êtes sûr.e de votre manipulation. Sinon les conséquences, en cas d’erreurs, peuvent s’avérer catastrophiques.
Par exemple, au tout début lorsque j’ai commencé le SEO en stage, je devais modifier le fichier robots.txt.
J’ai ajouté par erreur la ligne Disallow : /.
Ce qui signifie simplement que j’avais bloqué au crawl des moteurs l’ensemble des pages du site sur lequel je travaillais. Au bout de quelques jours, et après constat d’une forte baisse de trafic , l’erreur a été identifiée et corrigée.
Je peux vous assurer que je ne faisais pas le malin.
Pour information, ou pour rappel, le fichier sitemap.xml se place au même endroit sur le serveur que le fichier robots.txt.
Indication d’Url dans le fichier robots.txt
Une url correspond à l’adresse d’une page. Par exemple : https://https://nicolas-vidal.com/inscription.html
Pour rappel, la règle absolue est : une url = une page. Une page = une url.
Dans le robots.txt on peut interdire aux moteurs de recherche d’accéder à cette url complète. Ou à une variable d’url.
Qu’est-ce qu’une variable d’url ?
Une variable d’url correspond à un élément dynamique dans l’url pour trier, filtrer, paginer par exemple.
D’ailleurs, sur les pages catégories des sites e-commerce, il est la plupart du temps possible de filtrer les produits de multiples manières :
Par couleurs, matières, prix, taille, marques, coupe etc.
Selon la technologie employée derrière, on peut avoir des variables d’url qui se rajoutent à la fin des url (exemple : ?prix= ou ?order=price). L’utilisateur ne voit rien, c’est uniquement côté url que ça se passe.
On peut donc se retrouver avec 10 url pour une seule et même page. On gonfle artificiellement le volume de pages du site.
Est-ce une bonne chose ? Oui ? Non ?
Non, bien sûr, cette situation provoque de la duplication de contenus en masse.
Cela signifie que les moteurs se perdent dans vos pages, perdent du temps et des ressources à ne pas crawler les “bonnes” pages, c’est à dire les pages canoniques, les pages de référence (après on peut utiliser les pages en duplication différemment en donnant un autre objectif sémantique à la page mais ce n’est pas l’objectif de cet article).
Ajoutons à cela la notion de crawl budget : selon l’historique de votre site, sa popularité, la masse de contenus présentes, Google défini un volume de pages à crawler par jour sur votre site.
Par exemple, votre site comporte 1000 url, Google peut décider de n’en crawler que 500 soit à peine 50% des contenus du site. Cela signifie que vous avez plutôt intérêt à ce que les 500 url crawlées par jour soient des pages utiles au référencement. Si vous avez une structure complexe avec beaucoup de duplications, Google pourrait n’analyser que 10% de pages dites utiles au SEO.
Par exemple cette page
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes.html
est accessible de X manières différentes :
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-10-20.html => Filtre prix bas
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-20-30.html => Filtre prix haut
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/saison-ete.html => Filtre saison
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/couleur-marron.html => Filtre couleur
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/taille-6-mois-3-ans.html => Filtre taille
https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/sexe-mixte.html => Filtre sexe
Pour complexifier le problème il est également possible d’associer plusieurs filtres en même temps :
Couleur marron pour garçon été.
Couleur rose pour fille hiver.
etc.
On se retrouve donc avec beaucoup de pages “inutiles” pour le SEO.
Donc pour éviter que Google et autres moteurs se perdent dans ces pages, on indique dans le fichier robots.txt que toutes les url qui comportent au moins une de ces variables ne doivent pas être crawlées et donc non indexées.
Comment créer et / ou modifier le fichier robots.txt ?
Le fichier robots.txt est constitué du format suivant :
User-agent: *
Disallow: *
User-Agent : Ce sont les robots des moteurs auxquels vous donnez des instructions.
Si vous n’avez pas d’instructions pour un robot en particulier, vous laissez tel quel. Cela signifie que les règles que vous énoncez après s’appliquent à n’importe quel robot.
Disallow : cette commande indique que le robot ne devra pas crawler l’url ou variable d’url indiquée.
Allow : Au contraire, indique que les robots sont autorisés à suivre cette url ou variable d’url.
Cette dernière syntaxe n’est quasiment pas utilisée. Focalisez vous sur le disallow.
Si on reprend l’exemple vu plus haut cela donnera :
User-agent :*
- Disallow : /prix-10-20.html
- Disallow : /prix-20-30.html
- Disallow : /saison-ete.html
- Disallow : /couleur-marron.html
- Disallow : /taille-6-mois-3-ans.html
- Disallow : /sexe-mixte.html
Sauf que ça peut être rébarbatif et long de lister l’ensemble des variables, dans ce cas on fait des règles par types de variables (j’ai remplacé le champ variable par un *).
User-agent : *
- Disallow : /prix-*.html => Toutes les variables prix
- Disallow : /saison-*.html => Toutes les variables saison
- Disallow : /couleur-*.html => Toutes les variables couleur
- Disallow : /taille-*.html => Toutes les variables taille
- Disallow : /sexe-mixte.html => Toutes les variables sexe
Last but not least, il vous est recommandé (par les moteurs eux-mêmes) d’ajouter en bas du robots.txt l’url d’accès à votre fichier sitemap.
Cela donnera :
Sitemap : https://domaine.fr/sitemap.txt
Dernière information, faites très attention à l’utilisation du /.
Disallow : / signifie que vous bloquez au crawl des moteurs l’ensemble de vos pages.
Si vous n’avez rien à bloquer, ne mettez rien. Juste :
Allow : /
Si vous n’avez rien à bloquer dans votre robots.txt, Ne mettez rien.
Comment remplir le fichier robots.txt ?
Alors effectivement, bonne question, suite à ce qui a été mentionné plus haut, comment remplir efficacement le fichier robots.txt ?
Maintenant que vous avez conscience de l’importance de ce fichier, comment pouvez-vous le remplir afin qu’il puisse aider les robots des moteurs de recherche à crawler en priorité les contenus utiles ?
Première étape fondamentale pour créer le fichier robots.txt :
Il vous convient d’identifier l’ensemble des pages que vous avez sur votre site.
Pour ce faire, la meilleure solution reste encore l’utilisation de l’outil Screaming Frog. Découvrez le guide ici pour l’utiliser correctement.
Une fois le crawl fini, filtrez les pages html dans l’ascenseur de gauche, et classez les url par ordre alphabétique vous verrez les url en doublon. Prenez bien le temps de regarder toutes les url.
Seconde étape pour créer le fichier robots.txt :
Identifiez les pages de votre site qui n’ont pas vocation à être dans l’index Google (pages formulaires par exemple, pages en duplication, pages présentant trop peu de contenu). Si vous avez un doute, regardez sur Analytics ou autre outil de suivi de trafic, le volume de trafic de ces pages, et les sources de trafic de ces pages.
Troisième étape pour créer le fichier robots.txt :
Regardez dans le listing d’url récupérées depuis Screaming Frog, les url en duplication dont vous n’aviez peut-être même pas conscience d’où l’intérêt de ce genre d’exercice).
Ou même des pages dont vous aviez oublié l’existence.
Quatrième étape :
L’idée ensuite est de formaliser les résultats de vos analyses dans le robots.txt. Que ce soient des url complètes ou de simples variables d’url.
Comment créer le fichier robots.txt sur WordPress ?
Via WordPress, la procédure est assez simple.
Installez le plugin Yoast SEO.
Allez ensuite dans Outils puis éditeur de fichiers.
Là vous activez la création par défaut du fichier robots.txt. Le contenu par défaut est celui-ci :
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Une fois le fichier créé vous pouvez le modifier ou compléter directement dans Yoast SEO.
Pour les plus téméraires, il y a une autre solution très sympa.
Vous créez un fichier robots.txt que vous enregistrez en local sur votre machine.
Vous pouvez le compléter dès le départ.
Ensuite, via un outil ftp tel que FileZilla vous allez uploader votre fichier dans le répertoire /public_html.
Une fois fait, testez l’url du fichier dans votre navigateur pour vérifier que la manipulation était bonne.
Créer et uploader le fichier robots.txt à la mano
C’est très simple.
Créez un fichier texte nommé robots.txt, intégrez la syntaxe mentionnée ci-dessus avec les variables d’url que vous avez identifiées.
Remarque : Même si selon vous vous n’avez pas d’url suspecte sur votre site, lancez tout de même un crawl avec Screaming Frog, vous pourriez être très surpris des résultats obtenus.
Une fois le fichier créé, allez sur votre ftp, allez à la racine du serveur, c’est à dire, le répertoire de base (si vous avez un blog WordPress, le répertoire à cibler est : public_html).
Uploadez le fichier.
Une fois fait, tapez dans votre navigateur le chemin d’url menant à votre fichier. Soit
site.com/robots.txt.
Si le fichier apparait correctement, vous avez bien fait votre travail. Sinon, recommencez. Si ce n’est toujours pas bon, vérifiez que vous êtes sur le bon répertoire.
Si vous avez un blog WordPress, je vous recommande fortement d’utiliser le plugin Yoast ou encore mieux Rankmath qu vous permettent tous les deux de gérer l’administration du fichier depuis le plugin. C’est très facile et simple.
Le fichier robots.txt est -il obligatoire ?
Vous n’irez pas en enfer si vous n’avez pas déposé votre fichier. Disons plutôt que son ajout est vivement recommandé. Chaudement recommandé. Surtout si vous vous rendez compte d’url exotiques indésirables.
Quelle est la différence de gestion entre la balise noindex et le fichier robots txt ?
Le fichier robots bloque au crawl de Google les url et variables d’url inutiles au SEO.
Alors que la balise noindex indique que la page ne doit pas être indexée (mais elle est crawlée pour que le robot Google puisse identifier la balise).
C’est pour cela qu’on dit que le fichier robots a un champ d’intervention plus large, la balise noindex sert plutôt de sparadrap.
Fichier robot.txt : Le mot de la fin
Si vous avez le moindre doute sur une url, prenez le temps de regarder via Analytics ou autre outil de tracking le trafic SEO généré par ladite url. Si il représente une part importante de votre trafic SEO global, ne vous tirez pas une balle dans le pied, ce serait dommage (et ça fait mal).
Encore une fois, il vous faut faire attention à la manière de manier votre fichier.
Comme vous avez pu le constater également, ce n’est pas le robots.txt qui va seul vous booster votre SEO, en revanche, on peut dire que le travail du fichier aide les moteurs indirectement à aller vers les pages importantes, et ainsi consommer du crawl utile et non du crawl inutile.
Le fichier robots txt a pour objectif de favoriser le “crawl utile” sur les pages (crawl sur les pages génératrices de trafic) et de réduire au maximum la part de “crawl inutile” (crawl sur les pages inutiles au SEO). De cette manière il fait office d’indicateur de la bonne indexation du contenu, c’est à dire le nombre de pages indexées (au regard du nombre de pages utiles sur le site).
L’analyse du fichier peut se réaliser lord d’un audit SEO. Celui-ci aura pour objectif d’identifier le volume de pages sur le site (pages profondes jusqu’à la page d’accueil), et parmi celles-ci celles qui devront être ajoutées au fichier robots txt (car elles ne présenteraient pas d’intérêt pour le référencement).
Le fichier est placé à la racine du serveur et sert à indiquer au robot de google les répertoires, url et variables d’url à ne pas crawler.
L’intérêt du robots.txt est de pouvoir gérer le contenu dupliqué, contenu identique présent sur plusieurs pages.
Le rôle des robots d’indexation est (après avoir accéder à votre site) d’analyser votre site et d’indiquer aux moteurs les pages n’ayant pas à être indexées soit à cause du fichier robots.txt (qui est un fichier de configuration à la racine du serveur) soit à cause de la balise noindex (qui est dans le code-source; dans le code html).
Pour rappel la vitesse de chargement n’a pas d’impact sur le positionnement dans les serps des pages indexées.
En règle générale si un contenu est identique à un autre et qu’il a été identifié après le premier il a peu de chances d’être indexé.
L’objectif du SEO est d’améliorer le référencement des pages existantes en travaillant la structure de son site, l’arborescence, en continuant d’optimiser son site, en continuant de générer des pages répondant aux intentions utilisateur et d’interdire l’accès à Google aux pages sans intérêt SEO. Et en prenant en compte l’évolution de l’algorithme de Google.
Ressources complémentaires autour du fichier robots.txt
Savoir gérer son blog wordpress comme un pro
Le guide pour bien utiliser Screaming Frog
Ressources complémentaires pour construire votre projet digital entrepreneurial.