Comment créer votre fichier robots.txt en 5 minutes

comment créer le fichier robots.txt en 5 minutes

Table des matières

Faites la différence et dites oui à la réussite :)

>> Découvrez dans ce pack de bienvenue les ingrédients de votre réussite

>> Ayez la confiance nécessaire pour construire VOTRE offre, obtenez des prospects grâce à vos valeurs et à votre SEO !

>> Accès au groupe Telegram pour échanger et avoir des conseils.

Comment créer votre fichier robots.txt en quelques minutes seulement ?

Ce n’est pas une configuration complexe à activer sur votre site mais elle peut vous être vraiment bénéfique selon votre structure et les éventuels cas de duplication de contenus qui pourraient consommer une part importante du crawl des moteurs sur vos pages.

Mais avant toute chose, qu’est ce que c’est le fichier robots.txt et à quoi ça sert ? Et comment ça peut aider le référencement ?

 

Comment créer un fichier robots.tct en 5 minutes

 

Revenons aux basiques, qu’est ce que le référencement naturel ?

 

L’objectif du référencement naturel, ou SEO, Search Engine Optimization est de faire apparaitre vos pages sur les listes de résultats des moteurs de recherche sur des requêtes stratégiques en lien avec votre activité, votre secteur, votre coeur de métier.

Pour ce faire vous avez défini en amont, selon vos besoins, des landing pages ou pages de destination, chacune d’entre elle ayant un objectif sémantique.

Etape suivante, il faut que les robots des moteurs de recherche soient capables (dans le sens que vous leur donniez la possibilité de) d’identifier et crawler ces pages.

Une fois cette étape finie, vos pages seront certainement indexées si elles présentent de la valeur et de l’intérêt pour vos utilisateurs. Si ce n’est pas le cas, retravaillez la conception et le contenu de vos pages.

Si vos pages sont indexées, il ne reste plus qu’à faire en sorte qu’elles se positionnent sur les fameuses requêtes qui nous intéressent tant.

Donc la première étape de votre stratégie de référencement sera de permettre aux robots des moteurs de recherche d’accéder en priorité aux pages génératrices de trafic et de conversions, c’est à dire accéder aux pages qui ont un intérêt référencement.

Ce qui revient à bloquer au crawl de Google les pages ne présentant pas d’intérêt SEO et / ou les pages en duplication de contenu et / ou les pages affichant trop peu de contenu.

Notre objectif est donc d’orienter le crawl des moteurs sur les zones “utiles au SEO” de votre site et d’éviter les zones “inutiles au SEO”.

Une des actions qui nous permet de bloquer le crawl des moteurs aux zones inutiles est l’utilisation du fichier de configuration robots.txt.

L’objectif du fichier robots.txt est très clair : Indiquer aux robots des moteurs  les zones de votre site à ne pas crawler.

Indirectement donc, la configuration du robots.txt permet d’orienter le crawl de Google sur les pages dites utiles pour le SEO.

Concrètement, le robot.txt est là pour vous aider à gagner du temps.

Dossier : Qu’est ce que le référencement naturel ?

Dossier : Comment booster votre SEO.

 

Qu’est ce que le fichier robots.txt ? A quoi sert-il ?

 

Le fichier robots.txt est un fichier au format .txt comme son extension l’indique, qui se place à la racine du serveur (de telle sorte qu’il soit accessible au type d’url suivant : nomdedomaine.com/robots.txt).

Exemple avec mon propre robots.txt :https://ateliers-digitaux.com/robots.txt.

fichier robots txt

Le fichier robots.txt (respectez cette syntaxe, pas robot.txt par exemple) permet d’indiquer les url ou variables d’url qu’on ne souhaite pas voir crawlées et donc affichées dans l’index de Google.

Il ne faut le modifier que si vous êtes sûr.e de votre manipulation. Sinon les conséquences, en cas d’erreurs, peuvent s’avérer catastrophiques.

Par exemple, au tout début lorsque j’ai commencé le SEO en stage, je devais modifier le fichier robots.txt.

J’ai ajouté par erreur la ligne Disallow : /.

Ce qui signifie simplement que j’avais bloqué au crawl des moteurs l’ensemble des pages du site sur lequel je travaillais. Au bout de quelques jours, et après constat d’une forte baisse de trafic , l’erreur a été identifiée et corrigée.

Je peux vous assurer que je ne faisais pas le malin.

Pour information, ou pour rappel, le fichier sitemap.xml se place au même endroit sur le serveur que le fichier robots.txt.

 

Indication d’Url dans le fichier robots.txt

 

Une url correspond à l’adresse d’une page. Par exemple : https://ateliers-digitaux.com/inscription.html

Pour rappel, la règle absolue est : une url = une page. Une page = une url.

Dans le robots.txt on peut interdire aux moteurs de recherche d’accéder à cette url complète. Ou à une variable d’url.

 

Qu’est-ce qu’une variable d’url ?

 

Une variable d’url correspond à un élément dynamique dans l’url pour trier, filtrer, paginer par exemple.

D’ailleurs, sur les pages catégories des sites e-commerce, il est la plupart du temps possible de filtrer les produits de multiples manières :

Par couleurs, matières, prix, taille, marques, coupe etc.

Selon la technologie employée derrière, on peut avoir des variables d’url qui se rajoutent à la fin des url (exemple : ?prix= ou ?order=price). L’utilisateur ne voit rien, c’est uniquement côté url que ça se passe.

On peut donc se retrouver avec 10 url pour une seule et même page. On gonfle artificiellement le volume de pages du site.

Est-ce une bonne chose ? Oui ? Non ?

Non, bien sûr, cette situation provoque de la duplication de contenus en masse.

Cela signifie que les moteurs se perdent dans vos pages, perdent du temps et des ressources à ne pas crawler les “bonnes” pages, c’est à dire les pages canoniques, les pages de référence (après on peut utiliser les pages en duplication différemment en donnant un autre objectif sémantique à la page mais ce n’est pas l’objectif de cet article).

Ajoutons à cela la notion de crawl budget : selon l’historique de votre site, sa popularité, la masse de contenus présentes, Google défini un volume de pages à crawler par jour sur votre site.

Par exemple, votre site comporte 1000 url, Google peut décider de n’en crawler que 500 soit à peine 50% des contenus du site. Cela signifie que vous avez plutôt intérêt à ce que les 500 url crawlées par jour soient des pages utiles au référencement. Si vous avez une structure complexe avec beaucoup de duplications, Google pourrait n’analyser que 10% de pages dites utiles au SEO.

 

créer le fichier robots.txt attention aux filtres de navigation

Par exemple cette page

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes.html

est accessible de X manières différentes :

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-10-20.html => Filtre prix bas

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/prix-20-30.html => Filtre prix haut

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/saison-ete.html => Filtre saison

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/couleur-marron.html => Filtre couleur

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/taille-6-mois-3-ans.html => Filtre taille

https://www.sucredorge.com/sommeil/gigoteuses-0-6-mois-turbulettes/sexe-mixte.html => Filtre sexe

Pour complexifier le problème il est également possible d’associer plusieurs filtres en même temps :

Couleur marron pour garçon été.

Couleur rose pour fille hiver.

etc.

On se retrouve donc avec beaucoup de pages “inutiles” pour le SEO.

Donc pour éviter que Google et autres moteurs se perdent dans ces pages, on indique dans le fichier robots.txt que toutes les url qui comportent au moins une de ces variables ne doivent pas être crawlées et donc non indexées.

 

Comment créer et / ou modifier le fichier robots.txt ?

 

Le fichier robots.txt est constitué du format suivant :

User-agent: *

Disallow: *

User-Agent : Ce sont les robots des moteurs auxquels vous donnez des instructions.

Si vous n’avez pas d’instructions pour un robot en particulier, vous laissez tel quel. Cela signifie que les règles que vous énoncez après s’appliquent à n’importe quel robot.

Disallow : cette commande indique que le robot ne devra pas crawler l’url ou variable d’url indiquée.

Allow : Au contraire, indique que les robots sont autorisés à suivre cette url ou variable d’url.

Cette dernière syntaxe n’est quasiment pas utilisée. Focalisez vous sur le disallow.

 

Si on reprend l’exemple vu plus haut cela donnera :

User-agent :*

  • Disallow : /prix-10-20.html
  • Disallow : /prix-20-30.html
  • Disallow : /saison-ete.html
  • Disallow : /couleur-marron.html
  • Disallow : /taille-6-mois-3-ans.html
  • Disallow : /sexe-mixte.html

Sauf que ça peut être rébarbatif et long de lister l’ensemble des variables, dans ce cas on fait des règles par types de variables (j’ai remplacé le champ variable par un *).

User-agent : *

  • Disallow : /prix-*.html => Toutes les variables prix
  • Disallow : /saison-*.html => Toutes les variables saison
  • Disallow : /couleur-*.html => Toutes les variables couleur
  • Disallow : /taille-*.html => Toutes les variables taille
  • Disallow : /sexe-mixte.html => Toutes les variables sexe

Last but not least, il vous est recommandé (par les moteurs eux-mêmes) d’ajouter en bas du robots.txt l’url d’accès à votre fichier sitemap.

Cela donnera :

Sitemap : https://domaine.fr/sitemap.txt

Dernière information, faites très attention à l’utilisation du /.

Disallow : / signifie que vous bloquez au crawl des moteurs l’ensemble de vos pages.

Si vous n’avez rien à bloquer, ne mettez rien. Juste :

Allow : /

Si vous n’avez rien à bloquer dans votre robots.txt, Ne mettez rien.

Comment mettre en place une navigation interne user-friendly et seo-friendly.

 

Comment remplir le fichier robots.txt ?

 

Alors effectivement, bonne question, suite à ce qui a été mentionné plus haut, comment remplir efficacement le fichier robots.txt ?

Maintenant que vous avez conscience de l’importance de ce fichier, comment pouvez-vous le remplir afin qu’il puisse aider les robots des moteurs de recherche à crawler en priorité les contenus utiles ?

Première étape fondamentale pour créer le fichier robots.txt :

Il vous convient d’identifier l’ensemble des pages que vous avez sur votre site.

Pour ce faire, la meilleure solution reste encore l’utilisation de l’outil Screaming Frog. Découvrez le guide ici pour l’utiliser correctement.

indexer une page web : attention au code réponse

Une fois le crawl fini, filtrez les pages html dans l’ascenseur de gauche, et classez les url par ordre alphabétique vous verrez les url en doublon. Prenez bien le temps de regarder toutes les url.

Seconde étape pour créer le fichier robots.txt :

Identifiez les pages de votre site qui n’ont pas vocation à être dans l’index Google (pages formulaires par exemple, pages en duplication, pages présentant trop peu de contenu). Si vous avez un doute, regardez sur Analytics ou autre outil de suivi de trafic, le volume de trafic de ces pages, et les sources de trafic de ces pages.

Troisième étape pour créer le fichier robots.txt :

Regardez dans le listing d’url récupérées depuis Screaming Frog, les url en duplication dont vous n’aviez peut-être même pas conscience d’où l’intérêt de ce genre d’exercice).

Ou même des pages dont vous aviez oublié l’existence.

Quatrième étape :

L’idée ensuite est de formaliser les résultats de vos analyses dans le robots.txt. Que ce soient des url complètes ou de simples variables d’url.

 

Comment le créer sur WordPress ?

 

créer le fichier robots.txt avec yoast seo

Via WordPress, la procédure est assez simple.

Installez le plugin Yoast SEO.

Allez ensuite dans Outils puis éditeur de fichiers.

Là vous activez la création par défaut du fichier robots.txt. Le contenu par défaut est celui-ci :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Une fois le fichier créé vous pouvez le modifier ou compléter directement dans Yoast SEO.

Pour les plus téméraires, il y a une autre solution très sympa.

Vous créez un fichier robots.txt que vous enregistrez en local sur votre machine.

Vous pouvez le compléter dès le départ.

Ensuite, via un outil ftp tel que FileZilla vous allez uploader votre fichier dans le répertoire /public_html.

Une fois fait, testez l’url du fichier dans votre navigateur pour vérifier que la manipulation était bonne.

créer le fichier robots.txt avec un ftp

 

Créer et uploader le fichier à la mano

 

C’est très simple.

Créez un fichier texte nommé robots.txt, intégrez la syntaxe mentionnée ci-dessus avec les variables d’url que vous avez identifiées.

Remarque : Même si selon vous vous n’avez pas d’url suspecte sur votre site, lancez tout de même un crawl avec Screaming Frog, vous pourriez être très surpris des résultats obtenus.

Une fois le fichier créé, allez sur votre ftp, allez à la racine du serveur, c’est à dire, le répertoire de base.

Uploadez le fichier.

Une fois fait, tapez dans votre navigateur le chemin d’url menant à votre fichier. Soit

site.com/robots.txt.

Si le fichier apparait correctement, vous avez bien fait votre travail. Sinon, recommencez. Si ce n’est toujours pas bon, vérifiez que vous êtes sur le bon répertoire.

 

Le fichier robots.txt est -il obligatoire ?

 

Vous n’irez pas en enfer si vous n’avez pas déposé votre fichier. Disons plutôt que son ajout est vivement recommandé. Chaudement recommandé. Surtout si vous vous rendez compte d’url exotiques indésirables.

 

Conclusion

 

Même si l’implémentation reste simple, gérer votre fichier robots.txt ne s’avère pas aussi évident.

Il faut faire les bons choix, et surtout ne pas chercher à bloquer par erreur des pages qui ont un intérêt pour votre référencement.

Si vous avez le moindre doute sur une url, prenez le temps de regarder via Analytics ou autre outil de tracking le trafic SEO généré par ladite url. Si il représente une part importante de votre trafic SEO global, ne vous tirez pas une balle dans le pied, ce serait dommage (et ça fait mal).

Encore une fois, il vous faut faire attention à la manière de manier votre fichier.

Comme vous avez pu le constater également, ce n’est pas le robots.txt qui va seul vous booster votre SEO, en revanche, on peut dire que le travail du fichier aide les moteurs indirectement à aller vers les pages importantes, et ainsi consommer du crawl utile et non du crawl inutile.

Vous trouverez plus d’informations sur le site officiel : http://robots-txt.com/

Exercice complètement inverse : Découvrez comment indexer efficacement une page web.

Egalement : Comment rendre vos pages SEO-friendly.

Et enfin découvrez comment gérer le référencement d’un site e-commerce.

Une question ? Un besoin ? Une demande d’information ?

D'autres sujets à découvrir sur le même sujet