займ без процентов

Tuto : Comment bien configurer son fichier robots.txt ?

configurer fichier robots.txt l'Agenceweb.com

Comment bien configurer son fichier robots.txt ?

Le fichier robots.txt est un fichier crucial pour votre référencement SEO, et l’une des premières choses à regarder lorsqu’on effectue un audit SEO. Principalement utilisé pour exclure les robots du web, ou crawlers, il vous permet d’optimiser votre référencement SEO. C’est pourquoi il est important de bien le configurer. Explications.

Qu’est-ce que le fichier robots.txt ?

Le fichier robots.txt est un protocole d’exclusion des robots au format texte (.txt), que l’on place à la racine du serveur de son site web à l’aide d’un logiciel client FTP type FileZilla afin de réguler le crawl des robots des algorithmes Google, parfois invasif et à l’origine de désagréments.

Les robots des algorithmes sont le maillon central de votre référencement web : ce sont eux qui sont chargés de scanner le contenu présent sur Internet et d’indexer les pages en fonction de leur qualité et de leur popularité, pour répondre aux requêtes des utilisateurs. Cependant, il y a certains cas où vous préféreriez ne pas avoir affaire à ces robots : par exemple lorsque votre page n’apporterait aucune valeur ajoutée aux résultats de recherche des navigateurs (pages statiques, pages peu pertinentes, pages de redirection, pages contenant des informations confidentielles…).  Ainsi, grâce au fichier robots.txt, il vous est possible de bloquer l’indexation de ces pages.

Comment bien configurer son robots.txt, étape par étape :

Connaître les règles de base :

Tout d’abord, pour bien configurer son robots.txt, il est nécessaire de connaître quelques règles et principes.

Premièrement, il est important de bien orthographier le nom du fichier, au pluriel (robots.txt), sinon, il ne fonctionnera pas.

Ensuite, votre fichier robots.txt doit être bien intégré au serveur de votre site web, c’est-à-dire qu’il doit être accessible et lisible par les robots des moteurs de recherche. Pour qu’il soit lisible, il doit d’abord être téléchargeable, et peser moins de 500 ko.

Enfin, pensez à désindexer les URL concernées en plus de bloquer l’indexation de la page, en y insérant une balise « meta robots noindex » ou un entête « HTTP X-Robots-Tag », ou en demandant sa suppression depuis l’outil Google Search Console.

Sachez également que vous ne pouvez configurer qu’un seul fichier robots.txt pour votre site : toutefois, il vous faudra déployer un fichier robots.txt pour chaque sous-domaine de votre site web et pour chaque protocole (HTTP et HTTPS).

Créer le fichier robots.txt :

Une fois que vous vous êtes renseigné sur ces règles de fonctionnement particulières, commencez par créer un fichier robots.txt : pour cela, utilisez un éditeur de texte de type Notepad, Atom ou encore même via le classique Bloc-notes disponible sur le système Windows. Placez-le ensuite à la racine de votre site web, sur votre serveur FTP, où un emplacement est déjà prévu pour ce type de fichier.

Mettre à jour le fichier robots.txt :

Pour vous assurer que le fichier robots.txt ait été correctement intégré sur votre serveur, il vous faudra le mettre à jour régulièrement. Pour ce faire, vous devrez vous rendre dans la Search Console de Google. Dans l’onglet « Exploration > Outil de test du fichier robots.txt », vous serez en mesure de vérifier si telle ou telle page est bloquée, et ainsi effectuer les ajustements comme nous le verrons ci-dessous. Il vous suffira de cliquer sur « Envoyer » et de suivre les consignes de la Search Console pour bloquer ou autoriser l’indexation (disallow ou allow). Pour savoir comment s’affiche votre fichier robots.txt, vous pouvez le faire de la manière suivante, directement depuis la barre de recherche de votre logiciel de navigation web :

Exemple : www.e-marketing.fr/robots.txt

Optimiser la configuration du fichier robot.txt :

Pour optimiser la configuration de son fichier robots.txt, il y a certaines choses à éviter. Tout d’abord, il faut s’assurer que l’URL du robots.txt ne renvoie pas une erreur (comme l’erreur http 404), sous peine que votre configuration soit inefficace. Pour vérifier et connaître l’état de santé des URL de votre site, n’hésitez pas à faire appel aux services d’experts SEO Techniques : https://www.l-agenceweb.com/referencement-naturel/. Ensuite, ne modifiez surtout pas l’URL du fichier robots.txt : il doit rester à la racine de votre serveur FTP pour fonctionner correctement. Pensez également à bien coder le fichier en UTF-8 pour qu’il fonctionne correctement, et à respecter l’ordre des blocs de directives.

Savoir utiliser les commandes du fichier robots.txt :

Pour bien configurer son fichier robots.txt, il est nécessaire de connaître les différentes commandes du robots.txt, en voici quelques-unes :

  • 1. Pour autoriser l’indexation des pages d’un site, vous avez le choix entre deux types d’écriture : « disallow : » ou « allow : / » ;
  • 2. Pour bloquer l’indexation de toutes les pages, écrivez « disallow : / » ;
  • 3. Pour bloquer l’indexation d’un dossier en particulier : « disallow : /dossier/ » ;
  • 4. Enfin, pour bloquer l’indexation d’un dossier mais en autoriser une page seulement, inscrivez ceci :

User-agent: Googlebot

Disallow : /dossier/

Allow : /dossier/nompage.html.

En résumé, une fois ces commandes intégrées à votre fichier robots.txt, l’autorisation ou le blocage de l’indexation n’est pas irréversible et pourra être modifié quand vous le voudrez, en vous rendant simplement dans le Search Console et en procédant comme vu plus haut. Ainsi, vous vous apercevrez bien vite que le fichier robots.txt est un formidable outil pour booster votre référencement SEO !

A propos de l'auteur

Les experts de L'Agence Web, agence de Référencement Naturel et Payant certifiée Google, décryptent pour vous l'actualité liée au monde du digital. Faites-vous accompagner par nos experts SEO pour votre stratégie de visibilité. Visitez notre site web : www.l-agenceweb.com

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *