Le fichier texte robot, mieux connu sous le nom de robots.txt, est un standard du web qui permet d’éviter aux moteurs de recherche, comme Google et autres, d’accéder à certaines parties de votre site.
Pourquoi voudriez-vous que Google bloque certaines parties de votre site? Une raison importante est d’empêcher Google d’indexer des pages de votre site qui sont des copies de pages d’autres sites, tels que les pages WordPress par défaut. Google pénalise fortement la duplication de contenu.
Une autre raison importante est d’empêcher Google la redirection vers un contenu premium non protégé sur votre site web. Par exemple, il se peut que vous offrez un ebook gratuit aux personnes qui s’abonnent à votre mailing liste. Vous aimeriez sûrement empêcher Google de donner le lien de redirection vers ce ebook, c’est là qu’on utilise le fichier robots.txt pour empêcher Google de l’indexer.
Par exemple, les ebooks peuvent être stockés dans le dossier /PDF à la racine de votre site. Et voici ce qu’il faudrait ajouter au fichier robots.txt pour bloquer les moteurs de recherche :
User-Agent: * Disallow: /PDF/
Cependant, si vous souhaitez que votre ebook gratuit soit consulté par un plus grand nombre d’internautes, ne bloquez pas les moteurs de recherche.
Il se peut également que vous ne voulez pas que Google utilise vos images dans les résultats de recherche.
Aussi, si vous avez un grand site WordPress, Google peut charger la même page sous plusieurs noms différents, en utilisant une grande partie de votre bande passante et de la puissance de traitement du serveur web. Le fichier robots.txt peut alors indiquer à Google d’accéder à des pages une fois seulement.
Les Bases du Fichier robots.txt
Robots.txt est un fichier facultatif qui se trouve en général à la racine du site web. Si vous possédez un site web, vérifiez bien que vous avez déjà ce fichier en tapant l’URL suivante : http://monsite.com/robots.txt.
Voici un exemple de fichier robots.txt d’un site utilisant WordPress :
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /login/ Disallow: /cgi-bin/ Disallow: /PcMatic/ Disallow: /comments/feed/ User-Agent: Googlebot Disallow: /*?* Disallow: /*= Allow: / User-agent: Mediapartners-Google* Allow: / User-agent: Googlebot-Image Allow: /wp-content/uploads/ User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Mobile Allow: /
Il faut faire attention lorsque vous éditez ce fichier car on peut facilement faire une erreur voire bloquer les moteurs de recherche et les empêcher d’accéder à votre site!
Si vous obtenez une page d’erreur 404 « Fichier non trouvé », c’est que vous n’avez pas défini de fichier robots. Sinon vous obtiendrez une page contenant des lignes de texte similaires à celles citées au-dessus, commençant par : User-Agent, Allow, Disallow, #, etc.
Que Signifient les Lignes de Texte dans le Fichier robots.txt ?
- User-agent est l’agent d’usager du navigateur Web qui visite votre site. L’agent d’usager peut aussi être utilisé dans le fichier robots.txt pour interdire à certains spiders l’accès au site ou à certaines sections du site. Ce fichier robot fait appel à des robots, ou spiders, pour explorer votre site pour les moteurs de recherche et d’autres outils automatisés en ligne. Le robot de Google s’appelle Googlebot, mais elle a aussi d’autres robots pour ses autres outils de recherche.
- Allow : indique aux robots qu’ils sont autorisés à visiter des URL en particulier. La plupart du temps le chemin « / » est autorisé par défaut.
- Disallow : indique aux robots les chemins non autorisés. En général, c’est là que l’on passe le plus de temps car le but est de cacher tous les liens que l’on souhaite interdire aux visiteurs.
- Sitemap : pointe vers votre sitemap. Vous avez besoin d’un sitemap pour utiliser ce label dans le fichier robots.txt. Cela requiert donc l’installation d’un plugin WordPress tel que Google XML Sitemaps ou le générateur de sitemap intégré au plugin Yoast SEO dont je vous ai fait un tutoriel complet dans cet article.
Obtenir son Fichier robots.txt dans WordPress
Si votre page d’accueil WordPress est http://monsite.com/, alors il se peut que WordPress gère lui-même votre fichier robots.txt. Mais si votre page d’accueil est http://monsite.com/blog, alors il y a de forte chance que WordPress ne gère pas ce fichier et vous aurez donc à le manipuler directement à travers le FTP.
Par défaut, WordPress crée un fichier robots.txt vierge. Cependant, certains hébergeurs fournissent un fichier robots par défaut pour WordPress, surtout si vous avez utilisé l’option « 1-clic » pour l’installation de WordPress. Si c’est le cas, vous allez peut-être avoir besoin de modifier votre fichier robots.txt à travers le FTP également.
S’il ne s’agit d’aucun des cas précédents, il se peut que WordPress ait généré le fichier robots.txt pour vous, il suffit de tester en tapant l’URL : http://monsite.com/robots.txt
Les Plugins WordPress robots.txt
Il existe plusieurs plugins SEO pouvant générer le fichier robots.txt. Toutefois, il faut rester prudent en utilisant ces plugins car ils peuvent empêcher Google d’indexer des pages que vous voulez faire apparaître dans les moteurs de recherche.
Le plugin cité au dessus, Google XML Sitemaps, crée automatiquement le fichier robots.txt. Cela ne bloque ou n’autorise aucune page, ça insère simplement une ligne Sitemap pour dire à Google et aux autres moteurs de recherche où trouver votre sitemap. Un exemple serait :
Sitemap: https://wpscouts.com/sitemap.xml
Le Fichier robots.txt à l’Ancienne
Si vous voulez un fichier robots.txt personnalisé, vous pouvez en créer un à l’ancienne. Il suffit d’ouvrir Windows Notepad, Mac OSX TextEdit, ou vi ou emacs pour Linux. Entrez le texte suivant :
User-Agent: * Allow: /
L’exemple de fichier ci-dessus indique aux robots d’agir exactement comme ils feraient si vous n’aviez pas de fichier robots, donc ça ne changera rien à votre site. Enregistrez le fichier sous le nom « robots.txt » et envoyez-le vers la racine de votre serveur web en utilisant FTP. Le chemin de la racine est le même que celui où vous avez ajouté le fichier du code de vérification du site web de Google, dans le cas où vous avez vérifié votre site par Google.
Une fois le fichier chargé, utilisez votre navigateur pour visiter http://monsite.com/robots.txt. Vous devriez pouvoir voir le fichier que vous venez de charger. Si ce n’est pas le cas, il faudra contacter votre hébergeur pour vous aider.
Ce qu’il Faut Mettre dans votre Fichier Robots WordPress
Votre fichier robots.txt peut être aussi simple que dans l’exemple d’avant ou beaucoup plus compliqué. En général, on cherche à bloquer les pages suivantes :
- Les répertoires login et d’aide de WordPress commençant par wp-, avec la ligne de code suivante :
Disallow: /wp-*
- L’exemple suivant indiquera à Google de ne pas indexer le répertoire uploads dans lequel sont stockées les images. Si vous voulez que vos images apparaissent dans les résultats de recherche d’images de Google et Bing, ajoutez le code suivant :
Allow: /wp-content/uploads
- Si Google essaie d’indexer un trackback, une page d’erreur s’affichera, il faut donc ajouter ce code aussi :
Disallow: */trackback
- Si vous utilisez Google Adsense alors il est recommandé d’ajouter cette ligne afin de permettre à Google d’explorer tout le contenu afin qu’il puisse diffuser des annonces ciblées.
User-agent: Mediapartners-Google* Allow: /
Ces lignes de commande, bien qu’elles soient banales, devraient couvrir la grande partie de votre site, mais si vous voulez avoir plus d’idées, vous pouvez aller consulter vos sites web WordPress préférés et regarder comment sont faits leur fichier robots.txt.
Cet article vous a plu?
Abonnez-vous alors à notre newsletter pour recevoir des trucs utiles pour votre site WordPress.
Notice: Undefined index: mts_social_button_layout in /home/movo2472/wpscouts.com/wp-content/themes/schema/functions/theme-actions.php on line 461
Une interrogation vis à vis de ton exemple tout en haut :
Pour tous les robots (User-agent: *) on leur interdit la plupart des repertoires « wp » etc etc, ce qui est le but voulu
Mais pour googlebot : on lui autorise un accès à tout?