Je vous avais déjà parlé de l’utilité de la mise en place d’un fichier robots.txt sur son serveur dans un précédent article intitulé « Mettre en place un robots.txt pour restreindre les robots d’indexation« .
Partant du constat que nous avons régulièrement besoin de créer des fichiers robots.txt avec des paramètres particuliers comme les wildcards pour des clients au sein de l’agence de référencement dans laquelle je travaille, il nous manquait une ressource, un aide-mémoire à jour et en français sur le protocole robots.txt.
Le site The Web Robots Pages, considéré comme officiel, est en anglais et n’est plus à jour depuis quelques années : on n’y parle pas des wildcards ou des spécificités de certains robots et moteurs de recherche.
Le site Robots-txt.com
De ce fait, j’ai créé un petit site dédié d’aide-mémoire et de base de connaissance sur l’implémentation du fichier robots.txt : robots-txt.com.
Vous y trouverez par exemple :
- des ressources spécifiques à certains moteurs de recherche majeurs comme Google, Bing, Yandex!, MSN, Baidu ou certains moteurs particuliers comme DuckDuckGo, Blekko ou Volunia
- des ressources spécifiques à certains CMS comme WordPress, Drupal, Joomla, Magento, etc
- des ressources sur des directives ou des paramètres particuliers : wildcards, Crawl-delay, directive Allow
- ou encore des ressources dédiées à des implémentations techniques particulières : robots.txt et sous-domaine ou avec un serveur HTTPS
N’hésitez pas à bookmarker ou à partager ! :)
Génial, c’est une très bonne initiative. Merci !
Bookmarké :-)
excellente ressource ! merci !!
par contre une remarque au sujet de WordPress, ce CMS génère un fichier robots.txt « virtuel » est-ce que quelqu’un a des infos sur ce fichier virtuel, on trouve très peu d’infos sur le net.
@Guirec : ravi que ça te plaise ! :)
@Jimmy : le fichier robots.txt virtuel de WordPress n’est actif seulement si :
– L’option « Demander aux moteurs de recherche de ne pas indexer ce site » dans les réglages de WordPress est activée
– Et qu’aucun robots.txt « physique » n’est présent dans le serveur
Dans ce cas, lorsque l’on tente d’accéder au fichier robots.txt, c’est WordPress qui affiche le contenu mais le fichier n’est pas présent physiquement sur le serveur.