Blog Tool Box

Aide-mémoire sur le fichier robots.txt

Je vous avais déjà parlé de l’utilité de la mise en place d’un fichier robots.txt sur son serveur dans un précédent article intitulé « Mettre en place un robots.txt pour restreindre les robots d’indexation« .

Partant du constat que nous avons régulièrement besoin de créer des fichiers robots.txt avec des paramètres particuliers comme les wildcards pour des clients au sein de l’agence de référencement dans laquelle je travaille, il nous manquait une ressource, un aide-mémoire à jour et en français sur le protocole robots.txt.

Le site The Web Robots Pages, considéré comme officiel, est en anglais et n’est plus à jour depuis quelques années : on n’y parle pas des wildcards ou des spécificités de certains robots et moteurs de recherche.

Le site Robots-txt.com

De ce fait, j’ai créé un petit site dédié d’aide-mémoire et de base de connaissance sur l’implémentation du fichier robots.txt : robots-txt.com.

Vous y trouverez par exemple :

N’hésitez pas à bookmarker ou à partager ! :)

  • Guirec

    Génial, c’est une très bonne initiative. Merci !

    Bookmarké :-)

  • Jimmy @Taiwan

    excellente ressource ! merci !!
    par contre une remarque au sujet de WordPress, ce CMS génère un fichier robots.txt « virtuel » est-ce que quelqu’un a des infos sur ce fichier virtuel, on trouve très peu d’infos sur le net.

  • Maxime Guernion

    @Guirec : ravi que ça te plaise ! :)

    @Jimmy : le fichier robots.txt virtuel de WordPress n’est actif seulement si :
    – L’option « Demander aux moteurs de recherche de ne pas indexer ce site » dans les réglages de WordPress est activée
    – Et qu’aucun robots.txt « physique » n’est présent dans le serveur

    Dans ce cas, lorsque l’on tente d’accéder au fichier robots.txt, c’est WordPress qui affiche le contenu mais le fichier n’est pas présent physiquement sur le serveur.