Crawler les sites : comment les robots des moteurs de recherche opèrent ?

« Méfie-toi : les robots vont te crawler ! » Cela ferait presque peur. Que veut dire ce mot exactement ? Quelles pourraient en être les conséquences, positives ou négatives, pour mon site ?

Que veut dire crawler ?

Crawler est un mot anglais, cela veut dire collecter. C’est un robot appelé souvent spider >> qui est chargé de crawler tous les sites et documents qu’il peut trouver sur Internet, donc potentiellement sur votre site Web.

Comment fonctionne un crawler ?

Il peut être programmé pour parcourir le Web, avec des objectifs déterminés. Il est sans cesse en action, et visite les pages en fonction d’un chemin préétabli.

L’un des plus connus est celui utilisé par Google, pour son moteur de recherche nommé Googlebot. Avant lui, c’était AltaVista qui utilisait Scooter.

Actuellement, il y a tellement de pages Internet que les robots d’indexation doivent limiter leur temps sur chaque site afin d’en visiter le plus possible. De fait, un crawler visite donc, en général, seulement une partie du site à chaque passage.

Comment se faire crawler ?

Vous avez intérêt à ce que votre site soit crawlé par les robots, et cela le plus souvent possible. Pour autant, il est encore plus important que leur crawl finisse par un classement en première page des SERP (Search Engine Response Page : les pages de réponse des moteurs de recherche). Pour cela, vous devez bien faire la distinction entre :

  • Les robots d’indexation et de positionnement, envoyés par les moteurs de recherche : on les appelle spider, crawler ou bots.
  • Les robots des outils de diagnostic et d’aide au référencement naturel : ils sont souvent développés par les éditeurs de solution de SEO.
  • Les robots de surveillance, qui veillent par exemple sur des évolutions de prix pour renseigner des comparateurs.
  • Et enfin moins glorieux : les pratiques de SEO Black Hat.

Qu’est-ce qui empêche une page d’être visitée, collectée et donc indexée par un crawler ?

C’est forcément une décision de votre part. Pour une raison qui vous appartient, vous avez indiqué aux moteurs de recherche que vous ne vouliez pas que cette page soit visitée, ni indexée par les robots.

Pour les empêcher de crawler votre site, il faut indiquer la ou les URL des pages pour lesquelles vous souhaitez interdire l’accès. Pour cela, il vous faut publier ces directives dans le fichier robots.txt à la racine du site. Pour être très précis, sachez que :

  • le nom de ce fichier est imposé : ne mettez pas robot.txt (sans S) ou autre chose, il ne serait pas pris en compte,
  • il doit y avoir un fichier robots.txt pour chaque sous-domaine.

Est-ce possible de crawler des pages orphelines ?

Pour rappel, les pages orphelines sont :

  • des pages vers lesquelles aucun lien du site ne pointe. Aucun lien conduisant vers elles, elles sont donc introuvables des spiders puisque ceux-ci vont de liens en liens. Aucun robot ne risque de venir les indexer. À noter qu’elles peuvent bénéficier de liens externes pointant vers elles (backlinks), mais cela demandera toujours plus de temps que via un lien interne. Par ailleurs, certaines plateformes comme WordPress peuvent effectuer des Pings, c’est-à-dire alerter les moteurs de recherche de la parution d’un nouveau contenu.
  • ou bien des pages pointées par des liens non lus par les spiders (écrits en JavaScript par exemple, ou bien avec l’attribut NoFollow indiquant au robot de ne pas les livre).

Le passage des robots sur les pages peut être suivi par le web master en analysant les fichiers logs sur les serveurs, qui en indiquent l’historique de passage. Il existe aussi des outils payants en ligne :

Partager sur linkedin
LinkedIn
Partager sur twitter
Twitter

Vous aimerez aussi ...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

For security, use of Google's reCAPTCHA service is required which is subject to the Google Privacy Policy and Terms of Use.

I agree to these terms.

Téléchargez gratuitement la Check-List du SEO réussi

Mémo indispensable du rédacteur :

Les 20 incontournables du SEO à ne pas oublier pour bien se référencer.

La protection des données nous tient à cœur. Vous pouvez vous désinscrire de ce type de communications à tout moment. Pour plus d'informations, consultez notre politique de confidentialité.

Partagez notre blog !

Partager sur linkedin
Partager sur twitter

Abonnement Gratuit

Ne ratez plus les infos importantes sur le SEO

Recevez toute l’information SEO, Inbound, Moteurs, Google, gratuitement en avant-première.

La protection des données nous tient à cœur. Vous pouvez vous désinscrire de ce type de communications à tout moment. Pour plus d'informations, consultez notre politique de confidentialité.

Nos derniers articles

Les mots-clé du prospect révèlent une comparaison à la concurrence

Quels critères pour choisir les bons mots-clés ?

Tarte à la crème et SEO : test des moteurs de recherche

Que se passe-t’il derrière une requête d’un internaute dans un moteur de recherche ? Qu’est-ce qu’une SERP ?

Crawler les sites : comment les robots des moteurs de recherche opèrent ?

Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site. Si vous continuez à utiliser ce dernier, nous considérerons que vous acceptez l’utilisation des cookies. Voir notre Politique de confidentialité.