Crawler les sites : comment les robots des moteurs de recherche opèrent ?

Jean-François Messier
19 avril 2020
Moteurs de recherche
Aucun commentaire

Accueil » Moteurs de recherche » Crawler les sites : comment les robots des moteurs de recherche opèrent ?

« Méfie-toi : les robots vont te crawler ! » Cela ferait presque peur. Que veut dire ce mot exactement ? Quelles pourraient en être les conséquences, positives ou négatives, pour mon site ?

Que veut dire crawler ?

Crawler est un mot anglais, cela veut dire collecter. C’est un robot appelé souvent spider >> qui est chargé de crawler tous les sites et documents qu’il peut trouver sur Internet, donc potentiellement sur votre site Web.

Comment fonctionne un crawler ?

Il peut être programmé pour parcourir le Web, avec des objectifs déterminés. Il est sans cesse en action, et visite les pages en fonction d’un chemin préétabli.

L’un des plus connus est celui utilisé par Google, pour son moteur de recherche nommé Googlebot. Avant lui, c’était AltaVista qui utilisait Scooter.

Actuellement, il y a tellement de pages Internet que les robots d’indexation doivent limiter leur temps sur chaque site afin d’en visiter le plus possible. De fait, un crawler visite donc, en général, seulement une partie du site à chaque passage.

Comment se faire crawler ?

Vous avez intérêt à ce que votre site soit crawlé par les robots, et cela le plus souvent possible. Pour autant, il est encore plus important que leur crawl finisse par un classement en première page des SERP (Search Engine Response Page : les pages de réponse des moteurs de recherche). Pour cela, vous devez bien faire la distinction entre :

Les robots d’indexation et de positionnement, envoyés par les moteurs de recherche : on les appelle spider, crawler ou bots.
Les robots des outils de diagnostic et d’aide au référencement naturel : ils sont souvent développés par les éditeurs de solution de SEO.
Les robots de surveillance, qui veillent par exemple sur des évolutions de prix pour renseigner des comparateurs.
Et enfin moins glorieux : les pratiques de SEO Black Hat.

Qu’est-ce qui empêche une page d’être visitée, collectée et donc indexée par un crawler ?

C’est forcément une décision de votre part. Pour une raison qui vous appartient, vous avez indiqué aux moteurs de recherche que vous ne vouliez pas que cette page soit visitée, ni indexée par les robots.

Pour les empêcher de crawler votre site, il faut indiquer la ou les URL des pages pour lesquelles vous souhaitez interdire l’accès. Pour cela, il vous faut publier ces directives dans le fichier robots.txt à la racine du site. Pour être très précis, sachez que :

le nom de ce fichier est imposé : ne mettez pas robot.txt (sans S) ou autre chose, il ne serait pas pris en compte,
il doit y avoir un fichier robots.txt pour chaque sous-domaine.

Est-ce possible de crawler des pages orphelines ?

Pour rappel, les pages orphelines sont :

des pages vers lesquelles aucun lien du site ne pointe. Aucun lien conduisant vers elles, elles sont donc introuvables des spiders puisque ceux-ci vont de liens en liens. Aucun robot ne risque de venir les indexer. À noter qu’elles peuvent bénéficier de liens externes pointant vers elles (backlinks), mais cela demandera toujours plus de temps que via un lien interne. Par ailleurs, certaines plateformes comme WordPress peuvent effectuer des Pings, c’est-à-dire alerter les moteurs de recherche de la parution d’un nouveau contenu.
ou bien des pages pointées par des liens non lus par les spiders (écrits en JavaScript par exemple, ou bien avec l’attribut NoFollow indiquant au robot de ne pas les livre).

Le passage des robots sur les pages peut être suivi par le web master en analysant les fichiers logs sur les serveurs, qui en indiquent l’historique de passage. Il existe aussi des outils payants en ligne :

Botify : https://www.botify.com/
OnCrawl : https://fr.oncrawl.com/
RobotStats : https://www.robotstats.com/
Watussi Box : https://box.watussi.fr/

Laisser un commentaire Annuler la réponse

Téléchargez gratuitement la Check-List du SEO réussi

Mémo indispensable du rédacteur :

Les 20 incontournables du SEO à ne pas oublier pour bien se référencer.

Partagez notre blog !

Abonnement Gratuit

Ne ratez plus les infos importantes sur le SEO

Recevez toute l’information SEO, Inbound, Moteurs, Google, gratuitement en avant-première.

Demandez votre audit SEO -4000€HT-0 €HT
Gratuit, et sans engagement.

Suivez-moi !

Nos catégories

Nos derniers articles

Les mots-clé du prospect révèlent une comparaison à la concurrence

25 mai 2020

Quels critères pour choisir les bons mots-clés ?

13 mai 2020

Que se passe-t’il derrière une requête d’un internaute dans un moteur de recherche ? Qu’est-ce qu’une SERP ?

19 avril 2020

Crawler les sites : comment les robots des moteurs de recherche opèrent ?

19 avril 2020

Crawler les sites : comment les robots des moteurs de recherche opèrent ?

Que veut dire crawler ?

Comment fonctionne un crawler ?

Comment se faire crawler ?

Qu’est-ce qui empêche une page d’être visitée, collectée et donc indexée par un crawler ?

Est-ce possible de crawler des pages orphelines ?

Vous aimerez aussi ...

Les mots-clé du prospect révèlent une comparaison à la concurrence

Quels critères pour choisir les bons mots-clés ?

Laisser un commentaire Annuler la réponse

Téléchargez gratuitement la Check-List du SEO réussi

Partagez notre blog !

Abonnement Gratuit

Demandez votre audit SEO -4000€HT-0 €HT
Gratuit, et sans engagement.

Suivez-moi !

Nos catégories

Catégories

Nos derniers articles

Les mots-clé du prospect révèlent une comparaison à la concurrence

Quels critères pour choisir les bons mots-clés ?

Tarte à la crème et SEO : test des moteurs de recherche

Que se passe-t’il derrière une requête d’un internaute dans un moteur de recherche ? Qu’est-ce qu’une SERP ?

Crawler les sites : comment les robots des moteurs de recherche opèrent ?

© All rights reserved

Menu

Catégories

Informations

Abonnement Gratuit

Demandez votre audit SEO -4000€HT-0 €HT
Gratuit, et sans engagement.

Les dernières actus WEB-SEO, Google, référencement
dans votre boite email

Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site. Si vous continuez à utiliser ce dernier, nous considérerons que vous acceptez l’utilisation des cookies. Voir notre Politique de confidentialité.

Crawler les sites : comment les robots des moteurs de recherche opèrent ?

Que veut dire crawler ?

Comment fonctionne un crawler ?

Comment se faire crawler ?

Qu’est-ce qui empêche une page d’être visitée, collectée et donc indexée par un crawler ?

Est-ce possible de crawler des pages orphelines ?

Vous aimerez aussi ...

Les mots-clé du prospect révèlent une comparaison à la concurrence

Quels critères pour choisir les bons mots-clés ?

Tarte à la crème et SEO : test des moteurs de recherche

Laisser un commentaire Annuler la réponse

Téléchargez gratuitement la Check-List du SEO réussi

Partagez notre blog !

Abonnement Gratuit

Demandez votre audit SEO -4000€HT-0 €HT Gratuit, et sans engagement.

Suivez-moi !

Nos catégories

Catégories

Nos derniers articles

Les mots-clé du prospect révèlent une comparaison à la concurrence

Quels critères pour choisir les bons mots-clés ?

Tarte à la crème et SEO : test des moteurs de recherche

Que se passe-t’il derrière une requête d’un internaute dans un moteur de recherche ? Qu’est-ce qu’une SERP ?

Crawler les sites : comment les robots des moteurs de recherche opèrent ?

Abonnement Gratuit

Demandez votre audit SEO -4000€HT-0 €HT Gratuit, et sans engagement.

Les dernières actus WEB-SEO, Google, référencementdans votre boite email

Nous utilisons des cookies pour vous garantir la meilleure expérience sur notre site. Si vous continuez à utiliser ce dernier, nous considérerons que vous acceptez l’utilisation des cookies. Voir notre Politique de confidentialité.

Demandez votre audit SEO -4000€HT-0 €HT
Gratuit, et sans engagement.

Demandez votre audit SEO -4000€HT-0 €HT
Gratuit, et sans engagement.

Les dernières actus WEB-SEO, Google, référencement
dans votre boite email