Catégories

Alphabétique

Étiquettes

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Newsletter

Recevez les emails privés

Adsense

Delisting SEO : comment affect-il le positionnement ?

Le Delisting SEO et une pratique qui consiste à supprimer de façon passagère ou définitive une page Web d'un annuaire ou de l'index d'un moteur de référencement.Pourquoi demander un Delisting d'une page de l'index des moteurs de reférencement ? Il existe un grand...

Google Bombing : qu’est ce que le bombardement SEO

Google Bombing : qu’est ce que le bombardement SEO

Le bombardement Google (ou "Google bombing") est une technique de référencement Black Hat SEO utilisée pour exploiter à contre-pieds, une fonctionnalité de l'algorithme PageRank utilisé par le moteur de recherche Google, qui attribue l'importance d'une page, en...

Google Bot : Qu’est ce que les Robots Crawler ?

par | Juin 17, 2021 | SEO, SEO Fondamental | 0 commentaires

Accueil / Non classifié(e) / Google Bot : Qu’est ce que les Robots Crawler ?

Lorsque nous parlons de Googlebot dans le cadre du référencement organique, nous faisons référence, au robot d’exploration qui parcourt les différentes pages web accessible.

Tel une araignée cheminant sur une toile, il “Crawl” (ramper en français) de page en page sur le World Wide Web et en répertorie le contenu afin de l’indexer puis, l’algorithme du site référenceur se charge de les classer au sein des différentes pages des résultats de recherche.

Ainsi, il collecte les documents par le biais d’un processus automatisé, qui fonctionne à peu près comme un navigateur web.

Le bot (également appelé Spider Bot) envoie une requête et reçoit une réponse d’un serveur.

Si certains paramètres permettent à Googlebot d’y accéder, il télécharge la page Web unique, accessible via un URL, et la stocke initialement dans l’index Google.

C’est ainsi que Googlebot parcourt l’Internet mondial en utilisant des ressources distribuées.

La puissance de calcul de Googlebot est répartie sur un énorme système de serveurs de données, ce qui lui permet d’explorer des milliers de sites web simultanément.

Comment chemine le robot d’exploration à travers la toile ?

Tout d’abord, Googlebot a non seulement la capacité d’explorer et d’indexer les sites Web sur Internet, mais il peut également tirer des informations de fichiers tels que PDF, XLS, DOC, etc. Le développement de Googlebot lui permet même d’accéder à certains fichiers JavaScript et CSS et de les lire.

La technologie de “Crawl” de Google est essentiellement un algorithme qui fonctionne de manière indépendante.

Il est basé sur le concept du WWW (world wide web). L’internet peut être conçu comme un très grand réseau de sites web, comprenant des nœuds, des liens, des hyperliens.

Mathématiquement, ce concept peut être décrit comme un graphique. Chaque nœud est accessible par une adresse web, l’URL. Les liens sur un site web mènent à d’autres sous-pages ou à d’autres ressources avec un autre URL ou adresse de domaine.

Le robot crawler fait donc la distinction entre les liens hypertexte d’attribut HREF (connexion entre deux pages distincte) et ceux avec l’attribut SRC (connection avec la source du contenu).

La vitesse et l’efficacité avec lesquelles un crawler peut effectuer une recherche sur l’ensemble du graphe sont décrites dans la théorie des graphes.

Google travaille avec différentes techniques.

D’une part, Google utilise le multi-threading, c’est-à-dire le traitement simultané de plusieurs processus de crawl.

D’autre part, Google travaille avec des robots d’indexation ciblés, qui se concentrent sur des sujets thématiques restreints, par exemple en recherchant sur le Web certains types de liens, de sites Web ou de contenus.

Google dispose d’un robot pour l’exploration des images, d’un autre pour la publicité sur les moteurs de recherche et d’un troisième pour les appareils mobiles.

Comment l’algorithme détermine la fréquence de crawling du Google bots ?

Le robot a besoin d’une quantité faramineuse de ressources, en effet, il doit parcourir en permanence des millions de pages web.

Pour ce faire, il utilise le crawling algorithmique, c’est-à-dire une logique euristique fournie par ses programmes informatiques, qui définit l’ensemble des sites à crawler, les pages à explorer sur chacun d’eux ou la profondeur à atteindre sur chaque site, la fréquence à laquelle le faire, et même le temps à consacrer à l’investigation et à la découverte de nouvelles pages web.

Pour ce faire, le robot télécharge des copies des pages qu’il explore et effectue cette exploration à une vitesse énorme, qui peut se produire à partir de plusieurs endroits différents, car il a la capacité de se répartir sur différents ordinateurs pour optimiser ses performances et accéder aux pages web à partir de différents endroits.

Malgré les crawls infinis qu’il effectue avec une vitesse énorme, son objectif est toujours de crawler le plus grand nombre de pages sans saturer le serveur où elles se trouvent et sans effondrer la bande passante de ce dernier.

L’algorithme, qui est influencé par plus de 200 facteurs, déterminera la fréquence à laquelle chaque page doit être explorée et, ce faisant, il les stockera par le biais de l’indexation, afin de connaître leur contenu et de les proposer ensuite aux utilisateurs dans les SERP du moteur de recherche.

Il est également possible de définir la fréquence à laquelle Googlebot doit explorer un site Web.

Cela se fait généralement dans la Google Search Console.

Ceci est particulièrement recommandé lorsque le crawler réduit les performances du serveur ou si le site web est fréquemment mis à jour et doit donc être crawlé fréquemment.

Il est nécessaire de connaître le nombre de pages d’un site web qui doivent être crawlées, car il est important de connaître le budget de crawl.

Interaction avec les Spider Bots sur votre site Web

Les webmasters et les exploitants de sites web ont différentes possibilités de fournir des informations sur leurs sites au robot d’exploration, ou même de les refuser.

Chaque crawler est initialement étiqueté avec le terme “User-Agent“.

Le nom de Googlebot dans les fichiers journal du serveur est “Googlebot” avec l’adresse hôte “googlebot.com”[1].

Pour le moteur de recherche Bing, il s’agit de “BingBot” et l’adresse est “bing.com/bingbot.htm”.

Les fichiers journaux révèlent qui envoie des demandes au serveur. Les webmestres peuvent refuser l’accès à certains bots ou le leur accorder.

Cela se fait par le biais du fichier Robots.txt, en utilisant l’attribut Disallow : ou avec certaines métabalises dans un document HTML. En ajoutant une balise méta à la page Web, le webmaster peut accorder au Googlebot un accès limité aux informations de son site, selon les besoins.

Cette métabalise pourrait ressembler à ceci :

<meta name = “Googlebot” content = “nofollow” />

Cependant, il est tout de même important de faciliter l’accès à Googlebot au maximum de contenus disponible sur notre site Web afin de les indexer et de les afficher aux utilisateurs.

Pour ce faire les experts en référencement recommandent de ne pas utiliser des formes de programmation non-accessibles par le Bot, comme la programmation avec des balises (<frame>, <iframe>), l’utilisation de la technologie flash ou même l’utilisation excessive de AJAX, JavaScript, etc.

Les différents type de Bots qu’utilise Google

Au fil du temps, Google a agrandi sa famille de robots d’exploration et, bien qu’il s’agisse toujours du principal Agent-User de Google, d’autres nouveaux robots se sonr rajouté à la partie :

  • Nouvelles de Googlebot
  • Images Googlebot
  • Images Googlebot
  • Vidéo de Googlebot
  • Googlebot Mobile
  • Google Mobile AdSense
  • Google AdSense
  • Google AdsBot
0 commentaires

Soumettre un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Share This