Le crawl budget de Google, influence sur la visibilité de votre site Web

1370
Partager :

La recherche et l’indexation sont 2 conditions nécessaires pour s’assurer que votre site Web est listé dans les résultats de recherche, ce qui est fait par le Googlebot. Cependant, le robot n’a qu’un crawl budget limité. Pour s’assurer qu’un site Web est parcouru et indexé de façon optimale, le budget d’exploration doit être dépensé de façon optimale.

Qu’est-ce qu’un « Crawl Budget » ?

Le budget d’exploration est défini par Google comme la somme de la fréquence d’exploration et de la demande d’exploration. Le budget lui-même est donc constitué d’un nombre déterminé d’URL que le Googlebot peut et veut explorer. Un élément de Google donne une définition plus précise du crawl budget dans son article publié sur Google Webmaster Central le 16 janvier 2017.  Des conseils et des explications sont donnés l’un après l’autre.

A lire en complément : Les erreurs à éviter en matière de netlinking

Comment les sites Web sont explorés et indexés

Le Googlebot fait référence à un programme qui recueille des documents sur le Web, suit les URL et indexe les documents Web des sites visités. En général, le travail du Googlebot est basé sur 4 étapes principales :

  1. Google trouve une URL, par exemple via des liens internes, un plan de site XML, ou des liens détaillés.
  2. Une liste est créée à partir de ces liens et les URL individuelles sont classées par ordre de priorité pour la recherche.
  3. Le Googlebot est fourni avec le « crawl budget ».
  4. Enfin,un programme appelé « scheduler » contrôle le Googlebot et permet de traiter les URL en fonction de leur priorité ,et de leur budget d’exploration, le tout en continu.

Cela signifie que de plus en plus d’URL sont placées sur la liste pendant que le Googlebot les explore et les indexe. Il est important que le Googlebot n’épuise pas son crawl budget.  Parce qu’en plus de sa fréquence, la demande de crawl joue également un rôle. Si Google ne priorise pas certaines URL, il se peut qu’il ne les parcoure pas. De ce fait, il libére plus de ressources pour d’autres URL.

A découvrir également : Les critères de sélection d'un tremplin numérique performant pour le SEO

Pourquoi l’exploration et l’indexation sont importantes ?

Avant de pouvoir classer les sites Web, il faut d’abord les parcourir et les indexer. Ils doivent être visités par le Googlebot avant d’apparaître dans les résultats de recherche, le webmaster doit donc s’assurer que les URL peuvent être trouvées.

De plus, Google doit penser que l’URL est suffisamment précieuse pour justifier une priorité élevée sur la liste de recherche. La priorité de Google, par exemple, est d’explorer moins fréquemment et plus largement des sites moins visités et à faible contenu que les sites de haute qualité. Toutefois, il est important de noter que Google peut parcourir sans problème les sites ayant moins de 1 000 URL, indépendamment du budget de recherche dont il dispose.

Par conséquent, pour les sites ayant plus de 1 000 URL, il est encore plus important que tout le contenu et les URL soient mis à jour. Parce que même si Google permettra le plus gros budget de recherche possible, il se concentrera néanmoins sur les URL principales et les plus visitées.

La limite de vitesse de crawling de Google

Le Googlebot est limité, entre autres, par ce qu’on appelle la « limite de vitesse de recherche » lorsqu’il parcourt les URL. Le Googlebot lui-même fixe cette limite. Il est supposé qu’il ajuste le taux d’exploration approprié en fonction des réponses du serveur et des messages d’erreur éventuels dus à des requêtes simultanées ou rapides excessives.

L’étendue de cette limite dépend des 2 facteurs suivants :

  • le nombre de requêtes serveur simultanées que le bot peut effectuer sur un site web,
  • le temps entre les requêtes serveur individuelles.

Un exemple : Google a décidé que le budget de crawl est de 10 connexions simultanées et 3 secondes entre les requêtes. Dans ce cas, Google peut parcourir 200 URL en une minute.

L’influence sur le taux de crawling

Modifiez les paramètres de la console de recherche Google : les webmasters peuvent contrôler la limite de vitesse de recherche directement via la console de recherche Google. Dans les paramètres du site Web, vous pouvez choisir une recherche plus rapide ou plus lente.

Configurez le taux de recherche Google via la console de recherche : il est important de ne pas choisir une fréquence de recherche trop élevée pour que le serveur ne ralentit pas. Google ne précise pas combien de temps le Googlebot est réellement sur le site.

Optimisez la vitesse du serveur : indépendamment des paramètres de la console de recherche, le webmaster doit s’assurer que le serveur répond rapidement. De cette façon, le taux d’exploration peut être considérablement amélioré. Google recommande de fixer le temps de réponse à moins de 200 millisecondes. Cela ne signifie pas pour autant la « vitesse de la page ». La vitesse du serveur dépend du temps de réaction du serveur et du nombre possible de connexions simultanées. Le temps de chargement du site dépend néanmoins d’autres facteurs tels que le code source, les scripts et les données CSS.

(Crawling -> Crawling errors) vous pouvez voir les erreurs, y compris le code d’état approprié : Les erreurs du serveur peuvent être affichées via la console de recherche de Google.

La demande crawling de Google

Le taux d’exploration d’un site Web par le Googlebot est lié aux limites technologiques. Mais même sans ces limites, le Googlebot peut crawler beaucoup moins de sites que la limite prévue. C’est la soi-disant « demande crawling » qui en est responsable.

En bref, le Googlebot décide s’il vaut la peine d’explorer un site Web ou si le budget de recherche doit plutôt être sauvegardé. Dans le blog susmentionné sur le budget de recherche, Google dit que les sites les plus visités, par exemple, sont plus souvent explorés.

L’établissement des priorités joue également un rôle dans la détermination de l’importance de la demande de crawl. Le « scheduler » classe les URL de sa liste par ordre de priorité. Voici quelques gradations possibles :

  • L’URL est-elle une page d’accueil ou une page secondaire ? On peut supposer que la page d’accueil a la priorité la plus élevée pour le Googlebot.
  • L’URL est-elle utile et populaire ? Vraisemblablement, les sites Web avec des liens très détaillés, un contenu de haute qualité, un trafic élevé et un faible taux de rebond sont crawler plus souvent que les sites Web avec un faible contenu. Google n’a pas publié exactement quels facteurs jouent un rôle.
  • Le contenu de l’URL change-t-il souvent ? En cas de mises à jour fréquentes du site, le Googlebot désignera un besoin d’exploration plus élevé que pour les URL qui ne changent pas souvent.
  • Quand l’URL a-t-elle été explorée en dernier ? Si une URL sur une liste n’a pas été explorée pendant une longue période de temps, il y a de fortes chances qu’elle ait une priorité plus élevée, parce que Google veut garder son index à jour

Assurez-vous que les bons sites sont crawlés rapidement

Évitez les sites abandonnés : Les sites abandonnés sont des URLs qui ne peuvent pas être atteints via le site web par le biais de son lien interne. Ils sont tout aussi inutiles pour Googlebot que pour les utilisateurs.

Listez les URL dans un sitemap XML : Avec l’aide d’un sitemap XML, les webmasters peuvent déposer toutes les URL pertinentes d’un domaine dans la console de recherche Google. De cette façon, le Googlebot peut reconnaître les URL disponibles et les transmettre au scheduler.

Utilisez robots.txt : A l’aide du fichier robots.txt, l’exploration de toutes les zones importantes du site Web peut être facilitée pour le Googlebot.

L’utilisation de robots.txt, par exemple, permet d’éviter le crawling et l’index des formulaires de contact.

Vérifiez la cache du site : En cliquant sur « cache », vous pouvez vérifier quand le site a été enregistré pour la dernière fois dans l’index. Si le cache a été créé il y a longtemps et que le contenu important du site Web a changé, l’URL peut également être envoyée manuellement à l’index via la console de recherche. Envoyez les URL à l’index Google...

Vérifiez la navigation à facette : Une navigation à facettes peut générer d’innombrables URL grâce aux possibilités du filer. Ces « URL de filtre » ont peu de valeur pour le Googlebot. Par conséquent, la navigation à facettes réduit souvent le budget de recherche. Pour éviter cela, la structure de cette navigation doit être vérifiée et définie aussi précisément que possible.

Ainsi, par exemple, les URL superflues peuvent être munies d’une balise canonique qui pointe vers le « site original ». De même, il est possible d’insérer un métatag « Noindex,follow » dans la zone <head> de l’URL inutile.

En utilisant l’outil de paramétrage de la console de recherche Google, les paramètres de recherche dans les URL peuvent également être exclus de la recherche et de l’indexation,

Évitez les URL sans fin : Ce type d’URL peut provenir de fonctions de recherche à l’échelle du site ainsi que de liens « autres » sur le site. L’exclusion des résultats de recherche interne peut apporter des économies significatives dans le budget de recherche.

Utilisez les sites d’erreur 404 : Pour éviter l’exploration sans fin des sites logiciels 404, les URL non disponibles devraient donner le code 404 (non trouvé). De cette façon, vous pouvez arrêter le Googlebot de ces URL et ainsi protéger votre budget de recherche.

Conclusion

Le Googlebot n’a qu’un temps limité pour parcourir votre site. Vous pouvez améliorer le crawling en corrigeant les erreurs techniques. Dans le même temps, il est important que Google reconnaisse une demande de crawl et c’est à ce moment que le budget de crawl devient un sujet central en termes d’optimisation du moteur de recherche. Car, après tout, la qualité de votre site Web détermine la fréquence à laquelle le Googlebot visite votre site. Grâce à un contenu unique et de haute qualité, vous pouvez vous assurer que le budget de crawl est utilisé de la manière la plus efficace possible.

Partager :