(Mis à jour le: 18 octobre 2021)
3.7/5 - (4 votes)

Tout savoir sur l’indexation et l’index Google

Pour qu’un élève soit classé premier, deuxième, troisième … ou dernier de sa classe, il faut d’abord qu’il figure sur la liste des élèves de ladite classe. L’indexation de Google part de ce même principe. Pour qu’une page web soit classée dans ses résultats de recherche, il faut qu’elle figure parmi les sites à classer. Autrement dit, la page doit figurer dans l’index de Google et pour que cela soit possible, elle doit être indexée. Comment ça fonctionne ?

Trouvez facilement un rédacteur professionnel sur Redigeons.com

Contacter nous pour commander des textes

L’indexation c’est quoi ?

L’indexation définit l’action du robot d’un moteur de recherche qui arrive sur une page web, le parcourt, en copie le contenu pour ensuite le stocker sur un de ses serveurs.

Tous les moteurs de recherche fonctionnent de la même manière, mais ici, ce qui nous intéresse c’est l’indexation Google, premier moteur de recherche utilisé au monde.

Ainsi, lorsque les Google Bot (robots crawlers de Google) ou spiders arrivent sur une page web, ils commencent par la parcourir. C’est ce qu’on appelle le « crawl » (to crawl signifie parcourir en anglais). Après avoir parcouru le contenu, ils le copient (s’ils le trouvent pertinent) pour pouvoir le stocker sur l’un des serveurs de Google. C’est ce qu’on appelle « indexer un contenu ». Le contenu copié va être stocké dans une énorme base de données appartenant à Google. C’est ce qu’on qualifie d’« index Google ».

En savoir plus sur les algorithmes de Google

L’index de Google n’est donc qu’une partie du web, car même s’il reste le moteur de recherche le plus utilisé au monde, d’autres moteurs de recherche partagent le web avec lui. Quoi qu’il en soit, on estime que la part du géant de Mountain View compte désormais plus de 130 000 milliards d’URLs ce qui est quand même énorme.

Parmi ces urls, certaines figurent dans son index principal tandis que les autres se retrouvent dans son index secondaire.

L’index principal regroupe uniquement les pages vraiment intéressantes tandis que l’index secondaire regroupe les pages indexables, mais de plus faible qualité. Si vous avez un site, il est conseillé de consulter la liste de vos pages qui figurent dans l’index secondaire afin de les améliorer.

Comment les robots crawlers arrivent sur une page ?

Comment les robots crawlers arrivent sur une page ?

C’est une excellente question, car ce ne sont pas toutes les pages que vous créez qui vont être indexées. Seules celles portées à la connaissance des robots seront analysées. Pour ce faire, il y a ce qu’on appelle « soumission de la page d’un site ».

C’est l’étape principale à effectuer après la création de la page afin qu’elle soit indexée par Google. Certains parlent aussi de « faire référencer un site », mais dans la pratique, « soumettre un site » et « faire référencer un site » sont différents.

La soumission consiste à faire connaître l’existence du site au moteur de recherche en vue d’être indexé alors que le référencement consiste à améliorer son positionnement dans les résultats de recherche une fois qu’il sera indexé.

Pour soumettre un site, quelques techniques existent à savoir :

  • Entrer dans l’outil Google Webmaster Tools (GWT) puis utiliser le « formulaire de soumission de Google ». Il suffit d’indiquer l’url du nom de domaine du site pour demander au moteur de recherche de l’indexer.
  • Faire appel aux backlinks : cela consiste à demander à un autre site d’émettre un lien depuis l’une de ses pages vers votre site. Lorsque le robot de Google va revenir sur le site émetteur et découvre le lien, il va le suivre et ainsi atterrir sur votre site. A vous ensuite de faire des liens internes entre vos pages, car c’est en suivant les liens que les spiders découvrent ou re-découvrent des pages à indexer. Cette technique est aujourd’hui la plus utilisée, car elle est plus rapide. Attention toutefois, le backlink doit être de qualité (page de même thématique, ancre pertinente, issu d’un site d’autorité …). Lire aussi – 6 pratiques pour obtenir des backlinks de qualité
  • S’inscrire sur un annuaire de référencement : cela permet aussi d’avoir des backlinks, mais leur qualité peut laisser à désirer.
  • Soumettre vos sitemaps XML sur la Google Search Console.
  • Demander l’indexation sur la Search Console : cette technique est à privilégier pour les contenus mis à jour à re-crawler.

Après une demande d’indexation, il faut patienter entre quelques minutes à quelques jours pour que la page soumise soit indexée. Cette durée est fonction de divers critères tels que l’autorité du site, la procédure de soumission choisie, la fréquence de crawl sur le site …

Outre ces techniques, vous pouvez aussi obtenir des liens via les réseaux sociaux. Dans tous les cas, la soumission d’un site définit généralement ce que les autres appellent « référencement gratuit sur Google ». Comprenez bien que cela s’arrête à la soumission donc à une demande d’indexation. Rien ne garantit ensuite que votre site va effectivement intégrer l’index de Google ou qu’il va apparaître sur la première page des SERPs.

En effet, une demande de soumission ne signifie pas que Google va automatiquement vous intégrer sur son index. Il ne retiendra que les pages dignes d’intérêt donc celles qui répondent à ses exigences en termes de pertinence et de qualité. Pour ce qui est de leur affichage dans les résultats de recherche, tout dépend des efforts SEO menés par le webmaster afin de rendre la page visible (choix des mots-clés, stratégie de netlinking, l’utilisation des balises meta …).

Par ailleurs, si la soumission est conseillée pour faire indexer ses pages, il y a des pages pour lesquelles l’indexation n’est pas conseillée. Pour ce faire, il vous suffit d’indiquer aux robots crawlers que telle ou telle page n’est pas à indexer pour diverses raisons.

Comment ne pas indexer une page par Google ?

Sur un site web, on peut avoir des pages qui n’intéressent pas forcément les internautes et qui n’ont pas leur place dans les résultats de recherche. On peut notamment citer les pages CGV (conditions générales de vente), Mentions légales …

Pour que le moteur de recherche ne les affiche pas dans les SERPs, il faut lui demander de ne pas les crawler. Pour ce faire, vous pouvez :

  • Utiliser un « disallow » dans le robots.txt pour bloquer le crawl
  • Intégrer des balises noindex sur les pages pour bloquer l’indexation

Dans le cas où la page a déjà été indexée, vous devez suivre le processus suivant :

  • Retirer le « disallow » dans le robots.txt pour débloquer le crawl
  • Insérer une balise noindex pour désindexer la page
  • Remettre le « disallow » en place pour bloquer l’indexation

Et si vous souhaitez tout simplement supprimer un site de l’index Google, c’est-à-dire supprimer la copie de votre site dans la base de données du moteur de recherche, voici comment opérer :

  • Ajouter l’url à supprimer dans un fichier sitemap puis utiliser la balise « expires » : cela est utile pour une suppression en urgence.
  • Se rendre dans le GWT puis dans « Index Google » et dans la section « URL à supprimer ».

Attention aux mises à jour

S’il y a bien une chose à laquelle Google nous a habitué depuis toujours ce sont ses fréquentes mises à jour. Son index n’a pas été épargné puisque deux évolutions majeures ont été enregistrées. D’une part, il y a l’indexation Mobile First et d’autre part la mise à jour baptisée Caffeine.

La mise à jour Caffeine a été lancée en 2010. Elle a pour objectif d’accélérer le rafraîchissement de l’index. Depuis son lancement, les pages sont traitées une par une ce qui permet de les retrouver, chacune, dans les résultats de recherche une fois crawlée et indexée.

Quant à l’index Mobile First, il a été déployé en 2016 et a entraîné un grand changement dans le système d’indexation de Google. En effet, à partir de ce nouvel index, les robots crawlers analysent en priorité les versions mobiles des pages. Ce sont celles-là qu’ils vont indexer et positionner en premier. Les versions desktop, quant à elles, sont désormais laissées de côté, car sont jugées trop lentes. Voilà pourquoi il est aujourd’hui important de proposer une version mobile de son site.

Comment Google fonctionne ?

Comment Google fonctionne ?

Les critères pour rendre efficace une campagne de netlinking

Maintenant que vous avez compris comment fonctionne l’indexation de Google, vous arriverez facilement à comprendre le mode de fonctionnement du moteur de recherche. En résumé, son travail concernant les sites web se fait en cinq grandes étapes :

  • La phase d’exploration : par le biais des liens
  • La phase de crawl : consultation et analyse de la page
  • La phase d’indexation : intégration de la page dans l’index (principal ou secondaire) de Google
  • La phase de traitement des données : est-ce que votre page indexée répond aux requêtes saisies ?
  • La phase de restitution : affichage de la page dans les SERPs

Où se situe le SEO dans tout cela ? Le SEO est présent dès la création de la page puisque c’est lui qui va déterminer la qualité et la pertinence de votre site. Vous pouvez par la suite améliorer vos pages indexées pour en accroître la visibilité.

Cela suppose un point important : l’indexation et le référencement naturel sont deux choses totalement différentes. Google peut très bien indexer une page non référencée, mais celle-ci atterrira dans son index secondaire. Pour l’en sortir, il faut régler les problèmes d’indexation souvent reliés à des problèmes au niveau de l’optimisation (balises SEO, netlinking …).

Comment savoir si les pages d’un site sont indexées ?

Pour savoir si vos pages ont bien été indexées, une simple vérification suffit.

  • Ouvrez le moteur de recherche Google
  • Tapez « site:www.votresite.com » et lancez la requête

Tout en haut de la page SERP, vous avez le nombre de résultats que Google a trouvé pour ce site. Ce chiffre indique globalement le nombre de vos pages indexées. Maintenant pour savoir combien parmi elles figurent dans l’index principal (donc de grande qualité) et combien sont à améliorer (dans l’index secondaire), voici ce qu’il faut faire :

  • Ouvrez le moteur de recherche de SFR
  • Lancez la même recherche à savoir « site:www.votresite.com »

Le nombre de résultats affiché tout en haut indique le nombre de vos pages figurant dans l’index principal, car ce moteur de recherche ne tient compte que de cet index. Il vous reste ensuite à faire la différence entre les deux résultats obtenus pour obtenir le nombre de pages figurant dans l’index secondaire.

A part ces techniques, vous pouvez aussi :

  • Faire une vérification directement dans la barre de recherche de la Google Search Console
  • Analyser la couverture dans la Search Console

Peut-on faire ré-indexer une page ?

Oui et cela est même courant lorsqu’on souhaite améliorer le positionnement d’une page dans les SERPs après avoir réglé un problème d’indexation. Mais avant tout chose, il est d’abord conseillé de savoir si votre page est indexée et de déterminer la dernière date de crawl.

Il faut effectivement souligner que les spiders passent et repassent sur les pages déjà indexées, toujours en suivant les liens. A chaque passage, ils enregistrent la version qu’ils viennent d’analyser et la mettent en cache. Si après le dernier passage des Google bots, le webmaster a modifié la page (ajout d’image, enrichissement du contenu, modification des liens …), les robots seront capables de déterminer les changements apportés. Il leur suffit, pour cela, de comparer la version en cache avec l’actuelle version au moment de leur nouveau. C’est ce qui va permettre d’améliorer le positionnement des pages déjà indexées au fil du temps et de fournir des résultats « frais » aux internautes.

Attention, si les robots passent de moins en moins sur votre site, c’est que celui-ci a des problèmes de visibilité ou n’est plus assez actif. Le moment est alors venu d’y ajouter de nouveaux contenus, d’enrichir ceux existant ou d’améliorer votre netlinking. Peut-être que les spiders ont tout simplement du mal à y accéder du fait de l’absence de liens qui y redirigent. Un audit du site vous permettra de connaître les problèmes à résoudre.