Indexation : tout savoir sur l’index google

La phase d’indexation, c’est la première étape avant d’entrer dans la guerre du SEO. Tant que votre site ou vos pages ne sont pas indexées, elles ne vous aideront pas à mieux vous classer.

Une page est indexée dès lors que l’on peut la trouver sur les résultats de recherche de Google. Les résultats proposés par la SERP ne représentent qu’une partie infime du total des pages web existantes sur la toile.

1. L’indexation, la base du SEO

L’indexation n’est que la deuxième étape du processus de Google. Voyons ensemble comment vos pages web se retrouvent indexées par Google.

L’étape n°1 : Le crawl de vos pages

Internet est une toile, ne l’oublions pas. Ce qui va se passer dans un premier temps, c’est que le GoogleBot va commencer à parcourir la toile. De lien en lien, jusqu’à essayer de faire le tour le plus complet. Ses ordinateurs très rapides permettent d’avoir un crawl d’une extrême vélocité. De cette manière, plus vous recevez de backlinks, plus Google a de sources potentielles pour trouver votre site et procéder à l’indexation.

C’est ce qui se passe lorsqu’il trouve une URL qu’il n’avait encore jamais vue, mais on y vient !

L’étape n°2 : La phase d’indexation

Dès lors que le Google Bot a effectué son crawl, les informations HTML récoltées sont stockées dans les énormes datacenters du géant des moteurs de recherche : l’Index Google. A ce jour, c’est la plus grosse base de données HTML recensée avec plusieurs dizaines de milliards de pages indexées chaque jour.

Nous ne sommes toujours pas à l’étape où votre page est finalement indexée par Google, pour l’instant elle se situe seulement dans leurs serveurs.

L’étape n°3 : Le traitement des données

Une fois que toutes ces données ont été récoltées, Google se doit de traiter sa récolte pour faire profiter les utilisateurs de l’information la plus qualitative possible.
Ainsi, le traitement des données va filtrer de manière drastique tous les contenus de piètre qualité. Beaucoup de pages ne seront pas indexées parce que leur contenu est risible. Il se peut également que vous ne receviez tout simplement pas assez d’autorité, et qu’il faille attendre plus longtemps que le robot vous trouve. Les données HTML sont classées, triées sur le volet et sont désormais prêtes à être restituées.

L’étape n°4 : Le résultat final sur la SERP

Quelques heures ou quelques jours plus tard, en fonction des requêtes, la SERP se met à jour. Les nouvelles données récoltées vont permettre d’influencer les résultats de recherche et de modifier les classements.
Cette modification de vos positions sur Google est donc dûe à l’apparition de nouvelles pages, souvent chez vous-même ou chez vos concurrents : qui ont profité de nouvelles pages pour s’enrichir sémantiquement et en autorité de backlinks.
Attention toutefois, parce que ce n’est pas le seul critère : les algorithmes de Google changent constamment la pondération de leurs critères.
Si vos pages ont passé les différentes étapes de sélection et que le robot les a trouvées, vous êtes désormais positionnés sur Google : félicitations !

2. Quels sont les deux types d’indexation de Google ?

Il existe deux types d’indexation aux yeux de Google, les pages qui en valent la peine, et celles qui sont moins méritantes.

L’indexation primaire

La SERP classique, que l’on voit au quotidien, représente les résultats de recherche filtrés par Google. Elle met en avant les résultats les plus intéressants et pertinents d’après l’algorithme. C’est une question de choix et d’interprétation, puisque certaines pages passent ce filtre alors que le contenu qu’elle contient est ridicule.

L’indexation secondaire

Moins connue, l’indexation secondaire représente certains résultats cachés par Google par manque de pertinence.
Ce sont des pages HTML qu’il a récoltées dans la deuxième étape du processus d’indexation, mais qui ont eu du mal à passer le test de traitement des données.

Ainsi, il existe une phase cachée dans la SERP sur certaines requêtes, qui va recenser les résultats classiques + le fond du panier. Sur certaines requêtes, vous pourrez ainsi tomber sur ce message en bas de la SERP :

index secondaire

Lancement de Caffeine par Google en 2010

google caffeine

Il y a plus de 10 ans maintenant, Google a dû révolutionner sa méthode d’indexation. 

Face à la recrudescence d’utilisateurs et de médias sur la toile, il a fallu mettre à jour sa manière de faire pour aller plus loin. Avec Caffeine, toute son infrastructure a été revue pour permettre une indexation plus profonde et plus rapide.

Dopé à la caféine, les résultats sont – depuis – indexés toujours plus rapidement. Désormais, on peut retrouver en résultat de recherche des images, des PDF et autres types de documents.

3. Comment vérifier si mon site est indexé ?

La plupart du temps, si vous avez un nom de marque unique, il vous suffira de taper votre nom pour trouver votre site.
Mais pour aller plus loin et chercher si votre site, ou certaines de vos pages sont indexées par Google, il va falloir utiliser quelques techniques sur la SERP.
Admettons que votre URL soit celle-ci : https://azhmo.fr

Rendez vous sur la SERP de Google et tapez la requête suivante :

site:”azhmo.fr”

Comme vous l’avez remarqué, il faudra épurer l’URL et ne laisser aucun chemin, seulement votre nom de domaine.

keyword site google


Et il listera alors toutes les pages indexées de votre site.

Pour savoir si une page précise est indexée, incluez simplement l’URL complète de la page : azhmo.fr/seo par exemple.

 

4. Demander à google d’explorer ma page

Vous en avez marre d’attendre que Google trouve votre site ?
Il existe des moyens de favoriser l’indexation d’une page. Le mieux reste tout de même de laisser le robot faire : si vous êtes pressé, vous allez détester le SEO.

Favoriser l’indexation via un sitemap

Avoir une URL plan du site, ou sitemap, qui recense dynamiquement toutes les URL de votre site peut vous aider à indexer plus rapidement vos pages. Inclus sur votre page d’accueil (de préférence) ou dans votre footer, le lien va être suivi et toutes vos URL vont être découvertes d’un coup. Y compris les nouvelles, que vous venez de créer. Cela augmentera vos chances d’être indexé par Google plus rapidement.

Indexer via la Google Search Console

Depuis quelque temps déjà, il est possible de soumettre une URL à indexer directement dans la Search Console.

Pour cela, rendez-vous sur votre GSC, et cliquez sur Inspection de l’URL.

index gsc

Ou indiquez directement l’URL que vous voulez indexer dans la barre de recherche.

Cela permettra de tester l’URL et Google vous permettra de demander une indexation dans le coin inférieur droit.

Un simple clic suffit et surtout, inutile de répéter le processus plusieurs fois. Vous ne mettez absolument rien à jour en refaisant la tentative plusieurs fois d’affilée. Laissez faire le temps !

Le Ping : les outils d’indexation

Les outils qui facilitent l’indexation fleurissent sur internet. Ils sont principalement utilisés par les SEO blackhats et permettent de ping les URL de votre choix. Ils vont envoyer de nombreuses requêtes pour que le GoogleBot les retrouve plus facilement.
Cette action n’est nécessaire que pour les URL de très mauvaise qualité, et généralement, c’est utilisé lorsque l’on crée des backlinks de manière peu orthodoxe : des profils sur des forums, des pages zombies, des PDF…

Si vous pensez en avoir besoin, un simple recherche “link indexer” sur Google fera votre bonheur.

Le Blast d’une URL !

Un blast peut être traduit par un souffle ou une explosion. Il s’agit toujours d’une méthode blackhat, utilisée de la même manière que le ping. Les deux méthodes sont très similaires. 

La différence avec un blast, c’est que vous allez créer des centaines de milliers de backlinks quasi-instantanément qui vont aider l’URL de votre choix à être indexée.

Il est très déconseillé d’utiliser ce genre de techniques, et il l’est encore moins de vouloir faire cela sur son propre site. Comme expliqué plus haut, il s’agit là de manière d’indexer des pages quasi-fantômes de sites tiers sur lesquelles vous avez placé un backlink de piètre qualité.

Des outils, comme GSA SER, vont se charger de générer des backlinks automatiquement via des liens – très souvent en nofollow – créables automatiquement : Web 2.0, commentaires, réseaux sociaux…

5. demander à google de ne pas indexer ma page

Cette fois, on a complètement inversé la question. Pourquoi voudrait-on ne pas indexer certaines pages ?

Il existe des bonnes raisons, puis d’autres basées sur des mythes, qui donnent envie de ne pas indexer une URL.

Optimiser son budget de crawl

Chaque site dispose d’un budget crawl fini. Ainsi, le robot de Google a une quantité finie d’énergie à vous consacrer. Si vous n’optimisez pas votre site pour maximiser cette énergie, il se peut que le robot s’en aille avant d’avoir fini de crawler votre site. Un crawl non fini signifierait que certaines URL ne seront pas trouvées, et donc indexées.

Dans ces cas-là, il vaut mieux ne pas indexer manuellement certaines pages, et de placer une balise no-follow sur certains liens peu important, pour maximiser le budget.

Ainsi, vous gardez le contrôle total de votre site et de la manière dont le robot le parcourt.

Attention toutefois, le nombre d’URL a crawler n’est pas le seul critère du budget crawl ; la rapidité de votre site, la qualité et la fraîcheur de votre contenu, les core web vitals sont autant de facteurs.

Optimiser son PageRank ?

La légende urbaine ! Ne pas indexer certaines pages permettrait de maîtriser le jus SEO transmis entre les pages de votre site.
A vrai dire, c’est totalement faux. Ça ne changera pas grand-chose à l’autorité de votre site.
Ca aurait pu être le cas pour les liens en no-follow, mais depuis de nombreuses années, les liens en no-follow ne permettent pas de garder 100% du pagerank pour les autres liens.

Alors oubliez cela !

L’unique solution : la balise no index

La seule manière d’être sûr que son contenu ne sera pas indexé, c’est d’utiliser l’attribut no index dans le code de votre page.

Si vous savez déjà quelles URL’s vous ne voulez pas, intégrer simplement une ligne de code qui indiquera que vous ne voulez pas indexer ces pages.
<meta name= »robots » content= »noindex »>

Ce bout de code indiquera aux robots des moteurs de recherche de ne pas indexer votre page.
Mais si vous ne souhaitez bloquer que les robots de Google, alors il faudra plutôt opter pour ce bout de code :

<meta name= »googlebot » content= »noindex »>

6. l’index mobile first

Depuis quelques années déjà, les utilisateurs de Google sur mobile ont dépassé les recherches sur ordinateur.

Encore une fois, Google a dû adapter sa manière de fonctionner. Désormais, Google crawl en priorité les versions mobiles d’une page web. Si la version mobile est piteuse, vous aurez moins de chance d’être indexé et de ranker correctement sur la SERP.

Jusqu’alors, Google crawlait d’abord les versions ordinateurs, puis s’attaquait à la version mobile, si elle existait, pour favoriser le positionnement sur la SERP. 

Désormais, Google crawl d’abord les versions mobiles, et crawl la version PC si la version mobile n’existe pas. Elle détermine par la suite votre positionnement sur Google.

 

7. Le couac récent de l’indexation de google

Pendant plusieurs mois en 2020, Google a subi des problèmes majeurs liés à l’indexation de ses pages web.
Un mastodonte pareil, accusé de monopole, subit des difficultés à gérer l’indexation du web. On peut comprendre alors à quel point les barrières à l’entrée peuvent être importantes pour se lancer dans la création d’un moteur de recherche.

Vous me direz, ce n’est pas l’intention de beaucoup de monde. C’est un point intéressant à relever, étant donné l’importance de l’indexation pour une expérience de recherche optimale.

A cause de ces problèmes majeurs, la demande d’indexation via la Google Search Console a disparu pendant près de deux mois.