L’indexation par les moteurs de recherche
Rôle du crawl et de l’index
L’indexation associe étroitement le crawl, l’analyse des contenus et l’enregistrement de ces informations dans les bases internes du moteur. L’index constitue la source que le moteur interroge lorsqu’un internaute effectue une requête. Dès le crawl et l’indexation, des filtres antispam sont actifs et certains contenus jugés peu utiles ou de mauvaise qualité peuvent ne pas être indexés.
Contrairement à l’image d’un index unique, les moteurs maintiennent en réalité plusieurs index parallèles, souvent appelés verticales ou shards. Chacun correspond à un sous ensemble thématique, par exemple un index voyage, un index e commerce ou un index réservé aux contenus adultes. Un même site peut apparaître dans plusieurs de ces sous index et différentes pages d’un même domaine peuvent être rangées dans des verticales distinctes selon leur sujet ou leur nature.
Verticales, shards et clusters thématiques
Les verticales ou shards représentent donc une manière pour le moteur de découper son index global en grands blocs thématiques et techniques afin de répartir la charge et d’accélérer les recherches. Elles ne doivent pas être confondues avec les clusters thématiques dont on parle en SEO. Un cluster thématique correspond à un regroupement de contenus au sein d’un site, organisé autour d’un sujet précis, avec une page pilier et des pages satellites. Il s’agit d’un niveau de structuration logique limité à un domaine et pensé pour la lisibilité et la pertinence.
On peut considérer que de nombreux clusters issus de multiples sites se retrouvent ensuite ensemble dans une même verticale du moteur, mais le cluster reste une brique beaucoup plus petite. L’index thématique regroupe des milliers de clusters, tandis que le cluster reste un outil d’architecture de contenu pour l’éditeur de site et non une unité interne de stockage pour le moteur.
Contenu des index et graphe du Web
Chaque index contient deux grandes familles d’informations. La première concerne les liens entre les pages qui sont indexées, c’est le graphe du Web. Il permet au moteur de savoir quelles pages pointent vers quelles autres, d’évaluer la popularité ou la centralité d’un document et de repérer les schémas de liens suspects ou artificiels. La seconde concerne le contenu textuel des pages, avec l’ensemble des termes significatifs et des signaux sémantiques nécessaires pour répondre aux requêtes.
Le moteur doit en permanence synchroniser ces deux dimensions. Les liens évoluent, de nouvelles pages apparaissent, d’autres disparaissent ou deviennent inaccessibles. Le système d’indexation doit donc être capable d’actualiser l’index afin d’éviter, autant que possible, de proposer dans les résultats des pages obsolètes ou en erreur.
L’index inversé pour stocker les contenus
Pour gérer le contenu textuel, les moteurs utilisent un index inversé. Il serait matériellement impossible de tester en temps réel la présence d’un mot clé dans la totalité des pages du Web, car cela demanderait trop de temps et de ressources. L’index inversé adopte l’approche inverse, en partant des termes pour remonter vers les documents. Il recense une immense liste de mots qui présentent un intérêt minimal, et exclut les termes vides comme la plupart des articles ou des mots de liaison.
Chaque terme est associé à une liste de pages dans lesquelles il apparaît ou dont il est proche sémantiquement. On obtient ainsi un tableau gigantesque qui permet, pour un mot ou une expression, d’identifier très rapidement les documents candidats. Pour construire cet index inversé à grande échelle, le moteur découpe son corpus en blocs traités par des machines distinctes. Chaque machine inverse sa partie d’index puis transmet le résultat à un système maître qui fusionne et optimise l’ensemble. Cette étape de réorganisation n’est pas visible pour l’utilisateur mais elle conditionne la rapidité des réponses.
Stockage et exploitation des liens
Les informations relatives aux liens exigent un modèle de stockage spécifique. Le moteur doit pouvoir connaître pour une page donnée le nombre de liens reçus, leur origine, leur qualité et leur contexte. Il doit également pouvoir retrouver, à partir d’une page cible, la liste des documents qui pointent vers elle. Cette capacité est indispensable pour calculer des indicateurs de popularité, détecter des réseaux de spam ou nettoyer des ensembles de liens toxiques.
La stratégie de crawl est conçue pour favoriser une exploration large du Web. Les robots multiplient les sauts d’un site à l’autre afin d’éviter de rester piégés dans des environnements où une même structure génère un nombre massif de pages similaires ou peu utiles. Ces environnements sont parfois appelés spider traps, car ils pourraient amener les robots à ingurgiter des millions d’URL redondantes. En organisant le parcours de façon à diversifier les domaines visités, le moteur améliore la couverture globale du Web tout en protégeant ses ressources.
Mise à jour continue de l’index
Un index n’est jamais figé. Des pages disparaissent, d’autres changent de contenu, certains sites deviennent temporairement inaccessibles ou subissent des attaques. Le moteur doit donc tenir à jour son index afin de détecter les problèmes éventuels et d’ajuster ses réponses en conséquence. Lorsqu’une page retourne des erreurs répétées, elle peut être mise de côté le temps de redevenir accessible. Lorsqu’un contenu change profondément, les signaux qui lui sont associés dans l’index inversé et dans le graphe du Web doivent être actualisés.
Cette mise à jour repose sur un équilibre entre fréquence de crawl, importance perçue des pages et contraintes techniques. Les pages jugées stratégiques sont revisitées plus souvent, tandis que d’autres sont contrôlées à intervalles plus espacés. L’objectif reste le même, proposer aux internautes des résultats qui reflètent le mieux possible l’état réel du Web tout en gérant de manière efficace un volume d’informations gigantesque.