Depuis l'été 2007, Google a considérablement amélioré son système de crawl : non seulement le moteur semble arriver à indexer les très nombreuses pages créées chaque jour sur le web, mais il n'est plus rare de voir des pages indexées en quelques minutes à peine ! Voici quelques explications issues d'un brevet de Google qui décrit les différents types de crawlers et leurs rôles respectifs.
Rappel des systèmes de crawl et d'indexation
Il est déjà loin le temps où Google ne mettait à jour son index qu'une fois par mois ! C'était la période mythique de la Google Dance pendant laquelle les résultats oscillaient entre l'ancien et le nouvel index, selon le data center utilisé pour répondre à la requête de l'internaute. Ensuite, Google a mis en place ce qu'on a appelé l'everflux, c'est-à-dire la mise à jour permanente de son index (et a fortiori des résultats).
Le système de crawl de Google
Découverte d'URL et niveaux de crawl
Google peut découvrir des nouvelles URL de 3 façons :
Pour récupérer le contenu de ces nouvelles pages, Google a créé 3 couches de pages associées :
Gestion des redirections
Quand le crawler détecte une redirection (code HTTP sous la forme 3XX), il réagit différemment selon le type de redirection :Schéma du crawl de Google
Voici un schéma fourni dans les annexes du brevet :

Analyse des liens et détection de contenus dupliqués
Quand le crawler récupère une page, son contenu et les liens sont ensuite analysés. Un log des liens trouvés sur la page est envoyé par le crawler à d'autres programmes en charge de ces analyses plus poussées. Parmi ces analyses, on trouve :
Au sujet de l'analyse du texte entourant le lien, Google donne un exemple dans son brevet : il s'agit d'une page A qui fait un lien texte vers une autre page B contenant une photo du Mont Everest :
Pour voir une photo du Mont Everest, cliquez iciMême si ce lien n'est pas optimal pour le positionnement de la page B (car l'anchor text ne contient pas de mot-clé stratégique), Google peut tenir compte du fait qu'il y a des mots-clés juste à côté du lien. Cette information est stockée dans ce que les auteurs du brevet appellent la carte des ancres (Anchor Map). C'est peut-être rassurant mais il est indéniable qu'il vaut mieux avoir un ou plusieurs mots ciblés dans l'anchor text... Voici un schéma sur la prise en compte du contexte sémantique des backlinks par Google :

Conclusion
Les informations décrites ici sont issues d'un brevet, il n'est donc pas garanti que le système décrit ici soit en place. Par ailleurs, ce brevet Anchor tag indexing in a web crawler system est très vieux (il a été déposé en juillet 2003 et accepté fin 2007) et Google a sans doute adapté son système depuis...