L'algorithme du BrowseRank

Des chercheurs de Microsoft ont indiqué avoir mis au point un algorithme intitulé BrowseRank, permettant de mesurer l'importance d'une page sur le web. Contrairement au célèbre PageRank de Google qui, dans sa version initiale, ne se base que sur la présence de liens entre les pages, le BrowseRank tient compte aussi du trafic généré par ces liens ainsi que du temps passé par les internautes sur les pages.

Pour développer leur algorithme, les chercheurs de Microsoft Research Asia (Bin Gao, Tie-Yan Liu et Hang Li) sont partis de la faiblesse des modèles de calcul de popularité basés uniquement sur le graphe des liens entres les milliards de pages que constituent le web. Ils expliquent que ces modèles (dont le plus célèbre représentant est certainement le PageRank) ne représentent pas assez bien la réalité, puisqu'ils ignorent le comportement des internautes. Le BrowseRank est donc un indice d'importance d'une page calculé à la fois à partir du maillage de liens mais aussi des clics sur ces liens, et du temps passé sur les pages d'arrivée : plus il y a d'internautes qui sont arrivés sur une page en ayant cliqué sur un lien, plus cette page est importante
plus ces internautes sont restés longtemps sur cette page, plus elle est importante.
Outre ces 2 innovations algorithmiques, les chercheurs disent que leur modélisation représente mieux la nature du web (que celle utilisée pour le calcul du PageRank).

BrowseRank

D'un point de vue pratique, l'algorithme du BrowseRank nécessite l'accès à des données issues du surf des internautes. C'est chose possible avec les barres d'outils que proposent la plupart des grands moteurs de recherche (MSN/Live dans le cas présent mais aussi Google ou Yahoo). Les utilisateurs de ces barres d'outils ont sans doute oublié qu'ils ont accepté de transmettre aux moteurs des informations sur les pages qu'ils visitent, mais ils sont pourtant des millions à fournir ainsi en permanence ces données.
Bien entendu, pour des raisons de confidentialité, les données personnelles ne sont pas exploitées par le BrowseRank ; d'ailleurs elles ne sont pas vraiment nécessaires.

D'après les chercheurs, leur algorithme est plus performant que le PageRank et le TrustRank, aussi bien pour aider un moteur de recherche à classer les pages par pertinence que pour identifier le spam. Ils ont effectué des tests sur un échantillon de 10.000 sites web, que des utilisateurs ont analysé pour indiquer s'ils les considéraient comme du spam ou pas. Au passage, si quelqu'un peut m'expliquer comment ces chercheurs peuvent calculer le TrustRank, je suis preneur ! Cet algorithme utilise en effet une sélection manuelle de sites jugés comme étant absolument dignes de confiance aux yeux des moteurs ; 2 calculs du TrustRank basés sur des listes différentes aboutiront forcément à des valeurs différentes de TrustRank...
Sans surprise, les sites qui obtiennent les meilleurs scores de BrowseRank sont des sites populaires du web 2.0, sans doute à cause du temps que les internautes passent dessus (au top : MySpace, YouTube, FaceBook).

MSN/Live utilise-t-il déjà le BrowseRank ? C'est sans doute encore un peu tôt, d'autant plus que des améliorations doivent encore être apportées :
ils doivent tenir compte du nombre de mots et du poids des fichiers annexes à la page HTML afin de normaliser les durées
ils doivent trouver une solution à l'absence de données de navigation sur les pages les moins populaires du web (pour lesquelles seul un algorithme conventionnel basé sur le maillage des pages est utilisable).
Rien n'est précisé non plus sur la faisabilité d'une industrialisation du calcul du BrowseRank à l'ensemble du web. Google prétend savoir calculer le PageRank (et d'autres critères sans doute) plusieurs fois par jour, pour les milliards de pages de son index.

Toujours d'après ces chercheurs, même les versions les plus évoluées du PageRank sont dépassées par leur algorithme. Ils citent deux versions qui se rapprochent du BrowseRank :
PageRank UBG : une sorte de PageRank pondéré calculé à partir de données de navigation des internautes
Naive BrowseRank : une version basique du BrowseRank, obtenue en faisant le produit du nombre de clics (sur les backlinks) par le temps moyen passé sur la page.
Cela dit, je me demande s'il ne faut pas relativiser un peu les choses... Google utilise déjà certaines des évolutions importantes décrites par les chercheurs de Microsoft :
les liens qui génèrent du trafic ont plus de poids que les autres (d'où la moins bonne efficacité des liens en pied de page)
les liens issus de pages de thématique proche ont plus de poids que les autres
les données de la barre d'outil de Google peuvent être utilisées, que ce soit pour des calculs de taux de rebond (''bounce rate'') ou de temps de visite de chaque page)
Que Google utilise ou pas un algorithme de type BrowseRank, que Microsoft ait déjà réussi ou non à industrialiser les tests de ses chercheurs en laboratoire, il me semble évident que les concepts exploités par le BrowseRank doivent faire partie de toute bonne optimisation du netlinking (stratégies d'amélioration du référencement par le biais des liens). En clair, cela remet (une fois de plus) l'utilisateur final au cœur du système : c'est l'internaute et non l'éditeur de site qui indique quelles pages sont les plus intéressantes du web...

News référencement