Le TrustRank remplace t-il le pageRank ? Tout le monde n'est pas d'ccord sur ce point mais une évolution du pagerank est clairement perceptible.
Le TrustRank est un algorithme destiné à calculer l'indice de confiance d'une page web. L'objectif du TrustRank est de lutter contre le web spamming.
De nombreuses techniques sont utilisées dans le webspamming pour acquérir un meilleur positionnement que celui mérité dans les pages de résultats des moteurs de recherche. Il est aisé pour un expert humain d'identifier du spam, mais il est évidemment trop onéreux d'évaluer manuellement un grand nombre de pages. Nous proposons des techniques pour différencier de façon semi-automatique des pages fiables du spam. Dans un premier temps nous sélectionnons un petit ensemble de pages de confiance qui seront évaluées par un expert. Une fois les pages de confiance manuellement identifiées, nous utilisons la structure en lien du web pour repérer d'autres pages qui paraissent d'aussi bonne qualité. Dans ce document, nous présentons differentes manières de mettre en place la sélection des pages de confiance et la découverte des pages de qualité. Nous présentons le résultat de nos expérience effectuées sur le web indexé par Altavista et l'évaluation de nos méthoqes. Nos résultats montrent qu'il est possible de filtrer efficacement le spam sur une partie significative du web à partir d'un ensemble constitué de pages de confiance sur plus ou moins 200 sites.
Cette nouvelle notion de TrustRank montre comment le spam d'un côté et la lutte anti-spam de l'autre côté progressent. 3 phases peuvent être distinguées :
Le 16 mars 2005, Google dépose le nom de marque TrustRank auprès de l'United States Patent and Trademark Office. Il n'est pas sûr que ce soit en lien direct avec l'article détaillé ci-dessus puisque un des auteurs travaille pour Yahoo et que l'expérience a été mené sur Altavista propriété de Yahoo. Google et Yahoo sont les meilleurs ennemis du monde.
Si il n'y a pas de vrai Sandbox (voir page précédente), la Sandbox virtuelle est peut être une Trustbox. L'utilisation par Google d'un nouveau critère proche du TrustRank peut donner l'illusion d'une Sandbox car le facteur temps y est important.