En reprenant la
traduction de la publication originale de Google,
voici les explications données :
Nous assumons qu'une page A reçoit des liens
(ou
"votes") émis par les pages
T1...Tn.
Le paramètre d est un facteur d'amortissement pouvant
être ajusté entre 0 et 1.
Nous donnons généralement à d la valeur 0.85. De même,
C(A) est défini comme le nombre de liens émis
par la page A (liens sortants).
Le
PageRank de la page A est défini comme suit :
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... +
PR(Tn)/C(Tn))
|
Le PageRank peut être calculé en utilisant un simple
algorithme itératif et
correspond au vecteur propre principal
de la matrice normalisée des liens du
Web. Tout cela est bien moins compliqué qu'il n'y paraît,
essayons de disséquer l'expression. Pour ce faire, voici l'explication de la
notation utilisée :
PR(A) |
le PageRank de la page A |
PR(Tn) |
le PageRank de la page Tn |
C(Tn) |
le nombre de liens émis sur la page Tn |
d |
tous les « votes » sont additionnés, mais pour
en limiter l'importance,
le
total est multiplié par ce coefficient d'amortissement (0.85)
|
1 - d |
Un petit peu de « magie mathématique »
qui permet de garantir que la moyenne
des PageRank de l'ensemble des pages du Web sera de
1. |
Cette formule permet de voir
que le
PageRank d'une page n'ayant aucun lien entrant
sera de 0.15.
Soit : (1 - 0.85) + 0.85*(0) = 0.15
|
Et là apparaît la cause de la confusion la plus répandue
au sujet du
PageRank :
Que vient faire ici cette valeur fractionnaire
alors que la toolbar n'affiche que des valeurs
entières ?
Il est généralement admis que l'échelle du PageRank
soit
logarithmique, sans que ceci ne soit officiellement
confirmé. Pour cette raison, la base utilisée ne peut qu'être estimée.
Il est de même raisonnable de penser
que cette base évolue dans le temps. Prenons une échelle logarithmique
de base 10 pour simplifier nos calculs,
le raisonnement restant valable
qu'elle que soit le base choisie.
PageRank Affiché (log base 10) |
PageRank réel (calculé) |
PR0 |
0 ≤ PR < 1 |
PR1 |
1 ≤ PR < 10 |
PR2 |
10 ≤ PR < 100 |
PR3 |
100 ≤ PR < 1000 |
PR4 |
1000 ≤ PR < 10000 |
Et ainsi de suite jusqu'au PR10 pour les plus heureux.
On voit ici, que chaque niveau de PageRank
est 10
fois plus élevé que le niveau précédent.
Ce qui signifie en clair qu'il est 10 fois plus ardu
de passer de PR4 à PR5 que de passer
de PR3 à PR4. (pour mémoire, la base 10 a été
choisie arbitrairement
dans notre exemple).
Une des raisons pour lesquelles on estime
que l'échelle
évolue dans le temps,
est que le PageRank
maximum n'est calculé que lorsque Google
fait sa mise à jour de l'index
et que le nombre
de pages indexées
est en constante augmentation. Cette évolution de l'échelle
expliquerait
pourquoi certaines pages voient leur PageRank
diminuer au fil des indexations, alors que
le nombre
de liens entrant reste inchangé. En reprenant
l'exemple de la page sans lien
entrant donné précédemment (PR=0.15), nous voyons que la toolbar nous affichera
bien la valeur 0.
|