# Principe de l'algorithme PageRank

*(brevet déposé par Larry Page, cofondateur de Google, le 17 avril 2007)*

On définit le *microweb* suivant :

In [6]:
# En Python, on associe chaque page avec la liste de 
# ses successeurs (dans un dictionnaire)
from random import choice

successeurs = {
    'A': ['H', 'E', 'C', 'F'],
    'B': ['I', 'J', 'D'],
    'C': ['F'],
    'D': ['G'],
    'E': ['J', 'F', 'H'],
    'F': ['J', 'D', 'H', 'I', 'G'],
    'G': ['F', 'D'],
    'H': ['J', 'E'],
    'I': ['C', 'F', 'A', 'H'],
     'J': ['H', 'G']
}
liste_pages = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J']

## Quelle page est la plus populaire ?

Selon l'algorithme **RangePank**, il s'agit de la page la plus visitée lorsqu'on parcours ce *Web* de la manière suivante:

1. on initialise les compteurs de visites de chaque page à 0 (et on incrémente son compteur de visites)
2. on choisit une page de départ au hasard
3. on choisit au hasard, parmi ses successeurs, la page suivante et on incrémente son compteur de visites.
4. on recommence depuis l'**étape 3** un *grand nombre* de fois (ex: 1000 fois).
4. on recommence plusieurs fois à partie de l'**étape 2** (ex: 100 fois).
5. on trie les pages dans l'ordre décroissant de leur nombre de visites.

In [7]:
# Étape 1. Réinitialisation des compteurs de visites
visites = { page:0 for page in liste_pages }
visites

{'A': 0,
 'B': 0,
 'C': 0,
 'D': 0,
 'E': 0,
 'F': 0,
 'G': 0,
 'H': 0,
 'I': 0,
 'J': 0}

In [9]:
# Étape 2. Page de départ 
page = choice(liste_pages)
visites[page] += 1
print(page)

A


In [10]:
# Étape 3: successeur aléatoire
page = choice(successeurs[page])
visites[page] += 1
print(page)

E


Nombres de visites actuels:

In [12]:
visites

{'A': 1,
 'B': 0,
 'C': 0,
 'D': 0,
 'E': 1,
 'F': 0,
 'G': 0,
 'H': 0,
 'I': 0,
 'J': 0}

In [13]:
# Étape 4: répéter 1000 fois l'étape 3 (utilisation d'une boucle for)
# et on affiche le nombre de visites
for i in range(1000):
    page = choice(successeurs[page])
    visites[page] += 1
visites

{'A': 13,
 'B': 0,
 'C': 15,
 'D': 191,
 'E': 59,
 'F': 179,
 'G': 288,
 'H': 114,
 'I': 40,
 'J': 103}

In [15]:
# Étape 5: répéter 100 fois depuis l'étape 2
for j in range(100):
    # page de départ
    page = choice(liste_pages)
    visites[page] += 1
    
    for i in range(1000):
        page = choice(successeurs[page])
        visites[page] += 1
visites

{'A': 949,
 'B': 16,
 'C': 1161,
 'D': 17187,
 'E': 6975,
 'F': 18267,
 'G': 27103,
 'H': 13281,
 'I': 3719,
 'J': 12444}

In [16]:
# Étape 6: trier les compteurs de visites dans l'ordre décroissant
sorted(visites.items(), key=lambda x:x[1], reverse=True)

[('G', 27103),
 ('F', 18267),
 ('D', 17187),
 ('H', 13281),
 ('J', 12444),
 ('E', 6975),
 ('I', 3719),
 ('C', 1161),
 ('A', 949),
 ('B', 16)]

**Quelle page est la plus populaire ?**