# Partie 1 : PageRank - version itérative, premier exemple

1. Justifier pourquoi l’algorithme de la puissance itérée (vu en détails dans le TD de R2.09 dédié à la SAE) permet de calculer le score de chacune des pages.

L'algorithme de puissance itérée permet de calculer le score de chacune des pages car on part d'un vecteur initial(score de chaque page) et on applique la formule $r=Qr$ en boucle jusqu'à ce que le score ne change pratiquement plus.
Comme notre matrice est stochastique, la plus grande valeur propre est 1.

2. Implémenter cet algorithme pour calculer le score de chacune des pages du graphe précédent. On vérifiera (numériquement) que le vecteur de score obtenu est bien approximativement solution de $r = Qr$.

In [None]:
import numpy as np

def matrice_transposee(A):
    """
    Fonction matrice_transposee qui prend en entrée 
    une matrice A et qui renvoie sa transposée.

    Arguments:
    A   matrice, doit être un tableau

    Retour:
    A   matrice, est une matrice
    """
    A = np.array(A)
    if A.ndim == 1:
        # Calcule la dimension de la matrice
        d = int(np.sqrt(len(A)))
        # Redimensionner la matrice en une matrice carrée
        # [a,b,c,d] => [[a,b],[c,d]]
        A = A.reshape((d, d))
    # Retourne directement la transposée
    return A.T

def matrice_stochastique(C):
    """
    Fonction nomatrice_stochastiquerme qui prend en entrée 
    une matrice C et qui renvoie sa stochastique.

    Arguments:
    C   matrice, doit être un tableau

    Retour:
    Q   matrice, est un tableau 
    """
    # Transforme la matrice en matrice numpy en float
    C = np.array(C, dtype=float)

    # Somme par colonne
    som_col = C.sum(axis=0)
    # Remplace 0 par 1 pour éviter division par zéro
    som_col[som_col == 0] = 1

    # Normalise chaque colonne
    # La somme de la colonne fait 1
    Q = C / som_col
    return Q

def norme(X):
    """
    Fonction norme qui prend en entrée 
    un vecteur X et qui calcule sa norme.

    Arguments:
    X   vecteur, doit être un tableau.
    """
    sum = 0
    # On ajoute le carré à la variable
    for x in np.array(X):
        sum += x**2
    # On retourne la racine à la variable
    return np.sqrt(sum)

def puissance_iteree_v2(C, p):
    """
    Fonction puissance_iteree qui prend en entrée 
    une matrice A, une précision p et qui retourne 
    un tableau de vecteur propre.
    
    Arguments:
    A       matrice, doit être un tableau
    p       précision, doit être un entier   
    """

    C = np.array(C)

    # Transposé de la matrice
    C = matrice_transposee(C)

    # Calcule de la matrice Q
    Q = matrice_stochastique(C)

    # Nombre de page
    N = Q.shape[0]

    # Vecteur initial
    r = np.ones(N) / N

    while True:
        ancien_r = r.copy()
        r = np.dot(Q, r)
        # On compare deux matrices selon la précision p
        if np.allclose(r, ancien_r, atol=p):
            return r, Q

# Matrice web N=14 i pointe vers j
web = [
    0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
    1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0,
    1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0,
    0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1,
    0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
]

precision = 1e-6

# Calcul des scores des pages de la matrice web
r, Q = puissance_iteree_v2(web, precision)
for page in range(len(r)):
    print(f"Page {page+1:<3}: {r[page]:.4f}")

# Vérification que r = Q*r
verification = np.dot(Q, r)
print("On vérifie que r = Qr")
if np.allclose(verification, r, atol=precision):
    print("r = Qr")
else:
    print("r != Qr")
print()

3. Analyser la pertinence du résultat obtenu.

In [None]:
# On crée une liste de tuples (index_page, score)
page_rank = list(enumerate(r, start=1))
# Trie par score décroissant
page_rank.sort(key=lambda tup: tup[1], reverse=True)

listeLiensEntrants = [5,1,2,2,3,3,1,3,1,5,1,2,2,3]
listeLiensSortants = [5,3,2,2,1,3,2,1,2,5,3,2,2,1]

print("PageRank :\t\tEntrants\tSortants")
for page, rank in page_rank:
    print(f"Page {page}\t: {rank:.4f}\t" + str(listeLiensEntrants[page-1]) + "\t\t" + str(listeLiensSortants[page-1]))

**Page 6** : (0.1651) (1er meilleur score)
- Reçoit 3 liens entrant de qualité (page 1, 10 & 8)

**Page 1 & 10** : (0.1376) (2ème meilleur score)
- Reçoit 5 liens entrant
- Donne autant qu'elle reçoit de lien

**Page 8** : (0.1101) (3ème meilleur score)
- Reçoit le lien de la page 6 (très fort) ainsi que de 2 pages (page 7 & 9) 
- Donne à un lien (page 6), donc cette page augmente fortement

