# PageRank

On calcule PageRank avec la méthode de puissance :

$$p^{(k+1)} = T \cdot p^{(k)}$$

Règles du modèle (énoncé) :

- T[i, j] = probabilité d'aller de la page j vers la page i (colonne = page de départ)
- Si une page n'a aucun lien sortant (sink) : prochaine page uniforme (1/N)
- Arrêt quand :

$$\frac{||T p^{(k)} - p^{(k)}||_1}{||p^{(k)}||_1} \leq \epsilon$$

In [1]:
import numpy as np
import pandas as pd
from scipy.sparse import csr_matrix

## 1) Lire les CSV
- names.csv : colonne Name
- edges.csv : colonnes FromNode, ToNode (IDs 1-based)


In [2]:
names = pd.read_csv("names.csv")     # Name
edges = pd.read_csv("edges.csv")       # FromNode, ToNode

N = len(names)

src = edges["FromNode"].to_numpy() - 1   # j 
dst = edges["ToNode"].to_numpy() - 1     # i

N, len(edges)


(199903, 10722190)

## 2) Degrés sortants + sinks

In [3]:
outdeg = np.bincount(src, minlength=N)
sink = (outdeg == 0)

int(sink.sum())


0

## 3) Construction de la matrice de transition $T$ (Sparse)

Le dataset étant volumineux, on utilise une **matrice creuse (Sparse Matrix)** de SciPy pour optimiser la mémoire et la rapidité des calculs.

* **Format utilisé** : `csr_matrix` (Compressed Sparse Row), idéal pour les multiplications matrice-vecteur.
* **Contenu de $T$** : Si un lien existe de la page $j$ vers la page $i$, l'élément $T_{ij}$ reçoit la probabilité $$\frac{1}{outdeg[j]}$$
* **Gestion des "Sinks"** : Les pages sans liens sortants ne sont pas stockées dans la matrice creuse pour économiser de l'espace. Leur masse est redistribuée dynamiquement lors de l'itération pour simuler un saut uniforme vers n'importe quelle page du réseau.

In [4]:
# Construction de la partie "liens" de la matrice de transition
# Chaque lien j -> i reçoit une probabilité de 1 / outdeg[j]
valeurs = 1.0 / outdeg[src]
T_sparse = csr_matrix((valeurs, (dst, src)), shape=(N, N))

## 4) Méthode de puissance + critère d'arrêt

On cherche à calculer le vecteur de PageRank $\vec{p}^{(\infty)}$ par itérations successives :

$$\vec{p}^{(k+1)} = T \cdot \vec{p}^{(k)}$$

L'algorithme s'arrête lorsque la variation relative entre deux itérations devient inférieure à un seuil $\epsilon$ :

$$\frac{||T\vec{p}^{(k)} - \vec{p}^{(k)}||_1}{||\vec{p}^{(k)}||_1} \leq \epsilon$$

Dans cette version, le calcul $T \cdot \vec{p}^{(k)}$ est effectué en combinant la multiplication par la matrice creuse et l'ajout manuel de la contribution uniforme des pages "sinks".

In [5]:
eps = 1e-8
p = np.ones(N) / N
k = 0

while True:
    # p_next = (Partie creuse des liens) * p + (Partie uniforme des sinks)
    # L'opérateur @ déclenche la multiplication optimisée de SciPy
    p_next = T_sparse @ p + p[sink].sum() / N

    err = np.abs(p_next - p).sum() / np.abs(p).sum()
    p = p_next
    k += 1

    if err <= eps:
        break

k, err, p.sum()

(113, np.float64(9.177365094151931e-09), np.float64(0.9999999999999989))

## 5) Top pages

In [6]:
top_k = 20
idx = np.argsort(-p)[:top_k]

pd.DataFrame({
    "rank": np.arange(1, top_k + 1),
    "node_id": idx + 1,
    "name": names["Name"].iloc[idx].to_numpy(),
    "pagerank": p[idx],
})


Unnamed: 0,rank,node_id,name,pagerank
0,1,112356,United States,0.002491
1,2,168241,United Kingdom,0.00139
2,3,138128,World War II,0.001131
3,4,184958,Latin,0.001084
4,5,60041,France,0.001077
5,6,138420,Germany,0.000919
6,7,49148,English language,0.000839
7,8,149853,China,0.000797
8,9,151511,Canada,0.000791
9,10,145591,India,0.000789


## 6) Recherche basique (titre contient le mot-clé)

In [7]:
def search(query, k=10):
    q = query.lower()
    mask = names["Name"].str.lower().str.contains(q, na=False).to_numpy()
    idx = np.where(mask)[0]
    idx = idx[np.argsort(-p[idx])][:k]

    return pd.DataFrame({
        "rank": np.arange(1, len(idx) + 1),
        "node_id": idx + 1,
        "name": names["Name"].iloc[idx].to_numpy(),
        "pagerank": p[idx],
    })

search("python", 10)


Unnamed: 0,rank,node_id,name,pagerank
0,1,3918,Python (programming language),6e-05
1,2,112275,Monty Python,1e-05
2,3,112276,Monty Python's Flying Circus,9e-06
3,4,185388,Pythonidae,5e-06
4,5,113410,Monty Python and the Holy Grail,3e-06
5,6,113411,Monty Python's Life of Brian,2e-06
6,7,187085,Burmese Python,2e-06
7,8,171945,Python (mythology),2e-06
8,9,4103,CPython,2e-06
9,10,187079,Python reticulatus,1e-06
