# Chaînes de Markov : page Rank de Google

L’ensemble des pages web disponibles sur l’Internet peut être représenté mathématiquement par un immense graphe, dans lequel chaque sommet est une page web $ P*i $, et dans lequel on ajoute une flèche de $ P_i $ vers $ P_j $ si la page $ P_i $ contient un lien hypertexte vers la page $ P_j $. Ci-dessous, un exemple de graphe pour 12 pages fictives $ P_1 $, $ P_2 $, ..., $ P_{12} $, ainsi que la matrice d’adjacence $ A $ associée 


## Qu'est ce qu'une chaîne de Markov ?

On appelle chaîne de Markov une suite de variables aléatoires (Xn) à valeurs dans un espace probabilisé dans lequel l'état futur Xn+1 dépend de l'état actuel Xn sans dépendre des états passés. Pour cette raison on dit d'une chaîne de Markov qu'elle est sans mémoire. 

### Explication de la formule de Markov

La formule présentée illustre la propriété fondamentale des chaînes de Markov : **l'état futur d'un système dépend uniquement de son état actuel et non des états passés.** En d'autres termes, une chaîne de Markov est un processus sans mémoire.

#### Décryptons la formule

1. **Probabilité de l'état futur :**

   $ P([X_1 = P]) $   

   représente la probabilité que le système soit dans l'état $(P)$ (par exemple, pluie) à l'instant $(X_1)$.

2. **Décomposition selon l'état actuel :**

   La probabilité que $(X_1 = P)$ est décomposée en fonction des trois états possibles à l'instant précédent $(X_0)$ : $(P)$ (pluie), $(S)$ (soleil) et $(N)$ (neige). Cela donne :

   
   $ P([X_1 = P]) = P([X_1 = P] \cap [X_0 = P]) + P([X_1 = P] \cap [X_0 = S]) + P([X_1 = P] \cap [X_0 = N]) $
   

3. **Utilisation des probabilités conditionnelles :**

   En utilisant la définition des probabilités conditionnelles, chaque terme s'écrit :

   
   $ P([X_1 = P] \cap [X_0 = Q]) = P_{X_0 = Q}(X_1 = P) \cdot P(X_0 = Q) $
   

   où $(Q)$ représente un état quelconque $(P)$, $(S)$ ou $(N)$.

4. **Somme des contributions :**

   Enfin, la probabilité $(P([X_1 = P]))$ est obtenue en sommant les contributions de chaque état possible à l'instant précédent $(X_0)$ :

   
   $ P([X_1 = P]) = P_{X_0 = P}(X_1 = P) \cdot P(X_0 = P) + P_{X_0 = S}(X_1 = P) \cdot P(X_0 = S) + P_{X_0 = N}(X_1 = P) \cdot P(X_0 = N) $
   

#### Exemple : Pluie, Soleil, Neige

Pour illustrer cette propriété, prenons un exemple concret basé sur les conditions météorologiques. Nous modélisons la météo quotidienne à l'aide d'une chaîne de Markov avec trois états possibles :
- **Pluie $(P)$**
- **Soleil $(S)$**
- **Neige $(N)$**

Les transitions entre ces états suivent des probabilités spécifiques. Par exemple :
- Si aujourd'hui il pleut, il y a une certaine probabilité que demain il pleuve encore, qu'il fasse soleil, ou qu'il neige.
- Si aujourd'hui il fait soleil, la probabilité de transition vers pluie, soleil ou neige est différente.

Ce type de modélisation permet de prévoir la météo future uniquement en fonction de l'état actuel, sans prendre en compte les jours passés.

Dans la suite, nous utiliserons une **matrice de transition** pour modéliser ces probabilités et explorer le fonctionnement des chaînes de Markov à travers cet exemple. 


\begin{align}
P([X_1 = P]) &= P([X_1 = P] \cap [X_0 = P] \cup [X_1 = P] \cap [X_0 = S] \cup [X_1 = P] \cap [X_0 = N]) \\
             &= P([X_1 = P] \cap [X_0 = P]) + P([X_1 = P] \cap [X_0 = S]) + P([X_1 = P] \cap [X_0 = N]) \\
             &= P_{X_0 = P}(X_1 = P) \cdot P(X_0 = P) + P_{X_0 = S}(X_1 = P) \cdot P(X_0 = S) + P_{X_0 = N}(X_1 = P) \cdot P(X_0 = N) \\
\end{align}

<img src="./pays_oz.png" width="400"/>

$
A = 
\left(
\begin{array}{c|cccccccccccc}
 & P & S & N \\ \hline
P & 0.6 & 0.1 & 0.3 \\
S & 0.2 & 0.6 & 0.2 \\
N & 0.4 & 0.0 & 0.6
\end{array}
\right)
$

On voit donc qu'il y a une convergence vers un état stable. On peut donc calculer la probabilité de chaque état stable en fonction de la matrice de transition.

On sait que :
$ A*{µ_0} = A*{µ*1} $
$ A*{µ*1} = A*{µ_2} $

On peut donc écrire :
$ A*{µ_n} = A*{µ\_{n+1}} $

Pour $ µ*n \to µ $ on a : $ A*{µ} = µ $

On tend donc vers un état stable qu'on appelle la distribution stationnaire.

Pour trouver la distribution stationnaire on peut résoudre le système d'équations suivant :

$
A \cdot 
\begin{pmatrix} 
x \\ y \\ z 
\end{pmatrix}
= \begin{pmatrix} x \\ y \\ z \end{pmatrix}
$

Mais il faut d'abord s'assurer qu'il y a une convergence vers un état stable. Pour cela on peut utiliser le théroème de Chapman-Kolmogorov

Ce théorème nous dit que si on a une chaîne de Markov homogène, alors la probabilité de passer de l'état i à l'état j en n étapes est égale à la probabilité de passer de l'état i à l'état k en m étapes et de passer de l'état k à l'état j en n-m étapes.

$E$ est l'ensemble des états possibles de la chaîne de Markov : $E = \{P, S, N\}$ 

\begin{align}
P(X_n = j | X_0 = i) &= \sum_{k \in E} P(X_n = j | X_{n-1} = k) \cdot P(X_{n-1} = k | X_0 = i)
\end{align}

- Irréductibilité : Pour vérifier cela, il faut s’assurer que tous les états sont accessibles depuis n’importe quel autre état. En regardant ta matrice  A , tu vois que chaque état a une probabilité non nulle de passer à un autre état en une ou plusieurs étapes. Par exemple :
	- On peut aller de  P  à  S  (probabilité 0.1) ou à  N  (probabilité 0.3).
	- On peut aller de  S  à  P  (probabilité 0.2) ou à  N  (probabilité 0.2).
	- On peut aller de  N  à  P  (probabilité 0.4).

Cela montre que la chaîne est irréductible, car tous les états sont accessibles depuis n’importe quel autre état, soit directement, soit en plusieurs étapes.
- Aperiodicité : Vérifier si la chaîne est apériodique revient à s’assurer qu’il n’y a pas de cycle fixe. En analysant la matrice, on constate que les transitions peuvent se faire à différents moments. Par exemple, de  P  à  S , puis de  S  à  N , et vice versa, ce qui suggère qu’il n’y a pas de cycle rigide, et donc la chaîne est apériodique.

On peut donc résoudre le système d'équations suivant :

$
A \cdot
\begin{pmatrix}
x \\ y \\ z
\end{pmatrix}
= \begin{pmatrix}
x \\ y \\ z
\end{pmatrix}
$

On a donc :

$
\begin{pmatrix}
0.6 & 0.1 & 0.3 \\
0.2 & 0.6 & 0.2 \\
0.4 & 0.0 & 0.6
\end{pmatrix} 
\cdot
\begin{pmatrix}
x \\ y \\ z
\end{pmatrix}
= \begin{pmatrix}
x \\ y \\ z
\end{pmatrix}
$

On inverse la matrice A pour obtenir :

$
\begin{cases}
0.6x + 0.2y + 0.4z = x \\
0.1x + 0.6y + 0.0z = y \\
0.3x + 0.2y + 0.6z = z
\end{cases}
$

Pour chaque équation, on soustrait les termes du côté droit pour obtenir une forme plus simple :

Première équation :

\begin{align}
0.6x + 0.2y + 0.4z - x &= 0 \\
-x + 0.6x + 0.2y + 0.4z &= 0 \\
-0.4x + 0.2y + 0.4z &= 0 \\
\end{align}

Deuxième équation :

\begin{align}
0.1x + 0.6y + 0.0z - y &= 0 \\
0.1x - y + 0.6y &= 0 \\
0.1x - 0.4y &= 0 \\
\end{align}

Troisième équation :

\begin{align}
0.3x + 0.2y + 0.6z - z &= 0 \\
0.3x + 0.2y - z + 0.6z &= 0 \\
0.3x + 0.2y - 0.4z &= 0 \\
\end{align}

On peut simplifier la deuxième équation :

\begin{align}
0.1x - 0.4y &= 0 \\
0.4y &= 0.1x \\
y &= \frac{0.1x}{0.4} \\
y &= \frac{x}{4}
\end{align}

On remplace y dans la première équation :

\begin{align}
-0.4x + 0.2y + 0.4z &= 0 \\
-0.4x + 0.2 \cdot \frac{x}{4} + 0.4z &= 0 \\
-0.4x + 0.05x + 0.4z &= 0 \\
-0.35x + 0.4z &= 0 \\
0.35x &= 0.4z \\
z &= \frac{0.35x}{0.4} \\
z &= \frac{7x}{8}
\end{align}

On remplace y et z dans la troisième équation :

\begin{align}
0.3x + 0.2y - 0.4z &= 0 \\
0.3x + 0.2 \cdot \frac{x}{4} - 0.4 \cdot \frac{7x}{8} &= 0 \\
0.3x + 0.05x - 0.35x &= 0 \\
0.7x &= 0 \\
x &= 0
\end{align}

Comme x, y, z représentent les probabilités des états P, S, N respectivement, nous imposons que la somme des probabilités soit égale à 1 :

\begin{align}
x + y + z &= 1
\end{align}

En remplaçant $ y = \frac{x}{4} $ et $ z = \frac{7x}{8} $, nous obtenons :

\begin{align}
x + \frac{x}{4} + \frac{7x}{8} &= 1 \\
\end{align}

Trouvons un dénominateur commun pour simplifier l'équation :

\begin{align}
\frac{8x}{8} + \frac{2x}{8} + \frac{7x}{8} &= 1 \\
\frac{17x}{8} &= 1 \\
17x &= 8 \\
x &= \frac{8}{17}
\end{align}

En remplaçant x dans les équations pour y et z, nous obtenons :

\begin{align}
y &= \frac{x}{4} = \frac{8}{17} \cdot \frac{1}{4} = \frac{2}{17} \\
z &= \frac{7x}{8} = \frac{7 \cdot 8}{17 \cdot 8} = \frac{7}{17}
\end{align}

Par conséquent, la distribution stationnaire de la chaîne de Markov est $ P = \frac{8}{17} $, $ S = \frac{2}{17} $ et $ N = \frac{7}{17} $

On retrouve bien les valeurs approchées qu'on a trouvé en lançant le programme python ci-dessus

## PageRank : Définition et Explication

Le but de **PageRank** est de donner un score basé uniquement sur les liens entre les pages. Plus une page est référencée par d'autres pages, plus elle est importante. Cependant, l'importance de chacun de ces référencements dépend de l'importance de la page qui fait le référencement. C'est une technique de **Link-Based Ranking**.

### Modélisation avec un graphe

Dans un graphe :

- Un **nœud** représente une page.
- Un **lien** est une redirection vers une autre page.

### Formule de PageRank

La formule de PageRank pour une page $P_i$ est donnée par :

$$
PR(P_i) = \frac{1 - p}{n} + p \sum_{j \in M_i} \frac{PR(P_j)}{L(P_j)}
$$

- $PR(P_i)$ : Le score PageRank de la page $P_i$.
- $p$ : Le facteur de probabilité de rester sur une page (typiquement $p = 0.85$).
- $n$ : Le nombre total de pages.
- $M_i$ : L'ensemble des pages qui pointent vers $P_i$.
- $L(P_j)$ : Le nombre de liens sortants de la page $P_j$.

### Explication de la formule

Lorsque l'on est sur une page, on a une probabilité $p$ de rester sur cette page et une probabilité $1 - p$ d'aller sur une page aléatoire.

Ainsi, une page a une probabilité d'être choisie de :

$$
\frac{1 - p}{n}
$$

où $n$ est le nombre total de pages.

### Valeurs courantes

Les valeurs les plus couramment utilisées pour $p$ sont :

- $p = 0.85$ : Probabilité de rester sur la page actuelle.
- $1 - p = 0.15$ : Probabilité de quitter la page actuelle.

Dans nos exemples, nous utiliserons ces valeurs. 

![image](./image.png)

# Algorithme page rank en partant de valeur initiale

En théorie, en partant d'un graphe directionnel on peut construire la matrice adjacente à ce graphe et construire le page rank à partir d'une système à n équation(s) se resolvant assez simplement. Du moins, pour un graphe comportant un nombre limité de sommet / pages. Seulement, dans le cas de google, il y aurait une quantité de page à traiter qui serait bien trop grande, environ 130 000 milliards. Et un système d'équation à 130 000 milliards d'inconnues prendrait trop de temps et l'algorithme serait absolument inexploitable et ce même si l'algorithme est resolvable en temps polynomial O(E.n). Pour palier à cela on peut partir de valeur initiale et ainsi calculer le page rank de chacune des pages indépendament. 

In [None]:
def pageRank(pages, iterations=100):
    pageAmount = len(pages) 
    scores = {}
    
    for page in pages:
        scores[page] = 1 / pageAmount

    for i in range(iterations):
        newScores = {}
        
        for page in pages:
            newScores[page] = 0
            
            inPages = get_inbound_links(pages, page)

            sum_contributions = 0
            for link in inPages:
                nbOut = len(pages[link])
                if nbOut > 0: 
                    sum_contributions += scores[link] / nbOut
            
            pr = 0.15 / pageAmount + 0.85 * sum_contributions
            newScores[page] = pr
        
        scores = newScores

    return scores

def get_inbound_links(pages, page):
    inbound_links = []
    for src in pages:
        if page in pages[src]:
            inbound_links.append(src)

    return inbound_links


In [None]:

pages = {
    'A': ['B'],
    'B': ['C'],
    'C': ['A', 'B']
}

print(pageRank(pages, 20))


{'A': 0.2148106274731486, 'B': 0.3973996608253249, 'C': 0.38778971170152615}


## Explication du code

Dans la première partie du code, on applique donc la modification consistant à partir d'un page rank initial pour chaque page. Pour simplifier, le mieux est de partir de 1/n, n étant le nombres de pages.

``` python
 for page in pages:
    scores[page] = 1 / pageAmount
```

Ensuite on commence à boucler sur le nombre d'itérations voulues et crée les nouveaux rank de l'itération. A noter que plus le nombre d'itérations est grand, plus le ranking final convergera vers les valeurs pouvant être obtenue via la méthode du système d'équation. Une très légère marge "d'erreur" est permise au vu de l'efficacité de l'algorithme.


``` python
for i in range(iterations):
    newScores = {}
```

On boucle ensuite une deuxième fois, cette fois ci sur les pages qui est donc, en terme de structure de données, une liste de liste mais qui représente la matrice d'adjacence du graphe initial. Enfin, dans notre cas, on ne représente pas la matrice sous forme de de liens entrant et sortant mais juste sous la forme : "A possède un lien entrant vers B et vers C " -> A = [B, C]. On y recupère la liste des pages ayant des liens entrant vers la page sur laquelle on itère. Pour cela on crée une fonction ```get_inbound_links``` permettant de récupérer ces liens entrant en partant de la liste de page et de la page dont on veut récupérer les liens entrant.

```python
def get_inbound_links(pages, page):
    inbound_links = []
    for src in pages:
        if page in pages[src]:
            inbound_links.append(src)

    return inbound_links

#--------------------------------------
inPages = get_inbound_links(pages, page)

sum_contributions = 0
```

On effectue finalement une dernière boucle en itérant sur les pages ayant des liens entrants vers celle sur laquelle on itère. On y récupère le nombre de liens sortants. Dans le cas où les nombre de liens sortants excède 0, on actualise la "contribution" des pages ayant des liens entrant correspondant au score de cette page divisé par son nombre de liens sortants

```python
for link in inPages:
    nbOut = len(pages[link])
    if nbOut > 0: 
        sum_contributions += scores[link] / nbOut
```

Finalement on applique les constantes de notre équation :

```python
pr = 0.15 / pageAmount + 0.85 * sum_contributions
newScores[page] = pr
```