In [None]:
import random as rd
import seaborn as sns

# Chaînes de Markov (et rappels de probabilités)

---


```
pierre.coucheney@uvsq.fr
```


Références:
* introduction aux probabilités: https://www.youtube.com/watch?v=OhYJrpmEfS4
* Markov chains and mixing times: https://pages.uoregon.edu/dlevin/MARKOV/markovmixing.pdf
* Cours de probabilités avancé: https://www.imo.universite-paris-saclay.fr/~jean-francois.le-gall/IPPA2.pdf


### Un exemple simple?

---


On lance une pièce: si elle tombe sur Pile, on gagne 1 point sinon 0.


Combien de points obtient-on **en moyenne** si  on lance 1, 2, 3, 4, n fois la pièce? 


## Méthode 1: estimation par simulation

---

In [None]:
def nb_points1(nb_lancer):
    pt = 0
    for _ in range(nb_lancer):
        pt += rd.randint(0,1)
    return pt

In [None]:
nb_xp = 10000
nb_lancer = 2
data = [nb_points1(nb_lancer) for _ in range(nb_xp)]
print("l'estimation de la moyenne pour", nb_lancer,"lancers vaut", sum(data)/nb_xp)

## Méthode 2: modélisation par une variable aléatoire et calcul de la loi

### Rappel: loi de probabilité sur un ensemble discret
--- 

Un ensemble discret des événements élémentaires (univers) $\Omega$ étant donné:
* (positivité) pour tout événement $A \subseteq \Omega$, $\mathbb{P}[A] \geq 0$
* $\mathbb{P}[\Omega] = 1$
* (additivité) pour toute suite dénombrables d'événements $(A_i)_{i \in \mathbb{N}}$ deux à deux disjoints 
$$\mathbb{P}[\cup_{i \in \mathbb{N}} A_i] = \sum_{i \in \mathbb{N}} \mathbb{P}[A_i]$$


**Loi des probabilités totales**: supposons que $\{B_i, i \in \mathbb{N} \}$ est une partition de $\Omega$:

$$
\begin{array}{ll}
\mathbb{P}[A] & = \mathbb{P}[A \cap \cup_{i \in \mathbb{N}} B_i ]  \\
& = \mathbb{P}[\cup_{i \in \mathbb{N}} A \cap B_i ]  \\
& = \sum_{i \in \mathbb{N}} \mathbb{P}[A \cap B_i ]  \\
& = \sum_{i \in \mathbb{N}} \mathbb{P}[A | B_i ] \mathbb{P}[B_i ]   \\
& 
\end{array}
$$


### Variable aléatoire discrète

---

Fonction sur $\Omega$ muni de la loi de probabilité $\mathbb{P}$ à valeur dans un ensemble discret $E$.

**Variable aléatoire entière**: si E est un sous-ensemble de $\mathbb{N}$.

**Loi d'une variable aléatoire $X$:** pour tout $e \in E$, donnée de $\mathbb{P}[X^{-1}(e)]$, noté $\mathbb{P}[X=e]$.

Si $X_1$ et $X_2$ sont deux variable aléatoires, on note
$$\mathbb{P}[X_1 = e_1, X_2=e_2] = \mathbb{P}[X_1 = e_1 \text{ "et" } X_2=e_2] = \mathbb{P}[X_1^{-1}(e_1) \cap X_2^{-1}(e_2)] $$

### Espérance d'une variable aléatoire discrète $X$, avec $E \subset \mathbb{R}$

---

**Formule générale**:
$$ \mathbb{E}[X] = \sum_{e \in E}  e \cdot \mathbb{P}[X=e]$$

$$ \mathbb{E}[f(X)] = \sum_{e \in E}  f(e) \cdot \mathbb{P}[X=e]$$



**Lien avec la moyenne empirique**: on génère $N$ valeurs selon la loi de $X$; soit $n_e$ le nombre de fois où on a obtenu la valeur $e$, la moyenne empirique vaut alors
$$\frac1N \sum_{e \in E}e \cdot n_e  = \sum_{e \in E}e \cdot \frac{n_e}{N}  $$

Or les fréquences $n_e / N$ "tendent" vers la probabilité $\mathbb{P}[X=e]$.



## Méthode 3: utilisation de la linéarité de l'espérance

---
Pour tous réels $a$ et $b$, et toutes variables aléatoires discrètes $X_1$ et $X_2$,


$$\mathbb{E}[aX_1 + b X_2] = a \mathbb{E}[X_1]+b \mathbb{E}[X_2]$$



* pas d'hypothèse d'indépendance entre $X_1$ et $X_2$
* en général $\mathbb{E}[f(X)] \neq f(\mathbb{E}[X])$

**Retour sur l'exemple**: On note $X_i$ le gain obtenu au i-ème lancer, alors le gain total en $n$ lancers vaut

$$S_n = X_1 + X_2+ \dots X_n$$

on obtient facilement

$$\mathbb{E}[S_n] = \mathbb{E}[X_1] + \mathbb{E}[X_2]+ \dots \mathbb{E}[X_n] = n \mathbb{E}[X_1] = 0.5n$$

## Variance d'une variable aléatoire discrète

---
Espérance de la distance à la moyenne:
$$\text{Var}(X) = \mathbb{E}[(X - \mathbb{E}[X])^2] $$


* opérateur non linéaire
* toujours positif
* $\text{Var}(aX) = a^2\text{Var}(X)$
* si $X_1$ et $X_2$ sont indépendantes alors 
$$\text{Var}(X_1 + X_2) = \text{Var}(X_1) + \text{Var}(X_2)$$

$X_1$ et $X_2$ sont **indépendantes** si pour toutes valeurs $e_1$ et $e_2$, 
$$\mathbb{P}[X_1 = e_1, X_2 = e_2] =  \mathbb{P}[X_1 = e_1]\cdot \mathbb{P}[ X_2 = e_2]$$

## Loi  des grands nombres

---

Soit $(X_i)_{i \in \mathbb{N}}$ une suite de variables aléatoires réelles iid, c'est-à-dire
* indépendantes deux à deux
* identiquement distribuées (de même loi), et d'espérance finie
et soit 
$$M_n = \frac1n (X_1 + X_2 + \dots + X_n)  $$
la moyenne des $n$ premières valeurs.


On a:

* $\mathbb{E}[M_n] =  \mathbb{E}[X_1]$
* $\text{Var}(M_n) = \text{Var}[X_1] / n$

**Résultat**: 

Alors $M_\infty = \lim_{n \rightarrow \infty} M_n$ est une variable aléatoire qui vaut $\mathbb{E}[X_1]$ avec probabilité 1.


Contre exemple si une des hypothèses n'est pas satisfaite?

Justifie:
* l'estimation par simulation converge vers l'espérance de la variable aléatoire
* la fréquence d'apparition d'une valeur tend vers la probabilité d'obtenir la valeur
* méthodes de Monte-Carlo

### Etude expérimentale de la loi de $M_n$ dans le cas du lancer de pièce

---

In [None]:
nb_xp = 10
nb_lancer = 10
data = [nb_points1(nb_lancer)/nb_lancer for _ in range(nb_xp)]

sns.histplot(data, stat="probability").set(xlim=(0,1))
print("la moyenne de Mn vaut:", f"{sum(data)/nb_xp:.3f}")

### Deuxième exemple

---

On a un dé et une pièce équilibrés.

* quand on lance le dé on gagne 1 point
    * si on fait 5 ou 6, au coup suivant on lance la pièce
    * sinon on continue à lancer le dé
* quand on lance la pièce on ne gagne rien
    * si on fait Pile, au coup suivant on lance le dé
    * sinon on continue à lancer la pièce

Au premier coup on lance la pièce.

**Question**: combien gagne-t'on de points en moyenne si on fait 1, 2, 3, $n$ lancers?

## Méthode 1: simulation

---

In [None]:
def nb_points2(nb_lancer):
    pt = 0
    lance_piece = True
    for _ in range(nb_lancer):
        if lance_piece:
            if rd.randint(0,1) == 0:
                lance_piece = False
        else:
            pt += 1
            if rd.randint(1,6) > 4:
                lance_piece = True
    return pt

In [None]:
nb_xp = 100000
nb_lancer = 2
data = [nb_points2(nb_lancer) for _ in range(nb_xp)]

print("Estimation de la moyenne:", f"{sum(data)/nb_xp:.3f}")

### Evolution du nombre moyen de points par lancer

---

In [None]:
nb_xp = 10000
res = []
for nb_lancer in range(1, 51):
    data = [nb_points2(nb_lancer) for _ in range(nb_xp)]
    res.append(sum(data)/nb_xp/nb_lancer)
print(res)
sns.scatterplot(data=res)

## Méthode 2: calcul de la loi

---

Possible mais fastidieux.

## Méthode 3: linéarité de l'espérance

---

On note $X_i$ le gain obtenu au i-ème lancer, alors le gain total en $n$ lancers vaut

$$S_n = X_1 + X_2+ \dots X_n$$

donc 

$$\mathbb{E}[S_n] =\mathbb{E}[X_1] + \mathbb{E}[X_2]+ \dots \mathbb{E}[X_n]$$

mais les variables $X_i$ ne sont pas identiquement distribuées.


Mais $\mathbb{E}[X_i] = \mathbb{P}[X_i = 1]$ et 


$$
\begin{array}{ll}
\mathbb{P}[X_i = 1] & = \mathbb{P}[X_i = 1, X_{i-1} = 0] + \mathbb{P}[X_i = 1, X_{i-1} = 1] \\
& = \mathbb{P}[X_i = 1 | X_{i-1} = 0]\mathbb{P}[X_{i-1} = 0] + \mathbb{P}[X_i = 1 | X_{i-1} = 1]\mathbb{P}[X_{i-1} = 1] \\
& = \frac12 \mathbb{P}[X_{i-1} = 0] + \frac23 \mathbb{P}[X_{i-1} = 1] \\
& = \frac12 (1- \mathbb{P}[X_{i-1} = 1]) + \frac23 \mathbb{P}[X_{i-1} = 1]\\
& = \frac12 + \frac16 \mathbb{P}[X_{i-1} = 1]\\
\end{array}
$$


Sachant $\mathbb{P}[X_{1} = 1] = 0$, on obtient la relation


$$
\begin{array}{l}
u_{i+1} = \frac12 + \frac16 u_{i} \text{ pour tout }i \geq 0\\
u_1 = 0 \\
\end{array}
$$

où $u_i = \mathbb{P}[X_{i} = 1]$.



On peut alors calculer pour tout $i \geq 0$
$$\mathbb{E}[X_{i}] = \frac35 \left(1 - \left(\frac16\right)^{i} \right) $$

### Loi des grands nombres?

---

On note $X_i$ le gain obtenu au i-ème lancer, alors la moyenne des gains par lancer vaut

$$M_n = \frac1n (X_1 + X_2+ \dots X_n)$$


On déduit de ce qui précède que
$$\mathbb{E}[M_n] = \frac35 (1 - o(n))$$
Donc $\mathbb{E}[M_\infty] = \frac35$.



 Est-ce que $M_\infty$ vaut $\frac35$ avec probabilité 1 comme avec la loi forte des grands nombres?

**Problème**: les variables $X_i$ ne sont ni indépendantes, ni identiquement distribuées.

Mais la suite $(X_i)_{i \in \mathbb{N}}$ est une **chaîne de Markov**.

### Chaîne de Markov sur l'exemple $(X_n)_{n \in \mathbb{N}}$

---

Graphe de transition:

<center><img src='fig/chaine_exemple1.png'"></center> 



Matrice de transition:

$$ P = 
\begin{array}{l|ll}
 & 0 & 1 \\ \hline
0 & \frac12 & \frac12 \\ 
1 & \frac13 & \frac23  \\
\end{array}
$$



**Loi de $X_n$**

---

On note $q_k(n) = \mathbb{P}[X_n = k]$ pour $k \in \{0,1 \}$:

$$
\begin{array}{ll}
q_0(n+1) & = \frac12 q_0(n) + \frac13 q_1(n)\\
q_1(n+1) & = \frac12 q_0(n) + \frac23 q_1(n)\\
\end{array}
$$


En notant $q(n) = [q_0(n), q_1(n)]$ le vecteur en ligne:
$$ q(n+1) = q(n) P $$

### Chaîne de Markov $(X_n)_{n \in \mathbb{N}}$: suite

---
$$ q(n+1) = q(n) P $$

Si $q(n)$ converge vers un vecteur de probabilité $\pi = [\pi_0, \pi_1]$ alors on doit avoir

$$ \pi = \pi P $$


Ce système linéaire s'écrit:

$$
\begin{array}{ll}
\pi_0 & = \frac12 \pi_0 + \frac13 \pi_1\\
\pi_1 & = \frac12 \pi_0 + \frac23 \pi_1\\
\end{array}
$$
qui donne $\pi_1 = \frac32 \pi_0$.

Comme $\pi$ est un vecteur de probabilité 
$$\pi_0 + \pi_1 = 1$$
alors on obtient
$$\pi = \left[ \frac25 , \frac35 \right] $$

**Théorème ergodique** (généralisation de la loi des grands nombres): avec probabilité 1,

$$ \lim_n \frac1n (X_1 + X_2+ \dots X_n) = \pi_1 $$

## Chaîne de Markov en temps discret

--- 

Suite infinie de variables aléatoires $(X_n)_{n \in \mathbb{N}}$ (processus stochastique) à valeur dans un **ensemble fini d'états** $E$ telle que pour tout $n \in \mathbb{N}$ et tout ensemble d'états $(i_0, i_1, \dots, i_{n-1}, i, j)$

$$ \mathbb{P}[X_{n+1} = j| X_0=i_0, X_1=i_1, \dots, X_n=i] =  \mathbb{P}[X_{n+1} = j | X_n = i]$$


Si cette quantité ne dépend pas de $n$, la chaîne de Markov est dite **homogène**, et on écrit
$$P_{i,j} = \mathbb{P}[X_{n+1} = j | X_n = i] $$
et $P = (P_{i,j})_{(i,j) \in E^2}$ est la **matrice de transition** de la chaîne de Markov.

Dans la suite, toute chaîne est supposée homogène.

### Graphe de transition d'une chaîne de Markov

---


* ensemble de sommets: ensemble d'états $E$
* un arc (orienté) entre sommet $i$ et $j$ dans $E$ si et seulement si $P_{i,j} > 0$
* boucles autorisées

### Matrice stochastique

---

Une matrice de transition est une matrice stochastique:
* ses coefficients sont positifs
$$\forall i,j \in E, P_{i,j} \geq 0 $$
* la somme des coefficients sur chaque ligne vaut 1
$$ \forall i \in E, \sum_{j \in E}P_{i,j} = 1$$

**Exemple**:


$$ 
\begin{array}{l|ccc}
 & 1 & 2 & 3 \\ \hline
1 & 1/4 & 1/2 & 1/4  \\ 
2 & 1/3 & 1/3 & 1/3 \\
3 & 1/10 & 0 & 9/10  \\
\end{array}
$$


### Exemple de chaîne de Markov

---

Dans un (mini) magasin il peut y avoir au plus $2$ clients. A chaque pas de temps, un nouveau client arrive avec probabilité $q$, et s'il y a au moins un client dans le magasin, il sort un client avec probabilité $p$. Si un client arrive et que le magasin est complet, il repart aussitôt même si un client sort au même moment.

**Graphe de transition**:

<center><img src='fig/chaine_exemple2.png'"></center> 



**Matrice de transition**:

$$ 
\begin{array}{l|ccc}
 & 0 & 1 & 2 \\ \hline
0 & 1-q & q & 0 \\ 
1 & p(1-q) & 1-p(1-q)-q(1-p) & q(1-p)  \\
2 & 0 & p & 1-p  \\
\end{array}
$$


### Questions typiques

---

* fréquence de passage dans un état donné: proportion du temps où le magasin est vide? nombre moyen de clients dans le magasin?
* loi de $X_n$ dans un futur "proche": probabilité que le magasin soit vide dans 5 pas de temps?
* loi de $X_n$ dans un futur "lointain": probabilité que le magasin soit vide dans 100000 pas de temps?
* temps moyen avant de quitter un état: si le magasin est vide, combien de temps en moyenne le restera-t'il?
* temps moyen pour atteindre un état: si le magasin est vide, combien de temps en moyenne pour qu'il soit complet?

### Probabilité d'une trajectoire finie

---

$$\mathbb{P}[X_0 = i_0, X_1 = i_1, X_2=i_2, \dots , X_{n-1} = i_{n-1}, X_n = i_n] = \mathbb{P}[X_0 = i_0] \,P_{i_0, i_1} \, P_{i_1, i_2}\dots P_{i_{n-1}, i_n} $$

Preuve par récurrence sur $n$.

### Probabilités de transition en $n$ étapes

---

On note $P_{i,j}^{(n)}$ la probabilité de passer de $i$ à $j$ en $n$ étapes,

$$P_{i,j}^{(n)} =  \mathbb{P}[X_n = j | X_0 = i]$$

et $P^{(n)}$ la matrice associée.

**Résultat**:
$$P^{(n)} = P^n $$

Preuve par récurrence sur $n$.

### Loi de $X_n$

---

On note $\mu_n$ la loi de $X_n$, c'est-à-dire
$$\mu_n(i) = \mathbb{P}[X_n = i] $$

**Résultat**:
$$\mu_n = \mu_0 P^n $$

**Preuve**:
$$
\begin{array}{ll}
\mathbb{P}[X_n = j] & = \sum_{i \in E}\mathbb{P}[X_n = j, X_0 = i]\\
& = \sum_{i \in E}\mathbb{P}[X_n = j | X_0 = i]\mathbb{P}[ X_0 = i]\\
& = \sum_{i \in E} P^n_{i,j} \, \mu_0(i)\\
& = (\mu_0 P^n)_j\\
\end{array}
$$

**Conclusion**: la loi de $X_n$ est calculable pour des "petites" valeurs de $n$ en calculant $P^n$.

### Probabilité stationnaire

---

Supposons qu'il existe un vecteur de probabilité $\pi$ sur $E$ tel que
$$ \pi = \pi P $$

Si $\mu_0 = \pi$, alors $\mu_n = \pi$ pour tout $n \geq 0$.

$\pi$ est une **probabilité stationnaire** de la chaîne de Markov.



**Propriétés (admises)**: 
* si $E$ est fini, alors il existe toujours une probabilité stationnaire.
* de plus, si le graphe de la chaîne est **fortement connexe**, alors la probabilité stationnaire est **unique** et strictement positive; on dit que la chaîne de Markov est **irréductible**.

**Méthode générique pour calculer $\pi$**: résoudre le système linéaire $\pi = \pi P$.

Le calcul peut être simplifié dans certains cas.

### Interprétation en terme de flot

---

$$
\begin{array}{ll}
& \pi = \pi P \\
\Leftrightarrow & \forall i \in E, \pi(i) = \sum_{j \in E} \pi(j)P_{j,i}\\
\Leftrightarrow & \forall i \in E, \pi(i)\sum_{k \in E} P_{i,k} = \sum_{j \in E} \pi(j)P_{j,i}\\
\Leftrightarrow & \forall i \in E, \sum_{k \in E}\pi(i) P_{i,k} = \sum_{j \in E} \pi(j)P_{j,i}\\
\end{array}
$$

En posant
$$f(i,j) =  \pi(i) P_{i,j}$$
on obtient l'**équation de flot**, "flot entrant = flot sortant" sur chaque sommet du graphe de la chaîne de Markov
$$ \forall i \in E, \sum_{j: (j,i) \in A} f(j,i) = \sum_{k: (i,k) \in A} f(i,k)  $$
où $A$ est l'ensemble des arcs du graphe.



### Illustration

---

<center><img src='fig/flot.png'"></center> 


$$f(i,i) + f(j_1,i) + f(j_2, i) = f(i,i) + f(i,k_1) + f(i,k_2)+ f(i,k_3)$$

Les boucles sur les états comptent comme flot entrant et flot sortant.

### Flot et coupe du graphe de la chaîne de Markov

---

**Résultat pratique pour calculer la distribution stationnaire**

Si $f$ est un flot sur le graphe de la chaîne de Markov,alors pour toute partition des sommets en 2 ensembles $V_G$ et $V_D$ le flot de $V_G$ vers $V_D$ est égal au flot de $V_D$ vers $V_G$ (le bilan du flot sur toute coupe du graphe est nul).



Soit $(G,D)$ une partition de $E$,


$$
\begin{array}{ll}
& f(G,E) = f(E,G) \\
\Leftrightarrow & f(G,G) + f(G,D) = f(G,G) + f(D,G) \\
\Leftrightarrow & f(G,D) = f(D,G) \\
\end{array}
$$

**En français**: le flot de $G$ à $D$ est égal au flot de $D$ à $G$.

<center><img src='fig/flot_cut.png'"></center> 
    
    
$$ f(j_1, k_1) + f(j_1, k_2) =  f(k_1, j_2) + f(k_2, j_1)+ f(k_3, j_2) $$

### Convergence de la probabilité $\mu_n$ quand $E$ est fini
---

On rappelle que $\pi$ est une probabilité stationnaire si 
$$ \pi = \pi P $$
et la loi de probabilité de la chaîne de Markov au temps $n+1$ satisfait
$$\mu_{n+1} = \mu_n P $$

Si $\mu_n$ converge vers une probabilité limite $\mu_\infty$ alors
$$ \mu_\infty = \mu_\infty P $$
Donc $\mu_\infty$ est une probabilité stationnaire.


**Résultat (admis)**: si la chaîne de Markov est **irréductible et apériodique**, alors $\mu_n$ converge vers l'unique probabilité stationnaire $\pi$. En particulier cela ne dépend pas de $\mu_0$.

**Apériodique**: le pgcd de la taille des circuits du graphe de la chaîne est 1.

### Théorème ergodique (généralisation de la loi des grands nombres)

---

**Enoncé**: on suppose que la chaîne de Markov est irréductible avec $\pi$ comme probabilité stationnaire, alors pour toute fonction réelle sur $E$, avec probabilité 1
$$\lim_{n \rightarrow \infty} \frac1n \sum_{k=0}^{n-1}f(X_k) = \sum_{i \in E} f(i) \, \pi(i) $$


**En français**:
* $\displaystyle \frac1n \sum_{k=0}^{n-1}f(X_k)$: moyenne de $f$ sur $n$ pas de temps (moyenne temporelle)
* $\displaystyle \sum_{i \in E} f(i) \pi(i)$: moyenne de $f$ sur les états selon la probabilité stationnaire (moyenne en espace)

**Conséquences**: 
* la fréquence de passage par l'état $i$ tend vers $\pi(i)$
* le temps moyen de retour de l'état $i$ vers lui-même est $1/\pi(i)$
* si la chaîne est irréductible alors chaque état est visité une infinité de fois avec probabilité 1.

### Théorème ergodique (suite)

---

$$\lim_{n \rightarrow \infty} \frac1n \sum_{k=0}^{n-1}f(X_k) = \sum_{i \in E} f(i)\, \pi(i) $$



Dns l'exemple du magasin:
* quelle est la proportion du temps où il n'y a aucun client?
* combien de clients y a-t'il en moyenne?

### Nature d'une chaîne de Markov, avec $E$ fini

---

* **irréductible**: graphe fortement connexe, probabilité stationnaire unique et le théorème ergodique s'applique
* **apériodique**: pgcd de la taille des circuits vaut 1
* **irréductible et apériodique**: convergence de la loi de $X_n$ vers l'unique probabilité stationnaire

### Temps d'atteinte d'un état

---

Soit une chaîne de Markov irréductible.

On note $t_i(j)$ l'espérance du temps pour atteindre l'état $i$ depuis $j$.

$$t_i(j) = \mathbb{E}[T_i | X_0 = j] $$
avec
$$T_i = \min \{n \geq 0 \text{ tel que } X_n = i \} $$

**Résultat**:

$$
\begin{array}{l}
t_i(j) = 1 + \sum_{k \in E} P_{j,k} \, t_i(k) \text{ si }j\neq i \\
t_i(i) = 0
\end{array}
$$

Preuve au tableau.

Calcul du temps d'atteinte par résolution du système linéaire (exemple au tableau).

### Probabilité d'atteinte d'un état

---

Soit une chaîne de Markov irréductible.

On note $p_{a,b}(i)$ la probabilité depuis l'état $i$ d'atteindre l'état $a$ avant l'état $b$.

$$p_{a,b}(i) = \mathbb{P}[T_a < T_b | X_0 = i] $$

**Résultat**:

$$
\begin{array}{l}
p_{a,b}(i) = \sum_{j \in E} P_{i,j} \, p_{a,b}(j) \text{ si } i \neq a \text{ et } i \neq b \\
p_{a,b}(a) = 1 \\
p_{a,b}(b) = 0
\end{array}
$$
