# L'Algorithme de Metropolis-Hastings

On se donne une loi de probabilité $\pi$ et on cherche à simuler des variables aléatoires sous cette loi $\pi$ qu'on appellera la loi cible. L'algorithme de Metropolis-Hastings est une des méthodes possibles pour atteindre ce but. L'algorithme construit de façon itérative une suite de variables aléatoires $(X_n)_{n \geq 0}$ dont la loi converge vers $\pi$ quand $n \rightarrow +\infty$. Ainsi, lorsque $n$ est "grand", un tirage de $X_n$ est presque équivalent à un tirage selon $\pi$ et en pratique, on approche $\pi$ par la loi de $X_n$. Pour cette raison, il est très important de quantifier l'erreur d'approximation. On verra qu'au moins dans certains cas l'erreur décroît exponentiellement en $n$.

## Hypothèses et description de l'algorithme
 Pour initialiser l'algorithme, on va se servir d'une autre loi de probabilité $\mu$ (par exemple, on pourrait prendre $\mu=\delta_{x_0}$ pour $x_0\in E$).


L'algorithme de Metropolis Hastings nécessite deux ingrédients :

-  Une proposition de changement $Q:E \times E \to[0,1]$ qui est le
noyau d'une chaîne de Markov telle que
 $$\forall x,y \in E^2, \, Q(x,y) > 0 \iff Q(y,x) > 0.$$
 On suppose que l'on sait échantillonner les mesures $Q(x,\cdot)$.
- Une fonction d'acceptation $a:E\times E\to (0,1]$.

L'algorithme construit alors une chaîne de Markov $(X_n)_{n \ge 0}$ de
la façon suivante : à l'itération $n$, $X_n$ étant connu, 

- On propose un déplacement vers $Y_{n+1}$ suivant la loi $Q(X_n,\cdot)$ ;
- On accepte ce déplacement avec probabilité
  $a(X_n,Y_{n+1})$, c'est-à-dire qu'on tire $U_{n}$ de loi
  uniforme sur $(0,1)$ et

  -    Si $U_{n} \le a(X_n,Y_{n+1})$, alors $X_{n+1}=Y_{n+1}$ ;
  -    Si $U_{n} > a(X_n,Y_{n+1})$, alors $X_{n+1}={X}_{n}$.


La matrice de transition $P$ de la chaîne $(X_n)_{n \geq 0}$ est donc donnée par

$$ P(x,y) = \begin{cases} a(x,y) Q(x,y), \quad \forall x,y \in E, \quad  \text{si $x\neq y$ } 
\\ 1-\sum_{z \neq x} a(x,z) Q(x,z), \quad \text{si $x=y$}. \end{cases} $$

On souhaite que la chaîne de Markov $(X_n)_{n \geq 0}$ soit réversible par rapport à
  $\pi$, c'est-à-dire :
  
$$\forall x,y, \qquad   \pi(x) P(x,y) = \pi(y) P(y,x).$$

Pour cette raison, on impose une certaine structure sur la fonction d'acceptation $a$, qui est de la forme

$$  \forall x,y \in E, \quad   a(x,y)=\lambda(x,y) F(r(x,y)), $$


où

- $F:\mathbb{R}_+ \to (0,1]$ est une fonction telle que

    $$\forall z>0, \quad F(z)=z \, F\left(\frac{1}{z}\right). $$


- $\lambda: E \times E \to \mathbb{R}$ est une fonction telle que $\lambda(x,y)=\lambda(y,x)$ pour tout $x \neq y$ vérifiant $Q(x,y)>0$.



- $r(x,y)$ est le rapport de Metropolis-Hastings :
$$ r(x,y)=\frac{\pi(y) Q(y,x)}{\pi(x) Q(x,y)}.$$

Deux choix classiques sont

- La règle de Barker : $\lambda=1$ et $F(z)=\frac{z}{1+z}$.
- La règle de Metropolis-Hastings : $\lambda=1$ et $F(z)= \min(1,z)$. 

##  

Dans la suite, nous allons étudier deux implémentations différentes de l'algorithme pour la même loi cible. Le but est de mettre en évidence la sensibilité de la vitesse de convergence au choix de la règle d'acceptation $a(.,.)$ et à la proposition de changement $Q(.,.)$. Plus précisément, nous verrons qu'avec une version locale de la matrice $Q$, la chaîne de Markov risque de rester bloquée dans les puits, ce qui donne une mauvaise vitesse de convergence. Avec une proposition de changement $Q$ plus globale, on obtient de bien meilleurs résultats.


## Loi cible

Considérons une loi cible $\pi$ sur l'espace d'états $E=\{0,..,2l\}$ avec deux puits : 

$$ \forall x\in E,\quad \pi(x) = \frac{2^{|x-l| }}{4(2^l-1)+1 }.$$

La distance entre les puits est déterminée par le paramètre $l$.

Remarque : si $\pi(x)>0$ pour tout $x$, on peut écrire $\pi(x)= e^{-V(x)}$ et $V$ est appelé le potentiel, de sorte que le voisinage d'un maximum local pour $\pi$ correspond au voisinage d'un minimum local, ou "puits", pour le potentiel $V$. C'est en ce sens qu'il faut comprendre la dénomination "puits".


In [None]:
import numpy as np

import math

import matplotlib.pyplot as plt

import random



# Longueur des puits
l=5

# Espace d'etats
L=2*l

# Construction loideuxpuits
loideuxpuits=np.ones(L+1) 
for i in range(L+1):
    loideuxpuits[i]=2**(abs(i-l))/(4*(2**l-1)+1)

plt.figure(1)
plt.title('Loi à deux puits')
plt.plot(np.array(range(L+1)), -np.log(loideuxpuits),'ro')
plt.xlabel("$x$")
plt.ylabel("-log($\pi(x)$)")
plt.show()


## Version locale 

 Considérons dans un premier temps une  proposition de changement locale donnée par

$$\forall x,y\in E, \quad  Q(x,y) = \frac{1}{2}, \quad\mbox{si $|x-y|=1$ ou $x=y=0$, ou $x=y=2l$. } $$

Cette matrice revient à choisir un voisin au hasard (sauf aux bords).  


Le rapport de Metropolis-Hastings (calculé seulement pour les couples $(x,y)$ tels que $x\neq y$ et $Q(x,y)>0$) est

$$ r(x,y) = \begin{cases} 2  \quad \text{si $|y-l| = |x-l|+1$}\\ 1/2 \quad \text{si $|y-l| = |x-l|-1$} 
\end{cases}  $$

On utilise la règle de Barker, i.e.


$$ \lambda \equiv 1, \quad F(z) = \frac{z}{1+z} $$

La fonction d'acceptation se calcule explicitement

$$ a(x,y) = \begin{cases} 2/3  \quad \text{si $|y-l| = |x-l|+1$}\\ 1/3 \quad \text{si $|y-l| = |x-l|-1$}  \end{cases} $$

et on en déduit la matrice de transition de l'algorithme de Metropolis-Hastings

$$ P(x,y) = \begin{cases}  1/3, \quad \mbox{si $|y-l|=|x-l|+1$ et $ x\notin\{0,2l\}$  } \\ 1/6,  \quad \mbox{si $|y-l|=|x-l|-1$} \\ 1/2,  \quad \mbox{si $x=y$  and $x\notin\{0,l,2l\}$}\\ 1/3 , \quad \mbox{si $x=y=l$} \\5/6, \quad \mbox{si $x=y$, and $ x\in\{0,2l\}$} \end{cases} $$

Dans la suite, nous allons construire les fonctions élémentaires permettant de définir numériquement la fonction d'acceptation.

In [None]:
# Cette fonction identifie les 2 états qui ont une probabilité positive d'être proposés
# quand la chaîne se trouve en x
def neighbors(x):
    
    if x ==0 :
        neigh= [x,x+1]
    
    elif x==L:
        neigh= [x-1,x]
    
    else:
        neigh=[x-1,x+1]
    
    return neigh


# Définition de la matrice Q

Q=np.zeros((L+1,L+1))

for x in range(L+1):
    for y in range(L+1):
        if y in neighbors(x):
            Q[x][y]=1/2

# Rapport de Metropolis-Hastings
def r(x,y,cible):
    
    return ###TROU###  


# Taux d'acceptation avec la règle de Barker
def barkeracceptance(x,y,cible):
    
    return ###TROU###



La proposition locale est choisie selon la loi uniforme sur l'ensemble des voisins.

In [None]:
# Proposition locale : choix uniforme parmi les voisins
def localproposition(x):
    
    return random.choice(neighbors(x))

 L'état initial $X_0$ est tiré selon la loi uniforme. On choisit le nombre d'itérations de l'algorithme.

In [None]:
X0=np.random.choice(list(range(L)),1)[0]

Niter=300

La fonction suivante implémente l'algorithme de Metropolis-Hastings. 

In [None]:
def MHlocal(X0,Niter,cible):
    
    Xseq=[X0] # Xseq contient la suite (X_n) des états visités par l'algorithme
    
  ###TROU###
    
    return Xseq
         

En lançant l'algorithme, on observe que la trajectoire de la chaîne  de Markov $(X_n)$ reste principalement localisée autour des puits $0$ et $2 l$.

In [None]:
X=MHlocal(X0,Niter,loideuxpuits)
plt.figure(2)
plt.ylim(0,L)  
plt.title('Chaîne de Metropolis-Hastings')
plt.plot(X)
plt.show()

## Version locale : expériences numériques


### Distance en fonction du point de départ
Nous allons maintenant étudier numériquement la vitesse de convergence de l'algorithme en utilisant une méthode Monte Carlo. Pour cela, nous allons construire des histogrammes pour approcher la loi de $X_{Niter}$ pour différents choix du point de départ $X_0$. Nous calculerons ensuite la distance en variation totale entre l'histogramme et la loi cible $\pi$. 

In [None]:
#  Fonction qui calcule la distance en variation totale
def totvardist(p,q):
    d= 0.5*sum(np.abs(p-q));
    return d


# Fonction qui retourne un échantillon de Nsamples de X_{Niter} pour la version locale
def MCtestloc(X0,Niter,Nsamples,cible):
   
    ###TROU###
        
    return echantillon


Nous allons construire un histogramme pour chaque point de départ. On prend $N_{iter}=10$.

In [None]:
Nsamples=5000 # taille de l'echantillon utilisé pour construire les histogrammes

Niter=10

plt.figure(3)
plt.figure(figsize=(20,15))

# Ici on affiche les histogrammes. Le code est un peu compliqué afin de pouvoir 
# fonctionner pour une distance 2l arbitraire entre les puits. 

spacing=(L+1)//11  #construction de la grille des points de départ pour l'affichage
listofinitialpoints= spacing* list(range(12))
listofinitialpoints= [i for i in listofinitialpoints if i <=L]


for i in listofinitialpoints:
        X0= i
        echantillon=MCtestloc(X0,Niter,Nsamples,loideuxpuits)
        plt.subplot(4,3, listofinitialpoints.index(i)+1)
        plt.hist(echantillon,L+1,range=(-0.5,L+1-0.5),density=True)
        plt.title("X0=" + str(i)+",  " "Niter ="+ str(Niter))
        plt.plot(loideuxpuits,'ro')
        plt.axis([-1, L+1, 0, 1])

plt.show()





On observe que :

- Les histogrammes dépendent fortement du point de départ ;
- Les histogrammes ne semblent pas bien décrire la loi cible, car ils sont principalement concentrés sur un des deux puits.

On peut étudier la distance en variation totale en fonction du point de départ, pour un nombre d'itérations $N_{iter}$ fixé.

In [None]:
# Choix des paramètres
Niter=5

# On va conserver ici les valeurs de la distance
distseqlocalstart=np.ones(L+1)

for i in range(L+1):
    X0=i
    echantillon=MCtestloc(X0,Niter,Nsamples,loideuxpuits)
    histo=np.histogram(echantillon,L+1,range=(-0.5,L+1-0.5),density=True)
    distseqlocalstart[i]=totvardist(histo[0],loideuxpuits)

plt.figure(4)
plt.title("distance en variation totale après  " + str(Niter) + "  itérations ")
plt.ylabel("distance")
plt.xlabel("point de départ")
plt.ylim(0,1)
plt.plot(distseqlocalstart,'bs')
plt.show()



### Distance en fonction du nombre d'itérations


Pour un point de départ fixé, on peut étudier numériquement la distance en variation totale en fonction du nombre d'itérations.

In [None]:
# Choix du point de départ 
X0=3

# Nombre max d'itérations affiché dans le plot
Niter=8

# On va conserver ici les valeurs de la distance en variation totale
distseqlocalniter=np.ones(Niter+1)

for i in range(Niter+1):
    echantillon=MCtestloc(X0,i,Nsamples,loideuxpuits)
    histo=np.histogram(echantillon,L+1,range=(-0.5,L+1-0.5),density=True)
    distseqlocalniter[i]=totvardist(histo[0],loideuxpuits)

plt.figure(5)
plt.ylim(0,1.2)
plt.plot(distseqlocalniter,'b^')
plt.ylabel("distance")
plt.xlabel("n. itérations")
plt.show()

## Version globale

La version locale de l'algorithme de Metropolis-Hastings converge difficilement car la chaîne de Markov $(X_n)$ reste bloquée dans les puits. Pour éviter ce problème, considérons une proposition de changement $Q(.,.)$ globale en choisissant un site uniformément parmi tous les états possibles $\{0,..,2l\}$. Il s'agit d'un changement majeur car la proposition ne dépend plus de l'état courant $x$ :

$$ \forall x,y \in E, \quad Q(x,y) = \frac{1}{2l +1}.$$

In [None]:
Q=(np.ones((L+1,L+1)))/(L+1)

def globalproposition():
    
    return random.choice(range(L+1))

Cela nous donne comme rapport de Metropolis

$$ \forall x,y\in E, \quad \quad r(x,y) =  2^{|y-l| - |x-l|}. $$

Pour définir la fonction d'acceptation, on utilise la règle de Metropolis, i.e. 

$$ \lambda(x,y)\equiv 1, \quad F(z) = \min(1,z). $$

d'où la fonction d'acceptation
$$ a(x,y) = \begin{cases} 2^{|y-l| - |x-l|} , \quad & \mbox{si $x \neq y$, $|y-l|<|x-l|$}\\ 1 \quad &\mbox{si $x \neq y$, $|y-l|\geq|x-l|$} \end{cases}$$



In [None]:
def metropolisacceptance(x,y,cible):
    
    return ###TROU###

Ci-dessous, une implémentation de la version globale de l'algorithme.

In [None]:
def MHglobal(X0,Niter,cible):
    
       Xseq=[X0]  # Xseq contient la suite des états (X_n) visités par l'algorithme
    
       for n in range(Niter):
        
        Xn=Xseq[-1]
        
        y=globalproposition()
        
        U=np.random.rand(1)[0]
        
        if  U <= metropolisacceptance(Xn,y,cible):
            Xseq+=[y]
        
        else:
            Xseq+=[Xn]
    
       return Xseq
         


En lançant l'algorithme, on observe que la trajectoire $(X_n)$ explore plus rapidement l'espace d'états qu'auparavant.

In [None]:
Niter=300

X=MHglobal(X0,Niter,loideuxpuits)

plt.figure(6)
plt.title('Chaîne de Metropolis-Hastings')
plt.plot(X)
plt.show()

## Version globale : expériences numériques


### Distance en fonction du point de départ


On effectue les mêmes tests que précédemment. On commence par les histogrammes.

In [None]:
# Redéfinition des paramètres
Niter=10

# Définition de la fonction utilisée dans la méthode Monte Carlo pour la version globale
def MCtestglob(X0,Niter,Nsamples,cible):
    echantillon=[]
    
    for k in range(Nsamples):
        
        echantillon += [MHglobal(X0,Niter,cible)[-1]]
        
        MHglobal(X0,Niter,cible)
        
    return echantillon


Nsamples=5000 # taille de l'échantillon utilisé pour construire les histogrammes



plt.figure(7)
plt.figure(figsize=(20,15))

spacing=(L+1)//11
listofinitialpoints= spacing* list(range(12))
listofinitialpoints= [i for i in listofinitialpoints if i <=L]


for i in listofinitialpoints:
        X0= i
        echantillon=MCtestglob(X0,Niter,Nsamples,loideuxpuits)
        plt.subplot(4,3, listofinitialpoints.index(i)+1)
        plt.hist(echantillon,L+1,range=(-0.5,L+0.5),density=True)
        plt.title("X0=" + str(i)+",  " "Niter ="+ str(Niter))
        plt.plot(loideuxpuits,'ro')
        plt.axis([-1, L+1, 0, 1])

plt.show()



On observe que :

- Les histogrammes sont presque indépendants du point de départ ;
- Les histogrammes semblent très bien décrire la loi cible.



Comparons maintenant la distance en variation totale par rapport aux points de départ pour les deux choix de $Q$, c'est-à-dire version locale versus version globale.

In [None]:
# Choix des paramètres
Niter=5
Nsamples=20000

distseqglobstart=np.ones(L+1)

for i in range(L+1):
    X0=i
    echantillon=MCtestglob(X0,Niter,Nsamples,loideuxpuits)
    histo=np.histogram(echantillon,L+1,range=(-0.5,L+0.5),density=True)
    distseqglobstart[i]=totvardist(histo[0],loideuxpuits)

plt.figure(8)
plt.ylim(0,0.8)
glob, =plt.plot(distseqglobstart,'rs',label='globale') 
loc, =plt.plot(distseqlocalstart,'bs',label='locale')
plt.legend(handles=[glob, loc])
plt.ylabel("distance")
plt.xlabel("point de départ")
plt.show()





### Distance en fonction du nombre d'itérations



De même, si on regarde la dépendance en temps pour un point de départ fixé on trouve :

In [None]:
# Choix des paramètres
X0=3
Nsamples=20000
Niter=8


# On va conserver ici les valeurs de distance
distseqglobniter=np.ones(Niter+1)

for i in range(Niter+1):
    echantillon=MCtestglob(X0,i,Nsamples,loideuxpuits)
    histo=np.histogram(echantillon,L+1,range=(-0.5,L+0.5),density=True)
    distseqglobniter[i]=totvardist(histo[0],loideuxpuits)

plt.figure(9)
plt.ylim(0,1.2)

glob, =plt.plot(distseqglobniter,'r^',label='glob') 
loc, =plt.plot(distseqlocalniter,'b^',label='loc')
plt.legend(handles=[glob, loc])
plt.ylabel("distance")
plt.xlabel("n. itérations")
plt.show()

## Vitesse de convergence exponentielle


Un calcul théorique montre que si l'on définit

$$
\frac{1}{K}=\inf_{x\in E} \,  \frac{1}{(2l+1)\pi(x)},
$$

alors pour tout point de départ $x$ et tout temps $N$, on a 

$$ d_{TV}(\mbox{loi}(X_{N}),\pi) \leq d_{TV}(\delta_x ,\pi) (1-1/K)^N $$

On peut vérifier numériquement cette prédiction théorique avec une méthode Monte Carlo.

In [None]:
# Choix des paramètres
X0=3


# Constante K
K = (L+1)* np.max(loideuxpuits)

# Mesure de Dirac
diracX0=np.zeros(L+1); diracX0[X0+1]=1;

# Prédiction théorique de de distance
predtheor= np.ones(Niter+1) 
for i in range(Niter+1):
    predtheor[i]=((1-1/K)**i)*totvardist(diracX0,loideuxpuits)
    
    
plt.figure(10)   
theor, =plt.plot(distseqglobniter,'blue', label='Borne expérimentale') # vitesse de convergence expérimentale
exp, =plt.plot(predtheor,'red',label='Borne théorique') # borne théorique 
plt.legend(handles=[theor, exp])
plt.ylabel("distance")
plt.xlabel("n. itérations")
plt.show()