

### Algorithme de Metropolis-Hasting

Soit une chaîne de Markov dont la tansition $x \to y$ a pour probabilité $g(y|x)$ (avec $g$ connue et facilement échantillonable) et soit $x_0$ un point de départ. Pour chaque étape $n$:

1. Générer une variable $y \sim g(.|x_{n})$
2. Calculer $r=\frac{\pi(\;y\,)g(\;y\,|x_n)}{\pi(x_n)g(x_n|\;y\,)}$. Générer une variable $u\sim\mathscr{U}[0,1]$. Poser $x_{n+1}=y$ si $u \leqslant r$, ou retourner à (1) sinon.

Intuitivement, cette la suite $(x_n)$ converge bien en loi vers $\pi$ puisqu'on accepte toujours de se déplacer vers les états $y$ plus probables (selon $\pi$) que l'état actuel $x_n$. Néanmoins, on accepte avec une certaine probabilité $r$ de se déplacer vers un état $y$ moins probable, afin de bien visiter tout l'espace surlequel $\pi$ est définie.

On remarque — c'est important en pratique — que le calcul de $r$ ne nécessite de connaître $\pi$ qu'**à une constante multiplicative près**, et c'est tout l'intérêt de cette algorithme.

Lorsque l'espace surlequel $\pi$ est défini devient grand, chaque transition $\mathbf{x} \to \mathbf{y}$ (où nous utilisons le gras pour souligner le caractère vectoriel des variable) devient moins probable, de sorte que l'algorithme de Metropolis-Hasting devient lent puisque de très nombreux états $\mathbf{x}_t$ doivent être traversés afin de converger vers $\pi$.


# Question 1

Soit $y_{i}$ le niveau de gris du pixel $i$ et les $x_{i} \in \{0,1\}$, vraie valeur d'un pixel blanc ou noir, suivant une loi d'Ising :  
$$ p(x)=\frac{1}{Z\left(\alpha, \beta \right)} \exp \left[\alpha \sum_{i} x_{i}+\beta \sum_{i=j} \mathbb{1}\left[x_{i}=x_{j}\right]\right\}$$

On considère le modèle de la forme : $ y_{i} \mid x_{i}=k \sim \mathcal{N}\left(\mu_{k}, \tau^{2}\right) $

On veut calculer  $\mathbb{P}(X \mid Y) = \frac{\mathbb{P}(Y \mid X) \mathbb{P}(X)}{\mathbb{P}(Y)} = \frac{\mathbb{P}(X \cap Y)}{\mathbb{P}(Y)}  $

On génère les pixels un par un. Comme les $x_{i}$ ne peuvent prendre que deux valeurs, à savoir 0 ou 1, $X$ suit une loi de Bernouilli dont on cherche à déterminer le paramètre. 

$ y_{i} \mid x_{i}=k \sim \mathcal{N}\left(\mu_{k}, \tau^{2}\right) $ donc $\mathbb{P}(y_{i} \mid x_{i} = k) = \frac{1}{\sqrt{2\pi \tau^{2}}} exp \{\frac{-1}{2\tau^{2}} \left(y_{i} - \mu_{k}\right)^{2} \} $

Par la formule des probabilités totales et de Bayes, on a : $\mathbb{P}(X_{i} =1 \mid Y_{i}, X_{i}) = \frac{\mathbb{P}(X_{i} = 1 \cap Y_{i}, X_{i})}{\sum_{x_{i} \in \{0,1\}} \mathbb{P}(X_{i} = x_{i} \cap Y_{i}, X_{i})}$

$ \mathbb{P}(X_{i} =1 \mid Y_{i}, X_{i}) = \frac{\frac{1}{Z\left(\alpha, \beta \right)} \frac{1}{\sqrt{2\pi \tau^{2}}} exp\{ \alpha \sum_{i} x_{i} + \beta \mathbb{1} \{ x_{j} = 1 \} - \frac{1}{2 \tau^{2}} \left(y_{i} - \mu_{1} \right)^{2} \}  }{\sum_{x_{i} \in \{0,1\}} \frac{1}{Z\left(\alpha, \beta \right)} \frac{1}{\sqrt{2\pi \tau^{2}}} exp\{ \alpha \sum_{i} x_{i} + \beta \mathbb{1} \{ x_{j} = 1 \} - \frac{1}{2 \tau^{2}} \left(y_{i} - \mu_{k}(x_{i}) \right)^{2} \} }  $ 


En divisant en haut et en bas par le numérateur, on obtient : $ \mathbb{P}(X_{i} =1 \mid Y_{i}, X_{i}) = \frac{1}{1 + exp(N)} $ avec 

$ N =  -\alpha + \beta \sum_{j} [ \mathbb{1} \{ x_{j} = 0 \} - \mathbb{1}\{  x_{j} = 1 \} ] - \frac{1}{2\tau^{2}} \left(y_{i} - \mu_{0}\right)^{2} + \frac{1}{2\tau^{2}} \left(y_{i} - \mu_{1}\right)^{2} $

$ N = \frac{1}{2\tau^{2}} \left[ \left(y_{i}^2 - 2\mu_{1} y_{i} + \mu_{1}^2) - (y_{i}^2 - 2\mu_{0} y_{i} + \mu_{0}^2 \right) \right] $ 

$ N = \frac{1}{2\tau^{2}} \left[ \mu_{1}^{2} - \mu_{0}^{2} + 2 y_{i} \left(\mu_{0} - \mu_{1}\right) \right] $ 

Finalement, on obtient : 

$ \mathbb{P}(X_{i} = 1 \mid Y_{i}, X_{i}) = \frac{1}{1 + exp \{ -\alpha + \beta \sum_{j} [ \mathbb{1} \{ x_{j} = 0 \} - \mathbb{1}\{  x_{j} = 1 \} ] + \frac{1}{2\tau^{2}} \left[ \mu_{1}^{2} - \mu_{0}^{2} + 2 y_{i} \left(\mu_{0} - \mu_{1}\right) \right] \} }$

De plus, comme $\mathbb{P}(X_{i} = 0 \mid Y_{i}, X_{i}) = 1 - \mathbb{P}(X_{i} = 1 \mid Y_{i}, X_{i}) $

De la même manière, on obtient :  $ \mathbb{P}(X_{i}=0 \mid Y_{i}, X_{i}) = \frac{1}{1 + exp \{ \alpha + \beta \sum_{j} [ \mathbb{1} \{ x_{j} = 0 \} - \mathbb{1}\{  x_{j} = 1 \} ] + \frac{1}{2\tau^{2}} \left[ 2y_{i} (\mu_{1} - \mu_{0}) + (\mu_{0}^{2} - \mu_{1})^{2} \right]  \} } $ 



# Question 2

On veut calculer, de manière exacte 

$P(\tau^2 \mid X,Y) = \frac{P(\tau^2, X, Y)}{\int_{0}^\infty P(\tau^2, X, Y)d\tau^2}$

Et on a toujours:

$\left.P(X, Y \mid \tau^2)=\frac{1}{Z(\alpha, B)}\left(\frac{1}{\sqrt{2 \pi \tau^{2}}}\right)^{n} exp( \alpha \sum_{i} x_{i}+ beta \sum_{i\sim j} \mathbb{1}\left(x_{i}=x_{j}\right)-\frac{1}{2\tau^2} \sum\left(y_{i}-\mu_k(i)\right)^{2}\right)$

On va utiliser pour $\tau^2$ un prior de type Inverse-Gamma:

$f(\tau^2 ; a, b)=\frac{b^{a}}{\Gamma(a)}(1 / \tau^2)^{a+1} \operatorname{exp}(-b / \tau^2)$


Puisque beaucoup d'élements ne dépendent pas de $\tau$, on peut écrire:

$P(\tau^2, X, Y)=P(\tau^2) \times P(X, Y \mid \tau^2)$



$\propto \left(\tau^{2}\right)^{-n}\left(\tau^{2}\right)^{-(a+1)} \times {exp}\left\{-\frac{1}{2 \tau^{2}} \sum\left(y_{i}-\mu_{k}(i)\right)^{2}-\frac{b}{\tau^{2}}\right\}$

$\propto \left(\tau^{2}\right)^{-(a+n+1)} \exp \left\{-\frac{1}{\tau^{2}}\left(\frac{1}{2} \sum\left(y_{i}-\mu_{k}(i))^{2}+b)\right\}\right.\right.$



On a d'autre part:

$\int_{0}^{+\infty} x^{-D} \operatorname{exp}(-E / x)=\Gamma(D-1) E^{1-D}$
Ici:
* $x=\tau^{2}$ 
* $E=\frac{1}{2} \sum\left(y_{i}-\mu_{k}(i)\right)^{2}+b$
* $D = a+n+1$

Donc
$\int_{0}^{+\infty} f\left(\tau^{2}, X, Y\right) d \tau^{2}=\Gamma(a+n) E^{-(a+n)}$

D'où:

$\begin{aligned} P\left(\tau^{2}, X, Y\right) &=\frac{\left(\tau^{2}\right)^{-(a+n+1)} \operatorname{exp}\left(-E / \tau^{2}\right)}{\Gamma(a+n) E^{-(a+n)}} \\ &=\frac{\left(1 / \tau^{2}\right)^{A^{\prime} +1} E^{A^{\prime}} \operatorname{exp}\left(-E / \tau^{2}\right)}{\Gamma\left(A^{\prime}\right)} \\ \text { Avec } A^{\prime}=a+n \end{aligned}$




Finalement on voit que si on utilise un prior de la forme:

$$\tau^2 \sim \mathcal{IG}(a,b)$$

Alors le posterior sera:

$$P(\tau^2 \mid X,Y) \sim \mathcal{IG}(A^{\prime},E)$$ 

Avec:

* $A^{\prime} = a + n$
* $E = b + \frac{1}{2} \sum\left(y_{i}-\mu_{k}(i)\right)^{2}$

# Sources

* Projets proches du notre
    * https://pchanda.github.io/IsingModelDenoising/ 
    * https://towardsdatascience.com/image-denoising-with-gibbs-sampling-mcmc-concepts-and-code-implementation-11d42a90e153
* Page wikipédia du gibbs sampling: https://en.wikipedia.org/wiki/Gibbs_sampling 
* Un rapport d'un travail de recherche sur la restauration d'images: https://michaelkarpe.github.io/computer-vision-projects/restoration/Report_Markovian_Image_Restoration.pdf
* Modèle d'Ising
    * https://people.csail.mit.edu/rameshvs/content/ising-gibbs.pdf
    * https://pchanda.github.io/Ising-Model/
* Paramétrisation correct de la loi inverse-gamma en python: https://distribution-explorer.github.io/continuous/inverse_gamma.html
