# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur agrégé au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>


## TD8 : Modèles bayésiens pour la loi normale

Dans ce TD, nous implémenterons l'échantillonnage de Gibbs permettant d'otenir un échantillon aléatoire à partir de la forme fonctionnelle d'une loi de probabilité multidimensionnelle. Nous effectuerons également la sélection de modèle bayésienne de modèle statistique. La lecture du chapitre 6 des notes de cours vous sera très utile.

Nous reprenons les observations de l'expérience de Michelson-Morley prises par Illingworth en 1927.

In [None]:
# Chargement des librairies nécessaires
using CSV, DataFrames, Gadfly, Statistics, Distributions

## Exercice 1 : Expérience de Michelson-Morley (avec variance inconnue)

On a que

$$ Y_i \sim \mathcal{N} \left( \mu, \sigma^2 \right) ; $$

avec la variance inconnue. On utilise la loi *a priori* impropre suivante pour les paramètres $\mu$ et $\sigma^2$ :

$$f_{(\mu,\sigma^2)}(\mu,\sigma^2) \propto \frac{1}{\sigma^2} \mbox{ pour }\sigma^2 >0. $$

Nous utiliserons l'échantillonnage de Gibbs pour obtenir un échantillon de la loi *a posteriori*.

In [None]:
# Chargement des données
data = CSV.read("illingworth1927.csv", DataFrame)

df = filter(row -> (row.Time == "5 a.m.") & (row.Direction =="N"), data )
y = df[:,:FringeDispl]

ȳ = mean(y)
s = std(y)
n = length(y);

### (a) Écrivez la loi conditionnelle complète de $\mu$.

On veut une fonction qui retourne la loi conditionnelle complète de μ pour une valeur de σ² donnée. La fonction doit retourner un objet de type *Distribution*. 

In [None]:
f₁(σ²::Real) = #TODO

### (b) Écrivez la loi conditionnelle complète de $\sigma^2$.

On veut une fonction qui retourne la loi conditionnelle complète de σ² pour une valeur de μ donnée. La fonction doit retourner un objet de type *Distribution*. 

In [None]:
f₂(μ::Real) = #TODO

### (c) Générez un échantillon aléatoire de la loi *a posteriori*.

À l'aide des lois conditionnelles complètes, faites 1000 itérations de l'échantillonnage de Gibbs pour générer un échantillon de la loi *a posteriori*. Vous pouvez initialiser μ et σ² à des valeurs quelconques. 

### (d) Tracez la chaîne obtenue pour $\mu$.

### (e) Tracez la chaîne obtenue pour $\sigma^2$.

### (f) Rejetez les itérations de la phase de chauffe

### (f) Calculez la loi *a posteriori* marginale de μ

Cette loi est donnée dans l'exemple 2 des notes de cours. Calculez ses paramètres et construisez l'objet de type *UnivariateDistribution* en utiisant la fonction `LocationScale()`.

### (g) Vérifiez que la chaine générée pour μ correspond à la loi marginale

Pour vérifier que votre chaîne μ générée correspond à la loi *a posteriori* marginale de μ, comparez la densité de la loi que vous avez obtenue à la question précédente à l'histogramme de la chaine des μ. Vous pouvez même superposer la densité à l'histogramme sur le même graphique en utilisant la fonction `layer()` de Gadfly et l'option `density=true` de la géométrie `Geom.histrogram()`.

## Exercice 2 : Détermination de la variance de l'erreur du montage d'Illingworth

On sait aujourd'hui que le vrai déplacement des franges d'interférence est égal à 0, peu importe les conditions d'observation. On peut alors supposer le modèle suivant pour estimer la variance de l'erreur expérimentale du montage

$$ Y_i \sim \mathcal{N} \left( 0, \sigma^2 \right) ; $$

pour les 64 observations effectuées.

Nous allons d'abord vérifier si Illingworth a bien estimé l'erreur de son montage en comparant les modèles satistiques suivants :

$$ \mathcal{M}_1 : Y_i \sim \mathcal{N} \left( 0, (3/2)^2 \right) , $$
$$ \mathcal{M}_2 : Y_i \sim \mathcal{N} \left( 0, \sigma^2 \right) ; $$

le modèle $\mathcal{M}_1$ correspond à l'hypothèse d'Illingworth et le modèle $\mathcal{M}_2$ suppose une variance d'erreur différente. Si le modèle $\mathcal{M}_2$ est plus vraisemblable, alors nous estimerons la variance expérimentale du montage.

In [None]:
y = data[:,:FringeDispl]

ȳ = mean(y)
s = std(y)
n = length(y)

### (a) Calculez la log vraisemblance du modèle $\mathcal{M}_1$

### (b) Calculez le bic du modèle $\mathcal{M}_1$

### (c) Calculez l'estimation du maximum de la vraisemblance de σ²

Vous devez calculez à main la formule de l'estimateur en dérivant la vraisemblance puis calculez l'estimation avec les données.

### (d) Calculez la log-vraisemblance du modèle $\mathcal{M}_2$ évaluée à σ̂²

### (e) Calculez le BIC du modèle $\mathcal{M}_2$

### (f) Quel est le meilleur modèle ?

Selon les BIC calculés, quel est le meilleur modèle ?

### (g) Estimez l'écart-type expériemental σ du montage d'Illingworth