# Enoncé du problème

L'objectif de ce projet est d'estimer la longueur de câble sous-marin nécessaire pour relier deux côtes $A$ et $B$  en utilisant des simulations conditionnelles.


Le câble reposera sur le fond marin dont la profondeur est inconnue.
Le segment $[AB]$ est discrétisé par une séquence de (N+1) points. On pose $x_0=A$ et pour $i=1,\dots,N$, $$x_i=x_0+i\Delta$$ où $$\Delta = \frac{AB}{N}$$ de telle sorte que $x_N=B$.
On note $z(x)$ la profondeur du fond marin au point $x$ de telle sorte 
qu'on pourra estimer la longueur totale de câble nécessaire par la somme 
des longueurs sur les segments de la discrétisation :

$$l=\sum_{i=1}^N\sqrt{\Delta^2+(z(x_i)-z(x_{i-1}))^2}.$$

Enfin, notons que l'on dispose d'un ensemble de $n$ observations de la 
profondeur que l'on supposera situées sur des points de discrétisation $z(x_{j_1}),\dots,z(x_{j_n})$.


On adopte un modèle probabiliste pour la profondeur. On suppose que le vecteur des 
profondeurs sur les points de discrétisation 
$\mathbf{z}=(z(x_0),\dots,z(x_N))$ est la réalisation
d'un vecteur aléatoire gaussien $\mathbf{Z}=(Z(x_0),\dots,Z(x_N))$ 
dont le vecteur d'espérance ne contient qu'une seule valeur $\mu$ 
répétée $N+1$ fois et dont la matrice de covariance $\Sigma$ a pour termes $\sigma_{ij}$
définis par $\sigma_{ij}=C(|x_i-x_j|)$ où $C$ est une
fonction décroissante, traduisant le fait que deux points 
géographiquement proches ont tendance à avoir des profondeurs plus similaires que deux points éloignés.

On supposera que la matrice de covariance ainsi 
générée est définie-positive (en fait, $C$ sera choisie parmi les fonctions qui, 
appliquées aux termes d'une matrice de distance, produisent des matrices définie-positives). 

Si on note $L$ la variable aléatoire donnant la longueur de cable nécessaire : 
$$L=\sum_{i=1}^N\sqrt{\Delta^2+(Z(x_i)-Z(x_{i-1}))^2},$$
un bon estimateur de $L$ est fourni par l'espérance conditionnelle 

$$L^\star=E[L|Z(x_{j_1})=z(x_{j_1}),\dots,Z(x_{j_n})=z(x_{j_n})].$$
                                                                              
Cependant, cette quantité est difficilement accessible par le calcul. 
On va donc avoir recours à des
simulations conditionnelles. C'est-à-dire que l'on va simuler 
un nombre $K$ de réalités (disons des réalisations du modèle 
probabiliste choisi), et sur chacune d'entre elle, 
la quantité de câble nécessaire sera évaluée. 
On disposera ainsi d'un échantillon $l_{(1)},\dots,l_{(K)}$ de 
longueures simulées. Puis on approchera l'espérance conditionnelle  par 
$$L^\star=\sum_{k=1}^K l_{(k)}.$$

L'objectif de ce projet est donc d'écrire un code permettant 
d'effectuer cette simulation conditionnelle, puis de l'appliquer 
au jeu de données fourni et d'en déduire une estimation de la longueur de câble nécessaire.

# Questions théoriques

1. Quel théorème du cours nous autorise-t-il à estimer l'espérance conditionnelle par la moyenne empirique de simulations conditionnelles ?

2. Rappeler la loi conditionnelle du vecteur des composantes de $\mathbf{Z}$ correspondant aux points de discrétisation
sans observation, connaissant les valeurs prises par les composantes aux sites d'observation.

3. Si $\mathbf{Y}=(Y_1,\dots,Y_p)$ est un vecteur de composantes gaussiennes indépendantes, toutes d'espérance nulle et de variance 1, 
quelle est la loi du vecteur $\mathbf{Z}=m+R\mathbf{Y}$ où $R$ est une matrice $p\times p$ et $m$ est un vecteur de taille $p$ ?

4. En déduire un algorithme de simulation conditionnelle.

1. Le théorème de centrale limite nous donne la convergence d'une moyenne empirique de simulations conditionnelles vers l'espérance. 

2. Le vecteur $Z$ contient les gaussiennes décrivant les points non observées connaissant les $n-p$ valeurs des observations. Ce vecteur doit conserver l'information sur la distance d'un point à un autre pour l'implémentation... Une fois cette considération faite on retombe sur le cas expliqué dans le cours proba 4 : La calcul des lois conditionnelles des $p$ premières composantes non-observées en fonction des $n-p$ dernières composantes observées placées dans le vecteur $V$ est aisée. La loi de probabilités des $p$ premières valeurs observées sachant les $n-p$ observées $(V=v)$ suit cette fonction de densité. 
$$
f_{Z | V=v}(y)=\frac{1}{(2 \pi)^{k / 2} \sqrt{\operatorname{det}\left(C S_{Z}\right)}}\left.\exp \left(-\frac{1}{2}(z-\psi(v))^{t} C S_{Z}^{-1}(z-\psi(v))\right)\right)
$$

Autrement dit la variable aléatoire $Z$ sachant $V=v$ suit une gaussienne d'espérance :

$$
m_{Z | V=v}=\psi(v)=m_{Z}-C_{Z, V} C_{V}^{-1}\left(v-m_{V}\right)
$$


et de matrice de covariance : 
$$
C S_{Z}=C_{Z}-C_{Z, V} C_{V}^{-1} C_{V, Z}
$$

3. Avec Y un vecteur de composantes gaussiennes indépendantes, réduites (de variance 1) et centrées (d'espérance nulle) alors le vecteur Z = m + RY est gaussien comme combinaison linéaire de variable aléatoires gaussienne d'espérance m et de variance $ C=R R^t$ (matrice de covariance)


4. Considérons un vecteur Y gaussien, centré, réduit. Nous allons chercher à le transformer en un  vecteur $Z$ de loi conditionnelle correspondant aux points de discrétisation sans observation, connaissant les dernières valeurs prises, celles dans le vecteur $V$, soit $V=v$ . Or d'aprés la question 2 on peut construire l'espérance $m_{Z | V=v}$ de ce vecteur gaussien et sa matrice de covariance $C S_{Z}$. D'après la question 3 il faut désormais construire une matrice $R$ telle que $C = RR^t$ pour que le vecteur $Z$ donc défini par $Z=m+RY$ ait comme variance la matrice de covariance $C$ . Heureusement la construction d'un tel $R$ peut se faire par décomposition par factorisation de Cholesky de C.

# Données du problème
Conventionnellement, $A$ est l'origine, $B=500$, $N=100$.

Les données $$\begin{array}{c|r}i & z(x_i)\\
\hline
0 & 0\\
20 & -4\\
40 & -12.8\\
60 & -1\\
80 & -6.5\\
100 & 0\end{array}$$

L'espérance de chaque composante du vecteur aléatoire $\mathbf{Z}$ est donnée par $\mu=-5.$

La fonction $C$ est définie par $$C(h)=\sigma^2 e^{-|h|/a},$$

où $|h|$ correspond à la distance entre deux points, $a=50$ et $\sigma^2=12$.


# Implémentation

## Préambule

In [1]:
#Chargement de dépendances

import numpy as np
import matplotlib.pyplot as plt

#Discrétisation
A=0
B=500
N=101 #Nombre de points de discrétisation
Delta = (B-A)/(N-1)
discretization_indexes = np.arange(N)
discretization = discretization_indexes*Delta
#Paramètres du modèle

mu=-5
a = 50
sigma2 = 12

#Données

observation_indexes = [0,20,40,60,80,100]
depth = np.array([0,-4,-12.8,-1,-6.5,0])

#Indices des composantes correspondant aux observations et aux componsantes non observées

unknown_indexes=list(set(discretization_indexes)-set(observation_indexes))


## Questions

1. Ecrire une fonction qui prend en argument la distance entre les points, le paramètre $a$, et le paramètre $\sigma^2$, et qui retourne la covariance entre deux points.
On pourra fournir une matrice de distance à cette fonction. Dans ce cas, la fonction renverra la matrice de covariance.

In [2]:
def Cov(h, a, sigma_2) :
    return sigma_2 * np.exp(np.abs(h)/a)

2. Calculer la matrice de distance.

In [3]:
def matrice_distance() :
    D = np.zeros((N, N))
    for i in range(N) :
        for j in range(i) :
            Dij = (B-A)/(N-1) * (i-j)
            D[i,j] = Dij
            D[j,i] = Dij
    return D


3. Calculer la matrice de covariance du vecteur $\mathbf{Z}=(Z(x_0),\dots,Z(x_N))$.

In [4]:
Cov_Z = Cov(matrice_distance(), a, sigma2)

4. Extraire les 3 matrices de covariance suivantes :

 * entre les observations

 * entre les observations et les inconnues

 * entre les inconnues


In [11]:
Cov_obs = np.array([[ Cov_Z[i][j] for i in observation_indexes] for j in observation_indexes])
Cov_inc = np.array([[ Cov_Z[i][j] for i in unknown_indexes] for j in unknown_indexes])
Cov_obs_inc = np.array([[ Cov_Z[i][j] for i in observation_indexes] for j in unknown_indexes])

5. Calculer l'espérance conditionnelle des composantes non observées connaissant les observations et la représenter avec les données.

In [14]:
Inv_cov_obs = np.linalg.inv(Cov_obs)
m_v = [-5 for i in range (len(observation_indexes))]
m_z = [-5 for i in range (len(unknown_indexes))]
esp_cond = m_z - np.dot(Cov_obs_inc, Inv_cov_obs).dot(depth - m_v)
print(esp_cond)


# Pas vraiment fini, je suis pas sûr de mon calcul

[-9.53311665e+00 -9.11160226e+00 -8.73123816e+00 -8.38821755e+00
 -8.07910736e+00 -7.80081391e+00 -7.55055195e+00 -7.32581677e+00
 -7.12435915e+00 -6.94416282e+00 -6.78342433e+00 -6.64053495e+00
 -6.51406460e+00 -6.40274751e+00 -6.30546959e+00 -6.22125725e+00
 -6.14926767e+00 -6.08878034e+00 -6.03918989e+00 -5.68567907e+00
 -5.37822064e+00 -5.07454757e+00 -4.77162060e+00 -4.46640794e+00
 -4.15585490e+00 -3.83685338e+00 -3.50621069e+00 -3.16061766e+00
 -2.79661547e+00 -2.41056107e+00 -1.99859069e+00 -1.55658120e+00
 -1.08010882e+00 -5.64404847e-01 -4.30794911e-03  6.05787514e-01
  1.27198758e+00  2.00095981e+00  1.91810571e+00  1.10545015e+00
  3.53899992e-01 -3.44066539e-01 -9.95434923e-01 -1.60672427e+00
 -2.18405258e+00 -2.73319794e+00 -3.25965638e+00 -3.76869688e+00
 -4.26541408e+00 -4.75477930e+00 -5.24169027e+00 -5.73102016e+00
 -6.22766634e+00 -6.73659942e+00 -7.26291297e+00 -7.81187451e+00
 -8.38897824e+00 -8.56297185e+00 -8.16160311e+00 -7.79187676e+00
 -7.45009246e+00 -7.13282

6. Calculer la matrice de variance conditionnelle et tracer sa diagonale (variance conditionnelle) en fonction de la position. Commenter.

7. Effectuer une simulation conditionnelle. Sur un même graphique, tracer la simulation ainsi que les données et l'espérance conditionnelle. Commenter.

8. Ecrire une fonction qui calcule la longueur du câble en fonction du vecteur des profondeurs et du pas de discrétisation.

9. Utiliser cette fonction pour calculer la longueur du câble à partir de 100 simulations. Comparer l'espérance conditionnelle (estimée) de la longueur avec la longueur de l'espérance conditionnelle.

10. Représenter la suite $M_n$ des moyennes des longueurs de câbles en fonction du nombre de simulations. Commenter.

11. Représenter l'histogramme des longueurs de câbles générées.

12. Donner un intervalle de confiance à 95% de la longueur du câble par 2 méthodes différentes. Commenter.

13. Donner une estimation de la probabilité que la longueur du câble dépasse 525 m.

14. Reprendre les questions précédentes avec 1000, 10000 puis 100000 simulations. Commenter.