# Projet Numérique : câble sous-marin


## Enoncé du problème

On cherche à estimer la longueur d'un câble sous-marin nécessaire pour relier deux côtes A et B en utilisant des simulations conditionnelles.

* Le cable repose sur le fond marin dont la profondeur au point $x$ $z(x)$ est inconnue, 

* Le segment $[AB]$ est discrétisé par une séquence de N+1 points,

* On pose :

$$\begin{cases}
x_0 &= A \\
x_i &= x_0 + i\Delta \\
\Delta &= \frac{AB}{N} \\
x_N = B
\end{cases}$$

* La longueur totale de câble nécessaire est: $$l=\sum_{i=1}^N\sqrt{\Delta^2+(z(x_i)-z(x_{i-1}))^2}$$.

* On a un ensemble de $n$ observations de la profondeur que l'on supposera situées sur des points de discrétisation $z(x_{j_1}),\dots,z(x_{j_n})$

### Modèle probabiliste

On a le vecteur des profondeurs $\mathbf{z}=(z(x_0),\dots,z(x_N))$ la réalisation
d'un vecteur aléatoire gaussien $\mathbf{Z}=(Z(x_0),\dots,Z(x_N))$. 

* Son vecteur d'espérance est $\mu$ répété N+1 fois

* Sa matrice de covariance $\Sigma$, définie-positive, a pour termes $\sigma_{ij}$ tels que $\sigma_{ij}=C(|x_i-x_j|)$ avec $C$ une fonction décroissante

Soit L la variable aléatoire donnant la longueur du câble :

$$L=\sum_{i=1}^N\sqrt{\Delta^2+(Z(x_i)-Z(x_{i-1}))^2}$$

L'espérance conditionnelle fournit un bon estimateur $L^\star$ de $L$ : $L^\star=E \,[L\,|\,Z(x_{j_1})=z(x_{j_1}),\dots,Z(x_{j_n})=z(x_{j_n})]$

On disposera ainsi d'un échantillon $l_{(1)},\dots,l_{(K)}$ de 
longueures simulées. Puis on approchera l'espérance conditionnelle  par 
$$L^\star=\sum_{k=1}^K \frac{1}{K} l_{(k)}.$$
                                                                     

## Questions théoriques

1) On peut estimer l'espérance conditionnelle par la moyenne empirique de simulations conditionnelles grâce à la *loi forte des grands nombres*. En effet, on a des variables aléatoires indépendantes de même loi. 

Les variables $Z_1, Z_2, ..., Z_K$ correspondant à chacune des différentes simulations sont des variables aléatoires indépendantes de même loi et de carré intégrable car elles suivent une loi gaussienne.
On peut donc utiliser la loi forte des grands nombres pour montrer que l'espérance conditionnelle peut bien être estimée par la moyenne empirique de simulation conditionnelle car on a une convergente presque sûre.

On a donc bien pour K suffisamment grand, $$E\,[L\,|\,Z(x_{j_1}),...,Z_{j_n}] \simeq \sum_{k=1}^K \frac{1}{K} l_{(k)}$$

2) On veut la loi conditionnelle du vecteur des composantes de Z correspondants aux points de discrétisation sans observation, connaissant les valeurs prises sur les composantes des sites d'observation.

On veut donc connaitre la loi de $Y=Z \; | \; M=\hat{m}$ où $Z=(Z(x_0),\dots,Z(x_N))$ et où M est le vecteur des observations telles que $M=(\hat{z_1}, \dots, \hat{z_N}) = \hat{m}$.

On sait que Z suit la loi gaussienne de paramètre $\mu$ et de matrice de covariance $\Sigma$. 

D'après le cours de proba IV page 13 sur les vecteurs gaussiens, Y suit donc une gaussienne d'espérance $$m_Y = \vec{\mu}-\Sigma(Z,M)\Sigma(M)^{-1}\times(\hat{m}-E[\hat{m}]$$. 

Où $E[\hat{m}]$ est la moyenne empirique des mesures $\hat{m}$.

De plus, $$C_Y = \Sigma(Z) - \Sigma(Z,M)\Sigma(M)^{-1}\Sigma(Z,M)$$.

Les matrices étant symétriques dans notre cas, on a bien $\Sigma(Z,M)=\Sigma(M,Z)$.

D'où $\Sigma = (\sigma_{k,l})$ où $\sigma_{k,l} = C((x_k \dots x_k))$.

3) *Si $\mathbf{Y}=(Y_1,\dots,Y_p)$ est un vecteur de composantes gaussiennes indépendantes, toutes d'espérance nulle et de variance 1, quelle est la loi du vecteur $\mathbf{Z}=m+R\mathbf{Y}$ où $R$ est une matrice $p\times p$ inversible et $m$ est un vecteur de taille $p$ ?*

Soit $Y = (Y_1, \dots, Y_p)$ un vecteur de composantes gausiennes indépendantes, toutes d'espérance nulle et de variance 1.

Alors, d'après le cours de Proba V (page 11), $Z=m+RY$ avec $m=E[Z]$ et $V[Z]=E[(RY)^2]=RI|R^t = RR^t$

4) On veut simuler $Y=Z|\hat{M}=\hat{m}$.
En entrée, on aura : $\hat{m}$ la liste X des points d'observation, $\mu$ et la fonction C ainsi que le tableau $(x_0, \dots, x_N)$.

On veut donc simuler Y défini tel que

\begin{cases}
m_Y = \vec{mu}-\Sigma(Z,M)\Sigma(M)^{-1}(\hat{m}-E[\hat{m}]) \\
E_Y=\Sigma(Z)-\Sigma(Z,M)\Sigma(M)^{-1}\Sigma(Z)
\end{cases}


On va donc simuler un vecteur $T=(T_0, \dots, T_N)$ gaussien d'espérance nulle et de variance 1. On calcule $V_Y$ gràce à la relation $\Sigma_Y=V_Y$ puis on détermine R avec la formule $V_Y=RR^t$ en utilisant la méthode de Chalesley.

## Préambule

In [2]:
#Chargement de dépendances

import numpy as np
import matplotlib.pyplot as plt

#Discrétisation
A=0
B=500
N=101 #Nombre de points de discrétisation
Delta = (B-A)/(N-1)
discretization_indexes = np.arange(N)
discretization = discretization_indexes*Delta
#Paramètres du modèle

mu=-5
a = 50
sigma2 = 12

#Données

observation_indexes = [0,20,40,60,80,100]
depth = np.array([0,-4,-12.8,-1,-6.5,0])

#Indices des composantes correspondant aux observations et aux componsantes non observées

unknown_indexes=list(set(discretization_indexes)-set(observation_indexes))


Ecrire une fonction qui prend en argument la distance entre les points, le paramètre $a$, et le paramètre $\sigma^2$, et qui retourne la covariance entre deux points.
On pourra fournir une matrice de distance à cette fonction. Dans ce cas, la fonction renverra la matrice de covariance.

Calculer la matrice de distance.

Calculer la matrice de covariance du vecteur $\mathbf{Z}=(Z(x_0),\dots,Z(x_N))$.

Extraire les 3 matrices de covariance suivantes :

 * entre les observations

 * entre les observations et les inconnues

 * entre les inconnues


Calculer l'espérance conditionnelle des composantes non observées connaissant les observations et la représenter avec les données.

Calculer la matrice de covariance conditionnelle et tracer sa diagonale (variance conditionnelle) en fonction de la position. Commenter.

Effectuer une simulation conditionnelle. Sur un même graphique, tracer la simulation ainsi que les données et l'espérance conditionnelle. Commenter.

Ecrire une fonction qui calcule la longueur du câble en fonction du vecteur des profondeurs et du pas de discrétisation.

Utiliser cette fonction pour calculer la longueur du câble à partir de 100 simulations. Comparer l'espérance conditionnelle (estimée) de la longueur avec la longueur de l'espérance conditionnelle.

Représenter la suite $M_n$ des moyennes des longueurs de câbles en fonction du nombre de simulations. Commenter.

Représenter l'histogramme des longueurs de câbles générées.

Donner un intervalle de confiance à 95% de la longueur du câble par 2 méthodes différentes. Commenter.

Donner une estimation de la probabilité que la longueur du câble dépasse 525 m.

Reprendre les questions précédentes avec 1000, 10000 puis 100000 simulations. Commenter.