## TP Python 2. Indices de Sobol et Intervalles de Confiance

A la fin la séance (avant de quitter la salle) vous devez envoyer par mail à votre enseignant ce que vous avez fait pendant les 2h00. Chaque TP sera noté sur 3 points. De plus, vous aurez par binôme à rendre à M. Klein un compte rendu de TP qui sera noté sur 11 points.  
Dans certains énoncés de TP il pourra y avoir des parties théoriques. Celles-ci ne sont pas à rédiger pendant la séance mais devront figurer dans le compte rendu final.

Veuillez aussi regarder [ce notebook](./Outils_TP2.ipynb) avec des explications et exemples utiles concernant les fonction de *numpy* qui peuvent nous faciliter le travail dans ce TP.


In [None]:
# Nous aurons besoin de certaines bibliothèques de Python. Vous devrez donc taper les lignes suivantes

import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import norm
from scipy.stats import t


### Exercice 1. Autour des indices de Sobol 

On rappelle que l’indice de Sobol $S^{i}$ est défini par :

$$
S^i=\frac{\hbox{Var}\left(\mathbb E[Y|X_i]\right)}{\hbox{Var}(Y)}
$$

On rappelle aussi les formules de trigonom\'etrie suivantes

$$
\sin^2(t)=\frac12\left(1-\cos(2t)\right)
$$

$$
\sin^4(t)=\frac18(3-4\cos(2t)+2\cos(4t))
$$


1. Partie Théorique

Soient $X_1,X_2,X_3$ trois variables aléatoires indépendantes de lois Uniforme sur $[-\pi,\pi]$ et 

$$
Y=\sin X_1+7 \sin^2 X_2+0.1 X_3^4 \sin X_1 .
$$  
    a) Calculer $S^1$, $S^2$ et $S^3$.  
    b) Pour $1\leq i\leq 3$, écrire l'estimateur de $S^i$ et montrer en utilisant la Delta méthode qu'il est asymptotiquement normal. On admettra dans la suite que la variance limite est donnée par

$$
\sigma^2_i:=\frac{\hbox{Var}(YY^i)-2S^i\hbox{Cov}(YY^i,YY)+(S^i)^2\hbox{Var}(YY)}{\hbox{Var}(Y)^2}
$$

2. Partie pratique  
     a) En utilisant la méthode Pick Freeze, écrire un code *python* permettant de calculer les estimateurs naturels des indices de Sobol.  
     b) Écrire un code permetant d'estimer la variance limite du TCL.  
     c) En vous inspirant du TP1, proposer un code permettant d'illustrer la convergence de vos estmateurs ainsi que le TCL.


In [None]:
# On code la fonction f 
# Y = f(X1, X2, X3)

def f(X):
    # X est un array de numpy qui contient trois composantes
    # X=(X1, X2, X3)
    X1 = X[0]
    X2 = X[1]
    X3 = X[2]
    Y = 0 # Coder la fonction f tel que Y=f(X)
    return Y

In [None]:
# Vous pouvez vérifier la fonction f avec ce code
# Vous devez obtenir la valeur
# 1.4142089313404727

np.random.seed(1)
X = np.random.rand(1, 3) * 2 * np.pi - np.pi
Y = f(X[0, :])
print(Y)

In [None]:
# Coder la methode Pick-Freeze
# à partir des valeurs de X et de X_prime

def create_XI(X, X_prime, I):
    """
    X est un array de numpy de taille n
    dans l'exercice nous avons X=(X1, X2, X3)
    mais on peut coder la fonction pour X ayant plus
    de 3 composantes
    """
    n = len(X)
    XI = np.zeros(n)
    
    # Écrire ici le code pour créer le vecteur
    # XI à partir de X et X_prime
    
    return XI

def compute_S_I(I, X, X_prime):
    """
    I est une liste contennant les indexes. Dans notre cas
    on aura, par exemple I = [0] pour calculer S_1.
    X est une matrice qui contient N lignes et k colonnes,
    chaque ligne de la matrice contient une valeur du vecteur
    (X1, X2, ..., Xk). Dans notre exercice on aura k=3.
    X_prime est une matrice des memes dimensions que X,
    chaque ligne de X_prime contient k valeurs
    (X_prime1, X_prime2, ..., X_primek). 
    Dans notre exercice on a k=3
    """
    N = X.shape[0]
    Y = np.zeros(N)
    YI = np.zeros(N)
    SI = 0
    
    # Écrire ici le code pour calculer la valeur
    # de SI à partir de Cov(Y, YI).
    # On utilisera la fonction create_XI
    # qu'on a déjà programmé
    
    return SI
    

In [None]:
# Ce code permet de vérifier les fonctions
# compute_S_I et create_XI
# Vous devez obtenir ces trois valeurs :
#  0.3140172730562713 0.43769804532909684 0.001696365723784651

N = 10000
X = np.random.rand(N, 3) * 2 * np.pi - np.pi
X_prime = np.random.rand(N, 3) * 2 * np.pi - np.pi
S1_estim = compute_S_i([0], X, X_prime)
S2_estim = compute_S_i([1], X, X_prime)
S3_estim = compute_S_i([2], X, X_prime)
print(S1_estim, S2_estim, S3_estim)

In [None]:
# Question b. 
# Ici l'objectif est de coder la formule donnée pour la
# variance limite \sigma2_i donnée dans la partie
# b de la question 1

def compute_sigma2_i(I, X, X_prime):
    """
    I est une liste contennant les indexes. Dans notre cas
    on aura, par exemple I = [0] pour calculer S_1.
    X est une matrice qui contient N lignes et k colonnes,
    chaque ligne de la matrice contient une valeur du vecteur
    (X1, X2, ..., Xk). Dans notre exercice on aura k=3.
    X_prime est une matrice des memes dimensions que X,
    chaque ligne de X_prime contient k valeurs
    (X_prime1, X_prime2, ..., X_primek). 
    Dans notre exercice on a k=3
    """
    N = X.shape[0]
    Y = np.zeros(N)
    YI = np.zeros(N)
    SI = 0
    sigma2_i = 0
    
    # Écrire le code permettant de calculer la variance
    # en utilisant la formule donnée dans la question 1 b
    # Notez qu'il faut d'abord calculer les valeurs de
    # Y, YI et de SI
    
    
    return sigma2_i

In [None]:
# Ce code permet de vérifier les valeurs de
# sigma_i trouvées
# Vous devez obtenir des valeurs proches de ces trois valeurs :
#  2.061582042298222 1.8631951743842952 3.6021791953579245

N = 10000
X = np.random.rand(N, 3) * 2 * np.pi - np.pi
X_prime = np.random.rand(N, 3) * 2 * np.pi - np.pi
sigma2_1 = compute_sigma2_i([0], X, X_prime)
sigma2_2 = compute_sigma2_i([1], X, X_prime)
sigma2_3 = compute_sigma2_i([2], X, X_prime)
print(sigma2_1, sigma2_2, sigma2_3)

In [None]:
# Question c

# Convergence des estimateurs de S_i
N = 500
X = None # Simuler les valeurs de X 
X_prime = None # Simuler les valeurs de X_prime

# Calculer les valeurs de S_i pour differents tailles d'échantillon
S1 = [] 
S2 = []
S3 = []


In [None]:
# Faire le plot

plt.plot(S1, label="S_1")
plt.plot(S2, label="S_2")
plt.plot(S3, label="S_3")
plt.legend()
plt.show()

Vous devez obtenir une image comme celle-ci :

![convSi](./img/Convergence_de_Si.png)

In [None]:
# Pour illustrer le TCL il faut calculer plusieurs 
# valeurs SI_N de manière indépendante. Ensuite
# on fait un histogramme de Z = sqrt(N)(SI_N - SI)

def TCL_SI(I, N, n_values, SI):
    """
    I: liste d'indices. Par exemple I=[0]
    
    N: Nombre de valeurs utilisées pour 
        calculer SI_N
        
    n_values: Nombre de fois qu'on va
              calculer SI_N
              
    SI: La vraie valeur de SI 
        On peut utiliser une estimation faite
        estimée dans les questions précédentes pour
        une grande valeur de N
    """
    SI_N = np.zeros(n_values)
    
    # Écrire le code permettant de calculer les estimation 
    # indépendantes de SI_N 
    
    Z = SI_N  # Calculer les valeurs de Z
    
    # Le bloque ci-desous permet de rajouter le graphique
    # de la densité d'une loi N(0, 1) por comparer
    x = np.arange(-5, 5, 0.01)
    y = norm.pdf(x, loc=0, scale=1)
    bins=np.arange(-5, 5, 0.1)
    plt.hist(Z, bins=50, density=True)
    plt.legend()
    plt.show()

In [None]:
TCL_SI([0], 300, 1000, S1_estim, np.sqrt(sigma2_1))

Vous devez obtenir un plot comme celui-ci :

![TCL_SI](./img/TCL_SI.png)

In [None]:
# Vous pouvez faire le meme plot pour S2 et S3
TCL_SI([1], 300, 1000, S1_estim, np.sqrt(sigma2_1))
TCL_SI([2], 300, 1000, S1_estim, np.sqrt(sigma2_1))

### Exercice 2

Soit $X_1,\ldots,X_n$ un $n-$échantillon *iid* de loi $\mathcal{N}(m,\sigma^2)$

1. On supposera ici que $\sigma^2=1$  
    a) Donner la forme d'un intervalle de confiance  bilatéral de niveau $1-\alpha$ pour $m$.  
    b) Pour $\alpha=5/100$ et $n=100$ et en ayant choisit votre $m$ préféré. Écrire un programme **python** permettant  de simuler $N$ intervalles de confiances ($N=50, 100, 500, 1000)$ et calculer le nombre de fois où le vrai paramètre $m$ appartient à l'intervalle de confiance.  
    c) Que pouvez-vous conclure?

2. Reprendre les questions précédentes en ne supposant plus $\sigma^2$ connu.

*Solution 1*

Le résultat suivant est donné afin de pouvoir compléter la partie pratique. Dans le compte rendu, **vous devez détailler** comment on obtient cet intervalle. 

Un intervalle de confiance de niveau $1-\alpha$ pour $m$ est :

$$
\Big[\bar{X}_n - \frac{1}{\sqrt{n}}\mathbb{Z}_{1-\alpha / 2}, \bar{X}_n + \frac{1}{\sqrt{n}}\mathbb{Z}_{1-\alpha/2}\Big]
$$

avec $\mathbb{Z}_{1-\alpha / 2}$ le quantile d'ordre $1-\alpha/2$ pour une $\mathcal{N}(0,1)$.

In [None]:
# Question b

alpha = 0.05 # Pour alpha=0.05, l'intervalle de confiance est de niveau 0.95
n = 100
m = 5
N = 50

quantile = norm.ppf(1 - alpha/2) # quantile de niveau (1-alpha/2) pour une N(0, 1)

def count_m_inside(m, n, N, alpha):
    """
    m: Moyenne, X suit une loi Normal(m, 1)
    n: taille du vecteur X
    N: quantite d'intervalles de confiance
    alpha: valeur entre 0 et 1
    """
    nb_times_m_in = 0
    
    
    # Écrire le code permettant de générer N intervalles
    # Puis, compter le nombre de fois où le paremètre m
    # est compris dans l'intervalle
    
    return nb_times_m_in / N * 100

In [None]:
[count_m_inside(n, i, quantile) for i in [50, 100, 500, 1000, 10000, 100000]]

In [None]:
# Le pourcentage de fois où m est compris dans l'intervalle doit être égale à (1-alpha)*100
# Plus le nombre d'intervalle est grand (plus N est grand), plus on doit se rapprocher de (1-alpha)*100


*Solution Question 2*

Le résultat suivant est donné afin de pouvoir compléter la partie pratique. Dans le compte rendu, **vous devez détailler** comment on obtient cet intervalle. 


Lorsque $\sigma^2$ n'est pas connu, on utilise un estimateur de la variance. L'intervalle de confiance de niveau $1-\alpha$ est :

$$
\Big[\bar{X}_n - \frac{S_n}{\sqrt{n}}t_{1-\alpha / 2}, \bar{X}_n + \frac{S_n}{\sqrt{n}}t_{1-\alpha/2}\Big]
$$

Ici, $S_n$ est la variance empirique et $t_{1-\alpha/2}$ est le quantile de niveau $1-\alpha/2$ d'une loi de Student avec $n-1$ degrées de liberté.

In [None]:
# Question 2

alpha = 0.05
# Pour alpha=0.05, l'intervalle de confiance est de niveau 0.95
n = 10000
m = 5
quantile = t.ppf(1 - alpha/2, n-1) # quantile pour une Student à n-1 degrés de liberté

def count_m_inside_sigma_inconnu(m, n, N, alpha):
    """
    m: Moyenne, X suit une loi Normal(m, 1)
    n: taille du vecteur X
    N: quantite d'intervalles de confiance
    alpha: valeur entre 0 et 1
    """
    nb_times_m_in = 0
    
    
    # Écrire le code permettant de générer N intervalles
    # Puis, compter le nombre de fois où le paremètre m
    # est compris dans l'intervalle
    
    return nb_times_m_in / N * 100

In [None]:
[count_m_inside_sigma_inconnu(n, i, quantile) for i in [50, 100, 500, 1000, 10000, 100000]]