### MAP556, Ecole Polytechnique, 2020-21

# TP 3 - Réduction de variance par échantillonage d'importance

### Exercice.  Echantillonnage d'importance

On souhaite évaluer l'espérance $\mathbb E[ g(Y)] $ où $g(y)=(y-2)^+$ et la variable $Y$ est de loi gaussienne centrée réduite.

####  Question 1
Vérifier par intégration numérique (quadrature), puis par simulation que $\mathbb{E}\bigl[g(Y)\bigl]= m \simeq 8.5 \times 10^{-3}$ et $\mbox{Var}(g(Y)) = \sigma^2 \simeq 5.7 \times10^{-3}$.

On pourra utiliser la fonction `scipy.integrate.quad`: vérifier dans la documentation de la fonction ses variables d'entrée et de sortie. 

Tracer les trajectoires des moyennes empiriques $I_n = \frac 1 n \sum_{i=1}^n (Y_i - 2)^+$ obtenues à partir de $n$ copies indépendantes $(Y_i)_{1 \le  i \le n}$ de $Y$, puis l'histogramme des erreurs.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.integrate import quad

In [None]:
# densite Gaussienne standard
def densiteGaussienne(x):
    return np.exp(-x**2./2.) / np.sqrt(2.*np.pi)

# fonction g
def g(x):
    return np.maximum(x-2.,0.)

############################################
# Calculer E[g(Y)] et Var[g(Y)] avec quadrature
# numerique (par ex. scipy.integrate.quad )
#Esp_gY = ?????
#Var_gY = ?????

print("Esp_gY = %1.2e  Var_gY = %1.2e \n" %(Esp_gY,Var_gY))

In [None]:
N = 2000 # Taille echantillon
integers1toN = np.arange(1,N+1) # Un vecteur contenant les entiers de 1 a N

############################################
# Completer avec N tirages de la loi gaussienne
# centree reduite
#Y = ?????

# On calcule la fonction g(Y) sur l'echantillon
#GY = ?????

############################################
# Stocker dans 'mean' l'estimation MC de E[g(Y)]
# dans 'var' la variance empirique 
# et dans 'demiLargeurIC' la demi-largeur de l'intervalle de confiance 
# asymptotique a 95% pour E[g(Y)]
#mean = ?????
#var = ?????
#demiLargeurIC = ?????

print("mean = %1.2e  var = %1.2e" %(mean,var) )
print("Intervalle de confiance 95%% pour E[g(Y)] = [ %1.2e , %1.2e ] \n" %(mean - demiLargeurIC, mean + demiLargeurIC))
print("erreur relative = %1.2f" %(demiLargeurIC/mean))

################################################
# Trajectoires de la moyenne empirique
################################################
M = 10 # Nombre de repetitions 

################################
# Evaluer les M tirages de l'estimateur empirique I_n pour n=1,...,N

# Dimension souhaitée pour I_n: array M x N
#I_n = ?????

################################
# Affichage des trajectoires
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(integers1toN, I_n[0], color="b", label="Moyenne empirique")
ax.plot(integers1toN, I_n.T, color="b")

ax.set_xlim(0, N)
ax.set_ylim(0, 4*Esp_gY)
ax.axhline(Esp_gY, color="r", label="Esperance")
ax.legend(loc="best")
plt.show()

####  Question 2: Echantillonnage d'importance 

**(a)** Montrer que si $Z$ est une variable aléatoire gaussienne réduite et centrée en $\theta$, on a

$$
\mathbb{E} [ g(Y) ]
=
\mathbb{E} \Bigl[ g(Z) \, e^{-\theta \, Z + \frac{\theta^2}2} \Bigr]
$$

Quel est l'intérêt d'une telle formule?

**(b)** Proposer un estimateur de $\mathbb{E}[g(Y)]$ basé sur la simulation de la loi gaussienne réduite et centrée en $2$.
On note $J_n$ cet estimateur. Vérifier par simulation que
 $\mbox{Var}\biggl(g(Z)e^{-\theta Z + \frac{\theta^2}2}\biggr) = \sigma_J^2 \simeq~9.7\times10^{-5}$.
 
Tracer les trajectoires de l'estimateur $J_n$, comparer avec la quantité recherchée. Quel est le gain en termes de nombre de simulations de cet estimateur,
pour la même précision asymptotique que la méthode de Monte Carlo naive?

In [None]:
theta = 2.

def g_importance(z, theta=theta):
    return np.maximum(z-2.,0.) * np.exp(-theta*z + theta*theta/2.)

############################################
# Calculer la moyenne theorique de l'estimateur d'importance
# avec quadrature numerique (par ex. scipy.integrate.quad)
# pour vérifier la formule donnée dans la question 2 (a)

Esp_g_theta = ???? 

print("Esp_g_theta = %1.2e \n" %Esp_g_theta)

In [None]:
N = 2000 # Taille echantillon
integers1toN = np.arange(1,N+1)

############################################
# Completer avec N tirages de la loi gaussienne
# centree en theta=2
# et avec le calcul de  l'estimateur d'importance
J_N = ????

# variance empirique et Intervalle de confiance
var = ????
demiLargeurIC = ????

print("Jmean = %1.2e  Jvar = %1.2e" %(J_N, var))
print("Intervalle de confiance 95%% pour E[g(Y)] = [ %1.2e , %1.2e ]" %(J_N - demiLargeurIC, J_N + demiLargeurIC))
print("erreur relative = %1.3f \n" %(demiLargeurIC/J_N))

################################################
# Trajectoires de l'estimateur empirique
################################################
M = 10

################################
# Completer avec M tirages de l'estimateur d'importance
# J_n pour n = 1,...,N
J_n = ?????

# Affichage des 10 trajectoires
fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(integers1toN, J_n[0], color="b", label="Estimateur par echantillonage d'importance")
ax.plot(integers1toN, J_n.T, color="b")

ax.set_xlim(0, N)
ax.set_ylim(0, 4*Esp_g_theta)
ax.axhline(Esp_g_theta, color="r", label="Esperance")
ax.legend(loc="best")
plt.show()

####  Question 3: 
Comparer graphiquement les histogrammes des erreurs des estimateurs $I_n$ et $J_n$, pour $n=1000$.

In [None]:
M = 1000 # Nombre de tirages
N = 1000 # Taille echantillon

############################################
# Completer avec M x N tirages des 
# echantillons a partir de la loi N(0,1)
# et a partir de la loi N(2,1)
GY = ?????

GY_importance = ?????

############################################
# Completer avec le calcul des erreurs des deux estimateurs
# erreurs: echantillons de taille M

erreurMC = ?????
erreurImportance = ?????

# Affichage de l'histogramme de l'erreur pour l'estimateur MC
# et pour l'estimateur d'importance
plt.hist(erreurMC, density="True", bins=int(np.sqrt(M)), label="erreur MC")

plt.hist(erreurImportance, density="True", bins=int(np.sqrt(M)), label="erreur Imp")

plt.legend(loc="best")
plt.show()