In [1]:
from src.densite_function import *
from src.gaussian_simulation import *
from src.estimators2 import *
from src.vraisemblance import *
import numpy as np
from numpy.linalg import norm 
import matplotlib.pylab as plt

In [2]:
np.random.seed(8878)

theta=simulate_gaussian_vector(mu=np.array([0]*20), sigma=np.identity(20))
z=simulate_gaussian_vector(mu=theta, sigma=np.identity(20))
x=simulate_gaussian_vector(mu=z, sigma=np.identity(20)) #on sait simuler x|z

#x=simulate_gaussian_vector(mu=theta, sigma=2*np.identity(20))

A_optimal=np.identity(20)*0.5
b_optimal=theta/2

A=A_optimal+simulate_gaussian_vector(mu=np.array([0]*20), sigma=0.01*np.identity(20))
b=b_optimal+simulate_gaussian_vector(mu=np.array([0]*20), sigma=0.01*np.identity(20))

On généré un n-échantillon de taille 100, de loi $p_{\theta}(\mathbf{x}|z)=\mathcal{N}(z, I_{20})$

In [19]:
np.random.seed(8878)

def generer_nech_gaussien(n):
    i=1
    echantillon_x=np.array([])

    while i<=n:
        z=simulate_gaussian_vector(mu=theta, sigma=np.identity(20))
        if i==1:
            echantillon_x=np.append(echantillon_x, simulate_gaussian_vector(mu=z, sigma=np.identity(20))) #on sait simuler x|z
        else:
            echantillon_x=np.vstack((echantillon_x, simulate_gaussian_vector(mu=z, sigma=np.identity(20))))
        i+=1
    return echantillon_x

echantillon_x=generer_nech_gaussien(1000)

La log-vraisemblance de l'échantillon (avec le facteur $-\frac{1}{n}$) est $l_n(\theta)=\frac{1}{n}\sum_{i=1}^n \lVert X_i - \theta \rVert^2 = \frac{1}{n}\sum_{i=1}^n l_i(\theta) $. 
On cherche $\hat{\theta} \in argmin \; l_n(\theta)$

# SDG

On estime le theta de la log vraisemblance par $\nabla_{\theta} l_i(\theta)= -2(X_i-\theta)$

In [4]:
def SDG(theta_init, learn_rate, echantillon, n_iter):
    #Step 1: mélanger l'échantillon
    i=0
    compteur=0
    np.random.shuffle(echantillon)
    theta=theta_init-learn_rate*(-1)*gradient_log_vraisemblance(echantillon[i], theta_init)

    i+=1
    compteur+=1
    #Tant qu'on n'atteint pas le nombre d'itérations fixé, on actualise theta
    while compteur<n_iter:
        # Si on a parcouru tout l'échantillon alors que le nombre d'itérations n'est pas atteint,
        # On remélange l'échantillon, on reparcourt l'échantillon en commençant par le début
        # Le compteur n'est pas réinitialisé
        if i==len(echantillon):
           i=0
           np.random.shuffle(echantillon)
           theta=theta-learn_rate*(-1)*gradient_log_vraisemblance(echantillon[i], theta)
           i+=1
           compteur+=1
        else:
            theta=theta-learn_rate*(-1)*gradient_log_vraisemblance(echantillon[i], theta)
            i+=1
            compteur+=1

    else:
        return theta

In [5]:
def SDG_IAWE(theta_init, learn_rate, n_iter, A, b, echantillon, k=6):
    #Step 1: mélanger l'échantillon
    i=0
    compteur=0
    np.random.shuffle(echantillon)
    theta=theta_init-learn_rate*importance_sampling_gradientlogvraisemblance(k=k, theta=theta_init, A=A, b=b, x=echantillon[i])

    i+=1
    compteur+=1
    #Tant qu'on n'atteint pas le nombre d'itérations fixé, on actualise theta
    while compteur<n_iter:
        # Si on a parcouru tout l'échantillon alors que le nombre d'itérations n'est pas atteint,
        # On remélange l'échantillon, on reparcourt l'échantillon en commençant par le début
        # Le compteur n'est pas réinitialisé
        if i==len(echantillon):
           i=0
           np.random.shuffle(echantillon)
           theta=theta-learn_rate*importance_sampling_gradientlogvraisemblance(k=k, theta=theta, A=A, b=b, x=echantillon[i])
           i+=1
           compteur+=1
        else:
            theta=theta-learn_rate*importance_sampling_gradientlogvraisemblance(k=k, theta=theta, A=A, b=b, x=echantillon[i])
            i+=1
            compteur+=1

    else:
        return theta

In [39]:
def SDG_SUMO(theta_init, learn_rate, n_iter, A, b, echantillon, l=0):
    #Step 1: mélanger l'échantillon
    i=0
    compteur=0
    np.random.shuffle(echantillon)
    theta=theta_init-learn_rate*estimateur_SUMO_gradientlogvraisemblance(theta=theta_init, A=A, b=b, x=echantillon[i], r=0.6, l=0)

    i+=1
    compteur+=1
    #Tant qu'on n'atteint pas le nombre d'itérations fixé, on actualise theta
    while compteur<n_iter:
        # Si on a parcouru tout l'échantillon alors que le nombre d'itérations n'est pas atteint,
        # On remélange l'échantillon, on reparcourt l'échantillon en commençant par le début
        # Le compteur n'est pas réinitialisé
        if i==len(echantillon):
           i=0
           np.random.shuffle(echantillon)
           theta=theta-learn_rate*estimateur_SUMO_gradientlogvraisemblance(theta=theta, A=A, b=b, x=echantillon[i], r=0.6, l=l)
           i+=1
           compteur+=1
        else:
            theta=theta-learn_rate*estimateur_SUMO_gradientlogvraisemblance(theta=theta, A=A, b=b, x=echantillon[i], r=0.6, l=l)
            i+=1
            compteur+=1

    else:
        return theta

In [7]:
def SDG_RR(theta_init, learn_rate, n_iter, A, b, echantillon, l=6):
    #Step 1: mélanger l'échantillon
    i=0
    compteur=0
    np.random.shuffle(echantillon)
    theta=theta_init-learn_rate*estimateur_ML_RR_gradientlogvraisemblance(x=echantillon[i], theta=theta_init, A=A, b=b, r=0.6, l=l)

    i+=1
    compteur+=1
    #Tant qu'on n'atteint pas le nombre d'itérations fixé, on actualise theta
    while compteur<n_iter:
        # Si on a parcouru tout l'échantillon alors que le nombre d'itérations n'est pas atteint,
        # On remélange l'échantillon, on reparcourt l'échantillon en commençant par le début
        # Le compteur n'est pas réinitialisé
        if i==len(echantillon):
           i=0
           np.random.shuffle(echantillon)
           theta=theta-learn_rate*estimateur_ML_RR_gradientlogvraisemblance(x=echantillon[i], theta=theta, A=A, b=b, r=0.6, l=l)
           i+=1
           compteur+=1
        else:
            theta=theta-learn_rate*estimateur_ML_RR_gradientlogvraisemblance(x=echantillon[i], theta=theta, A=A, b=b, r=0.6, l=l)
            i+=1
            compteur+=1

    else:
        return theta

In [8]:
def SDG_SS(theta_init, learn_rate, n_iter, A, b, echantillon, l=6):
    #Step 1: mélanger l'échantillon
    i=0
    compteur=0
    np.random.shuffle(echantillon)
    theta=theta_init-learn_rate*estimateur_ML_SS_gradientlogvraisemblance(x=echantillon[i], theta=theta_init, A=A, b=b, r=0.6, l=l)

    i+=1
    compteur+=1
    #Tant qu'on n'atteint pas le nombre d'itérations fixé, on actualise theta
    while compteur<n_iter:
        # Si on a parcouru tout l'échantillon alors que le nombre d'itérations n'est pas atteint,
        # On remélange l'échantillon, on reparcourt l'échantillon en commençant par le début
        # Le compteur n'est pas réinitialisé
        if i==len(echantillon):
           i=0
           np.random.shuffle(echantillon)
           theta=theta-learn_rate*estimateur_ML_SS_gradientlogvraisemblance(x=echantillon[i], theta=theta, A=A, b=b, r=0.6, l=l)
           i+=1
           compteur+=1
        else:
            theta=theta-learn_rate*estimateur_ML_SS_gradientlogvraisemblance(x=echantillon[i], theta=theta, A=A, b=b, r=0.6, l=l)
            i+=1
            compteur+=1

    else:
        return theta

In [25]:
np.random.seed(876)
theta_sdg=SDG(theta_init=np.array([0]*20), learn_rate=0.001, n_iter=100, echantillon=echantillon_x)
theta_iawe=SDG_IAWE(theta_init=np.array([0]*20), learn_rate=0.001, n_iter=100, A=A, b=b, echantillon=echantillon_x, k=6)
theta_SUMO=SDG_SUMO(theta_init=np.array([0]*20), learn_rate=0.001, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=6)
theta_RR=SDG_RR(theta_init=np.array([0]*20), learn_rate=0.001, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=1)
theta_SS=SDG_SS(theta_init=np.array([0]*20), learn_rate=0.001, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=1)

print("Vraie valeur de theta: {}".format(np.around(theta, 2)))
print("Estimation de theta par descente de gradient stochastique useuelle: {}".format(np.around(theta_sdg, 2)))
print("Estimation de theta par SDG IWAE: {}".format(np.around(theta_iawe, 2)))
print("Estimation de theta par SDG SUMO: {}".format(np.around(theta_SUMO, 2)))
print("Estimation de theta par SDG RR: {}".format(np.around(theta_RR, 2)))
print("Estimation de theta par SDG SS: {}".format(np.around(theta_SS, 2)))

Vraie valeur de theta: [-0.3  -1.01 -0.57  0.53 -0.45 -1.65 -1.66  1.26 -0.5  -2.16  0.18 -0.7
 -0.77  0.53  0.12 -0.5   0.69 -0.35 -0.43  1.35]
Estimation de theta par descente de gradient stochastique useuelle: [-0.07 -0.16 -0.08  0.14 -0.07 -0.3  -0.31  0.23 -0.08 -0.35  0.01 -0.14
 -0.12  0.1   0.05 -0.08  0.12 -0.08 -0.11  0.26]
Estimation de theta par SDG IWAE: [ 0.01  0.08  0.06 -0.06  0.03  0.15  0.12 -0.13  0.03  0.18 -0.03  0.05
  0.05 -0.06 -0.03  0.02 -0.06  0.04  0.03 -0.14]
Estimation de theta par SDG SUMO: [-0.52 -1.28 -0.03 -0.22  0.48  0.43  0.67  0.   -0.09  1.09 -0.35 -0.65
  1.24 -0.13 -0.62  1.67 -0.03  1.36  0.57  0.81]
Estimation de theta par SDG RR: [-3.    0.45  0.29 -0.13  1.15  1.37  1.53 -0.9   0.73  1.49 -1.3   1.67
  0.82 -0.42  0.06  1.14 -0.21  0.02  0.53 -0.6 ]
Estimation de theta par SDG SS: [-0.92  0.26  0.07 -0.19 -0.02  0.37  0.3  -0.33  0.04  0.41  0.06  0.11
  0.4  -0.12  0.02  0.02 -0.18 -0.2   0.11 -0.4 ]


In [10]:
def procedure_MC_theta(M, L, theta, A, b, n):
    biais_SDG_M={}
    biais_IWAE_M={}
    biais_SUMO_M={}
    biais_SS_M={}
    biais_RR_M={}

    var_SDG_M={}
    var_IWAE_M={}
    var_SUMO_M={}
    var_SS_M={}
    var_RR_M={}

    l=2
    while l<=L:
        m=1
        estimations_SDG_M_l=np.array([])
        estimations_IWAE_M_l=np.array([])
        estimations_SUMO_M_l=np.array([])
        estimations_SS_M_l=np.array([])
        estimations_RR_M_l=np.array([])


        while m<=M:
            echantillon_x=generer_nech_gaussien(n)
            theta_SDG=SDG(theta_init=np.array([0]*20), learn_rate=0.01, echantillon=echantillon_x, n_iter=100)
            theta_IAWE=SDG_IAWE(theta_init=np.array([0]*20), learn_rate=0.01, n_iter=100, A=A, b=b, echantillon=echantillon_x, k=l)
            theta_SUMO=SDG_SUMO(theta_init=np.array([0]*20), learn_rate=0.01, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=l)
            theta_RR=SDG_RR(theta_init=np.array([0]*20), learn_rate=0.01, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=l)
            theta_SS=SDG_SS(theta_init=np.array([0]*20), learn_rate=0.01, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=l)

            if m==1:
                estimations_SDG_M_l=np.append(estimations_SDG_M_l, theta_SDG)
                estimations_IWAE_M_l= np.append(estimations_IWAE_M_l, theta_IAWE)
                estimations_SUMO_M_l=np.append(estimations_SUMO_M_l, theta_SUMO)
                estimations_RR_M_l=np.append(estimations_RR_M_l, theta_RR)
                estimations_SS_M_l=np.append(estimations_SS_M_l, theta_SS)
            
            else:
                estimations_SDG_M_l=np.vstack((estimations_SDG_M_l, theta_SDG))
                estimations_IWAE_M_l= np.vstack((estimations_IWAE_M_l, theta_IAWE))
                estimations_SUMO_M_l=np.vstack((estimations_SUMO_M_l, theta_SUMO))
                estimations_RR_M_l=np.vstack((estimations_RR_M_l, theta_RR))
                estimations_SS_M_l=np.vstack((estimations_SS_M_l, theta_SS))
            m+=1

        biais_SDG_M_l=np.mean(estimations_SDG_M_l, axis=0)-theta
        biais_IWAE_M_l=np.mean(estimations_IWAE_M_l, axis=0)-theta
        biais_IWAE_M_l=np.mean(estimations_IWAE_M_l, axis=0)-theta
        biais_SUMO_M_l=np.mean(estimations_SUMO_M_l, axis=0)-theta
        biais_SS_M_l=np.mean(estimations_SS_M_l, axis=0)-theta
        biais_RR_M_l=np.mean(estimations_RR_M_l, axis=0)-theta

        squared_biais_SDG_M_l=norm(biais_SDG_M_l)**2
        squared_biais_IWAE_M_l=norm(biais_IWAE_M_l)**2
        squared_biais_SUMO_M_l=norm(biais_SUMO_M_l)**2
        squared_biais_SS_M_l=norm(biais_SS_M_l)**2
        squared_biais_RR_M_l=norm(biais_RR_M_l)**2

        var_SDG_M_l=np.mean(norm(estimations_SDG_M_l-np.mean(estimations_IWAE_M_l, axis=0), axis=1)**2)
        var_IWAE_M_l=np.mean(norm(estimations_IWAE_M_l-np.mean(estimations_IWAE_M_l, axis=0), axis=1)**2)
        var_SUMO_M_l=np.mean(norm(estimations_SUMO_M_l-np.mean(estimations_SUMO_M_l, axis=0), axis=1)**2)
        var_SS_M_l=np.mean(norm(estimations_SS_M_l-np.mean(estimations_SS_M_l, axis=0), acis=1)**2)
        var_RR_M_l=np.mean(norm(estimations_RR_M_l-np.mean(estimations_RR_M_l, axis=0), axis=1)**2)
        
        biais_SDG_M[l]=squared_biais_SDG_M_l
        biais_IWAE_M[l]=squared_biais_IWAE_M_l
        biais_SUMO_M[l]=squared_biais_SUMO_M_l
        biais_SS_M[l]=squared_biais_SS_M_l
        biais_RR_M[l]=squared_biais_RR_M_l
        
        var_SDG_M[l]=var_SDG_M_l
        var_IWAE_M[l]=var_IWAE_M_l
        var_SUMO_M[l]=var_SUMO_M_l
        var_SS_M[l]=var_SS_M_l
        var_RR_M[l]=var_RR_M_l

        l+=1

    return biais_SDG_M, biais_IWAE_M, biais_SUMO_M, biais_SS_M, biais_RR_M, var_SDG_M,var_IWAE_M, var_SUMO_M, var_SS_M, var_RR_M

In [11]:
# np.random.seed(8554)

# biais_SDG_M_theta, biais_IWAE_M_theta, biais_SUMO_M_theta, biais_SS_M_theta, biais_RR_M_theta, var_SDG_M_theta, var_IWAE_M_theta, var_SUMO_M_theta, var_SS_M_theta, var_RR_M_theta = procedure_MC_theta(M=1000, 
#                                                                                                                                                                                                         L=8,
#                                                                                                                                                                                                         theta=theta,
#                                                                                                                                                                                                         A=A, 
#                                                                                                                                                                                                         b=b,
#                                                                                                                                                                                                         n=100) 
                                                                                                                            

In [12]:
sorted_biais_SDG_M_theta = sorted(biais_SDG_M_theta.items())
sorted_biais_IWAE_M_theta = sorted(biais_IWAE_M_theta.items())
sorted_biais_SS_M_gradient = sorted(biais_SS_M_theta.items())
sorted_biais_RR_M_gradient = sorted(biais_RR_M_theta.items())

sorted_var_IWAE_M_gradient = sorted(var_IWAE_M_gradient.items())
sorted_var_SUMO_M_gradient = sorted(var_SUMO_M_gradient.items())
sorted_var_SS_M_gradient = sorted(var_SS_M_gradient.items())
sorted_var_RR_M_gradient = sorted(var_RR_M_gradient.items())

l, biais_IAWE_gradient = zip(*sorted_biais_IWAE_M_gradient)
l, biais_SUMO_gradient = zip(*sorted_biais_SUMO_M_gradient)
l, biais_SS_gradient = zip(*sorted_biais_SS_M_gradient)
l, biais_RR_gradient = zip(*sorted_biais_RR_M_gradient)

l, var_IAWE_gradient = zip(*sorted_var_IWAE_M_gradient) 
l, var_SUMO_gradient = zip(*sorted_var_SUMO_M_gradient) 
l, var_SS_gradient = zip(*sorted_var_SS_M_gradient) 
l, var_RR_gradient = zip(*sorted_var_RR_M_gradient) 

fig, axs = plt.subplots(2,1, figsize=(10, 10))

axs[0].plot(l, biais_IAWE_gradient, 'b', label="Biais au carré de l'estimateur IWAE", color="blue")
axs[0].plot(l, biais_SUMO_gradient, 'b', label="Biais au carré de l'estimateur SUMO", color="red")
axs[0].plot(l, biais_SS_gradient, 'b', label="Biais au carré de l'estimateur ML-SS", color="orange")
axs[0].plot(l, biais_RR_gradient, 'b', label="Biais au carré de l'estimateur ML-RR", color="green")

axs[0].legend()

fig.suptitle('Biais au carré et variance des estimateurs du gradient de la log-vraisemblance, en fonction du coût computationel', fontsize=16)

axs[1].plot(l, var_IAWE_gradient, 'b', label="Variance de l'estimateur IAWE", color="blue")
axs[1].plot(l, var_SUMO_gradient, 'b', label="Variance de l'estimateur SUMO", color="red")
axs[1].plot(l, var_SS_gradient, 'b', label="Variance de l'estimateur ML-SS", color="orange")
axs[1].plot(l, var_RR_gradient, 'b', label="Variance de l'estimateur ML-RR", color="green")


axs[1].legend()

plt.show()

NameError: name 'biais_SDG_M_theta' is not defined

In [None]:
estimations_SDG_M_l=np.array([])
estimations_IWAE_M_l=np.array([])
estimations_SUMO_M_l=np.array([])
estimations_SS_M_l=np.array([])
estimations_RR_M_l=np.array([])

m=1
M=1000
n=100

while m<=M:
    echantillon_x=generer_nech_gaussien(n)
    theta_SDG=SDG(theta_init=np.array([0]*20), learn_rate=0.01, echantillon=echantillon_x, n_iter=100)
    theta_IAWE=SDG_IAWE(theta_init=np.array([0]*20), learn_rate=0.01, n_iter=100, A=A, b=b, echantillon=echantillon_x, k=3)
    theta_SUMO=SDG_SUMO(theta_init=np.array([0]*20), learn_rate=0.01, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=3)
    theta_RR=SDG_RR(theta_init=np.array([0]*20), learn_rate=0.01, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=3)
    theta_SS=SDG_SS(theta_init=np.array([0]*20), learn_rate=0.01, n_iter=100, A=A, b=b, echantillon=echantillon_x, l=3)

    if m==1:
        estimations_SDG_M_l=np.append(estimations_SDG_M_l, theta_SDG)
        estimations_IWAE_M_l= np.append(estimations_IWAE_M_l, theta_IAWE)
        estimations_SUMO_M_l=np.append(estimations_SUMO_M_l, theta_SUMO)
        estimations_RR_M_l=np.append(estimations_RR_M_l, theta_RR)
        estimations_SS_M_l=np.append(estimations_SS_M_l, theta_SS)
            
    else:
        estimations_SDG_M_l=np.vstack((estimations_SDG_M_l, theta_SDG))
        estimations_IWAE_M_l= np.vstack((estimations_IWAE_M_l, theta_IAWE))
        estimations_SUMO_M_l=np.vstack((estimations_SUMO_M_l, theta_SUMO))
        estimations_RR_M_l=np.vstack((estimations_RR_M_l, theta_RR))
        estimations_SS_M_l=np.vstack((estimations_SS_M_l, theta_SS))
    m+=1

biais_SDG_M_l=np.mean(estimations_SDG_M_l, axis=0)-theta
biais_IWAE_M_l=np.mean(estimations_IWAE_M_l, axis=0)-theta
biais_IWAE_M_l=np.mean(estimations_IWAE_M_l, axis=0)-theta
biais_SUMO_M_l=np.mean(estimations_SUMO_M_l, axis=0)-theta
biais_SS_M_l=np.mean(estimations_SS_M_l, axis=0)-theta
biais_RR_M_l=np.mean(estimations_RR_M_l, axis=0)-theta

squared_biais_SDG_M_l=norm(biais_SDG_M_l)**2
squared_biais_IWAE_M_l=norm(biais_IWAE_M_l)**2
squared_biais_SUMO_M_l=norm(biais_SUMO_M_l)**2
squared_biais_SS_M_l=norm(biais_SS_M_l)**2
squared_biais_RR_M_l=norm(biais_RR_M_l)**2

var_SDG_M_l=np.mean(norm(estimations_SDG_M_l-np.mean(estimations_IWAE_M_l, axis=0), axis=1)**2)
var_IWAE_M_l=np.mean(norm(estimations_IWAE_M_l-np.mean(estimations_IWAE_M_l, axis=0), axis=1)**2)
var_SUMO_M_l=np.mean(norm(estimations_SUMO_M_l-np.mean(estimations_SUMO_M_l, axis=0), axis=1)**2)
var_SS_M_l=np.mean(norm(estimations_SS_M_l-np.mean(estimations_SS_M_l, axis=0), axis=1)**2)
var_RR_M_l=np.mean(norm(estimations_RR_M_l-np.mean(estimations_RR_M_l, axis=0), axis=1)**2)

TypeError: _norm_dispatcher() got an unexpected keyword argument 'acis'

In [None]:
var_SDG_M_l

96.71430856920539

In [None]:
var_IWAE_M_l

0.7846978280276523

In [None]:
var_SUMO_M_l

7.006007094800772

In [None]:
var_SS_M_l

11.955258074079461

In [None]:
squared_biais_SDG_M_l

0.31892409802688737

In [None]:
squared_biais_IWAE_M_l

107.62803455070205

In [None]:
squared_biais_SUMO_M_l

285.88914190502953

In [None]:
squared_biais_SS_M_l

92.91956607763443

In [None]:
squared_biais_RR_M_l

214.1572221985394