In [1]:
import numpy as np
import Code
from tqdm import tqdm
import time
import matplotlib.pyplot as plt
import random
import plotly.graph_objects as go

## <span style="color:orange">  **Cadre général de la descente de gradient stochastique pour obtenir une estimation du maximum de vraisemblance**  </span>

On se donne un échantillon d'observations $\boldsymbol{x} \in \mathbb{R}^{20} = [x^{(1)}, ..., x^{(20)}]^T$ tiré selon une loi paramétrée par $\theta$, qui est donc le paramètre du modèle probabiliste que nous souhaitons estimer. La log-vraisemblance des données observées $\ell (\theta) = \log p_{\theta}(\boldsymbol{x}) = \sum_{i=1}^{20} \log p_{\theta}(x^{(i)})$ est maximisée pour obtenir une estimation de maximum de vraisemblance (EMV) du paramètre $\theta$. 

En utilisant la **descente de gradient stochastique (SGD)**, l'algorithme pour estimer les paramètres peut être formulé comme suit :


1. **Initialisation** : On choisit un $\theta^{(0)}$ De manière aléatoire ou déterministe. On peut par exemple choisir une telle valeur à partir d'une première approximation.

2. **Itération** : À chaque itération $t$, les paramètres $\theta$ sont mis à jour en utilisant un échantillon aléatoire de données $x^{(i)}$ (donc pour $i \in \{1, ..., 20\}$) tiré de l'ensemble de données et on a alors : 
\begin{equation}
\theta^{(t+1)} = \theta^{(t)} + \eta \nabla_{\theta} \log p_{\theta^{(t)}}(x^{(i)}),
\end{equation}

    où $\eta$ est le **taux d'apprentissage** (également appelé pas d'apprentissage) et $\nabla_{\theta} \log p_{\theta^{(t)}}(\boldsymbol{x}^{(i)})$ est le gradient du logarithme de la vraisemblance conditionnelle évalué pour l'échantillon $\boldsymbol{x}^{(i)}$ à l'itération $t$. 

3. **Convergence** : On répète $(1)$ jusqu'à ce qu'un critère d'arrêt prédéfini soit satisfait. Par exemple, on peut fixer pour un $\epsilon$ donné le critère d'arrêt suivant :  
$$ 
\| \theta^{(t+1)} - \theta^{(t)} \| < \epsilon
$$



### <span style="color:violet">  1.1. **Calcul explicite du gradient de la log-vraisemblance**  </span>

Dans l'article, pour effectuer l'expérience empirique, on nous donne la valeur explicite de la densité avec laquelle on tire les observations $\boldsymbol{x}$. On nous donne : 

$$
p_{\theta}(\boldsymbol{x}) = \mathcal{N}(\boldsymbol{x}|\theta \mathbf{1}_{20}, 2\mathbf{I}_{20}) = \frac{1}{(4\pi)^{10}} \exp \left\{ -\frac{1}{4} (\boldsymbol{x} - \theta \mathbf{1}_{20})^T  (\boldsymbol{x} - \theta \mathbf{1}_{20}) \right\}
$$

Ainsi, on a : 

$$
\log p_{\theta}(\boldsymbol{x}) = \sum_{i=1}^{20}  \log p_{\theta}(x^{(i)}) = \sum_{i=1}^{20} \log \left( \frac{1}{2\sqrt{\pi}} \exp\left(-\frac{(x - \theta)^2}{4}\right) \right)
$$

Une fois cette expression explicite de la log-vraisemblance obtenue, on peut calculer explicitement le gradient de celle-ci **par rapport au paramètre  $\theta$**. On a : 

$$
\nabla_{\theta} \log p_{\theta} (\boldsymbol{x}) = \sum_{i=1}^{20}  \log \nabla_{\theta} p_{\theta}(x^{(i)}) = \frac{1}{2} \sum_{i=1}^{20} (x^{(i)} - \theta)
$$

Si bien que l'on retrouve la version du gradient **en un point** de l'échantillon $\boldsymbol{x}$ que l'on utilise dans l'étape itérative : 

$$
\nabla_{\theta} \log p_{\theta}(x^{(i)}) = \frac{1}{2} (x^{(i)} - \theta)
$$

A MODIFIER + ERREUR D

### <span style="color:violet">  1.2. **Tirage du paramètre génératif $\theta$**  </span>

Avant toute chose, on tire une valeur du paramètre $\theta$ que l'on considère comme étant la quantité que l'on souhaite approximer dans la suite de cette partie. On sait d'après le cadre de l'application numérique de l'article que $\theta \sim \mathcal{N}(1, 0)$. 

In [2]:
#theta_true = np.random.multivariate_normal(np.zeros(20), np.identity(20))
theta_true = np.random.normal(0, 1)
print(f"La valeur de theta à estimer est {theta_true}")

La valeur de theta à estimer est 0.18737087792729964


### <span style="color:violet">  1.3. **Tirage de l'échantillon**  </span>

In [3]:
def p_theta_x(theta_val):
    
    x = []

    for _ in range(20):
        x.append(np.random.normal(loc=theta_val, scale=np.sqrt(2)))

    return x

true_x = p_theta_x(theta_true)

print(f"L'échantillon d'observation x de taille 20 sur lequel on travaillera tiré est \n \n {true_x}")

L'échantillon d'observation x de taille 20 sur lequel on travaillera tiré est 
 
 [-2.4052121200628735, 0.37450273337412976, 0.9247335347794325, 1.1477034354203146, -0.34118039489226293, 0.1683531855089254, -1.2250193070040185, 0.649100018770537, 0.8469294333443553, 1.7308803314003116, -1.2853273172053705, 1.5598099171630355, -0.16383453177779198, -1.8598140104955185, 0.39162582059194745, 0.7442261503219626, -1.3534540382193887, 2.1516291586871983, -0.9766970385255586, -1.2778861694380654]


### <span style="color:violet">  1.4. **Adaptation de l'itération avec des estimation du gradient**  </span>

 l'idée est désormais d'adapter l'étape itérative décrite précédemment. Dans le cas où celle-ci est mise à jour à partir d'une estimation du gradient. On notera $\hat{\nabla}^{\text{SUMO}}_{\theta}, \hat{\nabla}^{\text{ML-SS}}_{\theta}, \hat{\nabla}^{\text{ML-RR}}_{\theta}$ et $\hat{\nabla}^{\text{IWAE}}_{\theta}$ l'estimateur du gradient selon les quatre méthodes sur lesquels repose nous travail (SUMO, ML_SS, ML_RR et IWAE).

**Itération** : Par exemple, en utilisant l'estimateur du gradient avec la méthode SUMO, on a l'itération $t$ du paramètres $\theta$ donnée, en utilisant un échantillon aléatoire de données $x^{(i)}$ (donc pour $i \in \{1, ..., 20\}$) tiré de l'ensemble de données : 
\begin{equation}
\theta^{(t+1)} = \theta^{(t)} - \eta \hat{\nabla}^{\text{SUMO}}_{\theta} (x^{(i)}),
\end{equation} 

A MODIFIER (?)

### <span style="color:violet">  1.4. **Étape itérative avec des estimation du gradient**  </span>

In [5]:
def SGD_iteration_tom(true_x, sum_log, position, theta_t, eta, r, k_IWAE, n_simulations, method):

    #modified_x = true_x[position]

    ## on recalcule noised_A et noised_b SELON LE PARAMÈTRE PRÉCÉDENT theta_t
    #A, b = np.eye(20), (theta_t/2)*np.ones(20)
    #noised_A, noised_b = Code.noised_params(A, b)
    
    A, b = np.eye(2), (theta_t/2)*np.ones(2)
    noised_A, noised_b = Code.noised_params(A, b, dim=2)

    if method == 'IWAE':
        ## on calcule le gradient selon l'estimateur donné dans method
        grad_theta_t = Code.grad_IWAE(true_x, noised_A, noised_b, float(theta_t), k_IWAE, n_simulations, dim = 2, one_shot=True)

    elif method == 'SUMO':
        ## on calcule le gradient selon l'estimateur donné dans method
        grad_theta_t = Code.grad_SUMO(r, true_x, noised_A, noised_b, float(theta_t), n_simulations, dim = 2, one_shot=True)

    elif method == 'ML_SS':
        ## on calcule le gradient selon l'estimateur donné dans method
        grad_theta_t = Code.grad_ML_SS(r, true_x, noised_A, noised_b, float(theta_t), n_simulations, dim = 2, one_shot=True)

    elif method == 'ML_RR':
        ## on calcule le gradient selon l'estimateur donné dans method
        grad_theta_t = Code.grad_ML_RR(r, true_x, noised_A, noised_b, float(theta_t), n_simulations, dim = 2, one_shot=True)

     ## On prend le ième terme de notre somme et cela sera celui-ci que l'on dérive à cette itération
    sum_log[position] = grad_theta_t

    theta_next =  theta_t + eta * sum(sum_log)/len(sum_log) ## ON est sur du gradient ascent

    return theta_next, sum_log

Une fois le code pour les itération fini, on s'attaque à la convergence de l'algorithme de descendre de gradient stochastique rien

In [6]:
def SGD_convergence(theta_0, true_x, eps, eta, r, k_IWAE, n_simulations, method):
    
    ## On initialise la somme des log pour chaque i
    sum_log = []

    if method == 'IWAE':
        
        for i in range(10) : 
            sum_log.append(Code.grad_IWAE([true_x[2*i], true_x[2*i+1]], np.eye(2), (theta_0/2)*np.ones(2), theta_0, k_IWAE, n_simulations, dim = 2, one_shot=True, range=1))

    elif method == 'SUMO':

        for i in range(10) : 
            sum_log.append(Code.grad_SUMO(r, [true_x[2*i], true_x[2*i+1]], np.eye(2), (theta_0/2)*np.ones(2), theta_0, n_simulations, dim = 2, one_shot=True, range=1))

    elif method == 'ML_SS':

        for i in range(10) : 
            sum_log.append(Code.grad_ML_SS(r, [true_x[2*i], true_x[2*i+1]], np.eye(2), (theta_0/2)*np.ones(2), theta_0, n_simulations, dim = 2, one_shot=True, range=1))
    
    elif method == 'ML_RR':

        for i in range(10):
            sum_log.append(Code.grad_ML_RR(r, [true_x[2*i], true_x[2*i+1]], np.eye(2), (theta_0/2)*np.ones(2), theta_0, n_simulations, dim = 2, one_shot=True, range=1))

    #print(f" voici la sommelog {sum_log}")

    theta_t = [0, theta_0]
    #theta_t.append(SGD_iteration_tom(true_x[], sum_log, 0, theta_0, eta, r, k_IWAE, n_simulations, method)[0])
    t = 1
    #while abs(theta_t[t] - theta_t[t-1]) > eps:
    while abs(theta_t[t] - theta_true) > eps:
        
        ## peut-être que l'on peut inverser les deux boucles cela ferait plus de sens mais c'est pour voir si ça s'arrête

        for i in range(10):
            
            theta_next, sum_log = SGD_iteration_tom([true_x[2*i], true_x[2*i+1]], sum_log, i, theta_t[t], eta, r, k_IWAE, n_simulations, method)
            
            theta_t.append(theta_next)
            #print(theta_next)
            if abs(theta_next - theta_true) < eps:
                return theta_t
            else : 
                t += 1

    return theta_t

In [7]:
theta_0 = -3
#eta = 0.0001
#eps = 0.001
eta = 0.1
eps = 0.01
r = 0.6
k_IWAE = 5
n_simulations = 2

methodes = ['IWAE', 'SUMO', 'ML_SS', 'ML_RR']
SGD_conv = [[], [], [], []]

for method in methodes : 

    SGD_conv[methodes.index(method)] = SGD_convergence(theta_0, true_x, eps, eta, r, k_IWAE, n_simulations, method)

In [15]:
def plot_convergence(convergence_values, theta_true):
    """
    Trace la convergence des points vers la valeur du vrai paramètre.

    Args:
    - convergence_values (list or numpy array): Liste des valeurs de convergence de l'algorithme.
    - theta_true (float): Valeur vraie du paramètre.

    """
    num_iterations = max(len(convergence_values[i]) for i in range(4))  # Nombre d'itérations
    iterations = np.arange(1, num_iterations + 1)  # Numéro des itérations

    # Création de la figure
    fig = go.Figure()

    for i, conv_values in enumerate(convergence_values):
        fig.add_trace(go.Scatter(x=iterations, y=conv_values, mode='markers', name=methodes[i], marker=dict(color=['purple', 'orange', 'green', 'yellow'][i], symbol='x')))
    
    fig.add_shape(type='line', x0 = iterations, x1 = iterations, y0=theta_true, y1 = theta_true, line=dict(color='black', dash='dash'))

    
    # Mise en forme de la figure
    fig.update_layout(
        xaxis=dict(title="Nombre d'itérations"),
        yaxis=dict(title='Valeur de convergence'),
        title=f'Comparaison de la convergence de la SGD avec les différents estimateurs du gradient',
        legend=dict(x=0, y=1, traceorder='normal', font=dict(size=12)),
        showlegend=True
    )

    # Affichage de la figure
    fig.show()


In [16]:
plot_convergence(SGD_conv, theta_true)

La descente de gradient stochastique (SGD) est un algorithme d'optimisation largement utilisé pour estimer les paramètres d'un modèle probabiliste par maximum de vraisemblance. L'algorithme fonctionne de la manière suivante :

1. Choisir un point initial $ \theta_0 $ dans l'espace des paramètres.
2. Itération jusqu'à convergence :
2.1. Échantillonnage stochastique : Sélectionner aléatoirement un échantillon $(x_i, y_i)$ parmi les données d'entraînement.
2.2. Calcul du gradient : Calculer le gradient de la fonction de perte par rapport aux paramètres du modèle en utilisant l'échantillon sélectionné : $ \nabla_{\theta} \mathcal{L}(\theta; x_i, y_i) $.
2.3. Mise à jour des paramètres : Mettre à jour les paramètres du modèle en utilisant le gradient calculé et un taux d'apprentissage $ \eta $ : $ \theta_{t+1} = \theta_t - \eta \nabla_{\theta} \mathcal{L}(\theta_t; x_i, y_i) $.


\textbf{Remarques :}
\begin{itemize}
    \item Le terme "stochastique" vient du fait que le gradient est calculé sur un seul échantillon à la fois, ce qui rend l'algorithme adapté aux grands ensembles de données.
    \item Le choix du taux d'apprentissage \( \eta \) est crucial ; un taux d'apprentissage trop grand peut entraîner des oscillations et une convergence instable, tandis qu'un taux d'apprentissage trop petit peut ralentir la convergence.
    \item La convergence de l'algorithme dépend de plusieurs facteurs, notamment du choix du taux d'apprentissage, de la fonction de perte utilisée et de la nature de l'ensemble de données.
\end{itemize}

