# Exercice 2 - Une illustration de la descente de gradient stochastique sur un problème de régression

Comme la classification, on peut formuler un problème de régression par la recherche d'un modèle $f$ paramétré par $\theta$ et qui vérifie $f(\theta, x_i) = y_i$ pour un ensemble d'apprentissage $(x_i, y_i)_{i=1..n}$.
La différence fondamentale entre la régression et la classification est qu'en régression, les $y_i$ sont à valeur dans un espace continu. 

Lorsque l'on travaille sur des données réelles (comme par exemple des images dans le cas de la base de données MNIST), la présence de bruit sur les observations de l'ensemble d'apprentissage font que la relation $f(\theta, x_i) = y_i$ n'est qu'approximativement vérifiée.

Dans ce cas, la régression peut être formulée comme un problème d'optimisation, en minimisant par exemple la fonction objectif suivante :

\begin{equation}
J = \dfrac{1}{n} \displaystyle\sum_{i=1}^n \| y_i - f(\theta, x_i) \|_2^2
\end{equation}

In [None]:
# Inclure les fonction d'affichage "print"
from __future__ import print_function
# Inclure numpy abrégée np
import numpy as np
# Inclure les fonction d'affichage "plot" abrégée plt
from matplotlib import pyplot as plt
# Inclure torch
import torch
# Inclure nn
from torch import nn
# Inclure optim
from torch import optim

# %matplotlib inline

## 1. Régression d'une transformation entre 2 carrés

Pour les besoins de l'exercice, nous allons créer 2 nuages de points, chacun représentant un carré, tels qu'une transformation affine (c'est-à-dire la composition d'une rotation et d'une translation) lie les 2 nuages.

**Définition de la fonction de génération des 2 carrés**

In [None]:
def gen_2squares(n):
    
    # Choisir aléatoirement n angles a en radians entre 0 et 2pi
    a = np.random.rand(n) * 2 * np.pi
    
    # Créer le premier carré
    x = np.vstack((np.cos(a), np.sin(a))) # cercle
    x = x / np.linalg.norm(x, ord=1, axis=0) # division par la norme 1 pour créer un carré "penché" 
    
    # Créer le second carré
    y = np.vstack((np.cos(a + np.pi/4), np.sin(a + np.pi/4))) # cercle dont les points ont tourné de pi/4 car le carré tourne
    y = y / np.linalg.norm(y, ord=np.inf, axis=0) # division par la norme infinie pour avoir un carré "droit"
    y[0] += 3 # translation de 3 suivant les abscisses
    
    # Rajouter du bruit blanc gaussien d'écart-type "sigma_b" aux données
    sigma_b = 0.02
    x += np.random.randn(*x.shape) * sigma_b
    y += np.random.randn(*x.shape) * sigma_b
    
    # Retourner les deux carrés en transposant les tableaux
    return x.T, y.T  

**Génération et affichage des 2 carrés**

In [None]:
# Générer les deux carrés
x, y = gen_2squares(200)

# Afficher les deux carrés
plt.plot(x[:, 0], x[:, 1], '+', label='Carré initial "penché"')
plt.plot(y[:, 0], y[:, 1], '.', label='Carré transformé "droit"')
plt.axis('equal')
plt.legend()
plt.grid()

Les paramètres de la transformation affine peuvent s'écrire dans une matrice de rotation et homothétie de taille 2x2 et un vecteur de translation de taille 1x2. Dans la suite, nous les représentons ensemble dans une matrice 2x3.

**Définition du modèle de la fonction f**

In [None]:
# Modèle f
def f(theta, x):
    return torch.matmul(x, theta[:2, :]) + theta[2, :]

## 2. Descente de gradient sur l'ensemble des données

Lisez et exécutez le code suivant, puis répondez aux questions.

In [None]:
# Convertir les deux carrés en Tensor, en précisant leur type (flottant sur 32 bits)
xt = torch.from_numpy(x.astype('float32'))
yt = torch.from_numpy(y.astype('float32'))

# Initialisation des axes (le premier carré de la boucle est le carré initial)
plt.axis('equal')
plt.grid()

# Initialisation des paramètres théta
theta = torch.tensor([
    [1., 0.], # Matrice de rotation et homothétie
    [0., 1.], 
    [0., 0.]  # Vecteur de translation
])

# Taux d'apprentissage
learning_rate = 0.1

# Nombre maximum d'itérations
it_max = 20;

# Descente de gradient à effectuer "it_max" fois
for it in range(it_max):    
    
    # (R)ajouter la dépendance au gradient à "vrai" pour pouvoir calculer le gradient de J par rapport à théta
    theta.requires_grad = True
    
    # Evaluer la fonction f pour le theta courant
    y_cur = f(theta, xt)
    
    # Calculer la fonction objectif J
    J = ((y_cur - yt) ** 2).sum(1).mean()
    
    # Afficher la valeur de la fonction objectif J à l'itération courante
    # Noter que .item() permet de ne récupérer que la valeur numérique de l'objet J qui est un Tensor 
    # ayant hérité d'une fonction permettant de calculer le gradient par rapport à x
    # Si le Tensor n'est pas pas scalaire, il faut utiliser .detach().numpy() au lieu de .item()
    print('iteration', it, '> J =', "%.5f" % J.item())
      
    # Calculer le gradient de J par rapport à théta
    J.backward()    
    
    # Mettre à jour la solution courante théta
    # Noter que le calcul n'est possible qu'avec des Tensor qui n'ont pas de dépendance comme "requires_grad" par exemple
    # Afin d'enlever le "requires_grad", on le détache de théta avec theta.detach()
    # La sortie théta ici n'a plus de dépendance avec "requires_grad", ce n'est plus qu'un simple Tensor
    theta = theta.detach() - learning_rate * theta.grad
    
    # A FAIRE ---------------------------------------------------------------------
    # Afficher les carrés itérés
    # -----------------------------------------------------------------------------

**Questions :** 

- Quelle erreur essaie-t-on de minimiser ici ?

- Modifiez le code pour faire apparaître l'état du nuage de point à chaque itération

- Faites varier le taux d'apprentissage. Pour quel intervalle de valeurs observe-t-on la convergence ?

- Faites varier la quantité de bruit sur les données ; jusqu'à quel niveau de bruit l'algorithme fonctionne-t-il ?

## 3. Descente de gradient stochastique

En apprentissage profond, on travaille rarement sur l'ensemble des données d'apprentissages mais plutôt sur des sous-ensembles (*mini-batch*) de données, autrement dit la quantité $J = \dfrac{1}{n} \displaystyle\sum_{i=1}^n \| y_i - f(\theta, x_i) \|_2^2$ n'est estimée qu'à partir de quelques éléments de l'ensemble d'apprentissage. 

N.B. On appelle alors un "epoch" le fait d'avoir travaillé une fois sur tout l'ensemble d'apprentissage.

Le code suivant illustre cette pratique :

In [None]:
# Convertir les deux carrés en Tensor, en précisant leur type (flottant sur 32 bits)
xt = torch.from_numpy(x.astype('float32'))
yt = torch.from_numpy(y.astype('float32'))

# Afficher le carré initial
plt.plot(x[:, 0], x[:, 1], '+', label='x')
plt.axis('equal')
plt.grid()

# Initialiser les paramètres théta
theta = torch.tensor([
    [1., 0.], # Matrice de rotation et homothétie
    [0., 1.], 
    [0., 0.]  # Vecteur de translation
])

# Taux d'apprentissage
learning_rate = 0.1

# Nombre maximum d'epochs
epochs = 20

# Taille des sous-ensembles d'apprentissage (mini-batch)
mb_size = 10

# Récupérer le nombre de points des carrés
n = xt.shape[0]

# Descente de gradient à effectuer "epochs" fois
for e in range(epochs):
    
    # Les sous-ensembles sont constitués aléatoirement par permutations des indices
    perm = torch.randperm(n)
    
    # Liste pour garder les fonctions objectifs J des sous-ensembles
    J_vecteur = []
    
    # On effectue la descente sur chacun des sous-ensembles
    for i0 in range(0, n, mb_size):
        
        # Mettre l'option gradient à "vrai" pour pouvoir le calculer
        theta.requires_grad = True
        
        # Rassembler les points du sous-ensemble
        xbatch = xt[perm[i0 : i0 + mb_size]]
        ybatch = yt[perm[i0 : i0 + mb_size]]
    
        # Calculer la fonction objectif J pour le sous-ensemble courant
        y_cur_batch = f(theta, xbatch)
        J = ((y_cur_batch - ybatch) ** 2).sum(1).mean()
        
        # Ajouter la valeur numérique de J dans la liste
        J_vecteur.append(J.item())
            
        # Calculer le gradient de J par rapport à théta
        J.backward()    

        # Mettre à jour la solution courante théta
        # Noter que le calcul n'est possible qu'avec des Tensor qui n'ont pas de dépendance comme "requires_grad" par exemple
        # Afin d'enlever le "requires_grad", on le détache de théta avec theta.detach()
        # La sortie théta ici n'a plus de dépendance avec "requires_grad", ce n'est plus qu'un simple Tensor
        theta = theta.detach() - learning_rate * theta.grad

    # Afficher la moyenne des fonctions objectifs J de tous les sous-ensembles ainsi que de la dernière de chaque epoch
    print('Epoch %d > Jm = %.3f et Jend = %.3f' % (e+1, np.mean(J_vecteur), J_vecteur[-1]))
    
    # A FAIRE ----------------------------------------------------------------------
    # Evaluer la fonction f pour le theta courant pour toutes les données
    
    # Afficher les carrés itérés

    # ------------------------------------------------------------------------------

**Questions**

- Modifiez le code pour faire apparaître l'état du nuage de point pour chaque epoch.

- Que peut-on observer en terme de vitesse de convergence ?

- Testez différentes tailles de sous-ensembles d'apprentissage, et observez l'impact sur la convergence et la vitesse de convergence.

- Augmentez le bruit sur les données (dans le code de génération des carrés) et testez à nouveau plusieurs tailles de sous-ensembles d'apprentissage : qu'observez-vous ?

## 4. Utilisation des objets Module et Optimizer

Le code précédent peut également s'écrire à l'aide de classes fournies dans ce but : 

- l'*optimizer* prend en charge un certain nombre de paramètres (par exemple, des taux d'apprentissage adaptatifs) et les met à jour.

- un *module* est un container qui encapsule un modèle, ici par exemple notre transformation, mais plus tard un réseau de neurones.

**Définition de la classe pour la transformation affine**

In [None]:
class AffineTransform(nn.Module):
    
    # Initialiser le paramètre de la classe :
    # théta est sous la forme d'une matrice A de rotation/homothétie et un vecteur b de translation
    def __init__(self):
        nn.Module.__init__(self)
        self.A = nn.Parameter(
            torch.tensor([
                [1., 0.], 
                [0., 1.]
            ])
        )
        self.b = nn.Parameter(torch.tensor([0., 0.]))

    # Fonction de transformation affine associée à la classe
    def forward(self, x):
        # Appelé quand l'objet est utilisé comme une fonction
        return torch.matmul(x, self.A) + self.b

**Descente de gradient stochastique avec les objets Module et Optimizer**

In [None]:
# Convertir les deux carrés en Tensor, en précisant leur type (flottant sur 32 bits)
xt = torch.from_numpy(x.astype('float32'))
yt = torch.from_numpy(y.astype('float32'))

# Afficher le carré initial
plt.plot(x[:, 0], x[:, 1], '+', label='x')
plt.axis('equal')
plt.grid()

# Initialiser les paramètres de la transformation en instanciant la classe AffineTransform
af = AffineTransform()

# Choisir pour optimiseur le modèle de descente de gradient stochastique
# L'optimiseur gère certains hyperparamètres comme ici le taux d'apprentissage "lr" (learning rate)
optimizer = optim.SGD(af.parameters(), lr=0.1)

# Nombre d'epochs
epochs = 20

# Taille des sous-ensembles d'apprentissage (mini-batch)
mb_size = 10

# Récupérer le nombre de points des carrés
n = xt.shape[0]

for e in range(epochs):        
    
    # Les sous-ensembles sont constitués aléatoirement par permutations des indices
    perm = torch.randperm(n)
    
    # Liste pour garder les fonctions objectifs J des sous-ensembles
    J_vecteur = []
    
    for i0 in range(0, n, mb_size):

        # Remettre à zéro les gradients (sinon ils s'accumulent)
        optimizer.zero_grad()

        # Rassembler les points du sous-ensemble
        xbatch = xt[perm[i0 : i0 + mb_size]]
        ybatch = yt[perm[i0 : i0 + mb_size]]
    
        # Calculer la fonction objectif J pour le sous-ensemble courant
        y_cur_batch = af(xbatch)
        J = ((y_cur_batch - ybatch) ** 2).sum(1).mean()
        
        # Ajouter la valeur numérique de J dans la liste
        J_vecteur.append(J.item())
    
        # Calculer le gradient de J par rapport à théta
        J.backward()    
        
        # Mettre à jour la solution courante théta directement avec l'Optimizer
        optimizer.step()
    
    # Afficher la moyenne des fonctions objectifs J de tous les sous-ensembles ainsi que de la dernière de chaque epoch
    print('Epoch %d > Jm = %.3f et Jend = %.3f' % (e+1, np.mean(J_vecteur), J_vecteur[-1]))
    
    # A FAIRE ---------------------------------------------------------------------
    # Evaluer la fonction af pour le theta courant pour toutes les données
    
    # Afficher les carrés itérés

    # -----------------------------------------------------------------------------