# Optimisation d'un modèle automatique étape par étape
___

Dans ce cours, nous verrons un autre exemple concret sur comment optimiser un modèle automatiquement par descente de gradient avec le package Autograd de PyTorch. Cet exemple sera aussi sur un modèle de régression linéaire.
Ce cours est séparé en 4 étapes distinctes :

    - Étape 1 : Implémentation manuelle. Dans la première étape, nous allons implémenter le modèle de régression linéaire dans Python.
            Prediction : Manuel
            Calcul de gradient : Manuel
            Calcul du regret : Manuel
            Mise à jour des paramètres : Manuel
    
    - Étape 2 : Nous allons voir comment automatiser la descente de gradient via le package Autograd de PyTorch
            Prediction : Manuel
            Calcul de gradient : Autograd
            Calcul du regret : Manuel
            Mise à jour des paramètres : Manuel
            
    - Étape 3 : Nous allons voir comment automatiser ensuite le calcul du regret L et la mise à jour des paramètres avec PyTorch
            Prediction : Manuel
            Calcul de gradient : Autograd
            Calcul du regret : PyTorch Loss
            Mise à jour des paramètres : PyTorch Optimizer
            
    - Étape 4 : Nous allons implémenter un modèle de régression linéaire fourni par PyTorch 
            Prediction : PyTorch Model
            Calcul de gradient : Autograd
            Calcul du regret : PyTorch Loss
            Mise à jour des paramètres : PyTorch Optimizer
            
## Étape 1 : Implémentation manuelle

Nous allons utiliser uniquement la librairie Numpy pour cette étape.

In [24]:
import numpy as np

In [25]:
X = np.array([1, 2, 3, 4], dtype=np.float32)
Y = np.array([2, 4, 6, 8], dtype=np.float32)

In [26]:
w = 0.0

In [27]:
# Prédiction de modèle

def avant(x):
    return w * x

In [28]:
# Calcul du regret : Erreur quadratique moyenne de la régression linéaire

def regret(y, y_predit):
    return ((y_predit-y)**2).mean()

In [29]:
# Calcul de gradient : EQM = 1/N * (w*x - y)²
# dL/dw = 1/N * 2x * (w*x - y)

def gradient(x, y, y_predit):
    return np.dot(2*x, y_predit-y).mean()

In [30]:
print(f'Prédiction avant apprentissage : f(5) = {avant(5):.3f}')

# Apprentissage 

learning_rate = 0.01
n_iters = 20

for i in range(n_iters):
    # Prédiction = lecture avant
    y_pred = avant(X)
    
    # Regret 
    L = regret(Y, y_pred)
    
    # Gradients
    dw = gradient(X, Y, y_pred)
    
    # Mise à jour des paramètres
    w -= learning_rate * dw
    
    if i % 1 ==0:
        print(f'{i+1}: w = {w:.3f}, regret = {L:.8f}')

print(f'Prédiction après apprentissage : f(5) = {avant(5):.3f}')

Prédiction avant apprentissage : f(5) = 0.000
1: w = 1.200, regret = 30.00000000
2: w = 1.680, regret = 4.79999924
3: w = 1.872, regret = 0.76800019
4: w = 1.949, regret = 0.12288000
5: w = 1.980, regret = 0.01966083
6: w = 1.992, regret = 0.00314570
7: w = 1.997, regret = 0.00050332
8: w = 1.999, regret = 0.00008053
9: w = 1.999, regret = 0.00001288
10: w = 2.000, regret = 0.00000206
11: w = 2.000, regret = 0.00000033
12: w = 2.000, regret = 0.00000005
13: w = 2.000, regret = 0.00000001
14: w = 2.000, regret = 0.00000000
15: w = 2.000, regret = 0.00000000
16: w = 2.000, regret = 0.00000000
17: w = 2.000, regret = 0.00000000
18: w = 2.000, regret = 0.00000000
19: w = 2.000, regret = 0.00000000
20: w = 2.000, regret = 0.00000000
Prédiction après apprentissage : f(5) = 10.000


Avant l'apprentissage, on voit que la prédiction de f(5) est de 0, ce qui est normal car _w0_ = 0. Lors de l'apprentissage, on voit que _w_ tend vers 2 et que le regret _L_ tend vers 0, ce qui est tout à fait ce que nous attendons car _Y = 2X_ et on veut minimiser L. On remarque aussi que la prédiction après apprentissage est de 10. Cette méthode d'apprentissage manuelle est donc efficace et marche correctement, mais elle est assez lourde à mettre en place si on prend un modèle plus conséquent. 

## Etape 2 : Descente de gradient automatique

Cette fois-ci nous n'utilisons par Numpy mais la librairie PyTorch

In [75]:
import torch

In [76]:
X = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
Y = torch.tensor([2, 4, 6, 8], dtype=torch.float32)

In [77]:
w = torch.tensor(0.0, dtype=torch.float32, requires_grad=True)

In [78]:
# Prédiction de modèle

def avant(x):
    return w * x

In [79]:
# Calcul du regret : Erreur quadratique moyenne de la régression linéaire

def regret(y, y_predit):
    return ((y_predit-y)**2).mean()

In [80]:
print(f'Prédiction avant apprentissage : f(5) = {avant(5):.3f}')

# Apprentissage 

learning_rate = 0.01
n_iters = 71

for i in range(n_iters):
    # Prédiction = lecture avant
    y_pred = avant(X)
    
    # Regret 
    L = regret(Y, y_pred)
    
    # Gradients = rétropropagation
    L.backward() # dL/dw
    
    # Mise à jour des paramètres
    with torch.no_grad():
        w -= learning_rate * w.grad
        
    # Vider le gradient
    w.grad.zero_()
    
    if i % 7 == 0:
        print(f'{i+1}: w = {w:.3f}, regret = {L:.8f}')

print(f'Prédiction après apprentissage : f(5) = {avant(5):.3f}')

Prédiction avant apprentissage : f(5) = 0.000
1: w = 0.300, regret = 30.00000000
8: w = 1.455, regret = 3.08308983
15: w = 1.825, regret = 0.31684780
22: w = 1.944, regret = 0.03256231
29: w = 1.982, regret = 0.00334642
36: w = 1.994, regret = 0.00034392
43: w = 1.998, regret = 0.00003534
50: w = 1.999, regret = 0.00000363
57: w = 2.000, regret = 0.00000037
64: w = 2.000, regret = 0.00000004
71: w = 2.000, regret = 0.00000000
Prédiction après apprentissage : f(5) = 10.000


Avec Autograd, on remarque que l'apprentissage demande plus d'itérations que manuellement, et cela est dû au fait que la rétropropagation n'effectue pas le même calcul que nous avons fait précédemment. 

## Étape 3 : Automatisation de l'optimisation et du calcul de L

Ici, nous allons importer en plus de la librarie PyTorch son module de réseau de neurones "nn".

In [85]:
import torch
import torch.nn as nn

In [86]:
X = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
Y = torch.tensor([2, 4, 6, 8], dtype=torch.float32)

In [87]:
w = torch.tensor(0.0, dtype=torch.float32, requires_grad=True)

In [88]:
# Prédiction de modèle

def avant(x):
    return w * x

In [89]:
print(f'Prédiction avant apprentissage : f(5) = {avant(5):.3f}')

# Apprentissage 

learning_rate = 0.01
n_iters = 71

regret = nn.MSELoss() # MSE = EQM
optimizer = torch.optim.SGD([w], lr=learning_rate)

for i in range(n_iters):
    # Prédiction = lecture avant
    y_pred = avant(X)
    
    # Regret 
    L = regret(Y, y_pred)
    
    # Gradients = rétropropagation
    L.backward() # dL/dw
    
    # Mise à jour des paramètres
    optimizer.step()
        
    # Vider le gradient
    optimizer.zero_grad()
    
    if i % 7 == 0:
        print(f'{i+1}: w = {w:.3f}, regret = {L:.8f}')

print(f'Prédiction après apprentissage : f(5) = {avant(5):.3f}')

Prédiction avant apprentissage : f(5) = 0.000
1: w = 0.300, regret = 30.00000000
8: w = 1.455, regret = 3.08308983
15: w = 1.825, regret = 0.31684780
22: w = 1.944, regret = 0.03256231
29: w = 1.982, regret = 0.00334642
36: w = 1.994, regret = 0.00034392
43: w = 1.998, regret = 0.00003534
50: w = 1.999, regret = 0.00000363
57: w = 2.000, regret = 0.00000037
64: w = 2.000, regret = 0.00000004
71: w = 2.000, regret = 0.00000000
Prédiction après apprentissage : f(5) = 10.000


## Étape 4 : Prédiction par un modèle PyTorch

Ici, nous n'avons pas besoin d'implémenter manuellement _w_ ni la prédiction du modèle, on utilise la libraire PyTorch et ses modèles.

In [134]:
import torch
import torch.nn as nn

In [135]:
X_train = torch.tensor([[1], [2], [3], [4]], dtype=torch.float32)
Y_train = torch.tensor([[2], [4], [6], [8]], dtype=torch.float32)

X_test = torch.tensor([5], dtype=torch.float32)

In [136]:
n_samples, n_features = X_train.shape

In [137]:
input_size = n_features
output_size = n_features

In [138]:
model = nn.Linear(input_size, output_size)

In [139]:
print(f'Prédiction avant apprentissage : f(5) = {model(X_test).item():.3f}')

# Apprentissage 

learning_rate = 0.01
n_iters = 1001

regret = nn.MSELoss() # MSE = EQM
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

for i in range(n_iters):
    # Prédiction = lecture avant
    y_pred = model(X_train)
    
    # Regret 
    L = regret(Y, y_pred)
    
    # Gradients = rétropropagation
    L.backward() # dL/dw
    
    # Mise à jour des paramètres
    optimizer.step()
        
    # Vider le gradient
    optimizer.zero_grad()
    
    if i % 100 == 0:
        [w, b] = model.parameters()
        print(f'{i+1}: w = {w[0][0].item():.3f}, regret = {L:.8f}')

print(f'Prédiction après apprentissage : f(5) = {model(X_test).item():.3f}')

Prédiction avant apprentissage : f(5) = 2.834
1: w = 0.611, regret = 13.35665131
101: w = 1.703, regret = 0.12788254
201: w = 1.780, regret = 0.07020593
301: w = 1.837, regret = 0.03854224
401: w = 1.879, regret = 0.02115924
501: w = 1.911, regret = 0.01161615
601: w = 1.934, regret = 0.00637713
701: w = 1.951, regret = 0.00350099
801: w = 1.964, regret = 0.00192199
901: w = 1.973, regret = 0.00105515
1001: w = 1.980, regret = 0.00057926
Prédiction après apprentissage : f(5) = 9.959


Comme l'initialisation est aléatoire et réalisée par PyTorch, notre modèle demande beaucoup plus d'itérations pour pouvoir être "parfait". Mais si jamais PyTorch ne possède pas le modèle que l'on veut, nous pouvons créer nous-même un modèle que PyTorch peut ensuite exploiter.

In [140]:
class LinearRegression(nn.Module):
    
    def __init__(self, input_dim, output_dim):
        super(LinearRegression, self).__init__()
        # On définit les couches
        self.lin = nn.Linear(input_dim, output_dim)
    
    def avant(self, x):
        return self.lin(x)
    
model = LinearRegression(input_size, output_size)

C'est un exemple bateau car le modèle existe déjà mais vous pouvez créer le modèle que vous voulez (si jamais vous héritez des modèles PyTorch)

______

C'est la fin de ce cours, merci d'avoir été attentif, nous nous retrouverons donc au prochain cours pour parler de différents modèles existant dans PyTorch.