# Séance 1 :  Deep Learning - Introduction à Pytorch 

Les notebooks sont très largement inspirés des cours de **N. Baskiotis et B. Piwowarski**. Ils peuvent être complétés efficacement par les tutoriels *officiels* présents sur le site de pytorch:
https://pytorch.org/tutorials/

Au niveau de la configuration, toutes les installations doivent fonctionner sur Linux et Mac. Pour windows, ça peut marcher avec Anaconda à jour... Mais il est difficile de récupérer les problèmes.

* Aide à la configuration des machines: [lien](https://dac.lip6.fr/master/environnement-deep/)
* Alternative 1 à Windows: installer Ubuntu sous Windows:  [Ubuntu WSL](https://ubuntu.com/wsl)
* Alternative 2: travailler sur Google Colab (il faut un compte gmail + prendre le temps de comprendre comment accéder à des fichers) [Colab](https://colab.research.google.com)

In [1]:
import torch
print("La version de torch est : ",torch.__version__)
print("Le calcul GPU est disponible ? ", torch.cuda.is_available())

# pour les possesseurs de mac M1 avec la dernière version de pytorch:
print("Le calcul GPU est disponible ? ", torch.backends.mps.is_available())

import matplotlib.pyplot as plt
import numpy as np
import sklearn

La version de torch est :  2.1.2
Le calcul GPU est disponible ?  False
Le calcul GPU est disponible ?  True


# A. Autograd et graphe de calcul
Un élément central de pytorch est le graphe de calcul : lors du calcul d'une variable, l'ensemble des opérations qui ont servies au calcul sont stockées sous la forme d'un graphe acyclique, dit de *calcul*. Les noeuds internes du graphe représentent les opérations, le noeud terminal le résultat et les racines les variables d'entrées. Ce graphe sert en particulier à calculer les dérivées partielles de la sortie par rapport aux variables d'entrées - en utilisant les règles de dérivations chainées des fonctions composées. 
Pour cela, toutes les fonctions disponibles dans pytorch comportent un mécanisme, appelé *autograd* (automatique differentiation), qui permet de calculer les dérivées partielles des opérations. 

## A.1. Différenciation automatique
(De manière simplifiée, pour les détails cf [la documentation](https://pytorch.org/docs/stable/notes/extending.html))

Toute opération sous pytorch hérite de la classe **Function** et doit définir :
* une méthode **forward(\*args)** : passe avant, calcule le résultat de la fonction appliquée aux arguments 
* une méthode **backward(\*args)** : passe arrière, calcule les dérivées partielles par rapport aux entrées. Les arguments de  cette méthode correspondent aux valeurs des dérivées suivantes dans le graphe de calcul. En particulier, il y a autant d'arguments à **backward**  que de sorties pour la méthode **forward** (rétro-propagation : on doit connaître les dérivés qui viennent  en aval du calcul) et autant de sorties que d'arguments dans la méthode **forward** (chaque sortie correspond à  une dérivée partielle par rapport à chaque entrée du module). Le calcul se fait sur les valeurs du dernier appel de **forward**. 

Par exemple, pour la fonction d'addition  **add(x,y)**, **add.forward(x,y)** renverra **x+y** (l'appel de la fonction est équivalent à l'appel de **forward**) et **add.backward(1)** renverra le couple **(1,1)** (la dérivée par rapport à x, et celle par rapport à y) .

En pratique, ce ne sont pas les méthodes de ces fonctions qui sont utilisées, mais des méthodes équivalentes sur les tenseurs. La méthode **backward** d'un tenseur permet de rétro-propager le calcul du gradient sur toutes les variables qui ont servies à son calcul.

La valeur du gradient pour chaque dérivée partielle se trouve dans l'attribut **grad** de la variable concernée. 

Comme c'est un mécanisme lourd, l'autograd n'est pas activé par défaut pour une variable. Afin de l'activer, il faut mettre le flag **requires_grad** de cette variable à vrai. Dès lors, tout calcul qui utilise cette variable sera enregistré dans le graphe de calcul et le gradient sera disponible.


Exemple : 

In [2]:
a = torch.tensor(1.)
# Par défaut, requires_grad est à False
print("Graphe de calcul ? ",a.requires_grad)
# On peut demander à ce que le graphe de calcul soit retenu
a.requires_grad = True 
# Ou lors de la création du tenseur directement
b = torch.tensor(2.,requires_grad=True)
z = 2*a + b
# Calcul des dérivées partielles par rapport à z
z.backward()
print("Dérivée de z/a : ", a.grad.item()," z/b :", b.grad.item())


Graphe de calcul ?  False
Dérivée de z/a :  2.0  z/b : 1.0


In [None]:

# Si on a oublié de demander le graphe de calcul :
a, b = torch.tensor(1.),torch.tensor(2.)
z = 2*a+b
try: # on sait que ça va provoquer une erreur
  z.backward()
except Exception as e: # erreur => simple message
  print("Erreur : ", e)

## A.2.  <span style="color:red">     Exo : </span> Utilisation de backward     
* Implémentez (en une ligne) la fonction de coût aux moindres carrés $MSE(\hat{y},y)=\frac{1}{2N} \sum_{i=1}^N\|\hat{y_i}-y_i\|^2$ où $\hat{y},y$ sont deux matrices de taille $N\times d$, et $y_i,\hat{y_i}$ les $i$-èmes vecteurs lignes des matrices.
* Engendrez **y,yhat** deux matrices aléatoires de taille $(1,5)$.
* Calculez **MSE(y,yhat)**
* Calculez à la main le gradient de **MSE** par rapport à **y**, **yhat**
* Calculez grâce à pytorch le gradient de **MSE** par rapport à **y** et **yhat** et vérifier le résultat.
* Appelez une deuxième fois **MSE** sur les mêmes vecteurs et la méthode **backward**. Qu'observez vous pour le gradient ? Comment l'expliquez vous ?

In [None]:
def MSE(yhat,y): # sur des vecteurs
    # Compléter la fonction 
    ## <CORRECTION>
    return ((yhat-y)**2).sum()/(2*yhat.size(0))
    ## </CORRECTION>
    pass

y = torch.randn(1,5,requires_grad=True)
yhat = torch.randn(1,5,requires_grad=True)
mse = MSE(yhat,y)
print("MSE :" ,mse)

# 1. retro-propager l'erreur
# 2. afficher le gradient sur les deux vecteurs et comprendre ce qui se passe
# 3. faire une itération supplémentaire et afficher de nouveau

## <CORRECTION>
mse.backward()
print(f"Dérivée MSE/y \t\t {y.grad},\nDérivée MSE/yhat \t {yhat.grad}, \nmanuellement/yhat \t {2*(yhat-y)}")
print('==== ITERATION 2 ====')
mse = MSE(yhat,y)
mse.backward()
print(f"Dérivée MSE/y \t\t {y.grad},\nDérivée MSE/yhat  \t {yhat.grad},\nmanuellement/yhat \t {2*(yhat-y)}")
## On n'a pas remis à zero le gradient, le gradient s'accumule dans .grad
## </CORRECTION>

## Pour une compréhension du gradient en mode graphique

Soit les points `A` et `B` de coordonnées respective $(1, 2)$ et $(4, 4)$. Si je construis une fonction qui minimise la distance entre $A$ et $B$ et que je calcule les gradients, j'obtiens des **directions** qu permettent de rapprocher les points:

In [None]:
A = torch.tensor([1.,2], requires_grad=True)
B = torch.tensor([4.,4], requires_grad=True)

C = ((A-B)**2).sum()
C.backward()

with torch.no_grad():
    # en version graphique:
    plt.figure()
    plt.grid()
    plt.scatter(A[0],A[1], s=100)
    plt.scatter(B[0],B[1], s=100)
    plt.quiver(A[0],A[1],-A.grad[0],-A.grad[1])
    plt.quiver(B[0],B[1],-B.grad[0],-B.grad[1])

## Retour sur la régression polynomiale

Soit un ensemble de points de $\mathbb R^2$, $\{A, B, C, D\}$. Construire la fonction $y=a x^4 + b x^3, + c x^2 + d x + e$ passant par tous les points.

In [None]:
A = torch.tensor([[1.,2]]) # tensor 2D pour pouvoir les concaténer
B = torch.tensor([[2.,3]])
C = torch.tensor([[3.,0]])
D = torch.tensor([[4.,2]])

# 1. Regrouper les points dans X
# Faut-il activer le gradient sur ces points

# <CORRECTION>
X = torch.cat((A, B, C, D), dim=0)
print(X)
# </CORRECTION>

# validation
with torch.no_grad():
    plt.figure()
    plt.grid()
    plt.scatter(X[:,0], X[:,1])


In [None]:
# 2. Construire la fonction de prediction et la fonction de cout
# a) initialiser les coefficients a, b, c, d aléatoirement (randn)
#       - faut-il activer le gradient sur ces coeffcients?
# b) définir yhat = 
# c) définir cost = 

torch.manual_seed(42)

# <CORRECTION>
a = torch.randn(1, requires_grad=True)
b = torch.randn(1, requires_grad=True)
c = torch.randn(1, requires_grad=True)
d = torch.randn(1, requires_grad=True)
yhat = a * X[:,0]**4 + b * X[:,0]**3 + c * X[:,0]**2 + d* X[:,0]+e

cost = ((yhat - X[:,1])**2).mean()
# </CORRECTION>

In [None]:
# 3. Affichage de ce régresseur (qui est aléatoire pour le moment)

N = 100 # 100 points
x = torch.linspace(0,5,N)
y = a * x**4 + b * x**3 + c * x**2 + d *x +e

with torch.no_grad():   
    print(a, b, c, d, e)
    plt.figure()
    plt.grid()
    plt.scatter(X[:,0], X[:,1])
    plt.plot(x,y, 'r--')


In [None]:
# optimisation
niter = 30000
eps = 1e-3

for i in range(niter):
    # définition de l'esptimateur et du cout: cost
    # <CORRECTION>
    yhat = a * X[:,0]**3 + b * X[:,0]**2 + c * X[:,0] + d
    cost = ((yhat - X[:,1])**2).mean()
    # </CORRECTION>
    cost.backward()
    # mise à jour des paramètres
    with torch.no_grad():
        a -=  0.05* eps * a.grad
        b -=  2  * eps * b.grad
        c -=  10 * eps * c.grad
        d -=  10 * eps * d.grad
        
    # penser à remettre les gradients à 0
    a.grad.zero_()
    b.grad.zero_()
    c.grad.zero_()
    d.grad.zero_()
    

In [None]:
# affichage du résultat
y = a * x**3 + b * x**2 + c * x + d 

with torch.no_grad():   
    print(a, b, c, d)
    plt.figure()
    plt.grid()
    plt.scatter(X[:,0], X[:,1])
    plt.plot(x,y, 'r--')

In [None]:
# Solution analytique
# comparons les performances et le temps de calcul
# SGD = le 4x4 de l'optimisation... Pas forcément la meilleure solution !

X0 = X[:,0].view(-1,1)
X1 = X[:,1].view(-1,1)
X2 = torch.cat(( X0**3, X0**2, X0, torch.ones(X0.size())), dim=1)
print(X2)
w = torch.inverse(X2.T@X2) @ X2.T @ X1

a=w[0]
b=w[1]
c=w[2]
d=w[3]
# e=w[4]

# affichage du résultat
y = a * x**3 + b * x**2 + c * x + d 

with torch.no_grad():   
    print(a, b, c, d, e)
    plt.figure()
    plt.grid()
    plt.scatter(X[:,0], X[:,1])
    plt.plot(x,y, 'r--')


## A.3. <span style="color:red">  Exo : </span>  Régression linéaire en pytorch 

* Définissez la fonction **flineaire(x,w,b)** fonction linéaire qui calcule $f(x,w,b)=x.w^t+b$  avec $x\in \mathbb{R}^{{n\times d}},~w\in\mathbb{R}^{1,d}, b\in \mathbb{R}$
* Complétez le code ci-dessous pour réaliser une descente de gradient et apprendre les paramètres optimaux de la regression linéaire : $$w^∗,b^∗=\text{argmin}_{w,b}\frac{1}{N} \sum_{i=1}^N \|f(x^i,w,b)-y^i\|^2$$

Pour tester votre code, utilisez le jeu de données très classique *housing*, le prix des loyers à housing en fonction de caractéristiques socio-économiques des quartiers. Le code ci-dessous permet de les charger.

<span style="color:red"> ATTENTION ! </span>
* pour la mise-à-jour des paramètres, <span style="color:red">vous ne pouvez pas faire directement</span> 
$$w = w-\epsilon*gradient$$ 
(pourquoi ?). Vous devez passer par w.data qui permet de ne pas enregistrer les opérations dans le graphe de calcul (ou utiliser la méthode ```.detach()``` d'une variable qui permet de créer une copie détachée du graphe de calcul). 
* Note: il est aussi possible de faire:
    ```
    with torch.no_grad():
        w -= eps*gradient
    ```
    * Désactivation temporaire du graph de calcul, on manipule les tensors comme des variables classiques
    * ATTENTION à faire des ```-=``` ou ```+=``` => Si vous construisez un nouveau tenseur, il ne se reconnectera pas au graphe de calcul!
* l'algorithme doit converger avec la valeur de epsilon fixée; si ce n'est pas le cas, il y a une erreur (la plupart du temps au niveau du calcul du coût).


In [None]:
def flineaire(x,w,b):
    ## <CORRECTION>
    return (x @ w.T)+b
    ## </CORRECTION>
    pass

## Chargement des données housing (depuis sklearn) et transformation en tensor.
# from sklearn.datasets import load_housing # => removed
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
housing = fetch_california_housing(data_home="./data/") ## chargement des données

# séparation des ensembles de données
X_train, X_test, y_train, y_test = train_test_split( housing['data'], housing['target'],
                                                                 test_size=0.33, random_state=42)

housing_x = torch.tensor(X_train ,dtype=torch.float) # penser à typer les données pour éliminer les incertitudes
housing_y = torch.tensor(y_train,dtype=torch.float)
housing_xT = torch.tensor(X_test,dtype=torch.float) # penser à typer les données pour éliminer les incertitudes
housing_yT = torch.tensor(y_test,dtype=torch.float)

print("Nombre d'exemples : ",housing_x.size(0), "Dimension : ",housing_x.size(1))
print("Nom des attributs : ", ", ".join(housing['feature_names']))

print(housing_x[:5])


In [None]:

EPOCHS = 5000
EPS = 1e-7 # que se passe-t-il lorsqu'on joue avec EPS?

# initialisation aléatoire de w et b
w = torch.randn(1,housing_x.size(1),requires_grad=True)
b =  torch.randn(1,1,requires_grad=True)
loss_h = [] # sauvegarde des valeurs de loss (pas si trivial!)

# boucle de descente de gradient
for i in range(EPOCHS):
    pass
    ## SOLUTION 1: Penser à aller chercher w.data (et sa contrepartie dans le gradient)
    # 1. Construire la loss (+stocker la valeur dans loss_h)
    # 2. Retro-propager
    # 3. MAJ des paramètres
    # 4. Penser à remettre le gradient à 0 (cf exo précédent)
    ## <CORRECTION>
    loss =  MSE(flineaire(housing_x,w,b).view(-1,1),housing_y.view(-1,1))
    loss_h.append(loss.detach().numpy()) # pas si facile de revenir en numpy lorsque la structure calcul un gradient
    if i % 100==0:  print(f"iteration : {i}, loss : {loss}")
    #calcul du gradient
    loss.backward()
    # Maj des paramètres (à la main)
    w.data = w.data-EPS*w.grad.data # les variables sont divisées en data|grad.data
    b.data = b.data-EPS*b.grad.data
    # annulation du gradient (pour éviter l'accumulation d'une itération à l'autre)
    w.grad.data.zero_() # fonction en _ pour le inplace
    b.grad.data.zero_()
    ## </CORRECTION>

In [None]:
# une seconde version du même code avec l'environnement torch.no_grad()
# attention, dans ce cas, le += est obligatoire
# code identique (juste changer les 2 lignes de MAJ)

EPOCHS = 5000
EPS = 1e-7
#initialisation aléatoire de w et b
w = torch.randn(1,housing_x.size(1),requires_grad=True)
b =  torch.randn(1,1,requires_grad=True)
loss_h = [] # sauvegarde des valeurs de loss (pas si trivial!)
for i in range(EPOCHS):
    pass
    ## SOLUTION 2: avec torch.no_grad() [toutes les lignes sont identiques, sauf les 2 lignes de MAJ des paramètres]
    ## <CORRECTION>
    loss =  MSE(flineaire(housing_x,w,b).view(-1,1),housing_y.view(-1,1))
    loss_h.append(loss.detach().numpy()) # pas si facile de revenir en numpy lorsque la structure calcul un gradient
    if i % 100==0:  print(f"iteration : {i}, loss : {loss}")
    #calcul du gradient
    loss.backward()
    # Maj des paramètres (à la main)
    with torch.no_grad():
        w += -EPS*w.grad
        b += -EPS*b.grad
    # annulation du gradient (pour éviter l'accumulation d'une itération à l'autre)
    w.grad.data.zero_() # fonction en _ pour le inplace
    b.grad.data.zero_()
    ## </CORRECTION>

In [None]:
# affichage de l'optimisation
plt.figure()
plt.plot(loss_h)
plt.xlabel("epochs")
plt.ylabel("mse loss")


## Optimiseur 
La descente de gradient représente en fait un code standard puisque les dérivées sont calculées automatiquement et que les variables sont idéntifiées.
Pytorch inclut une classe très utile pour la descente de gradient, [torch.optim](https://pytorch.org/docs/stable/optim.html), qui permet :
* d'économiser quelques lignes de codes
* d'automatiser la mise-à-jour des paramètres 
* d'abstraire le type de descente de gradient utilisé (sgd,adam, rmsprop, ...)

Une liste de paramètres à optimiser est passée à l'optimiseur lors de l'initialisation. La méthode **zero_grad()** permet de remettre le gradient à zéro et la méthode **step()** permet de faire une mise-à-jour des paramètres.

Un exemple de code  utilisant l'optimiseur est donné ci-dessous. Testez et comparez les résultats.


In [None]:
Xdim = housing_x.size(1)

w = torch.randn(1,Xdim,dtype=torch.float,requires_grad=True)
b = torch.randn(1,dtype=torch.float,requires_grad=True)

## on optimise selon w et b.  lr est le pas du gradient
optim = torch.optim.SGD(params=[w,b],lr=EPS) 
for i in range(EPOCHS):
  loss = MSE(flineaire(housing_x,w,b).view(-1,1),housing_y.view(-1,1))
  optim.zero_grad()
  loss.backward()
  optim.step()  
  if i % 100==0:  print(f"iteration : {i}, loss : {loss}")


## Mise en perspective

Les résultats obtenus sont-ils bons??

- comparaison avec un modèle naif = prédiction de la moyenne
- comparaison avec un modèle linéaire
- comparaison avec une forêt aléatoire

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import GradientBoostingRegressor

# modele moyen
err = mean_squared_error(y_test, y_test.mean()*np.ones(y_test.shape))
print("err / moyenne : ", err)

# modèle linéaire
mod = LinearRegression()
mod.fit(X_train,y_train)
yhat = mod.predict(X_test)
err = mean_squared_error(y_test, yhat)
print("err / lin : ", err)

# gradient boosting
mod = GradientBoostingRegressor()
mod.fit(X_train,y_train)
yhat = mod.predict(X_test)
err = mean_squared_error(y_test, yhat)
print("err / grad boost : ", err)

Quelques propositions rapides pour être moins ridicule !

In [None]:
Xdim = housing_x.size(1)

w = torch.randn(1,Xdim,dtype=torch.float,requires_grad=True)
b = torch.randn(1,dtype=torch.float,requires_grad=True)
with torch.no_grad(): # adoucir l'initialisation => optimisation plus facile
  w*=0.1
  b*=0.1

## on optimise selon w et b.  lr est le pas du gradient
# optim = torch.optim.SGD(params=[w,b],lr=EPS) 
optim = torch.optim.Adam(params=[w,b],lr=1e-3) # un peu plus efficace
for i in range(EPOCHS):
  loss = MSE(flineaire(housing_x,w,b).view(-1,1),housing_y.view(-1,1))
  optim.zero_grad()
  loss.backward()
  optim.step()  
  if i % 100==0:  print(f"iteration : {i}, loss : {loss}")

print("Résultat en test : ", MSE(flineaire(housing_xT,w,b).view(-1,1),housing_yT.view(-1,1)).item())


# Construction du sujet à partir de la correction

In [None]:
### <CORRECTION> ###
import re
# transformation de cet énoncé en version étudiante

fname = "1_2-pytorch-grad-corr.ipynb" # ce fichier
fout  = fname.replace("-corr","")

# print("Fichier de sortie: ", fout )

f = open(fname, "r")
txt = f.read()
 
f.close() 


f2 = open(fout, "w")
f2.write(re.sub("<CORRECTION>.*?(</CORRECTION>)"," TODO ",\
    txt, flags=re.DOTALL))
f2.close()

### </CORRECTION> ###