# Deep Learning - Introduction à Pytorch 


## TP1 : Prise en main de Pytorch

Sylvain Lamprier (sylvain.lamprier@univ-angers.fr)

Supports adaptés de Nicolas Baskiotis (nicolas.baskiotis@sorbonne-univeriste.fr) et Benjamin Piwowarski (benjamin.piwowarski@sorbonne-universite.fr) -- MLIA/ISIR, Sorbonne Université



Les lignes suivantes permettent d'importer pytorch et vérifier qu'un GPU est disponible. Il est recommandé d'utiliser un manager d'environnement python type conda pour l'ensemble des tps. Après la création de votre environnement (via  $\texttt{conda create --name <nom_env>}$) et son activation (via $\texttt{conda activate <nom_env>}$), installer pytorch selon la commande donnée sur le site de $\href{https://pytorch.org/}{\texttt{PyTorch}}$  (choisir la version en fonction de votre GPU et sa version de cuda).  

In [1]:
import torch
print("La version de torch est : ",torch.__version__)
print("Le calcul GPU est disponible ? ", torch.cuda.is_available())

import numpy as np
import sklearn


La version de torch est :  2.2.0+cu121
Le calcul GPU est disponible ?  False


### <span class="alert-success"> Exercice : Syntaxe

Le principal objet manipulé sous Pytorch est **torch.Tensor** qui correspond à un tenseur mathématique (généralisation de la notion de matrice en $n$-dimensions), très proche dans l'utilisation de **numpy.array**.   Cet objet est optimisé pour les calculs sur GPU ce qui implique quelques contraintes plus importantes que sous **numpy**. En particulier :
* le type du tenseur manipulé est très important et les conversions ne sont pas automatique (**FloatTensor** de type **torch.float**, **DoubleTensor** de type **torch.double**,  **ByteTensor** de type **torch.byte**, **IntTensor** de type **torch.int**, **LongTensor** de type **torch.long**). Pour un tenseur **t** La conversion se fait très simplement en utilisant les fonctions : **t.double()**, **t.float()**, **t.long()** ...
* la plupart des opérations ont une version *inplace*, c'est-à-dire qui modifie le tenseur plutôt que de renvoyer un nouveau tenseur; elles sont suffixées par **_** (**add_** par exemple).

Donner des exemples d'instructions correspondant aux commentaires ci-dessous. N'hésitez pas à vous référez à la [documentation officielle](https://pytorch.org/docs/stable/tensors.html) pour la liste exhaustive des opérations.


In [2]:
# Création de tenseurs et caractéristiques
## Créer un tenseur (2,3) à partir d'une liste
print(torch.tensor([[1.,2.,3.],[2.,3,4.]])) 
## Créer un tenseur  tenseur rempli de 1 de taille 2x3x4
print(torch.ones(2,3,4)) 
## tenseur de zéros de taille 2x3 de type float
print(torch.zeros(2,3,dtype=torch.float))  
## tirage uniforme entier entre 10 et 15, 
## remarquez l'utilisation du _ dans random pour l'opération inplace
print(torch.zeros(2,3).random_(10,15)) 
## tirage suivant la loi normale
a=torch.zeros(2,3).normal_(1,0.1)
print(a)
## equivalent à zeros(3,4).normal_
b = torch.randn(3,4) 
## Création d'un vecteur de 3 flottants selon la loi de normale
c = torch.randn(3)
## concatenation de tenseurs sur la dimension 0
print(torch.cat((a,a),0))
## concatenation de tenseurs  sur la dimension 1
print(torch.cat((a,a),1))
## Taille des tenseurs/vecteurs
print(a.size(1),b.shape,c.size())
## Conversion de type
print(a.int(),a.int().type())

# Opérations élémentaires sur les tenseurs
## produit scalaire (et contrairement à numpy, que produit scalaire)
print(c.dot(c))
## produit matriciel : utilisation de @ ou de la fonction mm
print(a.mm(b), a @ b)
## transposé
print(a.t(),a.T)
## index du maximum selon une dimension
print("argmax : ",a.argmax(dim=1))
## somme selon une dimension/de tous les éléments
print(b.sum(1), b.sum()) 
## moyenne selon  une dimension/sur tous les éléments
print(b.mean(1), b.mean())
## changer les dimensions du tenseur (la taille totale doit être inchangée)
print(b.view(2,6))
## somme/produit/puissance termes a termes
print(a+a,a*a,a**2)

## Soit un tenseur a de (2,3,4). Le recopier dans une version (2,3,3,4) avec les tenseurs (3,4) 
## a[0] et a[1] recopiés chacun 3 fois (avec expand)
a=torch.rand((2,3,4))
print("avant expand ",a)
a=a.view(2,1,3,-1).expand(-1,3,-1,-1).contiguous().view(-1,3,4)
print("après expand ",a)


## attention ! comme sous numpy, il peut y avoir des pièges ! 
## Vérifier toujours les dimensions !!
a=torch.zeros(5,1)
b = torch.zeros(5)
print(a,b)
## la première opération fait un broadcast et le résultat est 1 tenseur à 2 dimensions,
## le résultat de la deuxième opération est une matrice contenant un vecteur unique
print(a-b,a.t()-b)

tensor([[1., 2., 3.],
        [2., 3., 4.]])
tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[14., 11., 14.],
        [13., 10., 11.]])
tensor([[1.0948, 1.0705, 0.9232],
        [1.0208, 0.9961, 0.7396]])
tensor([[1.0948, 1.0705, 0.9232],
        [1.0208, 0.9961, 0.7396],
        [1.0948, 1.0705, 0.9232],
        [1.0208, 0.9961, 0.7396]])
tensor([[1.0948, 1.0705, 0.9232, 1.0948, 1.0705, 0.9232],
        [1.0208, 0.9961, 0.7396, 1.0208, 0.9961, 0.7396]])
3 torch.Size([3, 4]) torch.Size([3])
tensor([[1, 1, 0],
        [1, 0, 0]], dtype=torch.int32) torch.IntTensor
tensor(4.5955)
tensor([[-1.8950,  0.7764,  0.5528,  0.0550],
        [-1.8070,  0.6563,  0.7743,  0.1300]]) tensor([[-1.8950,  0.7764,  0.5528,  0.0550],
        [-1.8070,  0.6563,  0.7743,  0.1300]])
tensor([[1.0948, 1.0208],
        [1.0705, 0.9961],
      

### <span class="alert-success"> Exercice :   Régression linéaire  </span>

On souhaite apprendre un modèle de régression linéaire $f$ du type:  $f(x,w,b)=x.w^t+b$  avec $x\in \mathbb{R}^{{d}}$ un vecteur d'observations pour lequel on souhaite prédire une sortie $\hat{y} \in \mathbb{R}$, $w\in\mathbb{R}^{1,d}$ et $b\in \mathbb{R}$ les paramètres du modèle. 

Pour cela on dispose d'un jeu de données étiquetées $\{(x,y)\}$, que l'on découpe en jeu d'entraînement (80%) et de validation (20%). Dans cet exercice, on utilisera le jeu de données très classique *Boston*, le prix des loyers à Boston en fonction de caractéristiques socio-économiques des quartiers.

On considèrera un coût moindres carrés pour apprendre le modèle sur le jeu d'entraînement (avec $N$ le nombre de données d'entraînement et $(x^i,y^i)$ le i-ème couple de cet ensemble): $$w^∗,b^∗=argmin_{w,b}\frac{1}{N} \sum_{i=1}^N \|f(x^i,w,b)-y^i\|^2$$


* Définir (en version tensorielle PyTorch) la fonction **flineaire(x,w,b)** qui calcule $f(x,w,b)=x.w^t+b$  avec $x\in \mathbb{R}^{{n\times d}},~w\in\mathbb{R}^{1,d}, b\in \mathbb{R}$
* Donner le code d'une fonction **loss(x,w,b,y)** qui retourne le coût moindre carré du modèle linéaire utilisant **flineaire(x,w,b)** pour un batch de données $x$ et leurs images associées $y$. 
* Calculer le gradient de l'erreur en fonction de chacun des paramètres $w_i$ et b. Donner le code d'une fonction **getGradient(x,w,b)** (commencer éventuellement avec des boucles avant de réaliser la version matricielle plus efficace). 
* Complétez le code ci-dessous pour réaliser une descente de gradient et apprendre les paramètres optimaux de la regression linéaire.
* Modifier le code ci-dessous pour n'entraîner que sur 80% des données et se tester sur 20%



Attention ! 
* l'algorithme doit converger avec la valeur de epsilon fixée; si ce n'est pas le cas, il y a une erreur (la plupart du temps au niveau du calcul du coût).

In [3]:
def flineaire(x,w,b):
    ## [[student]]
    return (x @ w.T)+b
    ## [[/student]]
    

def getLoss(x,w,b,y):
    ## [[student]]
    y=y.view(-1,1)
    return torch.pow(flineaire(x,w,b)-y,2).mean()/2.0
    ## [[/student]]
    

def getGradient(x,w,b,y):
    ## [[student]]
    y=y.view(-1,1)
    yhat=flineaire(x,w,b)
    diff=yhat-y
    # version boucle
#     g=torch.zeros_like(w)
#     for i in range(w.size(-1)):
#         g[0,i]=(x[:,i].view(-1,1)*diff.mean()
#     return g,diff.mean()
    # version matricielle
    return ((x.t()@diff)/x.shape[0]).t(),(diff.mean())
    ## [[/student]]
    





In [4]:

## Chargement des données California et transformation en tensor.
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing() ## chargement des données
data_x = torch.tensor(housing['data'],dtype=torch.float)
data_y = torch.tensor(housing['target'],dtype=torch.float)

print("Nombre d'exemples : ",data_x.size(0), "Dimension : ",data_x.size(1))
#print(data_x,data_y)


torch.random.manual_seed(1)

#initialisation aléatoire de w et b
w = torch.randn(1,data_x.size(1),requires_grad=True)
b =  torch.randn(1,1,requires_grad=True)




## [[student]] 
inds=torch.randperm(data_x.shape[0])
n_train=int(data_x.shape[0]*0.8)

train_x=data_x[inds[:n_train]]
train_y=data_y[inds[:n_train]]
test_x=data_x[inds[n_train:]]
test_y=data_y[inds[n_train:]]
## [[/student]] 



EPOCHS = 100000
EPS = 1e-7
for i in range(EPOCHS):
    ## [[student]] 
    if i % 100==0:  
        print(f"iteration : {i}, loss train : {getLoss(train_x,w,b,train_y)}, loss test : {getLoss(test_x,w,b,test_y)}")
        
    #calcul du gradient
    w_grad,b_grad=getGradient(train_x,w,b,train_y)
    # Maj des paramètres
    w = w-EPS*w_grad
    b = b-EPS*b_grad
    ## [[/student]]

Nombre d'exemples :  20640 Dimension :  8
iteration : 0, loss train : 405407.8125, loss test : 390859.21875
iteration : 100, loss train : 1346.581787109375, loss test : 1243.407958984375
iteration : 200, loss train : 1182.19873046875, loss test : 1091.239013671875
iteration : 300, loss train : 1038.134765625, loss test : 957.91015625
iteration : 400, loss train : 911.8776245117188, loss test : 841.090087890625
iteration : 500, loss train : 801.2258911132812, loss test : 738.7359008789062
iteration : 600, loss train : 704.2501220703125, loss test : 649.0574340820312
iteration : 700, loss train : 619.2598876953125, loss test : 570.4859008789062
iteration : 800, loss train : 544.772216796875, loss test : 501.645751953125
iteration : 900, loss train : 479.4895324707031, loss test : 441.3331604003906
iteration : 1000, loss train : 422.2734375, loss test : 388.49212646484375
iteration : 1100, loss train : 372.12652587890625, loss test : 342.1974792480469
iteration : 1200, loss train : 328.17