# Deep Learning - Introduction à Pytorch 


## TP1 : Prise en main de Pytorch

Sylvain Lamprier (sylvain.lamprier@univ-angers.fr)

Supports adaptés de Nicolas Baskiotis (nicolas.baskiotis@sorbonne-univeriste.fr) et Benjamin Piwowarski (benjamin.piwowarski@sorbonne-universite.fr) -- MLIA/ISIR, Sorbonne Université



Les lignes suivantes permettent d'importer pytorch et vérifier qu'un GPU est disponible. Il est recommandé d'utiliser un manager d'environnement python type conda pour l'ensemble des tps. Après la création de votre environnement (via  $\texttt{conda create --name <nom_env>}$) et son activation (via $\texttt{conda activate <nom_env>}$), installer pytorch selon la commande donnée sur le site de $\href{https://pytorch.org/}{\texttt{PyTorch}}$  (choisir la version en fonction de votre GPU et sa version de cuda).  

In [2]:
import torch
print("La version de torch est : ",torch.__version__)
print("Le calcul GPU est disponible ? ", torch.cuda.is_available())

import numpy as np
import sklearn


La version de torch est :  1.7.1
Le calcul GPU est disponible ?  False


### <span class="alert-success"> Exercice : Syntaxe

Le principal objet manipulé sous Pytorch est **torch.Tensor** qui correspond à un tenseur mathématique (généralisation de la notion de matrice en $n$-dimensions), très proche dans l'utilisation de **numpy.array**.   Cet objet est optimisé pour les calculs sur GPU ce qui implique quelques contraintes plus importantes que sous **numpy**. En particulier :
* le type du tenseur manipulé est très important et les conversions ne sont pas automatique (**FloatTensor** de type **torch.float**, **DoubleTensor** de type **torch.double**,  **ByteTensor** de type **torch.byte**, **IntTensor** de type **torch.int**, **LongTensor** de type **torch.long**). Pour un tenseur **t** La conversion se fait très simplement en utilisant les fonctions : **t.double()**, **t.float()**, **t.long()** ...
* la plupart des opérations ont une version *inplace*, c'est-à-dire qui modifie le tenseur plutôt que de renvoyer un nouveau tenseur; elles sont suffixées par **_** (**add_** par exemple).

Donner des exemples d'instructions correspondant aux commentaires ci-dessous. N'hésitez pas à vous référez à la [documentation officielle](https://pytorch.org/docs/stable/tensors.html) pour la liste exhaustive des opérations.


In [4]:
# Création de tenseurs et caractéristiques
## Créer un tenseur (2,3) à partir d'une liste
print(torch.tensor([[1.,2.,3.],[2.,3,4.]])) 
## Créer un tenseur  tenseur rempli de 1 de taille 2x3x4
print(torch.ones(2,3,4)) 
## tenseur de zéros de taille 2x3 de type float
print(torch.zeros(2,3,dtype=torch.float))  
## tirage uniforme entier entre 10 et 15, 
## remarquez l'utilisation du _ dans random pour l'opération inplace
print(torch.zeros(2,3).random_(10,15)) 
## tirage suivant la loi normale
a=torch.zeros(2,3).normal_(1,0.1)
print(a)
## equivalent à zeros(3,4).normal_
b = torch.randn(3,4) 
## Création d'un vecteur de 3 flottants selon la loi de normale
c = torch.randn(3)
## concatenation de tenseurs sur la dimension 0
print(torch.cat((a,a),0))
## concatenation de tenseurs  sur la dimension 1
print(torch.cat((a,a),1))
## Taille des tenseurs/vecteurs
print(a.size(1),b.shape,c.size())
## Conversion de type
print(a.int(),a.int().type())

# Opérations élémentaires sur les tenseurs
## produit scalaire (et contrairement à numpy, que produit scalaire)
print(c.dot(c))
## produit matriciel : utilisation de @ ou de la fonction mm
print(a.mm(b), a @ b)
## transposé
print(a.t(),a.T)
## index du maximum selon une dimension
print("argmax : ",a.argmax(dim=1))
## somme selon une dimension/de tous les éléments
print(b.sum(1), b.sum()) 
## moyenne selon  une dimension/sur tous les éléments
print(b.mean(1), b.mean())
## changer les dimensions du tenseur (la taille totale doit être inchangée)
print(b.view(2,6))
## somme/produit/puissance termes a termes
print(a+a,a*a,a**2)

## Soit un tenseur a de (2,3,4). Le recopier dans une version (2,3,3,4) avec les tenseurs (3,4) 
## a[0] et a[1] recopiés chacun 3 fois (avec expand)
a=torch.rand((2,3,4))
print("avant expand ",a)
a=a.view(2,1,3,-1).expand(-1,3,-1,-1).contiguous().view(-1,3,4)
print("après expand ",a)


## attention ! comme sous numpy, il peut y avoir des pièges ! 
## Vérifier toujours les dimensions !!
a=torch.zeros(5,1)
b = torch.zeros(5)
print(a,b)
## la première opération fait un broadcast et le résultat est 1 tenseur à 2 dimensions,
## le résultat de la deuxième opération est une matrice contenant un vecteur unique
print(a-b,a.t()-b)

tensor([[1., 2., 3.],
        [2., 3., 4.]])
tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[11., 11., 14.],
        [14., 10., 14.]])
tensor([[1.0892, 1.0593, 1.0779],
        [0.9989, 1.1282, 1.1859]])
tensor([[1.0892, 1.0593, 1.0779],
        [0.9989, 1.1282, 1.1859],
        [1.0892, 1.0593, 1.0779],
        [0.9989, 1.1282, 1.1859]])
tensor([[1.0892, 1.0593, 1.0779, 1.0892, 1.0593, 1.0779],
        [0.9989, 1.1282, 1.1859, 0.9989, 1.1282, 1.1859]])
3 torch.Size([3, 4]) torch.Size([3])
tensor([[1, 1, 1],
        [0, 1, 1]], dtype=torch.int32) torch.IntTensor
tensor(7.8240)
tensor([[ 0.2364, -0.9070,  0.5901,  0.3078],
        [ 0.2466, -0.7578,  0.6236,  0.4833]]) tensor([[ 0.2364, -0.9070,  0.5901,  0.3078],
        [ 0.2466, -0.7578,  0.6236,  0.4833]])
tensor([[1.0892, 0.9989],
        [1.0593, 1.1282],
      

### <span class="alert-success"> Exercice :   Régression linéaire  </span>

On souhaite apprendre un modèle de régression linéaire $f$ du type:  $f(x,w,b)=x.w^t+b$  avec $x\in \mathbb{R}^{{d}}$ un vecteur d'observations pour lequel on souhaite prédire une sortie $\hat{y} \in \mathbb{R}$, $w\in\mathbb{R}^{1,d}$ et $b\in \mathbb{R}$ les paramètres du modèle. 

Pour cela on dispose d'un jeu de données étiquetées $\{(x,y)\}$, que l'on découpe en jeu d'entraînement (80%) et de validation (20%). Dans cet exercice, on utilisera le jeu de données très classique *Boston*, le prix des loyers à Boston en fonction de caractéristiques socio-économiques des quartiers.

On considèrera un coût moindres carrés pour apprendre le modèle sur le jeu d'entraînement (avec $N$ le nombre de données d'entraînement et $(x^i,y^i)$ le i-ème couple de cet ensemble): $$w^∗,b^∗=argmin_{w,b}\frac{1}{N} \sum_{i=1}^N \|f(x^i,w,b)-y^i\|^2$$


* Définir (en version tensorielle PyTorch) la fonction **flineaire(x,w,b)** qui calcule $f(x,w,b)=x.w^t+b$  avec $x\in \mathbb{R}^{{n\times d}},~w\in\mathbb{R}^{1,d}, b\in \mathbb{R}$
* Donner le code d'une fonction **loss(x,w,b,y)** qui retourne le coût moindre carré du modèle linéaire utilisant **flineaire(x,w,b)** pour un batch de données $x$ et leurs images associées $y$. 
* Calculer le gradient de l'erreur en fonction de chacun des paramètres $w_i$ et b. Donner le code d'une fonction **getGradient(x,w,b)** (commencer éventuellement avec des boucles avant de réaliser la version matricielle plus efficace). 
* Complétez le code ci-dessous pour réaliser une descente de gradient et apprendre les paramètres optimaux de la regression linéaire.
* Modifier le code ci-dessous pour n'entraîner que sur 80% des données et se tester sur 20%



Attention ! 
* l'algorithme doit converger avec la valeur de epsilon fixée; si ce n'est pas le cas, il y a une erreur (la plupart du temps au niveau du calcul du coût).

In [5]:
def flineaire(x,w,b):
    ## [[student]]
    return (x @ w.T)+b
    ## [[/student]]
    

def getLoss(x,w,b,y):
    ## [[student]]
    y=y.view(-1,1)
    return torch.pow(flineaire(x,w,b)-y,2).mean()/2.0
    ## [[/student]]
    

def getGradient(x,w,b,y):
    ## [[student]]
    y=y.view(-1,1)
    yhat=flineaire(x,w,b)
    diff=yhat-y
    # version boucle
#     g=torch.zeros_like(w)
#     for i in range(w.size(-1)):
#         g[0,i]=(x[:,i].view(-1,1)*diff.mean()
#     return g,diff.mean()
    # version matricielle
    return ((x.t()@diff)/x.shape[0]).t(),(diff.mean())
    ## [[/student]]
    





In [6]:

## Chargement des données California et transformation en tensor.
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing() ## chargement des données
data_x = torch.tensor(housing['data'],dtype=torch.float)
data_y = torch.tensor(housing['target'],dtype=torch.float)

print("Nombre d'exemples : ",data_x.size(0), "Dimension : ",data_x.size(1))
#print(data_x,data_y)


torch.random.manual_seed(1)

#initialisation aléatoire de w et b
w = torch.randn(1,data_x.size(1),requires_grad=True)
b =  torch.randn(1,1,requires_grad=True)




## [[student]] 
inds=torch.randperm(data_x.shape[0])
n_train=int(data_x.shape[0]*0.8)

train_x=data_x[inds[:n_train]]
train_y=data_y[inds[:n_train]]
test_x=data_x[inds[n_train:]]
test_y=data_y[inds[n_train:]]
## [[/student]] 



EPOCHS = 100000
EPS = 1e-7
for i in range(EPOCHS):
    ## [[student]] 
    if i % 100==0:  
        print(f"iteration : {i}, loss train : {getLoss(train_x,w,b,train_y)}, loss test : {getLoss(test_x,w,b,test_y)}")
        
    #calcul du gradient
    w_grad,b_grad=getGradient(train_x,w,b,train_y)
    # Maj des paramètres
    w = w-EPS*w_grad
    b = b-EPS*b_grad
    ## [[/student]]

Nombre d'exemples :  20640 Dimension :  8
iteration : 0, loss train : 405407.8125, loss test : 390859.21875
iteration : 100, loss train : 1346.581787109375, loss test : 1243.407958984375
iteration : 200, loss train : 1182.1986083984375, loss test : 1091.2388916015625
iteration : 300, loss train : 1038.1346435546875, loss test : 957.91015625
iteration : 400, loss train : 911.8775634765625, loss test : 841.0899047851562
iteration : 500, loss train : 801.2257080078125, loss test : 738.73583984375
iteration : 600, loss train : 704.2500610351562, loss test : 649.0573120117188
iteration : 700, loss train : 619.259765625, loss test : 570.4857788085938
iteration : 800, loss train : 544.7721557617188, loss test : 501.6457214355469
iteration : 900, loss train : 479.489501953125, loss test : 441.3330993652344
iteration : 1000, loss train : 422.2734375, loss test : 388.49212646484375
iteration : 1100, loss train : 372.12646484375, loss test : 342.1974792480469
iteration : 1200, loss train : 328.17

iteration : 11000, loss train : 13.630940437316895, loss test : 13.17263126373291
iteration : 11100, loss train : 13.601531982421875, loss test : 13.144368171691895
iteration : 11200, loss train : 13.572208404541016, loss test : 13.116164207458496
iteration : 11300, loss train : 13.542957305908203, loss test : 13.088007926940918
iteration : 11400, loss train : 13.513763427734375, loss test : 13.05989933013916
iteration : 11500, loss train : 13.484655380249023, loss test : 13.031842231750488
iteration : 11600, loss train : 13.45559024810791, loss test : 13.003828048706055
iteration : 11700, loss train : 13.426604270935059, loss test : 12.97586441040039
iteration : 11800, loss train : 13.397741317749023, loss test : 12.948022842407227
iteration : 11900, loss train : 13.369029998779297, loss test : 12.920307159423828
iteration : 12000, loss train : 13.340372085571289, loss test : 12.8926362991333
iteration : 12100, loss train : 13.311846733093262, loss test : 12.865049362182617
iteration 

iteration : 21400, loss train : 10.95748519897461, loss test : 10.580094337463379
iteration : 21500, loss train : 10.935111045837402, loss test : 10.558389663696289
iteration : 21600, loss train : 10.912774085998535, loss test : 10.536713600158691
iteration : 21700, loss train : 10.8905029296875, loss test : 10.515087127685547
iteration : 21800, loss train : 10.868385314941406, loss test : 10.493616104125977
iteration : 21900, loss train : 10.846297264099121, loss test : 10.472174644470215
iteration : 22000, loss train : 10.824235916137695, loss test : 10.450758934020996
iteration : 22100, loss train : 10.802204132080078, loss test : 10.429372787475586
iteration : 22200, loss train : 10.7802095413208, loss test : 10.4080228805542
iteration : 22300, loss train : 10.758371353149414, loss test : 10.386834144592285
iteration : 22400, loss train : 10.736565589904785, loss test : 10.365674018859863
iteration : 22500, loss train : 10.714787483215332, loss test : 10.344541549682617
iteration :

iteration : 32300, loss train : 8.837576866149902, loss test : 8.52447509765625
iteration : 32400, loss train : 8.820789337158203, loss test : 8.50821590423584
iteration : 32500, loss train : 8.804023742675781, loss test : 8.491976737976074
iteration : 32600, loss train : 8.787284851074219, loss test : 8.475760459899902
iteration : 32700, loss train : 8.770681381225586, loss test : 8.459685325622559
iteration : 32800, loss train : 8.754101753234863, loss test : 8.443634033203125
iteration : 32900, loss train : 8.737543106079102, loss test : 8.427602767944336
iteration : 33000, loss train : 8.72100830078125, loss test : 8.411592483520508
iteration : 33100, loss train : 8.704493522644043, loss test : 8.395604133605957
iteration : 33200, loss train : 8.688002586364746, loss test : 8.379636764526367
iteration : 33300, loss train : 8.671648979187012, loss test : 8.363810539245605
iteration : 33400, loss train : 8.655319213867188, loss test : 8.348006248474121
iteration : 33500, loss train :

iteration : 42700, loss train : 7.304752349853516, loss test : 7.041769027709961
iteration : 42800, loss train : 7.291878700256348, loss test : 7.029329776763916
iteration : 42900, loss train : 7.279083251953125, loss test : 7.016970634460449
iteration : 43000, loss train : 7.26634407043457, loss test : 7.0046706199646
iteration : 43100, loss train : 7.253623008728027, loss test : 6.992386341094971
iteration : 43200, loss train : 7.240916728973389, loss test : 6.980118751525879
iteration : 43300, loss train : 7.228227138519287, loss test : 6.967865943908691
iteration : 43400, loss train : 7.215555191040039, loss test : 6.955630302429199
iteration : 43500, loss train : 7.202925205230713, loss test : 6.943418025970459
iteration : 43600, loss train : 7.190367698669434, loss test : 6.931280612945557
iteration : 43700, loss train : 7.177871227264404, loss test : 6.919205665588379
iteration : 43800, loss train : 7.165390968322754, loss test : 6.907145977020264
iteration : 43900, loss train :

iteration : 53400, loss train : 6.1030755043029785, loss test : 5.881961822509766
iteration : 53500, loss train : 6.093385219573975, loss test : 5.8726115226745605
iteration : 53600, loss train : 6.083707332611084, loss test : 5.863274574279785
iteration : 53700, loss train : 6.074084281921387, loss test : 5.853991508483887
iteration : 53800, loss train : 6.064481735229492, loss test : 5.844729423522949
iteration : 53900, loss train : 6.054891109466553, loss test : 5.835479259490967
iteration : 54000, loss train : 6.045322895050049, loss test : 5.826250076293945
iteration : 54100, loss train : 6.035800933837891, loss test : 5.817070484161377
iteration : 54200, loss train : 6.0262932777404785, loss test : 5.807901859283447
iteration : 54300, loss train : 6.016803741455078, loss test : 5.798750400543213
iteration : 54400, loss train : 6.00734806060791, loss test : 5.7896318435668945
iteration : 54500, loss train : 5.9979248046875, loss test : 5.780547618865967
iteration : 54600, loss tra

iteration : 63600, loss train : 5.23322868347168, loss test : 5.044503688812256
iteration : 63700, loss train : 5.2257771492004395, loss test : 5.037343502044678
iteration : 63800, loss train : 5.218356132507324, loss test : 5.030206203460693
iteration : 63900, loss train : 5.2109479904174805, loss test : 5.023078918457031
iteration : 64000, loss train : 5.203550815582275, loss test : 5.015961647033691
iteration : 64100, loss train : 5.196181297302246, loss test : 5.00887393951416
iteration : 64200, loss train : 5.188838958740234, loss test : 5.001812934875488
iteration : 64300, loss train : 5.181506633758545, loss test : 4.994762897491455
iteration : 64400, loss train : 5.174183368682861, loss test : 4.987720012664795
iteration : 64500, loss train : 5.166874408721924, loss test : 4.980693340301514
iteration : 64600, loss train : 5.159607410430908, loss test : 4.973708629608154
iteration : 64700, loss train : 5.1523542404174805, loss test : 4.966734886169434
iteration : 64800, loss tra

iteration : 74300, loss train : 4.534516334533691, loss test : 4.37354850769043
iteration : 74400, loss train : 4.5288567543029785, loss test : 4.368119239807129
iteration : 74500, loss train : 4.523209095001221, loss test : 4.362699031829834
iteration : 74600, loss train : 4.517568588256836, loss test : 4.357285976409912
iteration : 74700, loss train : 4.511934280395508, loss test : 4.3518805503845215
iteration : 74800, loss train : 4.506315231323242, loss test : 4.346487998962402
iteration : 74900, loss train : 4.500728130340576, loss test : 4.341129779815674
iteration : 75000, loss train : 4.495147705078125, loss test : 4.33577823638916
iteration : 75100, loss train : 4.4895758628845215, loss test : 4.3304338455200195
iteration : 75200, loss train : 4.484010219573975, loss test : 4.325096130371094
iteration : 75300, loss train : 4.478456497192383, loss test : 4.319770336151123
iteration : 75400, loss train : 4.472939968109131, loss test : 4.314480781555176
iteration : 75500, loss tr

iteration : 84800, loss train : 4.010188102722168, loss test : 3.871116876602173
iteration : 84900, loss train : 4.005840301513672, loss test : 3.866957187652588
iteration : 85000, loss train : 4.001500129699707, loss test : 3.862805128097534
iteration : 85100, loss train : 3.9971649646759033, loss test : 3.8586580753326416
iteration : 85200, loss train : 3.9928348064422607, loss test : 3.85451602935791
iteration : 85300, loss train : 3.988511562347412, loss test : 3.8503804206848145
iteration : 85400, loss train : 3.984196186065674, loss test : 3.846250295639038
iteration : 85500, loss train : 3.979905605316162, loss test : 3.8421471118927
iteration : 85600, loss train : 3.975628614425659, loss test : 3.838057041168213
iteration : 85700, loss train : 3.9713590145111084, loss test : 3.833972454071045
iteration : 85800, loss train : 3.9670944213867188, loss test : 3.8298938274383545
iteration : 85900, loss train : 3.9628360271453857, loss test : 3.825819969177246
iteration : 86000, loss

iteration : 95500, loss train : 3.60046648979187, loss test : 3.479487180709839
iteration : 95600, loss train : 3.597121477127075, loss test : 3.476294755935669
iteration : 95700, loss train : 3.5937817096710205, loss test : 3.4731063842773438
iteration : 95800, loss train : 3.5904462337493896, loss test : 3.4699223041534424
iteration : 95900, loss train : 3.587130308151245, loss test : 3.4667575359344482
iteration : 96000, loss train : 3.5838277339935303, loss test : 3.463606834411621
iteration : 96100, loss train : 3.580528736114502, loss test : 3.4604597091674805
iteration : 96200, loss train : 3.577239990234375, loss test : 3.457319498062134
iteration : 96300, loss train : 3.5739595890045166, loss test : 3.4541869163513184
iteration : 96400, loss train : 3.570683717727661, loss test : 3.4510583877563477
iteration : 96500, loss train : 3.5674116611480713, loss test : 3.447934150695801
iteration : 96600, loss train : 3.564159631729126, loss test : 3.444828987121582
iteration : 96700,