# Exemple utilisation PyTorch

## PyTorch c'est quoi ?

PyTorch est une bibliothèque qui permet la création et la maintenance des Réseaux de Neurones (RN).
PyTorch est développer par Meta. Il existe d'autre Frameword de travail sur la création de Neurone comme son homologue Tensor Flows, développer par Google.

En pratique 
L'une des particularités de PyTorch est de représenter les données sous forme de matrices à plusieurs dimensions appelées tenseurs. Ces derniers stockent les entrées des architectures de Deep Learning, les paramètres des couches cachées et bien évidemment les prédictions. La représentation des RN se fait par le moyen de graphique.

Les avantages de PyTorch sont :
- son fonctionnement dynamique
- sa simplicité de vérification 
- sa souplesse
- sa ressemblance avec la syntaxe de python
- sa facilité à débugger

Il peut maintenant même être utilisé en production même si on lui préferra Tensor FLows.

In [3]:
# Instanciation de l'ensemble des bibliothèques 
import torch
import torch.nn as nn
import numpy as np
import pandas as pd
import re
import os

### Les Tensors : les opérations de bases

In [7]:
# Quelques commandes sur les tensor
zeros_x = torch.zeros(2, 2) # Remplie un tensor de valeur nulle (premier argument donne la taille du premier colonne et le deuxième argument le second)
one_x = torch.ones(2, 2, dtype=torch.float64) #définie un tensor remplie de 1. La taille est [2 x 2]
rd_x = torch.rand(2) # Créer un tensor de taille 2 avec des variable uniforme
tensor_x = torch.tensor([3, 1.2]) #Créer un tensor définie par l'utililsateur
print(rd_x, zeros_x, one_x, tensor_x)

tensor([0.6122, 0.8509]) tensor([[0., 0.],
        [0., 0.]]) tensor([[1., 1.],
        [1., 1.]], dtype=torch.float64) tensor([3.0000, 1.2000])


In [19]:
# Opération simple entre tensor
tensor_x = torch.rand(2, 3)
tensor_y = torch.rand(2, 3)
torch_z = tensor_x.add(tensor_y)
print(torch_z)
print(tensor_x.add_(tensor_y)) # _ mean inplace

torch_z = tensor_x.sub(tensor_y)
print(torch_z)
torch_z = tensor_x.mul(tensor_y)
print(torch_z)
torch_z = tensor_x.div(tensor_y)
print(torch_z)

tensor([[0.9177, 1.1447, 0.4966],
        [0.7401, 1.2687, 1.4620]])
tensor([[0.9177, 1.1447, 0.4966],
        [0.7401, 1.2687, 1.4620]])
tensor([[0.8812, 0.4556, 0.1966],
        [0.3368, 0.8876, 0.8452]])
tensor([[0.0336, 0.7889, 0.1490],
        [0.2985, 0.4835, 0.9019]])
tensor([[25.0845,  1.6611,  1.6552],
        [ 1.8351,  3.3293,  2.3700]])


In [18]:
# Opération de selection et de visualisation
tensor_x = torch.rand(6, 3)
print(tensor_x[:, 1]) # toutes les lignes sont selectionnées pour la 2ème colonne
print(tensor_x[1, :]) # toutes les colonnes sont selectionnées pour la 2ème lignes
print(tensor_x.view(18)) # flatten the tensor matrix
print(tensor_x.view(-1, 2)) # resize the tensor
print(tensor_x.view(-1, 3)) # resize the tensor

tensor([0.5436, 0.5803, 0.5348, 0.0455, 0.0957, 0.8073])
tensor([0.2768, 0.5803, 0.8490])
tensor([0.3810, 0.5436, 0.9971, 0.2768, 0.5803, 0.8490, 0.9844, 0.5348, 0.9424,
        0.6810, 0.0455, 0.1542, 0.8222, 0.0957, 0.2174, 0.7333, 0.8073, 0.2220])
tensor([[0.3810, 0.5436],
        [0.9971, 0.2768],
        [0.5803, 0.8490],
        [0.9844, 0.5348],
        [0.9424, 0.6810],
        [0.0455, 0.1542],
        [0.8222, 0.0957],
        [0.2174, 0.7333],
        [0.8073, 0.2220]])
tensor([[0.3810, 0.5436, 0.9971],
        [0.2768, 0.5803, 0.8490],
        [0.9844, 0.5348, 0.9424],
        [0.6810, 0.0455, 0.1542],
        [0.8222, 0.0957, 0.2174],
        [0.7333, 0.8073, 0.2220]])


In [20]:
# Convert numpy to tensor
array = np.array([1, 2, 3, 4])
print(array)
tensor_from_array = torch.from_numpy(array)
print(tensor_from_array)

# array and tensor_from_array have the same pointer of the object
array += 1
print(array)
print(tensor_from_array)



[1 2 3 4]
tensor([1, 2, 3, 4], dtype=torch.int32)


In [21]:
# To gain time you can go to calculate in a particular device
# If cuda is avalaible then you can compute with the ship IU
if torch.cuda.is_available():
    device = torch.device("cuda")
    x = torch.ones(5, device=device)
    y = torch.ones(5)
    y = y.to(device) # go to device
    z = x + y
    z = z.to("cpu") # back to the CPU

False

In [23]:
#Si le calcul du gradient est à prévoir le paametre required_grad permet d'accélerer les opérations.
torch_x = torch.ones(5, requires_grad=True)
torch_x

tensor([1., 1., 1., 1., 1.], requires_grad=True)

### Autograd : Bibliothèque pour calculer les Gradients

PyTorch crée un graphique lors de la création des tensors.

In [64]:
torch_x = torch.randn(3, requires_grad=True)
y = torch_x + 2
print(y)
z = y*torch_x*2
print(z)
z = z.mean()
print(z)

tensor([2.0735, 1.8457, 1.0720], grad_fn=<AddBackward0>)
tensor([ 0.3050, -0.5697, -1.9896], grad_fn=<MulBackward0>)
tensor(-0.7514, grad_fn=<MeanBackward0>)


Backward : Calcul le gradient spécifiquement définie dans le graphique

In [55]:
z.backward() # definie le calcul dz/dx only work for scalar value
print(torch_x.grad)

v = torch.tensor([0.1, 1, 10], dtype=torch.float32, requires_grad=True) # must be of the same size as y because we use the chain rule
y.backward(v) # jaconbien vector
print(torch_x.grad)

tensor([-1.4981,  0.2800,  1.9867])
tensor([-1.3981,  1.2800, 11.9867])


In [65]:
# change les parametres du tensors etpermet de ne pas inclure la structure du graphique

y = torch_x + 2
print(y)
with torch.no_grad(): # supprime la construction du graphique
    y = torch_x + 2
    print(y)

print(torch_x)
torch_x.requires_grad_(False) # supprime l'argument rquires_grad (méthode emplace)
print(torch_x)

tensor([2.0735, 1.8457, 1.0720], grad_fn=<AddBackward0>)
tensor([2.0735, 1.8457, 1.0720])
tensor([ 0.0735, -0.1543, -0.9280], requires_grad=True)
tensor([ 0.0735, -0.1543, -0.9280])


Exemple de l'utilisation du backward et du grad au sein d'un modèle fictif

In [68]:
# Rénitialise le gradient après un calcul est une étape importante

weight = torch.ones(3, requires_grad=True)

for epoch in range(3):
    model_output = (weight * 3).sum() # Opération du modèle

    model_output.backward() # détermine le gradient

    print(weight.grad) # affiche le gradient

    if epoch == 1:
        weight.grad.zero_() # rénitialise le gradient sinon l'information est conservée d'une époch a une autre



tensor([3., 3., 3.])
tensor([6., 6., 6.])
tensor([3., 3., 3.])


In [77]:
# Une autre pratique peux être l'utilisation d'une méthode de descente de gradient stochastique 
weights = [torch.ones(4, requires_grad=True), torch.zeros(4, requires_grad=True)]
optimizer = torch.optim.SGD(weights, lr=0.01) # lr désigne le taux d'apprentissage (learning rate)
optimizer.step() #réalise l'opération d'optimisation
optimizer.zero_grad() # rénitialise le gradient avant de réaliser l'étape prochaine
optimizer

SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    lr: 0.01
    maximize: False
    momentum: 0
    nesterov: False
    weight_decay: 0
)

### Backpropagation

![Chain Rule](Images\PyTorch_Tutorial_04_Backpropagation_Theory_With_Example_YouTube_Chain_Rule.png)
![Computation Graphique](Images\PyTorch_Tutorial_04_Backpropagation_Theory_With_Example_YouTube_Computation_Graph.png)

In [8]:
# Application dans un cas pratique
# Input of model
tensor_x = torch.tensor(1.0)
tensor_y = torch.tensor(2.0)

# Weigth of model
w = torch.tensor(1.0, requires_grad=True)

y_hat = w * tensor_x
s = y_hat - tensor_y
loss = (s) ** 2 # Ecart quadratic is the loss function considerated
print(loss)

#backward 
loss.backward() # réalise la propagation à l'envers
print(w.grad) # preuve mise à jour de la variable grad


tensor(1., grad_fn=<PowBackward0>)
tensor(-2.)


Que vaut le gradient ?

Réponse:
- dLoss/ds = 2 * s
- ds/dy = 1
- dy/dw = x

*Rappel les inputs sont des parametres au vu du problème d'optimisation et non des variables.*

En peut donc calculer le gradient : 

Les valeur des inputs sont : $x = 1, y = 2 \text{ et } w = 1$

$\begin{align}
\frac{\partial{Loss}}{\partial{w}} &= \frac{\partial{Loss}}{\partial{s}} \cdot \frac{\partial{s}}{\partial{y}} \cdot \frac{\partial{y}}{\partial{w}} \\
&= (2 \cdot -1) \cdot (1) \cdot (1)\\
&= -2
\end{align}$


### Exemple Manuellement

Utilisation de numpy pour calibrer un ajustement - Théorique

In [14]:
# Input
X = np.array([1, 2, 3, 4], dtype=np.float32)
Y = np.array([2, 4, 6, 8], dtype=np.float32) # Y = 2 *X

# Variable 
w = 0.0

# Model prediction
def forward(x):
    return w * x

# Fonction de perte
def loss(y, y_predict):
    return ((y_predict - y) ** 2).mean()

# Gradient
# - MSE : 1/N * (w*x - y) ** 2
# dJ / dw = 1/N 2x (w*x-y)

def gradient(x, y, y_predict):
    return np.dot(2*x, y_predict - y).mean()

print(f'La prédiction avant entrainement: forward(5) = {forward(5):.3f}')

# Entrainement
learning_rate = 0.01
n_iters = 10

for each_epoch in range(n_iters):
    # prédiction
    y_pred = forward(X)

    # Calcul la fonction de perte
    loss_coef = loss(Y, y_pred)

    # calcule du gradient
    dw = gradient(X, Y, y_pred)

    #Mise à jour de la valeur
    w -= learning_rate * dw

    if each_epoch > 0:
        print(f"période {each_epoch} : w = {w:.3f} et loss = {loss_coef:.3f}")
    
print(f"Après l'entrainement sur {n_iters} itération, la prédiction vaut : forward(5) = {forward(5):.3}")

La prédiction avant entrainement: forward(5) = 0.000
période 1 : w = 1.680 et loss = 4.800
période 2 : w = 1.872 et loss = 0.768
période 3 : w = 1.949 et loss = 0.123
période 4 : w = 1.980 et loss = 0.020
période 5 : w = 1.992 et loss = 0.003
période 6 : w = 1.997 et loss = 0.001
période 7 : w = 1.999 et loss = 0.000
période 8 : w = 1.999 et loss = 0.000
période 9 : w = 2.000 et loss = 0.000
Après l'entrainement sur 10 itération, la prédiction vaut : forward(5) = 10.0


Utilisation de PyTorch pour réaliser un ajustement - Backward

In [23]:
# Utilisation de Pytorch
# Input
X = torch.tensor([1, 2, 3, 4], dtype=torch.float32)
Y = torch.tensor([2, 4, 6, 8], dtype=torch.float32) # Y = 2 *X

w = torch.tensor(0.0, dtype=torch.float32, requires_grad=True)

n_iters = 55

for each_epoch in range(n_iters):
    # prédiction
    y_pred = forward(X)

    # Calcul la fonction de perte
    loss_coef = loss(Y, y_pred)

    # calcule du gradient Méthode approximative
    loss_coef.backward()

    #Mise à jour de la valeur
    with torch.no_grad():
        w -= learning_rate * w.grad
    
    w.grad.zero_()

    if each_epoch % 5 == 0:
        print(f"période {each_epoch} : w = {w:.3f} et loss = {loss_coef:.3f}")
    
print(f"Après l'entrainement sur {n_iters} itération, la prédiction vaut : forward(5) = {forward(5):.3}")

période 0 : w = 0.300 et loss = 30.000
période 5 : w = 1.246 et loss = 5.906
période 10 : w = 1.665 et loss = 1.163
période 15 : w = 1.851 et loss = 0.229
période 20 : w = 1.934 et loss = 0.045
période 25 : w = 1.971 et loss = 0.009
période 30 : w = 1.987 et loss = 0.002
période 35 : w = 1.994 et loss = 0.000
période 40 : w = 1.997 et loss = 0.000
période 45 : w = 1.999 et loss = 0.000
période 50 : w = 1.999 et loss = 0.000
Après l'entrainement sur 55 itération, la prédiction vaut : forward(5) = 10.0


**On remarquera que pour la méthode avec numpy 10 itérations sont nécessaire pour converger vers la bonne valeur du coefficient alors que dans le cas de PyTorch, il en faut au moins 50.
La raison est que la méthode de backward propagation est une méthode numérique approximative contrairement.**

### Méthode d'élaboration d'un projet à l'aide de pipeline

Les étapes pour la réalisation d'un modèle sont les suivants:
1) Création de l'architecture du modèle :
    - Input
    - Dimension des Output 
    - Forward pass
2) Developpement de la fonction de coûts et intialiation de la méthode d'optimisation
3) Réalisation de l'entrainement, les étapes suivantes doivent être réalisé:
    - Calculer la prédiction (forward pass)
    - Déterminer le gradient (backward pass)
    - Met à jour les poids (Update)

In [2]:
from torch import nn

# Utilisation de Pytorch
# Input - Changement des Inputs pour que les information soient rangé par lignes (Une transposée à eu lieu par rapport à avant)
X = torch.tensor([[1], [2], [3], [4]], dtype=torch.float32)
Y = torch.tensor([[2], [4], [6], [8]], dtype=torch.float32) # Y = 2 *X

# Définition d'un jeu de test :
X_test = torch.tensor([5], dtype=torch.float32)

# Définition du modèle - Généralement cette étape est à construire mais dans ce contexte de régression linéaire simple, avec une seul couche, il est possible d'utiliser directement le modèle suivant :
n_samples, n_features = X.shape # définition de la taille des Inputs
input_size = n_features
output_size = n_features
model = nn.Linear(input_size, output_size)

# Parametre de training
learning_rate = 0.0119
n_iters = 55

# Fonction d'optimisation
loss = nn.MSELoss() #définie la méthode de loss qui est d'écart quadratique moyenne

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate) # définition de l'objet à calibrer

for each_epoch in range(n_iters):
    # prédiction
    y_pred = model(X)

    # Calcul la fonction de perte
    loss_coef = loss(Y, y_pred)

    # calcule du gradient Méthode approximative
    loss_coef.backward()

    #Mise à jour de la valeur
    optimizer.step()
    
    optimizer.zero_grad()

    if each_epoch % 5 == 0:
        [w, b] = model.parameters()
        print(f"période {each_epoch} : w = {w[0][0].item():.3f} et loss = {loss_coef:.3f}, b = {b}")
    
print(f"Après l'entrainement sur {n_iters} itération, la prédiction vaut : forward(5) = {model(X_test).item():.3f}")

NameError: name 'torch' is not defined

**Remarque** :
- La méthode d'optimisation présent dans l'optimizer est une méthode aléatoire (SGD : algorithme du gradient stochastique). Les résultats sont donc non déterministe et des écarts éxistes entre la version attendue et réel obtenue.
- La méthode proposée est a une couche.

### Cas généralisé à N couches

On applique le même code à l'exeption du modèle qui est définie par une classe contenant les différentes couches avec une méthode forward.

In [44]:
# Utilisation de Pytorch
# Input - Changement des Inputs pour que les information soient rangé par lignes (Une transposée à eu lieu par rapport à avant)
X = torch.tensor([[1], [2], [3], [4]], dtype=torch.float32)
Y = torch.tensor([[2], [4], [6], [8]], dtype=torch.float32) # Y = 2 *X

# Définition d'un jeu de test :
X_test = torch.tensor([5], dtype=torch.float32)

# Définition du modèle - Généralement cette étape est à construire mais dans ce contexte de régression linéaire simple, avec une seul couche, il est possible d'utiliser directement le modèle suivant :
n_samples, n_features = X.shape # définition de la taille des Inputs
input_size = n_features
output_size = n_features

class LinearRegression(nn.Module):

    def __init__(self, input_dim, output_dim, *args, **kwargs) -> None:
        super().__init__(*args, **kwargs) # Initialisation de l'objet Module
        # Definie les couches / Defined Layers
        self.lin = nn.Linear(input_dim, output_dim) # 1er couche
    
    def forward(self, value):
        return self.lin(value)


model = LinearRegression(input_size, output_size)

# Parametre de training
learning_rate = 0.0119
n_iters = 55

# Fonction d'optimisation
loss = nn.MSELoss() #définie la méthode de loss qui est d'écart quadratique moyenne

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate) # définition de l'objet à calibrer

for each_epoch in range(n_iters):
    # prédiction
    y_pred = model(X)

    # Calcul la fonction de perte
    loss_coef = loss(Y, y_pred)

    # calcule du gradient Méthode approximative
    loss_coef.backward()

    #Mise à jour de la valeur
    optimizer.step()
    
    optimizer.zero_grad()

    if each_epoch % 5 == 0:
        [w, b] = model.parameters()
        print(f"période {each_epoch} : w = {w[0][0].item():.3f} et loss = {loss_coef:.3f}, b = {b}")
    
print(f"Après l'entrainement sur {n_iters} itération, la prédiction vaut : forward(5) = {model(X_test).item():.3f}")

période 0 : w = -0.240 et loss = 69.361, b = Parameter containing:
tensor([-0.5843], requires_grad=True)
période 5 : w = 1.225 et loss = 7.570, b = Parameter containing:
tensor([-0.0891], requires_grad=True)
période 10 : w = 1.709 et loss = 0.829, b = Parameter containing:
tensor([0.0726], requires_grad=True)
période 15 : w = 1.870 et loss = 0.094, b = Parameter containing:
tensor([0.1242], requires_grad=True)
période 20 : w = 1.924 et loss = 0.014, b = Parameter containing:
tensor([0.1395], requires_grad=True)
période 25 : w = 1.942 et loss = 0.005, b = Parameter containing:
tensor([0.1428], requires_grad=True)
période 30 : w = 1.948 et loss = 0.004, b = Parameter containing:
tensor([0.1422], requires_grad=True)
période 35 : w = 1.951 et loss = 0.003, b = Parameter containing:
tensor([0.1403], requires_grad=True)
période 40 : w = 1.953 et loss = 0.003, b = Parameter containing:
tensor([0.1380], requires_grad=True)
période 45 : w = 1.954 et loss = 0.003, b = Parameter containing:
tenso

Exemple de Classification appliquée à 2 couches

In [4]:
# Binary classification
class NeuralNet1(nn.Module):
    def __init__(self, input_size, hidden_size):
        super(NeuralNet1, self).__init__()
        self.linear1 = nn.Linear(input_size, hidden_size) 
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(hidden_size, 1)  
    
    def forward(self, x):
        out = self.linear1(x)
        out = self.relu(out) # activation function
        out = self.linear2(out)
        # sigmoid at the end
        y_pred = torch.sigmoid(out)
        return y_pred

model = NeuralNet1(input_size=28*28, hidden_size=5)
criterion = nn.BCELoss()
criterion

BCELoss()

In [5]:
# Multiclass problem
class NeuralNet2(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(NeuralNet2, self).__init__()
        self.linear1 = nn.Linear(input_size, hidden_size) 
        self.relu = nn.ReLU()
        self.linear2 = nn.Linear(hidden_size, num_classes)  
    
    def forward(self, x):
        out = self.linear1(x)
        out = self.relu(out)
        out = self.linear2(out)
        # no softmax at the end
        return out

model = NeuralNet2(input_size=28*28, hidden_size=5, num_classes=3)
criterion = nn.CrossEntropyLoss()  # (applies Softmax)
criterion

CrossEntropyLoss()