# Tutoriel pytorch - TP3 - IFT725

Tel que mentionné dans l'énoncé du travail, vous devez recopier les blocs de code du tutoriel suivant

https://pytorch.org/tutorials/beginner/pytorch_with_examples.html

en donnant, pour chaque bloc, une description en format "markdown" de son contenu.

# 1. Tensors

---

## 1.1 Warm-up: numpy

### Fonctionnement global du code

**"Numpy"** est une bibliothèque qui prend en charge des tableaux et matrices, ainsi qu'une multitude de fonctions mathématiques opérant sur ces tableaux. Donc, elle n'est pas destinée pour implémenter des modèles d'apprentissage automatique. Toutefois, le code suivant est un exemple qui montre qu'on peut implémenter un modèle de **régression polynomiale** d’ordre 3 capable de prédire la valeur de la fonction **sinus**.
D'abord, on commence par définir les variables "x" et "y" (données d'entraînement) qui représentent l'entrée et la sortie cible du modèle, "a", "b", "c" et "d" qui sont les poids à apprendre par le modèle (initialisés aléatoirement) et "y_pred" qui est la prédiction du réseau. Le  processus d'apprentissage s'effectue par la minimisation d'une fonction d'erreur **"Distance euclidienne"** à travers un algorithme d'optimisation différentiable **"Descente de gradient"**.

### Principales variables

- **x** : ndarray à 1 dimension de taille 2000 d'éléments de type float64. Elle comprend 2000 valeurs équidistantes comprises entre $- \pi$ et $\pi$ à utiliser pour l'apprentissage du modèle.
- **y** : ndarray à 1 dimension de taille 2000 d'éléments de type float64. Elle comprend les valeurs cibles $sin(x)$ à prédire par le modèle.
- **a** : float64. C'est le premier poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{0}$ du polynôme) et calculé lors de la forward pass.
- **b** : float64. C'est le deuxième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{1}$ du polynôme) et calculé lors de la forward pass.
- **c** : float64. C'est le troisième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{2}$ du polynôme) et calculé lors de la forward pass.
- **d** : float64. C'est le quatrième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{3}$ du polynôme) et calculé lors de la forward pass.
- **y_pred** : ndarray à 1 dimension de taille 2000 d'éléments de type float64. Elle comprend les prédictions de modèle. Son calcul s'effectue lors de la forward pass.
- **loss** : float64. C'est la fonction de perte du modèle "Distance euclidienne". Son calcul s'effectue lors de la forward pass.
- **grad_y_pred** : ndarray à 1 dimension de taille 2000 d'éléments de type float64. Elle comprend la dérivée de la fonction d'erreur par rapport à la variable de prédiction **y_pred**: $\frac {dL}{dy_{pred}}$. Son calcul s'effectue lors de la backward pass.
- **grad_a** : float64. C'est la dérivée partielle de la fonction d'erreur par rapport au coefficient **a**: $\frac {dL}{da}$. Son calcul s'effectue lors de la backward pass.
- **grad_b** : float64. C'est la dérivée partielle de la fonction d'erreur par rapport au coefficient **b**: $\frac {dL}{db}$. Son calcul s'effectue lors de la backward pass.
- **grad_c** : float64. C'est la dérivée partielle de la fonction d'erreur par rapport au coefficient **c**: $\frac {dL}{dc}$. Son calcul s'effectue lors de la backward pass.
- **grad_d** : float64. C'est la dérivée partielle de la fonction d'erreur par rapport au coefficient **d**: $\frac {dL}{dd}$. Son calcul s'effectue lors de la backward pass.
- **t** : int. C'est une variable comprise entre 0 et 1999, elle représente le compteur d'itérations dans la boucle d'apprentissage.
- **learning_rate** : float. C'est le taux d'apprentissage de la descente du gradient, fixé à 1e-6. Il contrôle combien les poids peuvent changer au cours de chaque itération.

### Code

In [None]:
# -*- coding: utf-8 -*-
import numpy as np
import math

# Create random input and output data
x = np.linspace(-math.pi, math.pi, 2000)
y = np.sin(x)

# Randomly initialize weights
a = np.random.randn()
b = np.random.randn()
c = np.random.randn()
d = np.random.randn()

learning_rate = 1e-6
for t in range(2000):
    # Forward pass: compute predicted y
    # y = a + b x + c x^2 + d x^3
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # Compute and print loss
    loss = np.square(y_pred - y).sum()
    if t % 100 == 99:
        print(t, loss)

    # Backprop to compute gradients of a, b, c, d with respect to loss
    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    # Update weights
    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d

print(f'Result: y = {a} + {b} x + {c} x^2 + {d} x^3')

## 1.2 PyTorch: Tensors

### Fonctionnement global du code

La bibliothèque **"Numpy"** est incapable d'effectuer des calculs sur des processeurs graphiques. Ce code nous introduit à un nouveau type d'objets: **les tenseurs**. Maintenant, on entraine comme l'étape précédente un modèle de **régression polynomiale** d’ordre 3 capable de prédire la valeur de la fonction **sinus** mais on remplace les **ndarray** de la bibliothèque **"Numpy"** par des **tensors** de la bibliothèque **"Pytorch"**. Cette dernière nous permet d'entraîner le modèle sur un **GPU**.

### Principales variables

- **dtype** : torch.dtype, fixé à torch.float. C'est un objet qui représente le type de données d'une torch.Tensor.
- **device** : torch.device. C'est un objet représentant l'appareil sur lequel une torch.Tensor est ou sera allouée (CPU ou GPU). selon ce code, les torch.Tensor peuvent être envoyés au CPU ou GPU (cuda:0), ce qui signifie "type='cuda', index=0".
- **x** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend 2000 valeurs équidistantes comprises entre $- \pi$ et $\pi$ à utiliser pour l'apprentissage du modèle.
- **y** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les valeurs cibles $sin(x)$ à prédire par le modèle.
- **a** : torch.FloatTensor, rang 0. C'est le premier poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{0}$ du polynôme) et calculé lors de la forward pass.
- **b** : torch.FloatTensor, rang 0. C'est le deuxième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{1}$ du polynôme) et calculé lors de la forward pass.
- **c** : torch.FloatTensor, rang 0. C'est le troisième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{2}$ du polynôme) et calculé lors de la forward pass.
- **d** : torch.FloatTensor, rang 0. C'est le quatrième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{3}$ du polynôme) et calculé lors de la forward pass.
- **y_pred** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les prédictions de modèle. Son calcul s'effectue lors de la forward pass.
- **loss** : float. C'est la fonction de perte du modèle "Distance euclidienne". Son calcul s'effectue lors de la forward pass.
- **grad_y_pred** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend la dérivée de la fonction d'erreur par rapport à la variable de prédiction **y_pred**: $\frac {dL}{dy_{pred}}$. Son calcul s'effectue lors de la backward pass.
- **grad_a** : torch.FloatTensor, rang 0. C'est la dérivée partielle de la fonction d'erreur par rapport au coefficient **a**: $\frac {dL}{da}$. Son calcul s'effectue lors de la backward pass.
- **grad_b** : torch.FloatTensor, rang 0. C'est la dérivée partielle de la fonction d'erreur par rapport au coefficient **b**: $\frac {dL}{db}$. Son calcul s'effectue lors de la backward pass.
- **grad_c** : torch.FloatTensor, rang 0. C'est la dérivée partielle de la fonction d'erreur par rapport au coefficient **c**: $\frac {dL}{dc}$. Son calcul s'effectue lors de la backward pass.
- **grad_d** : torch.FloatTensor, rang 0. C'est la dérivée partielle de la fonction d'erreur par rapport au coefficient **d**: $\frac {dL}{dd}$. Son calcul s'effectue lors de la backward pass.
- **t** : int. C'est une variable comprise entre 0 et 1999, elle représente le compteur d'itérations dans la boucle d'apprentissage.
- **learning_rate** : float. C'est le taux d'apprentissage de la descente du gradient, fixé à 1e-6. Il contrôle combien les poids peuvent changer au cours de chaque itération.

### Code

In [None]:
# -*- coding: utf-8 -*-

import torch
import math


dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # Uncomment this to run on GPU

# Create random input and output data
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)

# Randomly initialize weights
a = torch.randn((), device=device, dtype=dtype)
b = torch.randn((), device=device, dtype=dtype)
c = torch.randn((), device=device, dtype=dtype)
d = torch.randn((), device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(2000):
    # Forward pass: compute predicted y
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # Compute and print loss
    loss = (y_pred - y).pow(2).sum().item()
    if t % 100 == 99:
        print(t, loss)

    # Backprop to compute gradients of a, b, c, d with respect to loss
    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    # Update weights using gradient descent
    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d


print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')

# 2. Autograd

---

## 2.1 PyTorch: Tensors and autograd

### Fonctionnement global du code

L'implémentation précédente présente une implémentation manuelle du forward et backward pass d'un réseau de neurones. En effet, durant le forward pass, on définit un graphe de calcul dans lequel les noeuds sont des tenseurs et les arêtes sont des fonctions. Ensuite, **Autograd** fournit une différenciation automatique qui automatise le calcul des gradients au cours du backward pass. 
Dans ce code, on entraine un modèle de **régression polynomiale** d’ordre 3 capable de prédire la valeur de la fonction **sinus** tout en profitant du package **Autograd**. A chaque itération, un None est affecté aux gradients calculés pour éviter leurs accumulations dans **.grad**.

### Principales variables

- **dtype** : torch.dtype, fixé à torch.float. C'est un objet qui représente le type de données d'une torch.Tensor.
- **device** : torch.device. C'est un objet représentant l'appareil sur lequel une torch.Tensor est ou sera allouée (CPU ou GPU). selon ce code, les torch.Tensor peuvent être envoyés au CPU ou GPU (cuda:0), ce qui signifie "type='cuda', index=0".
- **x** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend 2000 valeurs équidistantes comprises entre $- \pi$ et $\pi$ à utiliser pour l'apprentissage du modèle. Elle est définie lors du forward pass avec un paramètre **requires_grad=False** par défaut car on n'a pas besoin de calculer son gradient lors du backward pass.
- **y** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les valeurs cibles $sin(x)$ à prédire par le modèle. Elle est définie lors du forward pass avec un paramètre **requires_grad=False** par défaut car on n'a pas besoin de calculer son gradient lors du backward pass.
- **a** : torch.FloatTensor, rang 0. C'est le premier poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{0}$ du polynôme) et calculé lors de la forward pass. Elle est définie lors du forward pass avec un paramètre **requires_grad=True** car on a besoin de calculer son gradient lors du backward pass.
- **b** : torch.FloatTensor, rang 0. C'est le deuxième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{1}$ du polynôme) et calculé lors de la forward pass. Elle est définie lors du forward pass avec un paramètre **requires_grad=True** car on a besoin de calculer son gradient lors du backward pass.
- **c** : torch.FloatTensor, rang 0. C'est le troisième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{2}$ du polynôme) et calculé lors de la forward pass. Elle est définie lors du forward pass avec un paramètre **requires_grad=True** car on a besoin de calculer son gradient lors du backward pass.
- **d** : torch.FloatTensor, rang 0. C'est le quatrième poids du modèle initialisé par une valeur aléatoire (c'est le coefficient de $x^{3}$ du polynôme) et calculé lors de la forward pass. Elle est définie lors du forward pass avec un paramètre **requires_grad=True** car on a besoin de calculer son gradient lors du backward pass.
- **y_pred** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les prédictions de modèle. Elle est définie lors du forward pass.
- **loss** : torch.FloatTensor, rang 0. C'est la fonction de perte du modèle "Distance euclidienne". Aussi, la ligne **loss.backward()** nous permet de calculer les gradients des paramètres.
- **t** : int. C'est une variable comprise entre 0 et 1999, elle représente le compteur d'itérations dans la boucle d'apprentissage.
- **learning_rate** : float. C'est le taux d'apprentissage de la descente du gradient, fixé à 1e-6. Il contrôle combien les poids peuvent changer au cours de chaque itération.

### Code

In [None]:
# -*- coding: utf-8 -*-
import torch
import math

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0")  # Uncomment this to run on GPU

# Create Tensors to hold input and outputs.
# By default, requires_grad=False, which indicates that we do not need to
# compute gradients with respect to these Tensors during the backward pass.
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)

# Create random Tensors for weights. For a third order polynomial, we need
# 4 weights: y = a + b x + c x^2 + d x^3
# Setting requires_grad=True indicates that we want to compute gradients with
# respect to these Tensors during the backward pass.
a = torch.randn((), device=device, dtype=dtype, requires_grad=True)
b = torch.randn((), device=device, dtype=dtype, requires_grad=True)
c = torch.randn((), device=device, dtype=dtype, requires_grad=True)
d = torch.randn((), device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(2000):
    # Forward pass: compute predicted y using operations on Tensors.
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # Compute and print loss using operations on Tensors.
    # Now loss is a Tensor of shape (1,)
    # loss.item() gets the scalar value held in the loss.
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())

    # Use autograd to compute the backward pass. This call will compute the
    # gradient of loss with respect to all Tensors with requires_grad=True.
    # After this call a.grad, b.grad. c.grad and d.grad will be Tensors holding
    # the gradient of the loss with respect to a, b, c, d respectively.
    loss.backward()

    # Manually update weights using gradient descent. Wrap in torch.no_grad()
    # because weights have requires_grad=True, but we don't need to track this
    # in autograd.
    with torch.no_grad():
        a -= learning_rate * a.grad
        b -= learning_rate * b.grad
        c -= learning_rate * c.grad
        d -= learning_rate * d.grad

        # Manually zero the gradients after updating weights
        a.grad = None
        b.grad = None
        c.grad = None
        d.grad = None

print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')

## 2.2 PyTorch: Defining new autograd functions

### Fonctionnement global du code

Ce code nous permet d'implémenter une nouvelle fonction autograd personnalisée. En effet, il définit une sous-classe nommée **LegendrePolynomial3** dont laquelle les méthodes forward et backward sont associées au **Polynôme de Legendre**. Le but du modèle est d'entrainer un polynôme d’ordre 3 qui prédit la fonction **sinus**. Il est défini comme suit:
$$ y = a + b P_3 ( c + dx ) $$ avec $P_3(x) = 12 (5x^3−3x)$, Polynôme de Legendre

A chaque itération, un None est affecté aux gradients calculés pour éviter leurs accumulations dans **.grad**.

### Principales variables

- **LegendrePolynomial3** : torch.autograd.function.FunctionMeta. C'est une sous-classe qui nous permet d'avoir une fonction autograd personnalisée.
- **P3** : builtin_function_or_method. C'est un alias de la méthode Function.apply (LegendrePolynomial3.apply dans cet exemple).
- **dtype** : torch.dtype, fixé à torch.float. C'est un objet qui représente le type de données d'une torch.Tensor.
- **device** : torch.device. C'est un objet représentant l'appareil sur lequel une torch.Tensor est ou sera allouée (CPU ou GPU). selon ce code, les torch.Tensor peuvent être envoyés au CPU ou GPU (cuda:0), ce qui signifie "type='cuda', index=0".
- **x** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend 2000 valeurs équidistantes comprises entre $- \pi$ et $\pi$ à utiliser pour l'apprentissage du modèle. Elle est définie lors du forward pass avec un paramètre **requires_grad=False** par défaut car on n'a pas besoin de calculer son gradient lors du backward pass.
- **y** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les valeurs cibles $sin(x)$ à prédire par le modèle. Elle est définie lors du forward pass avec un paramètre **requires_grad=False** par défaut car on n'a pas besoin de calculer son gradient lors du backward pass.
- **a** : torch.FloatTensor, rang 0. C'est le premier poids du modèle initialisé par **0.0** pour assurer la convergence du modèle vers la bonne valeur (c'est le coefficient de $x^{0}$ du polynôme) et calculé lors de la forward pass. Elle est définie lors du forward pass avec un paramètre **requires_grad=True** car on a besoin de calculer son gradient lors du backward pass.
- **b** : torch.FloatTensor, rang 0. C'est le deuxième poids du modèle initialisé par **-1.0** pour assurer la convergence du modèle vers la bonne valeur (c'est le coefficient de $x^{1}$ du polynôme) et calculé lors de la forward pass. Elle est définie lors du forward pass avec un paramètre **requires_grad=True** car on a besoin de calculer son gradient lors du backward pass.
- **c** : torch.FloatTensor, rang 0. C'est le troisième poids du modèle initialisé par **0.0** pour assurer la convergence du modèle vers la bonne valeur (c'est le coefficient de $x^{2}$ du polynôme) et calculé lors de la forward pass. Elle est définie lors du forward pass avec un paramètre **requires_grad=True** car on a besoin de calculer son gradient lors du backward pass.
- **d** : torch.FloatTensor, rang 0. C'est le quatrième poids du modèle initialisé par **0.3** pour assurer la convergence du modèle vers la bonne valeur (c'est le coefficient de $x^{3}$ du polynôme) et calculé lors de la forward pass. Elle est définie lors du forward pass avec un paramètre **requires_grad=True** car on a besoin de calculer son gradient lors du backward pass.
- **y_pred** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les prédictions de modèle. Elle est définie lors du forward pass.
- **loss** : torch.FloatTensor, rang 0. C'est la fonction de perte du modèle "Distance euclidienne". Aussi, la ligne **loss.backward()** nous permet de calculer les gradients des paramètres.
- **t** : int. C'est une variable comprise entre 0 et 1999, elle représente le compteur d'itérations dans la boucle d'apprentissage.
- **learning_rate** : float. C'est le taux d'apprentissage de la descente du gradient, fixé à 5e-6. Il contrôle combien les poids peuvent changer au cours de chaque itération.

### Code

In [None]:
# -*- coding: utf-8 -*-
import torch
import math


class LegendrePolynomial3(torch.autograd.Function):
    """
    We can implement our own custom autograd Functions by subclassing
    torch.autograd.Function and implementing the forward and backward passes
    which operate on Tensors.
    """

    @staticmethod
    def forward(ctx, input):
        """
        In the forward pass we receive a Tensor containing the input and return
        a Tensor containing the output. ctx is a context object that can be used
        to stash information for backward computation. You can cache arbitrary
        objects for use in the backward pass using the ctx.save_for_backward method.
        """
        ctx.save_for_backward(input)
        return 0.5 * (5 * input ** 3 - 3 * input)

    @staticmethod
    def backward(ctx, grad_output):
        """
        In the backward pass we receive a Tensor containing the gradient of the loss
        with respect to the output, and we need to compute the gradient of the loss
        with respect to the input.
        """
        input, = ctx.saved_tensors
        return grad_output * 1.5 * (5 * input ** 2 - 1)


dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0")  # Uncomment this to run on GPU

# Create Tensors to hold input and outputs.
# By default, requires_grad=False, which indicates that we do not need to
# compute gradients with respect to these Tensors during the backward pass.
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)

# Create random Tensors for weights. For this example, we need
# 4 weights: y = a + b * P3(c + d * x), these weights need to be initialized
# not too far from the correct result to ensure convergence.
# Setting requires_grad=True indicates that we want to compute gradients with
# respect to these Tensors during the backward pass.
a = torch.full((), 0.0, device=device, dtype=dtype, requires_grad=True)
b = torch.full((), -1.0, device=device, dtype=dtype, requires_grad=True)
c = torch.full((), 0.0, device=device, dtype=dtype, requires_grad=True)
d = torch.full((), 0.3, device=device, dtype=dtype, requires_grad=True)

learning_rate = 5e-6
for t in range(2000):
    # To apply our Function, we use Function.apply method. We alias this as 'P3'.
    P3 = LegendrePolynomial3.apply

    # Forward pass: compute predicted y using operations; we compute
    # P3 using our custom autograd operation.
    y_pred = a + b * P3(c + d * x)

    # Compute and print loss
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())

    # Use autograd to compute the backward pass.
    loss.backward()

    # Update weights using gradient descent
    with torch.no_grad():
        a -= learning_rate * a.grad
        b -= learning_rate * b.grad
        c -= learning_rate * c.grad
        d -= learning_rate * d.grad

        # Manually zero the gradients after updating weights
        a.grad = None
        b.grad = None
        c.grad = None
        d.grad = None

print(f'Result: y = {a.item()} + {b.item()} * P3({c.item()} + {d.item()} x)')

# 3. nn module

---

## 3.1 PyTorch: nn

### Fonctionnement global du code

Ce code nous introduit au package **nn**. Ce dernier sert à définir les couches du réseau de neurones sous la forme de modules. Un module reçoit un **tenseur d'entrée**, calcule un **tenseur de sortie** et maintient un état interne tel que les **tenseurs de paramètres**. Le but du modèle est encore l'entrainement d'un polynôme d'ordre 3 pour prédire la fonction sinus.

### Principales variables

- **x** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend 2000 valeurs équidistantes comprises entre $- \pi$ et $\pi$ à utiliser pour l'apprentissage du modèle.
- **y** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les valeurs cibles $sin(x)$ à prédire par le modèle.
- **p** : torch.Tensor, rang 1, de taille 3 d'éléments de type int64. Elle comprend les exposants du polynôme à entrainer.
- **xx** : torch.Tensor, rang 2, de taille (2000, 3) d'éléments de type float32. Elle nous représente un tenseur (x, x^2, x^3).
- **model** : torch.nn.modules.container.Sequential. Cette variable définit l'architecture du réseau de neurones. Elle se compose de deux couches: **Linear(in_features=3, out_features=1, bias=True)** qui est une couche linéaire qui reçoit 3 tenseurs d'entrée et calcule un en sortie (avec **bias=True**) et **Flatten(start_dim=0, end_dim=1)** qui représente une couche d'aplatissement qui reçoit le tenseur de sortie de la couche linéaire et l'applatit en un tenseur de rang 1, de taille 2000. A chaque itération, la mise des gradients à zéro s'effectue par **model.zero_grad()**.
- **loss_fn** : torch.nn.modules.loss.MSELoss. C'est la fonction de perte du modèle "**Mean Squared Error Loss** (MSELoss)". On fixe le paramètre **reduction** de la fonction **torch.nn.MSELoss** à la valeur **'sum'** pour éviter la division de la loss par le nombre d'éléments (2000).
- **loss** : torch.FloatTensor, rang 0. Elle comprend le résultat de calcul de la fonction d'erreur **loss_fn**. Aussi, la ligne **loss.backward()** nous permet de calculer les gradients des paramètres.
- **y_pred** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les prédictions de modèle tel que **y_pred = model(xx)**.
- **t** : int. C'est une variable comprise entre 0 et 1999, elle représente le compteur d'itérations dans la boucle d'apprentissage.
- **learning_rate** : float. C'est le taux d'apprentissage de la descente du gradient, fixé à 1e-6. Il contrôle combien les poids peuvent changer au cours de chaque itération.
- **param** : torch.nn.parameter.Parameter, rang 1, avec un seul élément de type float32.
- **linear_layer** : torch.nn.modules.linear.Linear. Cette variable contient les éléments de la première couche du réseau de neurones, **Linear(in_features=3, out_features=1, bias=True)**.

### Code

In [None]:
# -*- coding: utf-8 -*-
import torch
import math


# Create Tensors to hold input and outputs.
x = torch.linspace(-math.pi, math.pi, 2000)
y = torch.sin(x)

# For this example, the output y is a linear function of (x, x^2, x^3), so
# we can consider it as a linear layer neural network. Let's prepare the
# tensor (x, x^2, x^3).
p = torch.tensor([1, 2, 3])
xx = x.unsqueeze(-1).pow(p)

# In the above code, x.unsqueeze(-1) has shape (2000, 1), and p has shape
# (3,), for this case, broadcasting semantics will apply to obtain a tensor
# of shape (2000, 3) 

# Use the nn package to define our model as a sequence of layers. nn.Sequential
# is a Module which contains other Modules, and applies them in sequence to
# produce its output. The Linear Module computes output from input using a
# linear function, and holds internal Tensors for its weight and bias.
# The Flatten layer flatens the output of the linear layer to a 1D tensor,
# to match the shape of `y`.
model = torch.nn.Sequential(
    torch.nn.Linear(3, 1),
    torch.nn.Flatten(0, 1)
)

# The nn package also contains definitions of popular loss functions; in this
# case we will use Mean Squared Error (MSE) as our loss function.
loss_fn = torch.nn.MSELoss(reduction='sum')

learning_rate = 1e-6
for t in range(2000):

    # Forward pass: compute predicted y by passing x to the model. Module objects
    # override the __call__ operator so you can call them like functions. When
    # doing so you pass a Tensor of input data to the Module and it produces
    # a Tensor of output data.
    y_pred = model(xx)

    # Compute and print loss. We pass Tensors containing the predicted and true
    # values of y, and the loss function returns a Tensor containing the
    # loss.
    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # Zero the gradients before running the backward pass.
    model.zero_grad()

    # Backward pass: compute gradient of the loss with respect to all the learnable
    # parameters of the model. Internally, the parameters of each Module are stored
    # in Tensors with requires_grad=True, so this call will compute gradients for
    # all learnable parameters in the model.
    loss.backward()

    # Update the weights using gradient descent. Each parameter is a Tensor, so
    # we can access its gradients like we did before.
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad

# You can access the first layer of `model` like accessing the first item of a list
linear_layer = model[0]

# For linear layer, its parameters are stored as `weight` and `bias`.
print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')

## 3.2 PyTorch: optim

### Fonctionnement global du code

Au cours de l'implémentation précédente, la mise à jour des gradients des paramètres a été effectuée manuellement à travers la commande **torch.no_grad()**. Le code suivant utilisera le package **optim** vu qu'il offre plusieurs algorithmes d'optimisation prédéfinis. Alors, on va entrainer le même modèle précédent avec les pacages **nn** et **optim** en utilisant l'algorithme d'optimisation **RMSprop**. Le but du modèle est encore l'entrainement d'un polynôme d'ordre 3 pour prédire la fonction sinus.

### Principales variables

- **x** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend 2000 valeurs équidistantes comprises entre $- \pi$ et $\pi$ à utiliser pour l'apprentissage du modèle.
- **y** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les valeurs cibles $sin(x)$ à prédire par le modèle.
- **p** : torch.Tensor, rang 1, de taille 3 d'éléments de type int64. Elle comprend les exposants du polynôme à entrainer.
- **xx** : torch.Tensor, rang 2, de taille (2000, 3) d'éléments de type float32. Elle nous représente un tenseur (x, x^2, x^3).
- **model** : torch.nn.modules.container.Sequential. Cette variable définit l'architecture du réseau de neurones. Elle se compose de deux couches: **Linear(in_features=3, out_features=1, bias=True)** qui est une couche linéaire qui reçoit 3 tenseurs d'entrée et calcule un en sortie (avec **bias=True**) et **Flatten(start_dim=0, end_dim=1)** qui représente une couche d'aplatissement qui reçoit le tenseur de sortie de la couche linéaire et l'applatit en un tenseur de rang 1, de taille 2000. A chaque itération, la mise des gradients à zéro s'effectue par **model.zero_grad()**.
- **loss_fn** : torch.nn.modules.loss.MSELoss. C'est la fonction de perte du modèle "**Mean Squared Error Loss** (MSELoss)". On fixe le paramètre **reduction** de la fonction **torch.nn.MSELoss** à la valeur **'sum'** pour éviter la division de la loss par le nombre d'éléments (2000).
- **loss** : torch.FloatTensor, rang 0. Elle comprend le résultat de calcul de la fonction d'erreur **loss_fn**. Aussi, la ligne **loss.backward()** nous permet de calculer les gradients des paramètres.
- **y_pred** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les prédictions de modèle tel que **y_pred = model(xx)**.
- **t** : int. C'est une variable comprise entre 0 et 1999, elle représente le compteur d'itérations dans la boucle d'apprentissage.
- **learning_rate** : float. C'est le taux d'apprentissage de l'algorithme d'apprentissage utilisé **RMSprop**, fixé à 1e-3. Il contrôle combien les poids peuvent changer au cours de chaque itération.
- **optimizer** : torch.optim.rmsprop.RMSprop. C'est un optimiseur qui utilise l'algorithme **"RMSProp"**. On implémente la ligne **optimizer.zero_grad()** pour mettre les gradients à zéro avant le backward pass et **optimizer.step()** pour mettre à jour les paramètres du modèle.
- **linear_layer** : torch.nn.modules.linear.Linear. Cette variable contient les éléments de la première couche du réseau de neurones, **Linear(in_features=3, out_features=1, bias=True)**.

### Code

In [None]:
# -*- coding: utf-8 -*-
import torch
import math


# Create Tensors to hold input and outputs.
x = torch.linspace(-math.pi, math.pi, 2000)
y = torch.sin(x)

# Prepare the input tensor (x, x^2, x^3).
p = torch.tensor([1, 2, 3])
xx = x.unsqueeze(-1).pow(p)

# Use the nn package to define our model and loss function.
model = torch.nn.Sequential(
    torch.nn.Linear(3, 1),
    torch.nn.Flatten(0, 1)
)
loss_fn = torch.nn.MSELoss(reduction='sum')

# Use the optim package to define an Optimizer that will update the weights of
# the model for us. Here we will use RMSprop; the optim package contains many other
# optimization algorithms. The first argument to the RMSprop constructor tells the
# optimizer which Tensors it should update.
learning_rate = 1e-3
optimizer = torch.optim.RMSprop(model.parameters(), lr=learning_rate)
for t in range(2000):
    # Forward pass: compute predicted y by passing x to the model.
    y_pred = model(xx)

    # Compute and print loss.
    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # Before the backward pass, use the optimizer object to zero all of the
    # gradients for the variables it will update (which are the learnable
    # weights of the model). This is because by default, gradients are
    # accumulated in buffers( i.e, not overwritten) whenever .backward()
    # is called. Checkout docs of torch.autograd.backward for more details.
    optimizer.zero_grad()

    # Backward pass: compute gradient of the loss with respect to model
    # parameters
    loss.backward()

    # Calling the step function on an Optimizer makes an update to its
    # parameters
    optimizer.step()


linear_layer = model[0]
print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')

## 3.3 PyTorch: Custom nn Modules

### Fonctionnement global du code

Ce code nous permet d'implémenter un nouveau module **nn.Module** personnalisée. En effet, il définit une sous-classe nommée **Polynomial3** dont laquelle la méthode forward utilise un type de module et d'autograd personnalisé. Le but du modèle est encore l'entrainement d'un polynôme d'ordre 3 pour prédire la fonction sinus avec une "Squared Error Loss".

### Principales variables

- **Polynomial3** : C'est une sous-classe qui nous permet d'avoir une fonction **nn.Module** personnalisée. Ses attributs $a$, $b$, $c$, et $d$ sont les paramètres du modèle. Ils sont aléatoirement initialisés. La méthode **forward** prend en entrée le tenseur **x** et retourne un tenseur calculé se lon l'équation suivante:
$$a+bx+cx^2+dx^3$$
Aussi, la méthode **string** retourne une chaine de caractères **"y = a + b x + c x^2 + d x^3"**.
- **x** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend 2000 valeurs équidistantes comprises entre $- \pi$ et $\pi$ à utiliser pour l'apprentissage du modèle.
- **y** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les valeurs cibles $sin(x)$ à prédire par le modèle.
- **model** : C'est une instance de la clasee **Polynomial3**. 
- **criterion** : torch.nn.modules.loss.MSELoss. C'est la fonction de perte du modèle "**Squared Error Loss**" (car on fixe le paramètre **reduction** de la fonction **torch.nn.MSELoss** à la valeur **'sum'** pour éviter la division de la loss par le nombre d'éléments (2000)).
- **optimizer** : torch.optim.sgd.SGD. C'est un optimiseur qui utilise l'algorithme **"descente de gradient"**. On implémente la ligne **optimizer.zero_grad()** pour mettre les gradients à zéro avant le backward pass et **optimizer.step()** pour mettre à jour les paramètres du modèle.
- **y_pred** : torch.FloatTensor, rang 1, de taille 2000 d'éléments de type float32. Elle comprend les prédictions de modèle tel que **y_pred = model(x)**.
- **loss** : torch.FloatTensor, rang 0. Elle comprend le résultat de calcul de la fonction d'erreur **loss_fn**. Aussi, la igne ** loss = criterion(y_pred, y)** nous permet de calculer l'erreur et la ligne **loss.backward()** nous permet de calculer les gradients des paramètres.
- **t** : int. C'est une variable comprise entre 0 et 1999, elle représente le compteur d'itérations dans la boucle d'apprentissage.

### Code

In [None]:
# -*- coding: utf-8 -*-
import torch
import math


class Polynomial3(torch.nn.Module):
    def __init__(self):
        """
        In the constructor we instantiate four parameters and assign them as
        member parameters.
        """
        super().__init__()
        self.a = torch.nn.Parameter(torch.randn(()))
        self.b = torch.nn.Parameter(torch.randn(()))
        self.c = torch.nn.Parameter(torch.randn(()))
        self.d = torch.nn.Parameter(torch.randn(()))

    def forward(self, x):
        """
        In the forward function we accept a Tensor of input data and we must return
        a Tensor of output data. We can use Modules defined in the constructor as
        well as arbitrary operators on Tensors.
        """
        return self.a + self.b * x + self.c * x ** 2 + self.d * x ** 3

    def string(self):
        """
        Just like any class in Python, you can also define custom method on PyTorch modules
        """
        return f'y = {self.a.item()} + {self.b.item()} x + {self.c.item()} x^2 + {self.d.item()} x^3'


# Create Tensors to hold input and outputs.
x = torch.linspace(-math.pi, math.pi, 2000)
y = torch.sin(x)

# Construct our model by instantiating the class defined above
model = Polynomial3()

# Construct our loss function and an Optimizer. The call to model.parameters()
# in the SGD constructor will contain the learnable parameters of the nn.Linear
# module which is members of the model.
criterion = torch.nn.MSELoss(reduction='sum')
optimizer = torch.optim.SGD(model.parameters(), lr=1e-6)
for t in range(2000):
    # Forward pass: Compute predicted y by passing x to the model
    y_pred = model(x)

    # Compute and print loss
    loss = criterion(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # Zero gradients, perform a backward pass, and update the weights.
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

print(f'Result: {model.string()}')