# <font color='#3b4859'><b>Les fondamentaux de PyTorch</b></font>

Bienvenue dans le suite du cours les fondammentaux au Deep Learning. Dans les Notebooks précédents vous avez utilisé NumPy pour coder vos premiers réseaux de neurones mais en pratique, vous utiliserez des frameworks dédiées au Deep Learning.

Dans ce Notebook vous allez découvrir comment utiliser PyTorch pour implémenter vos algorithmes.

In [1]:
import time

import numpy as np
import torch
print("Version de pytorch : ", torch.__version__)

Version de pytorch :  2.0.1+cu118


In [3]:
torch.device("cuda" if torch.cuda.is_available() else "cpu")

device(type='cuda')

In [None]:
!nvidia-smi

# <font color='#3b4859'>0. PyTorch vs. NumPy</font>

Dans les Notebooks précédents vous avez vu que NumPy permettait d'effectuer des calculs d'algèbre linéaire.

PyTorch va permettre d'accélérer ces calculs en utilisant les **tensors** et surtout, les **GPU**.

### <font color='#3b4859'>Paramétrer l'accès du notebook aux GPU</font>

Pour ce faire vous devez effectuer la procédure suivante, allez dans : **Modifier -> Paramètres du Notebook -> Accélérateur Matériel**


In [None]:
# Effectuons un test rapide pour voir la différence des temps de calculs
# Création de deux matrices A et B de dim(5000, 5000)
d = 5000

A = np.random.rand(d, d).astype(np.float32)
B = np.random.rand(d, d).astype(np.float32)

In [None]:
# Puis on effectue le produit
s = time.time()
C = A.dot(B)
print(time.time() - s)

Pour allouer un Tenseur à un GPU, on utilise la fonction `.cuda()` ou alors `to.("cuda")`

In [None]:
# La même chose avec PyTorch
d = 5000

A = torch.rand(d, d).cuda()
B = torch.rand(d, d).cuda()

In [None]:
s = time.time()
C = torch.mm(A,B)
print(time.time() - s)

Vous pouvez constater ici que l'utilisation d'un tensur sur GPU permet d'accélérer les calculs.

# <font color='#3b4859'>1. Les tenseurs et leurs opérations classiques</font>

Les Tenseurs sont des objets similaires à des NumPy ndarrays. Cependant, les Tenseurs peuvent être utilisés sur GPU afin d'accélerer les calculs.


## <font color='#3b4859'>1.1. Création de tenseurs à partir de données</font>
Les Tenseurs peuvent être créés **à partir d'une liste** en utilisant la fonction [```torch.tensor```](https://pytorch.org/docs/stable/generated/torch.tensor.html).

In [None]:
# Exemple en dimension 1
data = [1.0, 2.0, 3.0]
tensor = torch.tensor(data)
print("Exemple en dimension 1")
print(tensor)

# Example en dimension 2
data = [[1., 2., 3.], [4., 5., 6.]]
tensor = torch.tensor(data)
print("\nExemple en dimension 2")
print(tensor)

# Exemple en dimension 3
data = [[[1.,2.], [3.,4.]],
        [[5.,6.], [7.,8.]]]
tensor = torch.tensor(data)
print("\nExemple en dimension 3")
print(tensor)

## <font color='#3b4859'>1.2. Initialiser d'un tenseur vide </font>

Il est possible de d'initialiser un tenseur vide en utilisant la fonction [```torch.empty```](https://pytorch.org/docs/stable/generated/torch.empty.html).

Une matrice "vide", c'est à dire non initialisée, est déclarée. Elle ne contient pas de valeurs définies et connues avant d'être utilisée.
Lorsqu'une matrice non initialisée est créée, les valeurs qui se trouvaient dans la mémoire allouée à ce moment-là apparaissent comme les valeurs initiales.

Vous trouverez un exemple d'utilisation de la fonction ```torch.empty``` en exécutant la cellule suivante.

In [None]:
# Initialisation d'une matrice non initialisée de taille 2x3
x = torch.empty(2, 3)
print(x)

## <font color='#3b4859'>1.3. Initialiser un tenseur de façon aléatoire </font>

On peut initialiser un tenseur de façon aléatoire, de différentes façons.

- La fonction [```torch.rand```](https://pytorch.org/docs/stable/generated/torch.rand.html) retourne un tenseur dont les valeurs sont tirées aléatoirement en suivant une loi uniforme sur $[0,1[$.
- La fonction [```torch.randn```](https://pytorch.org/docs/stable/generated/torch.randn.html) retourne un tenseur dont les valeurs sont tirées aléatoirement en suivant une loi normale de moyenne 0 et d'écart type 1.

Vous trouverez des exemples d'utilisation des fonctions ```torch.rand``` et ```torch.randn``` en exécutant la cellule suivante.

In [None]:
# Initialisation d'une matrice aléatoire de taille 2x3
# les valeurs suivent une loi uniforme sur [0,1[
x = torch.rand(2, 3)
print(x)

# Initialisation d'une matrice aléatoire de taille 2x3
# les valeurs suivent une loi normale de moyenne 0 et d'écart type 1
x = torch.randn(2, 3)
print(x)

## <font color='#3b4859'>1.4. Initialiser un tenseur contenant uniquement des 0 ou des 1 </font>

- La fonction [```torch.zeros```](https://pytorch.org/docs/stable/generated/torch.zeros.html) retourne un tenseur composé uniquement de 0
- La fonction [```torch.ones```](https://pytorch.org/docs/stable/generated/torch.ones.html) retourne un tenseur composé uniquement de 1

In [None]:
# Initialisation d'une matrice aléatoire de taille 2x3
# Remplie de valeurs 0
x = torch.zeros(2, 3)
print("Matrice de zeros")
print(x)

# Initialisation d'une matrice aléatoire de taille 2x3
# Remplie de valeurs 1
x = torch.ones(2, 3)
print("Matrice de uns")
print(x)

## <font color='#3b4859'>1.5. Créer un tenseur à partir d'un tenseur existant </font>

Il est possible d'initialiser un tenseur à partir d'un tenseur existant.

In [None]:
x = x.new_ones(2, 3, dtype=torch.double)      # new_* methods take in sizes
print(x)

x = torch.randn_like(x, dtype=torch.float)    # override dtype!
print(x)                                      # result has the same size

## <font color='#3b4859'>1.6. Il est important de typer les tenseurs </font>

Lorsque vous définissez un tenseur, il est important de lui donner un type, de façon similaire aux objets array de Numpy.

Les types de tenseurs sont les types usuels :
 - ```torch.int32``` (équivalent à ```torch.long```)
 - ```torch.int64```
 - ```torch.float32``` (équivalent à ```torch.float```)
 - ```torch.float64```
 - ```torch.bool```


Il existe plusieurs façon de préciser le type d'un tenseur :
- lors de son initialisation en précisant en paramètre  ```dtype = TYPE```


In [None]:
data = [[1, 2, 3], [4, 5, 6]]

# Initialisation d'un tenseur d'int
int_tensor = torch.tensor(data, dtype = torch.int32)
print(int_tensor)
print(int_tensor.dtype)

# Initialisation d'un tenseur de float
float_tensor = torch.tensor(data, dtype = torch.float32)
print(float_tensor)
print(float_tensor.dtype)

- en appelant le méthode ```.to(TYPE)```ou bien ```.float()``` (fonctionne également avec la méthod ```.int()``` ou ```.bool()```)

In [None]:
int_tensor = torch.tensor(data)

# en utilisant .to(TYPE)
float_tensor = int_tensor.to(torch.float32)
print(float_tensor)
print(float_tensor.dtype)

# en utilisant .float()
float_tensor = int_tensor.float()
print(float_tensor)
print(float_tensor.dtype)

## <font color='#3b4859'>1.7. Size et Shape d'un Tenseur </font>

Pour connaître les dimensions d'un tenseur, on peut utiliser les méthodes suivantes :
- ```.shape```
- ```.size()```

On obtient un objet `torch.Size`. Il s'agit d'un tuple. Par conséquent, il supporte toutes les opérations valables sur les tuples.

In [None]:
# Example with 1-D data
data = [1.0, 2.0, 3.0]
tensor = torch.Tensor(data)
print("Exemple en 1-D")
print(tensor)
print(tensor.size())
print(tensor.shape)

# Example with 2-D data
data = [[1., 2., 3.], [4., 5., 6]]
tensor = torch.Tensor(data)
print("\nExemple en 2-D")
print(tensor)
print(tensor.size())
print(tensor.shape)

# Example with 3-D data
data = [[[1.,2.], [3.,4.]],
        [[5.,6.], [7.,8.]]]
tensor = torch.Tensor(data)
print("\nExemple en 3-D ")
print(tensor)
print(tensor.size())
print(tensor.shape)

## <font color='#3b4859'>1.8. Opérations avec les Tenseurs </font>
La plupart des opérations avec les Tenseurs sont similaires à celles implémentées dans NumPy pour les arrays :

- addition
- soustraction
- multiplication (division) par un scalaire
- produit scalaire


In [None]:
x = torch.Tensor([ 1., 2., 3. ])
y = torch.Tensor([ 4., 5., 6. ])

# Opérations arithmétiques
# Addition
z1 = x + y
print(z1)

# Addition
z2 = x - y
print(z2)

# Multiplication (division) par un scalaire
z3 = x / 3
print(z3)

# fonction dot : produit scalaire
print(torch.dot(x,y))
print(x @ y )

## <font color='#3b4859'>1.9. Opérations in-place</font>

Les opérations sur les tenseurs avec un underscore `_` sont appelées "in place" opérations. Elles s'appliquent directement à la suite du tenseur (exemples: `x.copy_(y)`, `x.t_()`) et changent la valeurs de `x`.

Voir la documentation officielle ([PyTorch official documentation](http://pytorch.org/docs/torch.html)) pour voir la liste, non exhaustive, des opérations proposées par Pytorch.

Vous trouverez un exemple d'utilisation de fonction in-place dans la cellule suivante :

In [None]:
# In-place addition

x = torch.Tensor([ 1., 2., 3. ])
y = torch.Tensor([ 4., 5., 6. ])

y.add_(x)
print(y)

## <font color='#3b4859'>1.10. Indexation et reshaping des Tenseurs</font>

L'indexation des tenseurs est similaire à celle d'un Numpy Array.


In [None]:
x = torch.Tensor([[1., 2., 3.], [4., 5., 6]])
print(x[:, 1]) # selectionne la colonne numéro 1
print(x[-1, :]) # selectionne la dernière ligne

In [None]:
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8)  # l'index -1 permet d'inférer à partir des autres dimensions définies
#ici comme l'autre dimension est 8, la première dimension sera égale à 16/2=8)
print(x.size(), y.size(), z.size())

Pour sélectionner les Tenseurs contenant un objet en 1-D, `.item()` permet de récupérer l'objet.

In [None]:
x = torch.randn(1)
print(x)
print(x.item())

## <font color='#3b4859'>1.11. Convertir un Tenseur depuis Numpy ou en Numpy array</font>
La conversion d'un Tenseur en NumPy array et vice versa est très simple.

Le Torch Tenseur et la Numpy Array vont **partager le même espace en mémoire** (si le Tenseur est sur CPU) et tout changement de l'un entraîne un changement de l'autre.



In [None]:
a = torch.ones(5)
print("Original a:", a)

b = a.numpy()
print("Original b:", b)

a.add_(1)
print("New a:", a)
print("New b:", b)

In [None]:
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)

## <font color='#3b4859'>1.12. Les Tenseurs CUDA </font>

Les Tenseurs peuvent changés facilement de device (CPU ou GPU) en utilisant `.to()`.  

In [None]:
# Essayez d'exécuter cette cellule avec et sans GPU
import torch
print("CUDA available?", torch.cuda.is_available())

# Nous allons utiliser des objets ``torch.device`` pour déplacer les tensors à
# l'intérieur et en dehors des GPU
if torch.cuda.is_available():
    device = torch.device("cuda")          # un objet CUDA device
    x = torch.Tensor([1.0, 2.0, 3.0])
    y = torch.ones_like(x, device=device)  # Créé un tenseur sur GPU
    x = x.to(device)                       # ou utilisez just le string ``.to("cuda")``
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # ``.to`` peut également changer le dtype

## <font color='#3b4859'>1.13. ⚒️ **EXERCICE** </font>

Ce bref exercice va vous permettre de tester les différentes notions vues dans la première partie.

1️⃣ Créez un tenseur matriciel ```t```, de dimensions $50 \times 100$ initialisé avec des valeurs entières entre 0 et 10.

In [None]:
### CODEZ ICI : Remplacez les None par votre code ###

t = None

### FIN DU CODE ###

2️⃣ Changez le type du tenseur ```t``` précédemment créé en ```float32```.

In [None]:
### CODEZ ICI : Remplacez les None par votre code ###

t = None

### FIN DU CODE ###

3️⃣ Redimensionnez le tenseur ```t``` en ```t2``` matrice de dimension $1000 \times 5$.

In [None]:
### CODEZ ICI : Remplacez les None par votre code ###

t2 = None

### FIN DU CODE ###

4️⃣ Effectuez le calcul suivant : $t3 = t2 . t2^T$


In [None]:
### CODEZ ICI : Remplacez les None par votre code ###

t3 = None

### FIN DU CODE ###

# <font color='#3b4859'>2. Autograd: Différentiation automatique</font>

## <font color='#3b4859'>2.1. Définition et rappel</font>

Le package autograd permet la différentiation automatique de toutes les opérations effectuées sur un tenseur. Le framework créé un graphe de calcul et le complète au fur et a mesure des opérations, ce qui signifie que la backpropagation est définie selon l'exécution du code.

``torch.Tensor`` est la classe centrale du package. En exécutant l'attribut ``.requires_grad`` comme ``True``, **toutes le opérations sont trackées dans le Tenseur**.
A la fin des calculs, l'appel de ``.backward()`` permet de **récupérer le calcul des gradients de façon automatique**. Les gradients du Tenseurs seront accumulés dans l'attribut ``.grad``.

Pour **arrêter le tracking de l'historique des gradients**, il faut utiliser ``.detach()`` pour détacher le Tenseur de l'historique de calculs, et pour empêcher de tracker les calculs futurs.

Pour **empêcher l'historique de tracking (et l'utilisation de la mémoire)**, il est aussi possible d'écrire le code dans une condition ``with torch.no_grad():``. C'est en général utile lors de l'évaluation d'un modèle car le modèle peut avoir des paramètres entraînables contenant le paramètre `requires_grad=True` alors que l'on n'a pas besoin d'utiliser les gradients.


## <font color='#3b4859'>2.2. Application</font>








### <font color='#3b4859'>2.2.1. Exemple 1</font>

On s'intéresse à l'opération suivante :

$Y = \frac{1}{4}\sum_i z_i$ avec $z_i = 3(x_i+2)^2$

On veut calculer la dérivée suivante : $\frac{\partial Y}{\partial x_i}$.

Analytiquement, le résultat est obtenu avec le calcul suivant : $\frac{\partial Y}{\partial x_i} = \frac{1}{4}\frac{\partial z_i}{\partial x_i} = \frac{1}{4}.3.2(x_i+2) = \frac{3}{2}(x_i+2)$
</br>
Par conséquent :
$\frac{\partial Y}{\partial x_i}\bigr\rvert_{x_i=1} = \frac{9}{2} = 4.5$. </br>

Dans la cellule suivante, on implémente le calcul qui permet d'obtenir $Y$ :

In [None]:
x = torch.ones(2, 2, requires_grad=True)
print(x)
z = 3 * (x + 2)**2
print(z)
Y = z.mean()
print(Y)

A la fin du calcul, la fonction ``.backward()`` permet de calculer les gradients.

In [None]:
Y.backward()

Et ainsi, l'attribut ``.grad`` permet d'accéder aux valeurs des gradients :

In [None]:
x.grad

La fonction ``.backward()`` nous a permis de calculer la valeur : $\frac{\partial Y}{\partial x_i}\bigr\rvert_{x_i=1}$

### <font color='#3b4859'>2.2.2. Exemple 2</font>
**💡 Astuce :** ``.requires_grad_( ... )`` permet de changer l'état ``requires_grad`` d'un Tenseur existant. L'input par défaut de ``.requires_grad_( ... ) `` est ``False``.

Dans cet exemple, nous considérons la fonction suivante :

$Y = {[\frac{3x}{x-1}]}^{2}$

In [None]:
x = 2 * torch.ones(2, 2)
x = ((x * 3) / (x - 1))
print(x.requires_grad)

x.requires_grad_(True)

print(x.requires_grad)
y = (x * x).sum()
print(y.grad_fn)

A la fin du calcul, l'appel de la fonction ``.backward()`` permet de calculer les gradients à partir du graphe de calculs.

In [None]:
y.backward()

Et ainsi, l'attribut ``.grad`` permet d'accéder aux valeurs des gradient :

In [None]:
x.grad

On obtient ainsi $\frac{\partial Y}{\partial x_i}\bigr\rvert_{x_i=2} = 12$

⚒️ **EXERCICE :**

1️⃣
- Écrivez à l'aide de tenseurs PyTorch une fonction $g$ qui calcule la **cosine similarity** de deux vecteurs *float* $\mathbf{x}$ and $\mathbf{y}$ selon la formule
$$g(\mathbf{x}, \mathbf{y}) = \frac{\mathbf{x}^T \mathbf{y}}{|| \mathbf{x} ||_2 || \mathbf{y} ||_2 }$$

- Vous utiliserez l'**autograd** pour calculer les dérivées par rapport à $\mathbf{x} \in \mathbb{R}^3$ et $\mathbf{y} \in \mathbb{R}^3$ pour les valeurs données.


Vous pourrez utiliser `torch.linalg.norm` pour le calcul de la norme 2 : [voir la documentation](https://pytorch.org/docs/stable/generated/torch.linalg.norm.html#torch.linalg.norm)

2️⃣
- Quelle est la valeur attendue pour la cosine similarity de deux vecteurs colinéaires ? quelle est la valeur attendue des gradients de la fonction cosine par rapport à chacun des vecteurs en input ?

- Calculez $\nabla_x g(x, y)$ et $\nabla_y g(x, y)$ avec $\mathbf{x}$ et $\mathbf{y}$ définis selon $\mathbf{x} = \alpha \cdot \mathbf{y}$ avec $\alpha \in \mathbb{R}$.

Vérifiez vos résultats avec PyTorch.


In [None]:
### CODEZ ICI : Remplacez les None par votre code ###

#1)
def g(x, y):
  return None

x = torch.tensor([0, 1, 2], dtype=torch.float32, requires_grad=True)
y = torch.tensor([3, 0.9, 2.2], dtype=torch.float32, requires_grad=True)

cosine = g(x, y)
print("cosine: ", cosine)

None
print('x.grad:', x.grad)
print('y.grad:', y.grad)

#2)
x = None
y = None

cosine = g(x, y)
print("cosine: ", cosine)

None
print('x.grad:', x.grad)
print('y.grad:', y.grad)
### FIN DU CODE ###

La cosine similarity de deux vecteurs colinéaires est égale à $±1$ selon que les vecteurs soient orientés dans le même sens. Ainsi, le gradient de la cosine similarity sera nul car la valeur de la cosine similarity est maximale (ou minimale).