<a href="https://colab.research.google.com/github/davidberger2785/MATH80600/blob/main/Introduction_%C3%A0_Pytorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Semaine 4: Introduction √† Pytorch


**Auteurs**:

David Berger (davidberger2785 [at] gmail [dot] com)

Le pr√©sent atelier s'est (grandement) inspir√© des ateliers de: 
1. Mang Qu et Zhaocheng Zhu dans le cadre du cours MATH 80600A √† l'hiver 2021 √† HEC
2. Chin-Wei Huang dans le cadre du cours IFT 6135 √† l'hiver 2019 √† l'Universit√© de Montr√©al.


# 1. Introduction


Dans cet atelier, nous allons apprendre comment utliser la biblioth√®que Pytorch et, accessoirement, comment impl√©menter des r√©seaux de neurones √† l'aide cette derni√®re. 

L'ensemble du code ci-bas peut √™tre ex√©cut√© directement sur Google Colab. Utiliser cette plate-forme pr√©sente plusieurs avantages, le principal √©tant de proposer aux usagers.√®res l'acc√®s √† un GPU, ce qui acc√©l√®re grandement le temps de calcul pour des t√¢ches plus lourdes.


Avant d'ex√©cuter l'ensemble des commandes de ce tutoriel, assurez-vous que d'utiliser un GPU. Pour ce faire:
1. S√©lectionnez *Ex√©cution¬†&gt;¬†Modifier le type d'ex√©cution*.
2. Dans le menu d√©roulant *Acc√©l√©rateur mat√©riel*, s√©lectionnez l'option *GPU*.

# 2. Installation des biblioth√®ques

Installons les biblioth√®ques d'usage en [langage Python](https://www.youtube.com/watch?v=RpOzFBSwSLc).

In [None]:
import numpy as np
import matplotlib.pyplot as plt

import sklearn
from __future__ import print_function

Enfin, nous installons quelques biblioth√®ques propres √† Pytorch.

In [None]:
!pip install -q torch torchvision

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

import torchvision

V√©rifier qu'un GPU est bien disponible pour le notebook peut s'av√©rer une bonne id√©e. Pour ce tutoriel, la sortie associ√©e devrait est True.

Bien qu'il soit possible d'avoir acc√®s √† un GPU avec Colab, notez que toute commande, ou op√©ration, n'implique pas n√©cessairement l'utilisation d'un GPU.

In [None]:
torch.cuda.is_available()  # Afin de v√©rifier si un GPU est disponible

# 3.0 Rudiments sur les tenseurs

En apprentissage profond, les donn√©es sont repr√©sent√©es √† l'aide de [tenseurs](https://fr.wikipedia.org/wiki/Tenseur) que l'on pourrait grossi√®rement consid√©rer comme une g√©n√©ralisation des matrices. Dans cette section, nous r√©viserons quelques commandes fondamentales sur les tenseurs en Pytorch.

## 3.1 Une image de chat

T√©l√©chargeons dans premier temps une image et r√©prensatons-la sous la forme d'un tenseur √† l'aide de Pytorch.

In [None]:
!wget https://upload.wikimedia.org/wikipedia/commons/b/b6/Felis_catus-cat_on_snow.jpg -O cat_winter.jpg

In [None]:
from PIL import Image

np_image = np.array(Image.open("cat_winter.jpg"))
image = torch.as_tensor(np_image)
plt.imshow(image)

Par convention:
- La **dimension** ref√®re √† l'un des axes du tenseur.
- La **taille** ref√®re √† la longeur d'un axe choisi pour une dimension choisie d'un tenseur.
- L'**index** ref√®re √† une coordonn√©e particuli√®re du tenseur.

√Ä titre d'exemple, l'image ci-dessus pr√©sente trois dimensions. Les deux premi√®res dimensions ont des tailles de 2000 et 3000 respectivement.

In [None]:
print("Nombre de dimensions:", image.ndim)
print("Taille de chaque dimension:", image.shape)

**Questions 3.1**

1. √Ä quoi est associ√©e √† la troisi√®me dimension du tenseur dans l'image ci-haut?

2. Trouvez une fa√ßon de visualiser l'une de ces dimensions.

**R√©ponses 3.1**

Aux trois canaux RGB. On peut visualiser l'un des trois canaux en fixant simplement l'un des indices.

In [None]:
plt.imshow(image[:, :, 0]) 


**Op√©rations arithm√©tiques**

Les op√©rations sur les tenseurs sont analogues √† celles rencontr√©es dans un cours d'introduction en alg√®bre lin√©aire o√π l'accent est mis sur les op√©rations matricielles. Par exemple, pour chacun des pixels de l'image t√©l√©charg√©e, nous pouvons calculer la valeur moyenne de la troisi√®me dimension.

In [None]:
channel_mean = image.float().mean(dim=2)
print(channel_mean.shape)

La moyenne calcul√©e, nous pouvons visualiser la nouvelle image, o√π toute couleur devrait √™tre √©vacu√©e.

In [None]:
plt.imshow(channel_mean,  cmap="gray")

**Coordonn√©es**

Nous pouvons √©galement couper l'image en quatre parties disjointes.

In [None]:
y_dim, x_dim = int(image.shape[0] / 2), int(image.shape[1] / 2)

crop_up_left = image[:y_dim, :x_dim, :]
crop_up_right = image[:y_dim, x_dim:, :]
crop_bottom_left = image[y_dim:, :x_dim, :]
crop_bottom_right = image[ y_dim:, x_dim:, :]

f, axarr = plt.subplots(2,2)
axarr[0,0].imshow(crop_up_left)
axarr[1,0].imshow(crop_bottom_left)
axarr[0,1].imshow(crop_up_right)
axarr[1,1].imshow(crop_bottom_right)

**Transposition**

Nous pouvons transposer les deux premiers axes de l'image.

In [None]:
transposition = image.transpose(0, 1)   # Transposition du premier (0) et du deuxi√®me (1) axes
plt.imshow(transposition)

**Changement de dimensions**

Nous pouvons r√©duire les dimensions d'un tenseur. Ce genre de manipulation est typique si nous voulons effectuer une op√©ration sur plusieurs axes de fa√ßon simultann√©e comme nous le ferons √† la Section 7.


In [None]:
flat = image.flatten(0, 1)
print(flat.shape)
plt.imshow(flat[:10, :])

## 3.2 D√©laissons les chats

D√©laissons les images de chats et travaillons sur des objets plus abstraits. Dans cette section, nous pr√©senterons en rafale quelques op√©rations utiles sur les tenseurs qu'il est possible d'effectuer en Pytorch.

###3.2.1 Initialisation d'un tenseur al√©atoire

In [None]:
torch.Tensor(5, 3)

Pour initialisation √† partir d'une distribution choisie, on peut se r√©f√©rer √† [cette page](https://pytorch.org/docs/stable/torch.html#in-place-random-sampling) sur le site de Pytorch.

In [None]:
mu, sigma = 0, 1
torch.Tensor(5, 3).normal_(mu, sigma)

Ou encore en effectuant cette commande:

In [None]:
torch.normal(mu, sigma, size=(5, 3))

###3.2.2 Construction de tenseurs particuliers

Il est possible de construire des tenseurs uniquement constitu√©s de 0 ou de 1.

In [None]:
longueur = 5
torch.ones(longueur), torch.zeros(longueur)

###3.2.3 Type d'un tenseur

Dans certains cas, le type de tenseur est important. Plus de d√©tails sur les types [ici](https://pytorch.org/docs/master/tensors.html)!


In [None]:
z = torch.Tensor([[1, 3], [2, 9]])
print(z.type())
print(z.numpy().dtype)

z_ = torch.LongTensor([[1, 3], [2, 9]])
print(z_.type())
print(z_.numpy().dtype)

###3.2.4 Manipulations arithm√©tiques

Plusieurs op√©rations arithm√©tiques sont possibles.

In [None]:
x = torch.Tensor(2, 2).uniform_(0, 1)
y = x ** torch.eye(2)
print(y)

Et surprenemment simple √† ex√©cuter.

In [None]:
noise = torch.randn(2, 2)
y = x / torch.sqrt(noise ** 2)
print(y)

###3.2.5 Diffusion

Nous pouvons par exemple additionner √† la premi√®re dimension dimension d'un tenseur $\mathbf{x}$ un tenseur $\mathbf{y}$ dont les dimensions sont identiques aux dimensions subs√©quentes de $\mathbf{x}$. 

In [None]:
print(x)
y = x + torch.arange(2)
print(y)
# print(x + torch.arange(5))

###3.2.6 Manipulation des dimensions

Apprendre √† manipuler convenablement les dimensions des tenseurs est un art perdu. Franchement, le meilleur truc est de pratiquer, et de se souvenir que pareilles manipulations existent!

In [None]:
y = torch.randn(2, 3, 4)
print("Taille originale: ", y.size())
print("Mixer les deux premi√®res dimension: ", y.view(-1, 4).size()) 

indice = 1
print("Ajout de dimension √† l'indice: ", y.view(-1, 4).unsqueeze(indice).size()) 
print(y.view(-1, 4).unsqueeze(1).unsqueeze(2).unsqueeze(3).squeeze().size()) # cette commande est franchement d√©gueulasse

Et apprendre √† transposer est une bonne id√©e √©galement!

In [None]:
print(y.transpose(0, 1).size())
print(y.transpose(1, 2).size())
print(y.transpose(0, 1).transpose(1, 2).size())
print(y.permute(1, 2, 0).size())

###3.2.7 Concat√©nation de tenseurs

In [None]:
print("Dimension originale:", y.shape)

k = 2 # dimension dans laquelle nous voulons concatener
print("Concat√©nation sur la ki√®me dimension:", torch.cat([y, y], dim=k).size())

# stack empile les tenseurs dans une nouvelle dimension
print("Empilons les tenseurs avec stack:", torch.stack([y, y], 0).size())

###3.2.8 Indexation avanc√©e

In [None]:
rev_idx = torch.arange(1, -1, -1).long()
print(rev_idx)
print(y[rev_idx].size())   # pour inverser les tenseurs de la premiere dimension

Enfin, [torch.gather](https://pytorch.org/docs/1.9.1/generated/torch.gather.html) peut √™tre une fonctionnalit√© utile.

In [None]:
v = torch.arange(12).view(3,4)   # equivalent √† reshape
print(v)
print(v.shape)

# Supposons que l'on veut retourner les element [1], [6] et [8]
print(torch.gather(v, 1, torch.tensor([1,2,0]).long().unsqueeze(1)))


###3.2.9 Navigueur des CPUs aux GPUs (et vice versa)

In [None]:
x = torch.FloatTensor(5, 3).uniform_(-1, 1)
print(x)
x = x.cuda()
print(x)
x = x.cpu()
print(x)

##3.3 Remarque rapide sur les fonctions en Pytorch

Enfin, il y a vraiment pleins d'op√©rations plus sophistiqu√©es qui ont √©t√© impl√©ment√©es par le pass√©. La r√®gle du pouce: si vous √™tes capable d'y donner un nom, elle existe en Pytorch! Si vous comprenez bien ce que la fonction fait, cela ne vaut pas la peine de l'impl√©menter √† la mitaine. Surtout que la plupart des fonctions sont robustes aux probl√®mes d'instabilit√© num√©rique...

Par exemple, supposons que $ùê∞$ est un tenseur de taille $d$. La fonction $\text{softmax}(ùê∞)$ est d√©finie ainsi:


$$\\ \text{softmax}(ùê∞)_i := \frac{\exp(ùê∞_i)}{\sum_{k=1}^d \exp(ùê∞_k)},$$

o√π $\exp (\cdot)$ est la fonction exponentielle.

In [None]:

w = torch.tensor([1., 2., 3., 4., 5.])
w_cuda = w.cuda()

w_exp = w.exp()
w_sum = w_exp.sum()
w_exp/w_sum

Naturellement, la fonction softmax est directement [impl√©ment√©e en Pytorch](https://pytorch.org/docs/stable/generated/torch.nn.Softmax.html)!

In [None]:
torch.softmax(w, dim=0)

# 4.0 Calcul du gradient et diff√©rentiation automatique

Estimer les param√®tres r√©gissant les r√©seaux de neurones est souvent une t√¢che complexe. La fonction de perte √† optimiser n'admettant pas une solution analytique, la descente de gradient s'av√®re une technique indispensable pour estimer les param√®tres de pareilles architectures. Or, avant l'arriv√©e des biblioth√®ques d'apprentissage profond, chercheur.e.s et praticien.ne.s se voyaient oblig√©s d'expliciter l'expression du gradient pour chaque param√®tre du r√©seau. Si cet exercice est plus ou moins p√©nible pour des MLPs (amusez-vous √† coder un MLPs seulement en Numpy!), il se complique lorsque les architectures se complexifient. Pensez √† un ResNet ou encore √† un LSTM.

En ce sens, le calcul du gradient par diff√©rentiation automatique est un outil pr√©cieux qui vous permettra, avec un peu de pratique, d'impl√©menter et de d√©velopper des architectures complexes. Par contre, il est n√©cessaire de bien saisir comment la diff√©rentiation automatique proc√®de. 

La pr√©sente section vise √† introduire la diff√©rentation automatique selon Pytorch. Elle peut para√Ætre r√©barbative √† prime √† bord, mais les b√©n√©fices √† moyens et longs termes en valent la peine.

Enfin, le mat√©riel pr√©sent√© ici s'inspire principalement de deux sources √† savoir [le tutoriel d'introduction √† Autograd par Pytorch](http://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py) et [une introduction √† la m√©canime d'Autograd par Pytorch](http://pytorch.org/docs/master/notes/autograd.html).

## 4.1 Ce qu'il faut savoir

Les r√©seaux de neurones peuvent √™tre consid√©r√©s comme une succession de fonctions, lesquelles sont, ou pas, embriqu√©es les unes dans les autres. Chaque fonction est d√®s lors d√©finie gr√¢ce √† un ensemble de param√®tres dont les valeurs sont m√©moris√©es √† l'aide de tenseurs.

Comme nous l'avons pr√©sent√© lors du deuxi√®me cours, l'entra√Ænement d'un r√©seau de neurones peut √™tre d√©fini en deux √©tapes distinctes:

1. **Propagation du message vers l'avant**: o√π, en fonction du mod√®le estim√©, une pr√©diction d'une issue est faite en fonction d'un ensemble d'entr√©e.

2. **R√©tro propagation vers l'arri√®re**: o√π, en fonction de l'issue estim√©e lors de la premi√®re √©tape et de la pr√©cision de cette mesure par rapport √† sa valeur r√©elle, une correction des param√®tres du mod√®le est effectu√©e.

Dans cette section, nous pr√©sentons en quelques √©tapes simples comment utiliser la diff√©rentiation automatique pour entra√Æner un r√©seau de neurone avec Pytorch. Cette section n'introduit aucunement la m√©canique derri√®re chacune des fonctions utilis√©es. 

### 4.1.1 Initialisation du mod√®le

Lors de la s√©ances portant sur les CNNs, nous avons bri√®vement introduit les ResNets. Nous proposons donc de t√©l√©charger le mod√®le ResNet18 √† partir de torch.vision. Une technique d'optimisation est √©galement choisie, comme par exemple la descente stochastique de gradient, avec un pas d'apprentissage de 0,1. Enfin, on opte pour une fonction de perte bas√©e sur l'erreur quadratique moyenne (MSE).

In [None]:
model = torchvision.models.resnet18(pretrained=True)   # importation de ResNet18
optimizer = torch.optim.Adam(model.parameters(), lr=.1e1) 
loss = nn.MSELoss()

Aux fins de l'exercices, nous cr√©ons un tenseur initialis√© de fa√ßon al√©atoire et l'issue, ou √©tiquette, qui lui est associ√©e.

In [None]:
data = torch.rand(1, 3, 64, 64)   # generation d'un tenseur aleatoire
labels = torch.rand(1, 1000)   # generation d'une issue

### 4.1.2 Propagation vers l'avant

Par apr√®s, nous propageons l'information du message vers l'avant tel que d√©crit bri√®vement au point 1.

In [None]:
prediction = model(data)    # propagation du message vers l'avant

### 4.1.3 Calcul de la fonction de perte 

Une fois la pr√©diction calcul√©e, nous calculons l'erreur de pr√©diction en fonction des vraies valeurs (et de la fonction de perte choisie).

In [None]:
output = loss(labels, prediction)

### 4.1.4 Calcul du gradient via r√©tro propagation

L'erreur est alors r√©tro propag√©e √† travers le ResNet18. Pour chaque param√®tre du mod√®le, un gradient est calcul√© et nous pouvons obtenir ces valeurs avec la commande suivante.

In [None]:
output.backward()

### 4.1.5 Mise √† jour des param√®tres 

Enfin, la descente de gradient peut √™tre effectu√©e!

In [None]:
optimizer.step()

Voil√†! Vous savez maintenant comment utiliser Autograd pour entra√Æner un r√©seau de neurones!

## 4.2 Ce qui vous sera (certainement) utile

Dans cette section, nous proposons de comprendre davantage en profondeur le fonctionnement d'Autograd afin d'effectuer la diff√©rentiation automatique. Pour d√©velopper notre intuition, nous d√©laisserons les r√©seaux de neurones et travaillerons plut√¥t avec un ensemble restreint de fonctions.

**Initialisation et attribut**: Dans un premier temps, nous initialisons deux vecteurs de param√®tres, soit $\mathbf{a}$ et $\mathbf{b}$, pour lesquels nous voulons calculer leur gradient.

In [None]:
a = torch.tensor([2., 3.], requires_grad=True)
b = torch.tensor([6., 4.], requires_grad=True)

**Fonction simple**: Nous d√©finissons une variable $\mathbf{c}$ laquelle est d√©finie en fonction des vecteurs $\mathbf{a}$ et $\mathbf{b}$ ainsi:

$$ \mathbf{c} = 3 \mathbf{a}^2 - \mathbf{b}$$.

In [None]:
c = 3 * a**2 - b

**Calcul du gradient de fa√ßon analytique**: De fa√ßon similaire √† ce que nous avons pr√©sent√© √† la section pr√©c√©dente, supposons que $\mathbf{c}$ est l'erreur. Afin d'estimer les param√®tres du r√©seau de neurones, soit $\mathbf{a}$ et $\mathbf{b}$, nous devons calculer les d√©riv√©es partielles de $\mathbf{c}$ en fonction des param√®tres:

$$ \frac{d \mathbf{c}}{d \mathbf{a}} = 6 \mathbf{a}, \qquad \frac{d \mathbf{c}}{d \mathbf{b}} = -1.$$

**Calcul du gradient avec Autograd**: Nous pouvons calculer les expressions ci-haut simplement √† l'aide de la commande .backward().


In [None]:
c.sum().backward()

Et c'est heureux que les valeurs obtenues concordent avec celles d√©riv√©es formellement:

In [None]:
print(6 * a == a.grad)
print(-1 == b.grad)

**Question**

Quelles valeurs aurions-nous obtenues si nous avions d√©cid√©, lors de l'initialisation du vecteur $\mathbf{a}$, de ne pas calculer le gradient pour ce vecteur de param√®tres?

#5.0 Classifieur lin√©aire

Dans cette section, nous allons entra√Æner un classifieur lin√©aire plut√¥t na√Øf sur le c√©l√®bre jeu de donn√©es [Iris](https://fr.wikipedia.org/wiki/Iris_de_Fisher). L'id√©e n'est pas d'utiliser des mod√®les sophistiqu√©s, mais de simplement se faire tranquillement la main sur les concepts de diff√©rentiation automtique vus jusqu'√† pr√©sent.

**Importatation des biblioth√®ques**

In [None]:
from sklearn import datasets
from sklearn.model_selection import KFold

**Pr√©paration des donn√©es**

In [None]:
# importation des donnes
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

# creation des ensemble d'entrainement et de test
# toujours une bonne idee de brasser la soupe avant de commencer #shuffle
kf = KFold(n_splits=5, shuffle=True)
kf.get_n_splits(y)

for train_index, test_index in kf.split(y):
  X_train, X_test = X[train_index], X[test_index]
  y_train, y_test = y[train_index], y[test_index]

# transformation des donnees sous la forme de tenseur
X_train, X_test = torch.Tensor(X_train), torch.Tensor(X_test)
y_train, y_test = torch.Tensor(y_train), torch.Tensor(y_test)

**Un mod√®le**

Dans ce cas-ci, nous allons supposer que les issues suivent le mod√®le suivant:

$$ y = \beta_0 x_0 + \beta_1 x_1 + \epsilon,$$
o√π $\epsilon \sim N(0, 1)$. √âvidemment, cette mod√©lisation n'est pas appropri√©e (comprenez-vous pourquoi?), mais elle fera le boulot pour la suite de l'exemple. 

Nous pouvons d√®s lors initialiser notre mod√®le avec une classe plut√¥t simple.Enfin, comprendre comment cr√©er une classe en Python est fondamental pour cr√©er des mod√®les plus complexes. Assurez-vous de bien comprendre ce concept.

In [None]:
class model():
  def __init__(self):
    self.params = torch.tensor([[0.], [0.]], requires_grad=True)
  
  def prediction(self, X):
    return(torch.mm(X, self.params).squeeze_())

**Questions**
1. Que pensez-vous de l'initialisation des param√®tres du mod√®le. Est-ce un probl√®me dans ce cas-ci? 
2.Pouvez-vous imaginer un cas d'esp√®ce o√π ce genre d'initalisation ne serait pas souhaitable?

**Initialisation**

Nous initialisons par la suite le mod√®le et d√©finissons les hyper param√®tres.

In [None]:
cl = model()   # initialisation du modele
mse = nn.MSELoss()   # fonction de perte choisie

# Quelques hyper param√®tres
lr = 1e-2   # pas d'apprentissage
nb_epoch = int(1e2)   # nombre d'epoques

**Apprentissage**

La phase d'entra√Ænement se fait de fa√ßon analogue √† ce que nous avons vu √† la Section.

In [None]:
mse_train, mse_test = [], []

# Apprentissage
for epoch in range(nb_epoch):
  
  # Prediction (voir le module mm dans Pytorch)
  y_hat = cl.prediction(X_train)

  # Calcul de la fonction de perte (EQM dans ce cas-ci)
  loss = mse(y_hat, y_train)
  mse_train.append(loss)   # pratique pour un graphe futur
 
  # Calcul du gradient
  loss.backward()

  # Mise a jour des parametres du modele
  cl.params.data = cl.params.data - lr * cl.params.grad
  cl.params.grad.zero_()

  mse_test.append(mse(y_test, cl.prediction(X_test)))   # pour un graphe futur

Enfin, nous pouvons √©tudier rapidement comment le mod√®le se comporte au fil des it√©rations √† l'aide d'un petit graphique.

In [None]:
plt.plot(mse_train, label= 'Entra√Ænement')
plt.plot(mse_test, label= 'Test')

plt.xlabel('Epoques')
plt.ylabel('MSE')
plt.legend()

**Questions**
1. Est-ce que les courbes ci-haut se comportent de fa√ßon attendue?
2. Comment pourrions-nous fixer ce "probl√®me"?

#6.0 MLP en Pytorch et Skorch

Dans cette section, nous proposons d'impl√©menter et entra√Æner un MLP sur le jeu de donn√©e [MNIST](https://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es_MNIST). Ce jeu de donn√©es est fameux et consiste √† classer des images des chifres manuscrits.

**T√©l√©chargement des donn√©es**

In [None]:
train = torchvision.datasets.MNIST("./data", train=True, download=True)
test = torchvision.datasets.MNIST("./data", train=False, download=True)


**Visualisation des donn√©es**

Afin d'avoir une petite id√©e du jeu de donn√©es en question, nous pouvons visualiser quelques images en entr√©e √† l'aide de notre fonction maison plot_mnist.


In [None]:
def plot_mnist(data, labels=None, num_sample=5):
  n = min(len(data), num_sample)
  for i in range(n):
    plt.subplot(1, n, i+1)
    plt.imshow(data[i], cmap="gray")
    plt.xticks([])
    plt.yticks([])
    if labels is not None:
      plt.title(labels[i])

In [None]:
train.labels = [train.classes[target] for target in train.targets]
plot_mnist(train.data, train.labels)

**Construction de la classe MLP**

Nous pouvons construire le MLP √† l'aide de la classe suivante. Si vous √™tes un peu confus.es, ne vous inqui√©tez pas; ce genre de manipulation deviendra rapidement une seconde nature avec un peu d'entra√Ænement.

In [None]:
class MLP(nn.Module):
  def __init__(self, input_dim, hidden_dim, output_dim, dropout=0.5):
    super(MLP, self).__init__()
    
    self.fc1 = nn.Linear(input_dim, hidden_dim)
    self.fc2 = nn.Linear(hidden_dim, output_dim)
    
    self.dropout = nn.Dropout(dropout)
  
  def forward(self, images):
    x = images.flatten(1)
    x = F.relu(self.fc1(x))
    x = self.dropout(x)
    x = F.softmax(self.fc2(x), dim=-1)
    
    return x

La classe construite, nous pouvons initialiser notre mod√®le.

In [None]:
mlp = MLP(
    input_dim=train.data.shape[1] * train.data.shape[2],
    hidden_dim=128,
    output_dim=len(train.classes))

**Skorch**

Dans ce tutoriel, l'entra√Ænement des mod√®les va se faire √† l'aide de [Skorch](https://skorch.readthedocs.io/en/stable/index.html). Cette biblioth√®que permet entres autres d'utiliser des mod√®les impl√©ment√©s en Pytorch et d'effectuer l'entra√Ænement √† l'aide de [Scikit-learn](https://scikit-learn.org/stable/). La phase d'entra√Ænement du MLP diff√®re donc beaucoup de celle que nous avons pr√©sent√© √† la section pr√©c√©dente, o√π la m√©canique d'Autograd √©tait beaucoup plus explicite. M√™me si l'interfarce de Skorch est beaucoup plus convivial, je vous encore fortement √† comprendre et saisir les nuances pr√©sent√©es √† la Section 6.

In [None]:
pip install -U skorch

In [None]:
import skorch

Nous faisons la migration du MLP en Skortch et fixons les hyper param√®tres associ√©s.

In [None]:
# Hyper param√®tres
num_epoch = 20
lr = 1e-2

# Migration en skorch
model = skorch.NeuralNetClassifier(mlp, max_epochs=num_epoch, lr=lr, device="cuda")

**Entra√Ænement √† l'aide de Skorch**

La phase d'entra√Ænement avec Skorch pr√©sente automatique les performances de pr√©diction pour chacune des √©poques. Une fonction de perte (*loss*) plus faible est pr√©f√©rable et une capacit√© pr√©dictive (*acc*) plus grande est souhaitable.

In [None]:
training = model.fit(train.data / 255.0, train.targets)

Nous pouvons calculer l'erreur de pr√©diction sur l'ensemble de test.

In [None]:
from sklearn.metrics import accuracy_score

test.mlp_predictions = model.predict(test.data / 255.0)
sklearn.metrics.accuracy_score(test.targets, test.mlp_predictions)

Bon, ce n'est pas fameux... C'est possible d'obtenir de bonnes performances √† l'aide d'un MLP. Par contre, cela demande un peu de travail.




**Questions**

1. Modifier la classe du MLP pour augmenter sa capacit√©, changer les fonctions d'activations, bref, tout ce qui vous passe par la t√™te afin d'am√©liorer les capacit√©s pr√©dictives du mod√®le.

2. Opter pour [une autre technique](https://pytorch.org/docs/stable/optim.html#algorithms) afin d'estimer le gradient peut s'av√©rer, entre autres strat√©gies, une bonne id√©e. Voici un exemple ci-bas montrant comment proc√©der. Familiarisez-vous avec pareille manipulation et essayez d'obtenir une capacit√© pr√©dicitve de plus de 96% sur l'ensemble de test.

In [None]:
import torch.optim as optim   # cette bibliothque propose une pletarde d'optimiseurs

# initalisation du modele
mlp = MLP(
    input_dim=train.data.shape[1] * train.data.shape[2],
    hidden_dim=128,
    output_dim=len(train.classes))

# migration sur Skorch mais avec un nouvel optimiseur
model = skorch.NeuralNetClassifier(mlp, optimizer=optim.RMSprop, max_epochs=10,
                                   lr=1e-4, device="cuda")

# entrainement
model.fit(train.data / 255.0, train.targets)

# predictions sur l'ensemble de test
test.mlp_predictions = model.predict(test.data / 255.0)
test_acc = sklearn.metrics.accuracy_score(test.targets, test.mlp_predictions)

print("\n Peformances sur l'ensemble de test: ", test_acc)

**Sauvegarde du mod√®le**

Enfin, c'est une bonne id√©e de sauvegarder notre mod√®le √† la suite de l'entra√Ænement.


In [None]:
import pickle

with open("MLP.pkl", "wb") as fout:
  pickle.dump(model, fout)
with open("MLP.pkl", "rb") as fin:
  model = pickle.load(fin)

# 7.0 CNN en Pytorch et Skorch

Souvent, utiliser des mod√®les d√©j√† impl√©ment√©s peut s'av√©rer une tr√®s bonne id√©e. Cela sauve beaucoup de temps, entre autres choses... Heureusement, il existe plusieurs mod√®les classiques de CNN d√©j√† impl√©ment√©s dans la biblioth√®que `torchvision`.

Dans cette section, nous allons utiliser le mod√®le ResNet-18 (!). Puisque ce mod√®le a √©t√© impl√©ment√© pour classer mille types d'images, nous allons simplement r√©√©crire la derni√®re couche cach√©e pour l'adapter au jeu de donn√©es MNIST.

In [None]:
resnet18 = torchvision.models.resnet18()
resnet18.fc = torch.nn.Linear(resnet18.fc.in_features, len(train.classes))   # overide de la sortie pour l'adapter √† MNIST

Encore une fois, puisque ResNet a √©t√© impl√©ment√© pour traiter des images color√©es, nous allons r√©√©crire les images MNIST sous la forme d'un tenseur comportant trois canaux.

In [None]:
train.color_data = train.data.unsqueeze(1).expand(-1, 3, -1, -1)
test.color_data = test.data.unsqueeze(1).expand(-1, 3, -1, -1)

Comme √† la section pr√©c√©dente, nous initialisons notre mod√®le et l'entrainons.

In [None]:
# hyper parametres
num_epoch = 2
lr = 1e-1

# initialisation
resnet = skorch.NeuralNetClassifier(
    resnet18, criterion=torch.nn.CrossEntropyLoss, max_epochs=num_epoch, lr=lr,
    device="cuda")

# entrainement
training = resnet.fit(train.color_data / 255.0, train.targets)

Sans surprise, et avec tr√®s peu d'effort, ResNet √©crase notre MLP un peu vanille...

**Mod√®le pr√© entra√Æn√©es** 

La biblioth√®que `torchvision` [propose des mod√®les pr√© entra√Æn√©s](https://pytorch.org/docs/stable/torchvision/models.html) sur des jeux de donn√©es distincts. Par exemple, dans ce cas-ci, le ResNet que nous allons t√©l√©charg√© a √©t√© entra√Æn√© sur ImageNet. Initialiser notre mod√®le avec ce genre de param√®tres peut s'av√©rer une bonne strat√©gie.


In [None]:
resnet18 = torchvision.models.resnet18(pretrained=True)
resnet18.fc = torch.nn.Linear(resnet18.fc.in_features, len(train.classes))

In [None]:
# migration vers Skorch
resnet = skorch.NeuralNetClassifier(
    resnet18, criterion=torch.nn.CrossEntropyLoss, max_epochs=num_epoch, lr=lr,
    device="cuda")

# entrainement
training = resnet.fit(train.color_data / 255.0, train.targets)