<a href="https://colab.research.google.com/github/williamgrou/shopify_challenge/blob/main/2022_Math80600A_Devoir_1_PyTorch.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Apprentissage automatique II: Apprentissage profond et ses applications
# Devoir 1

**Date de remise:  28 février**

### Instructions
- Faites une copie de ce bloc-notes sur votre propre Google Drive et répondez aux questions qui s'y trouvent.
- Vous pouvez ajouter plus de cellules si nécessaire. Vous pouvez également ajouter des descriptions à votre code, bien que ce ne soit pas obligatoire.
- Assurez-vous que le bloc-notes peut être exécuté par *Exécution -> Tout exécuter*. **Dérouler toutes les cellules** afin de faciliter l'évaluation.
- Enregistrer le lien de votre bloc-notes [ici](https://forms.gle/cy7s6xan4Rvzy35D9). Veuillez **activer la modification ou les commentaires** afin que vous puissiez recevoir des commentaires des correcteur.trice.s.

Installation des bibliothèques Pytorch et Torchvision

In [None]:
!pip install -q torch torchvision torchtext

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torchvision
import sklearn
import numpy as np
import matplotlib.pyplot as plt
import copy
from torchvision import transforms

## 1) Opérations sur les tenseurs (30 points)

Les opérations tensorielles sont importantes dans les modèles d'apprentissage profond. Dans cette partie, vous devrez implémenter certaines opérations tensorielles courantes en PyTorch.

### 1.1) Serrage (*squeezing*), desserrage (*unsqueezing*) et visualisage (*viewing*)

Le serrage (squeezing), desserrage (unsqueezing) et visualisage (viewing) d'un tenseur sont des opérations importantes afin de changer les dimensions d'un tenseur. Comme nous l'avons vu dans le tutoriel, les fonctions de base sont [torch.squeeze](https://pytorch.org/docs/stable/torch.html#torch.squeeze), [torch.unsqueeze](https://pytorch.org/docs/stable/torch.html#torch.unsqueeze) et [torch.Tensor.view](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.view). Veuillez lire la documentation associée et effectuez l'exercice suivante.

In [None]:
# x est un tenseur ayant pour dimension (3, 2)
x = torch.Tensor([[1, 2], [3, 4], [5, 6]])


# Ajouter deux nouvelles dimensions à x en utilisant la fonction torch.unsqueeze, de façon telle à ce que les dimensions de x soient de (3,1,2,1.


# Enlever les deux dimensions précédemment ajoutées en utilisant la fonction torch.squeeze de façon telle à retrouver les dimensions d'origine.


# Utilisez la fonction torch.Tensor.view afin de transformer le tenseur en deux dimensions en un tenseur d'une unique dimension et de longeur 6.


### 1.2) Concaténation et empilage

La concaténation et l'empilage de tenseurs sont des opérations permettant de combiner de petits tenseurs en grands tenseurs.

Les fonctions correspondantes sont [torch.cat](https://pytorch.org/docs/stable/torch.html#torch.cat) et [torch.stack](https://pytorch.org/docs/stable/torch.html#torch.stack). Veuillez lire la documentation associée et effectuez l'exercice suivante.

In [None]:
# x est un tenseur ayant pour dimension (3, 2)
x = torch.Tensor([[1, 2], [3, 4], [5, 6]])

# y est un tenseur ayant pour dimension (3, 2)
y = torch.Tensor([[-1, -2], [-3, -4], [-5, -6]])


# Nous voulons créer un tenseur z de dimensions (2, 3, 2) tel que z[0,:,:] = x et z[1,:,:] = y.

# Utilisez torch.stack pour créer pareil tenseur

# Utilisez torch.cat et torch.unsqueeze pour créer pareil tenseur

### 1.3) Expansion

L'expansion d'un tenseur consiste à étendre un tenseur en un tenseur plus grand le long des dimensions du singleton. Les fonctions correspondantes sont [torch.Tensor.expand](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.expand) et [torch.Tensor.expand_as](https://pytorch.org/docs/stable/tensors.html#torch.Tensor.expand_as). Veuillez lire la documentation associée et effectuez l'exercice suivante.


Enfin, expliquez sous forme de commentaire en une ou deux phrases MAXIMUM quelles sont les différences entre les fonctions suivantes:

```
torch.Tensor.view()
torch.Tensor.expand()
torch.Tensor.reshape()
torch.Tensor.repeat()
```

In [None]:
# x est un tenseur ayant pour dimension (3)
x = torch.Tensor([1, 2, 3])

# Nous voulons créer un tenseur z de dimensions (3, 2) tel que z[0,:] = x, z[1,:] = x.

# Changez la dimension de x en un tenseur de dimension (1, 3) à l'aide de torch.unsqueeze

# Déroulez ensuite le nouveau tenseur au tenseur cible en utilisant torch.Tensor.expand.

### 1.4) Réduction pour une dimension choisie

En apprentissage profond, nous avons souvent besoin de calculer la valeur moyenne/somme/max/min dans une dimension donnée d'un tenseur. Veuillez vous référer [torch.mean](https://pytorch.org/docs/stable/torch.html#torch.mean), [torch.sum](https://pytorch.org/docs/stable/torch.html#torch.sum), [torch.max](https://pytorch.org/docs/stable/torch.html#torch.max), [torch.min](https://pytorch.org/docs/stable/torch.html#torch.min), [torch.topk](https://pytorch.org/docs/stable/torch.html#torch.topk) et complétez le code ci-dessous.

In [None]:
# x est un tenseur de dimension (10, 50)
x = torch.randn(10, 50)

# Calculez la valeur moyenne pour chaque ligne de x.
# Vous devez générer un tenseur x_mean de taille (10), où x_mean[k] est la valeur moyenne de la k-ième ligne de x.

# Calculer la valeur somme pour chaque ligne de x.
# Vous devez générer un tenseur x_sum de taille (10).

# Calculez la valeur maximale pour chaque ligne de x.
# Vous devez générer un tenseur x_max de taille (10).

# Calculez la valeur min pour chaque ligne de x.
# Vous devez générer un tenseur x_min de taille (10).

# Calculez les 5 plus grandes valeurs pour chaque ligne de x.
# Vous devez générer un tenseur x_top de taille (10, 5), où x_top[k, :] est les 5 plus grandes valeurs de la k-ième ligne de x.


### 1.5) Opérations avancées

En apprentissage profond, nous souhaitons souvent ne modifier qu'une partie d'un tenseur ou ne collecter que des valeurs à partir d'indices spécifiques. A ces fins, on utilise souvent ```torch.gather``` ou ```torch.scatter```, voir leur définition [ici](https://pytorch.org/docs/stable/tensors.html?highlight=scatter#torch.Tensor.scatter). 

Notez que vous **n'êtes pas obligé.e.s** d'utiliser ces fonctions et que certaines parties de la question peuvent ne pas en avoir besoin.

In [None]:
ind = torch.randint(50,(10,50))
x = torch.randn(10,50,50)

# Sélectionnez pour tout i,j les valeurs x[i,j,k] où ind[i,j] = k dans le tenseur
# Le tenseur doit avoir la forme (10,50)

# Doublez pour tout i,j les valeurs x[i,j,k] où ind[i,j] = k en laissant toutes les autres valeurs de x intactes
# Le tenseur retourné doit avoir la forme (10,50,50)

ind = ind[:, 0]
# Sélectionnez les valeurs de x[i,l,j] où l = ind[k] pour tous les i,j,k
# Le tenseur retourné doit avoir la forme (10,10,50)

## 2) CNNs (40 points)



Implémentez un CNN pour la classification d'images sur l'ensemble de données CIFAR-10.

CIFAR-10 est un jeu de données d'images de 10 catégories. Chaque image a une taille de 32x32 pixels. Le code suivant téléchargera l'ensemble de données et le divisera en *train* et *test*.

Pour cette question, nous divisons les données d'entrainement (80 %) et de validation (20 %) pour la sélection des hyperparamètres.

In [None]:
t= torchvision.transforms.ToTensor()
train_dataset = torchvision.datasets.CIFAR10("./data", train=True, download=True, transform=t)
test_dataset = torchvision.datasets.CIFAR10("./data", train=False, download=True, transform=t)

N = len(train_dataset)
indices = np.arange(N)
np.random.shuffle(indices)
n = int(0.8 * N)
print('{} for training,\t{} for validation'.format(n, N-n))
train_indices = indices[:n]
valid_indices = indices[n:]
train_sampler = torch.utils.data.SubsetRandomSampler(train_indices)
valid_sampler = torch.utils.data.SubsetRandomSampler(valid_indices)

# Entrainement du modele
# NE PAS MODIFIER
def train(model, dataloader, optimizer, criterion):
    total_loss, total_correct, total_prediction = 0.0, 0.0, 0.0
    model.train()
    for X, y in dataloader:
        logits = model(X.cuda())
        predictions = torch.max(logits, dim=-1)[1]
        loss = criterion(logits, y.cuda())
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
        total_correct += torch.eq(predictions, y.cuda()).sum().item()
        total_prediction += y.size(0)
    return total_loss / len(dataloader), total_correct / total_prediction

# Évalation du modele
# NE PAS MODIFIER
def evaluate(model, dataloader, criterion):  
    total_loss, total_correct, total_prediction = 0.0, 0.0, 0.0
    model.eval()
    with torch.no_grad():
        for X, y in dataloader:
            logits = model(X.cuda())
            predictions = torch.max(logits, dim=-1)[1]
            loss = criterion(logits, y.cuda())

            total_loss += loss.item()
            total_correct += torch.eq(predictions, y.cuda()).sum().item()
            total_prediction += y.size(0)
    return total_loss / len(dataloader), total_correct / total_prediction

Le code suivant permet de visualiser certains exemples dans l'ensemble de données. Vous pouvez l'utiliser pour déboguer votre modèle si nécessaire.

In [None]:
def plot(data, labels=None, num_sample=5):
  n = min(len(data), num_sample)
  for i in range(n):
    plt.subplot(1, n, i+1)
    plt.imshow(data[i], cmap="gray")
    plt.xticks([])
    plt.yticks([])
    if labels is not None:
      plt.title(labels[i])

train_dataset.labels = [train_dataset.classes[target] for target in train_dataset.targets]
plot(train_dataset.data, train_dataset.labels)

### 2.1) Rudiments pour l'implémentation d'un CNN


Soit un CNN vanille constitué de:

- Trois couches de convolutions suivie d'une couche linéaire tel que vue lors de la troisième semaine.
- Chaque couche de convolution est associée à un noyau de dimension 3, avec une marge de de zéros de dimension 1.
- Une fonction d'activation ReLU après chaque couche cachée..

Veuillez implémenter ce modèle dans la section suivante. Vous devrez ajuster les hyperparamètres et remplir les résultats dans le tableau.

#### a) Implémentation des couches de convolution


Implémentez la fonction d'initialisation et la fonction de transfert du CNN.

In [None]:
class CNN(nn.Module):
  def __init__(self):
    super(CNN, self).__init__()
    # initialisation des paramètres ici
  
  def forward(self, images):
    # implémentation de la fonction forward ici
    return None

#### b) Sélection d'hyper paramètres

Entraînez le modèle CNN sur l'ensemble de données CIFAR-10. Sélectionnez le nombre de canaux (ou *feature maps*), l'optimiseur, le pas d'apprentissage et le nombre d'époques pour une meilleure précision de validation.

In [None]:
# Sélectionnez le type d'optimiseur et les hyperparamètres avec le code suivant comme exemple
batch_size = 128
lr = 1e-4
EPOCHS = 30

train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, sampler=train_sampler)
valid_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, sampler=valid_sampler)
test_dataloader = torch.utils.data.DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

# Initialisation du modèle
model = CNN(...)
optimizer = optim.Adam(model.parameters(), lr=lr)
criterion = nn.CrossEntropyLoss()

# Apprentissage et phase de test
# Vous pouvez réutiliser le bloc de codage suivant pour le réglage des hyperparamètres
# N'hésitez pas à essayer des stratégies d'entraînement plus avancées
best_valid_acc = 0.0
best_state_dict = copy.deepcopy(model.state_dict())
for epoch in range(EPOCHS):
    train_loss, train_acc = train(model, train_dataloader, optimizer, criterion)
    valid_loss, valid_acc = evaluate(model, valid_dataloader, criterion)

    print('Epoch {} | Train loss {:.3f} | Valid loss {:.3f} | Valid acc {:.3f}'.format(epoch, train_loss, valid_loss, valid_acc))

    if valid_acc > best_valid_acc:
        best_valid_acc = valid_acc
        best_state_dict = copy.deepcopy(model.state_dict())


Notez les **performances de validation** de votre modèle sous différents paramètres d'hyperparamètres.

**Indice:** Vous aurez peut-être besoin de plus d'époques pour SGD qu'Adam.

| #Canaux pour chaque couche \ optimiseur | SGD   | Adam  |
|-------------------------------------|-------|-------|
| (128, 128, 128)                     |       |       |
| (256, 256, 256)                     |       |       |
| (512, 512, 512)                     |       |       |


### 2.2) Implémentation d'un RNN

Sur la base du CNN de la question précédente, implémentez un CNN complet avec une couche de *max pooling*.

- Ajoutez une couche de *max pooling* après chaque couche de convolution.
- Chaque couche de *max pooling* a une taille de noyau de 2 et une foulée (*stride*) de 2.

Veuillez implémenter ce modèle dans la section suivante. Vous devrez ajuster les hyperparamètres et remplir les résultats dans le tableau. Vous devez également répondre aux questions.

#### a) CNN avec fonction de *max pooling*

Copiez l'implémentation CNN dans la question précédente et initialisez les couches de *max pooling*.

In [None]:
class CNN_MaxPool(nn.Module):
  def __init__(self):
    super(CNN_MaxPool, self).__init__()
    # initialisation des paramètres ici
  
  def forward(self, images):
    # implémentez la fonction forward ici
    return None

#### b) Sélection d'hyper paramètres

Sur la base du meilleur optimiseur que vous avez trouvé dans le problème précédent, choisissez le nombre de canaux et le pas d'apprentissage pour une meilleure formance de validation.

In [None]:
# initialisation des hyper paramètres ici

# entraînement du modèle là


Notez la **précision de validation** de votre modèle sous différents paramètres et hyperparamètres.

| #Canaux pour chaque couche | Performance de validation |
|-------------------------|---------------------|
| (128, 128, 128)         |                     |
| (128, 256, 512)         |                     |
| (256, 256, 256)         |                     |
| (256, 512, 1024)        |                     |
| (512, 512, 512)         |                     |
| (512, 1024, 2048)       |                     |


Pour le meilleur modèle obtenue, testez-le sur l'ensemble de test.

Aucun souci si vous avez trouvé une combinaison d'hyperparamètres meilleure que celles répertoriées dans les tableaux.

In [None]:
# Évaluez le modèle ici
# Entraînez le modèle sur l'ensemble d'entraînement
# Trouvez le meilleur modèle/hyperparamètre avec l'ensemble de validation et appliquez ce meilleur modèle sur l'ensemble de test

model.load_state_dict(best_state_dict)
test_loss, test_acc = evaluate(model, test_dataloader, criterion)
print('Test loss {:.3f} | Test acc {:.3f}'.format(test_loss, test_acc))

Quel est la **performance sur l'ensemble test** obtenue?

**Votre réponse:**

Que pouvez-vous conclure pour la conception d'architectures d'un CNN ?

**Votre réponse:**

## 3) RNNs (40 points)

Utilisons PyTorch pour implémenter un RNN pour l'analyse des sentiments, c'est-à-dire classer les phrases sous l'une des trois catégories de sentiment, soit compris positifs, négatifs ou neutres.

Nous utilisons un ensemble de données de référence (c'est-à-dire SST) pour cette tâche. Tout d'abord, téléchargeons l'ensemble de données SST et effectuons un prétraitement pour créer un vocabulaire et diviser l'ensemble de données en ensembles d'apprentissage/validation/test. Définissons également la fonction d'entraînement et d'évaluation. Veuillez ne pas modifier les fonctions.

In [None]:
import torch
from torch import nn
from torch import optim
import torchtext
from torchtext import data
from torchtext import datasets

TEXT = data.Field(sequential=True, batch_first=True, lower=True)
LABEL = data.LabelField()

# telecharger les donnees et les diviser en sous ensembles
train_data, val_data, test_data = datasets.SST.splits(TEXT, LABEL)

# construction d'un dictionnaire
TEXT.build_vocab(train_data)
LABEL.build_vocab(train_data)

vocab_size = len(TEXT.vocab)
label_size = len(LABEL.vocab)
padding_idx = TEXT.vocab.stoi['<pad>']
embedding_dim = 128
hidden_dim = 128

# construction des iterators
train_iter, val_iter, test_iter = data.BucketIterator.splits(
    (train_data, val_data, test_data), 
    batch_size=32)

# Apprentissage
# NE PAS MODIFIER
def train(model, iterator, optimizer, criterion):
    total_loss, total_correct, total_prediction = 0.0, 0.0, 0.0
    model.train()
    for batch in iterator:
        optimizer.zero_grad()
        logits = model(batch.text.cuda())
        predictions = torch.max(logits, dim=-1)[1]
        loss = criterion(logits, batch.label.cuda())
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
        total_correct += torch.eq(predictions, batch.label.cuda()).sum().item()
        total_prediction += batch.label.size(0)
    return total_loss / len(iterator), total_correct / total_prediction

# Evaluation
# NE PAS MODIFIER
def evaluate(model, iterator, criterion):  
    total_loss, total_correct, total_prediction = 0.0, 0.0, 0.0
    model.eval()
    with torch.no_grad():
        for batch in iterator:
            logits = model(batch.text.cuda())
            predictions = torch.max(logits, dim=-1)[1]
            loss = criterion(logits, batch.label.cuda())

            total_loss += loss.item()
            total_correct += torch.eq(predictions, batch.label.cuda()).sum().item()
            total_prediction += batch.label.size(0)
    return total_loss / len(iterator), total_correct / total_prediction

Ensuite, nous sommes prêts à construire notre RNN pour l'analyse des sentiments. Dans le code suivant, nous avons fourni plusieurs hyperparamètres dont nous avions besoin pour construire le modèle, y compris la taille du vocabulaire (vocab_size), la dimension d'intégration du mot (embedding_dim), la dimension de la couche cachée (hidden_dim), le nombre de couches (num_layers) et le nombre de catégories de phrases (label_size). Veuillez compléter le code  et implémenter un modèle RNN après avoir lu les instructions du dernier  [blocs](https://colab.research.google.com/drive/1D_ERWxDEFDKH92KjPVpL3dVObpiOIMqF#scrollTo=PbqSAz90zBYi).

In [None]:
class RNNClassifier(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, label_size, padding_idx):
        super(RNNClassifier, self).__init__()
        self.vocab_size = vocab_size
        self.embedding_dim = embedding_dim
        self.hidden_dim = hidden_dim
        self.label_size = label_size
        self.num_layers = 1

        # Ajoutez les couches requises pour l'analyse des sentiments.
        self.embedding = nn.Embedding(self.vocab_size, self.embedding_dim, padding_idx=padding_idx)

    def zero_state(self, batch_size): 
        # Implémente la fonction qui renvoie un état caché initial.
        return None

    def forward(self, text):
        # Implémenter la fonction forward du modèle.
        embedding = self.embedding(text)
        return None

Enfin, nous sommes prêts à entraîner le modèle et à calculer ses performances.


In [None]:
# Sélectionnez le type d'optimiseur et les hyperparamètres avec le code suivant comme exemple
batch_size = 128
lr = 1e-4
EPOCHS = 30

# Initialisation du modèle
model = RNNClassifier(vocab_size, embedding_dim, hidden_dim, label_size, padding_idx)
optimizer = optim.SGD(model.parameters(), lr=1e-4)
criterion = nn.CrossEntropyLoss()
model.cuda()
criterion.cuda()

# Entraînement et test du modèle
# Vous pouvez réutiliser le bloc de codage suivant pour la sélection des hyperparamètres
# N'hésitez pas à essayer des stratégies d'entraînement plus avancées
best_valid_acc = 0.0
best_state_dict = copy.deepcopy(model.state_dict())
for epoch in range(EPOCHS):
    train_loss, train_acc = train(model, train_iter, optimizer, criterion)
    valid_loss, valid_acc = evaluate(model, val_iter, criterion)

    print('Epoch {} | Train loss {:.3f} | Valid loss {:.3f} | Valid acc {:.3f}'.format(epoch, train_loss, valid_loss, valid_acc))

    if valid_acc > best_valid_acc:
        best_valid_acc = valid_acc
        best_state_dict = copy.deepcopy(model.state_dict())

Une fois que nous avons trouvé les meilleurs hyperparamètres pour l'ensemble de validation, nous pouvons maintenant évaluer notre modèle sur l'ensemble de test.

In [None]:
# Évaluez le modèle ici
# Entraînez le modèle sur l'ensemble d'apprentissage
# Trouvez le meilleur modèle/hyperparamètre avec l'ensemble de validation et calculer ses performances sur l'ensemble de test

model.load_state_dict(best_state_dict)
test_loss, test_acc = evaluate(model, test_iter, criterion)
print('Test loss {:.3f} | Test acc {:.3f}'.format(test_loss, test_acc))

### 3.1) Implémentation d'un RNN

Le code actuel du modèle RNN n'est pas complet, complétons donc d'abord le code pour implémenter un modèle RNN vanille en remplissant le [bloc](https://colab.research.google.com/drive/1D_ERWxDEFDKH92KjPVpL3dVObpiOIMqF#scrollTo=kWUKPgDGNQSr&line=3&uniqifier=1).

- **Sous-tâche 1-1: Création de toutes les couches requises dans votre modèle**

N'oubliez pas que lors de la construction d'un modèle d'apprentissage profond, nous devons d'abord compléter la fonction **init** en créant toutes les couches requises. Dans notre cas, puisque nous utilisons des RNNs pour la classification des phrases, nous avons besoin d'une couche d'intégration (*embedding*) pour transformer les mots en intégrations (*embedding*) de mots, d'une couche RNN pour transformer les intégrations (*embedding*) de mots en codages de phrases, d'une fonction d'activation et d'une couche linéaire ainsi que d'une fonction softmax pour le classement des phrases.

Ceci étant, veuillez créer toutes les couches nécessaires de votre modèle RNN dans la fonction **init**. Notez que nous avons déjà ajouté la couche d'intégration de mots pour vous.

- **Sous-tâche 1-2: Implémentation de la fonction d'initialisation des états cachés**

Rappelez-vous que lors de l'application d'une unité RNN pour transformer des intégrations (*embedding*) de mots en codages de phrases, l'unité RNN part d'un vecteur caché initial avec toutes les valeurs nulles et lit séquentiellement chaque mot pour mettre à jour le vecteur caché. Enfin, le vecteur caché obtenu après lecture du dernier mot est traité comme l'encodage de la phrase.

Veuillez implémenter la fonction **zero_state**, qui renvoie un lot de vecteurs cachés initiaux en fonction d'une taille de lot (*batch*). Astuce : votre fonction doit renvoyer un tenseur avec toutes les valeurs nulles. Vous pouvez vous référer au [document officiel](https://pytorch.org/docs/stable/nn.html#rnn) pour définir les dimensions adéquates pour le tenseur.

- **Sous-tâche 1-3: Implémentation de la fonction forward**

Enfin, nous sommes prêts à construire la fonction *forward*, qui prend un lot de phrases en entrée et renvoie un lot de logits. Pour être plus précis, l'entrée est donnée par le tenseur appelé $\text{text}$, et la taille du tenseur est $(B, L)$, $B$ étant la taille du lot, $L$ étant la longueur maximale des phrases dans ce lot et $\text{text}[i, j]$ étant l'identifiant entier du $j$-ème mot dans la $i$-ème phrase. Étant donné le tenseur en entrée, votre fonction  doit renvoyer un tenseur logit de taille $(B, C)$, $B$ étant la taille du lot et $C$ étant le nombre de classes possibles.

Veuillez implémenter la fonction de *forward* en fonction des instructions ci-dessus. Notez que nous avons déjà appliqué la couche d'intégration de mots à l'entrée de texte et obtenu un tenseur appelé $\text{embedding}$, et la taille du tenseur est $(B, L, D)$, où $D$ est le mot dimension d'intégration. Vous pouvez directement opérer sur le tenseur $\text{embedding}$ pour calculer les logits.

### 3.2) Étude des différents optimiseurs

Lors de la tâche précédente, nous avons implémenté un modèle RNN pour l'analyse des sentiments, ou plus généralement la classification des phrases.

Pour mieux comprendre plusieurs concepts en apprentissage profond, faisons quelques études d'ablation en utilisant le modèle que nous venons d'implémenter.

La première tâche consiste à essayer différents optimiseurs pour votre modèle, où pour chaque optimiseur, vous pouvez également essayer différentes valeurs de pas d'apprentissage.

- **Sous-tâche 2-1: Remplir le tableau**

Nous avons fourni le tableau suivant pour différentes combinaisons d'optimiseurs et de pas d'apprentissage. Veuillez noter la **performance de validation** de votre modèle avec différents optimiseurs et taux d'apprentissage.

|         | 0.1  | 0.01 | 0.001|0.0001|
|---------|------|------|------|------|
| SGD     |      |      |      |      |
| Adam    |      |      |      |      |
| RMSprop |      |      |      |      |

- **Sous-tâche 2-2: Expliquez vos résultas**

En fonction de vos résultats, expliquez BRIÈVEMENT vos observations, par exemple, quel optimiseur fonctionne le mieux, quel est le taux d'apprentissage optimal pour chaque optimiseur ?

*Votre réponse:*


### 3.3) Comparez les résultats en fonction du nombre d'époques

Nous comparerons les résultats de notre modèle pour différents nombres d'époques d'entraînement.

- **Sous-tâche 3-1: Completez le talbeau**

Veuillez présenter les **performances d'entraînement et de validation** de votre modèle avec différents nombres d'époques d'entraînement dans le tableau suivant.

|                    |  10  |  20  |  30  |  40  |  50  |
|--------------------|------|------|------|------|------|
| Performance d'entraînement  |      |      |      |      |      |
| Performance de validation|      |      |      |      |      |


- **Subtask 3-2: Répondre à la question**

Est-il toujours préférable d'entraîner un modèle sur plusieurs époques ? Comment pouvons-nous décider quand arrêter l'entraînement?

*Votre réponse:*

### 3.4) Étude de la capacité des modèles

En pratique, nous pouvons également faire varier la capacité de notre modèle afin de trouver le modèle optimal. Veuillez tester différentes configurations de votre modèle, lesquelles ont des capacités différentes. Sur la base de vos observations, veuillez également répondre à la question.

- **Sous-tâche 4-1: Complétez le tableau**

Veuillez noter la **performance de validation** de votre modèle pour différentes capacités de modèle (c'est-à-dire, spécifiée par les termes  *embedding dim* et *couche cachée dim*).

|Embedding dim / Couche cachée dim |  64  |  128  |  256 |
|---------------------------|------|-------|------|
| 64                        |      |       |      |
| 128                       |      |       |      |
| 256                       |      |       |      |

- **Sous-tâche 4-2: Répondre à la question**

Est-il toujours préférable d'augmenter la capacité du modèle dans ce cas? Est-il toujours préférable d'augmenter la capacité du modèle en général? Comment décider de la bonne capacité du modèle en pratique ?

*Votre réponse:*
