### TP Deep learning - Part 2

We are now ready to dive into deep learning. 
You have two options : 
- Implement your own architecture with pytorch 
- Use a pre-train model from Hugging Face and fine-tune it onto your data. 

#### Option 1 
In the first scenario, many architectures are available, among them 
- Word embedding + CNN (as presented bellow) 
- LSTM 
1. Do researches to understand the general mechanisms of the model you choose. Explain the model and propose a visualisation (similar to the figure bellow). Maximum 20 lines.

2. Pre-processing : by nature, text cannot be directly feed to a neural network. Similarly than for the logistic regression, we first need to prepare the data. In our case, we will distinguish the following preprocessing steps
    1. Load the data
    2. Clean the data : lowercase the text and remove special symbol 
    3. Tokenize the text 
    4. Build the vocabulary 
    5. Padding 
    6. Split into train and test
    
Implement all these functions to prepare the data.

3. Implement the architecture of your choice using pytorch. DO NOT only use Jupyter notebook. For this kind of project, jupyter notebook can be used to call the main function, but you have to organise your project with different .py modules. Again, make sure to comment properly your code. 
4. Train and evaluate your model using accuracy and f1 score. 
5. Tune two hyper-parameters of your choice. 

#### Option 2 
Second option : choose a pre-trained model (we recommend BERT) and fine-tune it on your data. 
1. Do research and explain the basic mechanisms of the chosen pre-trained model. Maximum 20 lines. 
2. Explain the pre-processing required. 
3. Explain at least 2 different fine-tuning strategies and implement one. 
4. Tune two hyper-parameters of your choice. 

There are multiple possible deep learning architectures for text classification. Here is an example for option 1?

In [1]:
from IPython.display import Image
Image(url= "img/archi_cnn.jpeg", width=600, height=600)

In [2]:
from IPython.display import Image
Image(url= "img/cnn-text-classification.jpg", width=800, height=800)

**IMPORTANT** 
The main code is executed in this notebook, however the classes and functions implemented are in separated files with the extension `.py` and will be imported. 
For instance you should have 
- 1 file with pre-processing function 
- 1 file with model definition 
- 1 file for running and evaluating the model

## Réponses

### Option 1

Nous avons fait le choix de l'architecture LSTM.
En effet, les CNN sont plus adaptés pour la detection d'objets en traitement d'image, ce qui n'est pas notre cas ici, puisque nous avons des mots.

L'une des principales propriétés de LSTM est de mémoriser et de reconnaître les informations qui entrent dans le réseau et également d'écarter les informations qui ne sont pas nécessaires au réseau pour apprendre les données et les prédictions.


### Fonctionnement du LSTM

Le LSTM est composé de 3 portes principales qui sont : FORGET Gate / INPUT Gate / OUTPUT Gate. Il y a aussi le Cell State à prendre en compte.

##### FORGET Gate
Cette porte permet de faire le tri sur les informations à garder ou à supprimer en comparant les informations de la cellule actuelle et de la cellule précédente. Ces 2 données sont passées dans une fonction sigmoïde qui supprime les valeurs proches de 0. Les données conservées sont passées à la cellule suivante.

##### INPUT Gate
Le fonctionnement est similaire au FORGET Gate, ici le but est de savoir quelles sont les informations importantes.
Les données de la cellule précédente et de la cellule actuelle sont passées dans 2 fonctions sigmoïde et tangente hyperbolique (tanh). La fonction tanh permet de réguler le réseau et de réduire le biais.

##### Cell State
Le Cell State est calculé de la manière suivante : l'état actuel de la cellule est dans un premier temps multiplié par la sortie de la FORGET Gate. Il est donc possible de supprimer les valeurs du cell state qui sont proches de 0. Enfin, les données de la cellules sont mise à jour en les sommants avec le résultat de la porte de sortie.

##### OUTPUT Gate
C'est la dernière porte du modèle. Celle-ci décide quel sera le prochain hidden state. Les informations de la cellule actuelle et de la cellule précédente sont passées dans une fonction tanh et sont  multipliées avec les sorties de la fonction sigmoïde. Cela permet de savoir quelles sont les informations que le hidden state doit conserver.


In [5]:
Image(url= "img/lstm.png", width=600, height=600)

In [12]:
import pandas as pd
df = pd.read_csv('../TP-DeepLearning/data/dataset_to_model.csv')

In [13]:
df.sample(5)

Unnamed: 0,Category,description_pre
71341,19,research explores inequalities affect american...
59656,6,proficient writer editor wide range travel exp...
128243,19,ishemo held posts senior regional planner tanz...
87584,19,also taught xavier college kolkata university ...
113995,6,written black enterprise magazine essence maga...
