<a href="https://colab.research.google.com/github/hbaflast/deep-learning-tutorial-fr/blob/main/classification_texte_exercice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Classification de texte - IMBD**


Dans cet exercice vous allez mettre en place un réseau de neurones étant capable de classifier des critiques de cinéma selon si elles sont bonnes ou mauvaises. C'est un exemple classique de classification binaire, un problème que l'on rencontre très souvent en machine learning.

On utilise pour cela le jeu de données [IMBD](https://www.imdb.com/) qui contient 50.000 critiques de films.

## 1 - **Importation de module**

**Importer les modules Tensorflow, Numpy et pylot de Matplotlib**

Nous allons traiter cet excercice avec la bibliotèque de deep learning Keras

In [None]:
# import ...

 **Afficher le GPU de la machine**
 
 Vérifions que le GPU de l'environnement de travail est bien activé

In [None]:
# ! ...

## 2 - **Importation et Exploration des données**

**Importer le jeu de données de puis Keras**

Le jeu de données IMDB est directement contenu dans Keras, car c'est un jeu de données très populaire sur lequel est effectué un grand nombre de benchmark d'algorithme.

Importer seulement les 10.000 mots les plus fréquents avec l'argument "num_words"


In [None]:
# from tensorflow.keras.datasets ....

**Afficher le jeu de données**

Affichons les données du jeu d'entrainement

In [None]:
# ...

Puis les labels du jeu d'entrainement

In [None]:
# ...

**Que remarque-t-on ?**

**De quels types sont les données et leurs labels ?**

---



*Réponse : ...*

**Afficher la taille du jeu de données**

Affichons la taille du jeu d'entrainement dans un premier temps



In [None]:
# ...

Puis la taille du jeu de test dans un second temps

In [None]:
# ...

**Afficher la distribution des labels**

Faisons un graphe de la distribution des labels du jeu d'entrainement

In [None]:
# ...

Et des labels du jeu de test

In [None]:
# ...

**Que remarque-t-on ?**

---



*Réponse : ...*

**Afficher la taille de la première et de la deuxième phrase**

In [None]:
# print("Taille de la première phrase ...
# print("Taille de la deuxième phrase ...

**Que remarque-t-on ?**

---



*Réponse : ...*

** Faire une fonction permettant d'afficher la distribution de la longueur des phrases du jeu de données**

In [None]:
# def plot_len_distribution(dataset):
#   ...

In [None]:
# plot_len_distribution(x_train)
# plot_len_distribution(x_test)

 **Décodage des vecteurs**

On a pu observer que le jeu de données a été processé.
Une critique est ici une liste d'entiers qui représente un mot.

En ce qui concerne les labels : 0 repésente une critique négative et 1 une critique positive

Il peut être intéressant de reconvertir les nombres en phrases



**Importer l'index des mots avec la méthode get_word_index de la classe imbd**

In [None]:
# word_index = imdb.

**Afficher l'index des mots**

In [None]:
# ...

Ici on vient ajouter des items à notre dictionnaire afin de gérer la reconversion en phrases

In [None]:
word_index = {k:(v+3) for k,v in word_index.items()} 
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 2
word_index["<UNUSED>"] = 3

**Créer un dictionaire qui est l'inverse de celui là afin de reconvertir les nombres en phrases**

In [None]:
# reverse_word_index = ...

**Créer une fonction qui permet de décoder une phrase**

In [None]:
# def decode_review(text):
#    ...

**Décoder la première phrase**

In [None]:
# ...

## **3 - Préparation des données**

Les phrases doivent toutes être de la même longueur en entrée du réseau de neurones.

Pour cela nous utilisons la fonction pad_sequences provenant du sous modules preprocessing.sequence de keras

**Importer la fonction pad_sequences**

In [None]:
# from tensorflow.keras. ...

**Utiliser la fonction afin de transformer le jeu d'entrainement et le jeu de test**

On veut avoir une taille max des arrays de 256 et rajouter des 0 à la fin si la phrase est plus courte

In [None]:
# X_train = ...

# X_test = ...

**Afficher la taille du jeu d'entrainement **

In [None]:
# ...

**Que remarque-t-on ?**

---



*Réponse : ...*

**Afficher maintenant la première phrase**

In [None]:
# ...

**Que remarque-t-on ?**

---



*Réponse : ...*

## **4 - Definition du model**

**Importer les classes et fonctions nécessaire à la construction d'un modèle**

In [None]:
# from tensorflow.keras.models import ...
# from tensorflow.keras.layers import ...
# from tensorflow.keras.optimizers import ..

**Faire une fonction permetant de créer un modèle**

Nous sommes ici dans un cas de classification binaire il faut donc choisir la fonction de coût et la fonction d'activation de la dernière couche qui correspond au problème.

In [None]:
# def create_model():
#   ...

**Afficher un résumé de votre modèle**

In [None]:
# ...

**Entrainer le modèle**

On conserver l'historique de l'entrainement du modèle afin d'evaluer sa progression par la suite.

On utilisera un jeu de validation correspondant à la moitié du jeu d'entrainement.

In [None]:
# history = ...

**Evaluer le modèle sur le jeu de test**

Afficher la loss et l'accuracy du modèle

In [None]:
# scores = ...
# print(...)
# print(...)

**Quelle accuracy obtenez-vous ?**

---



*Réponse : ...*

**Afficher les courbes de loss**

In [None]:
# plt.plot( ...
# plt.plot( ...

## **5 - Visualisation des prédictions**

**Effectuer les prédictions du modèle sur le jeu de test**

In [None]:
# y_pred = ...

**Afficher les prédictions**

In [None]:
# ...

**Que remarque-t-on ?**

---



**Transformer les prédicitions**

Transformons les prédictions afin de ne plus avoir la probabilité mais si un commentaire est bon ou mauvais

In [None]:
# ...

**Afficher 10 predictions aléatoirement choisies**

Affichons les 10 phrases et la prédiction pour chacune

In [None]:
# for i in range(10):
#   ...

**Afficher 10 predictions où le modèle s'est trompé**

Affichons 10 phrases et la prédiction pour chacune

In [None]:
# ...

In [None]:
# ...

In [None]:
# ...

In [None]:
# for i in range(10):
#   ...

# Fin