# Analyse de sentiment avec Keras

Pour réaliser ce projet, nous allons utiliser le data set IMDB, disponible directement dans `keras.datasets`. Il contient 25000 critiques de films. Nous classifirons les critiques en deux catégories, positive et négative.

In [20]:
from keras.datasets import imdb
from keras.layers import LSTM, Dense, Embedding
from keras.models import Sequential
from keras.preprocessing import sequence

## Mise en place des données

Nous commençons par extraire les données du data set dans notre environnement en deux parties:
- La première contient les données d'entrainement (train set)
- La seconde contient les données d'evaluation (test set)
 
Nous limitons le nombre de mots à 5000.

In [27]:
MAX_NUM_MOTS = 5000

(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=MAX_NUM_MOTS)

Chaque critique a un nombre de mots différente, nous devons alors fixer une un nombre de mots maximum pour chaque critique. Après cette case, toutes les critiques feront la même taille. Prenons deux exemples de critique pour illustrer mon propos.

Si nous avons la critique, "très bon film" dans nos données, `sequence.pad_sequence()` l'a convertira en ceci "très bon film 0 0 0 0 0 0 0 0... x497".

Et enfin, si nous avons une critique qui contient 560 mots alors `sequence.pad_sequence()` enlevera les 60 derniers mots.

In [28]:
MAX_TAILLE_CRITIQUE = 500

X_train = sequence.pad_sequences(X_train, maxlen=MAX_TAILLE_CRITIQUE)
X_test  = sequence.pad_sequences(X_test, maxlen=MAX_TAILLE_CRITIQUE)

## Création du modèle

Nous allons désormais créer notre modèle, et nous ajoutons nos couches: 

- Une couche `Embedding`, avec pour dimension d'entrée (`input_dim`) le nombre maximum de mots (ici, 500), puis la dimension de sortie (`output_dim`) est de 32, donc la couche retournera pour chaque mot, une liste de 32 nombres qui auront une relation mathématique entre eux.
- Une couche `LSTM` avec une dimension de sortie de 100 unités.
- Pour finir, une couche `Dense` avec une seule unité ainsi qu'une fonction d'activation `sigmoid` qui ensuite contiendra la prédiction de notre modèle.

In [29]:
EMBEDDING_TAILLE_VECTEUR = 32

model = Sequential()
model.add(Embedding(input_dim=MAX_NUM_MOTS, output_dim=EMBEDDING_TAILLE_VECTEUR, input_length=MAX_TAILLE_CRITIQUE))
model.add(LSTM(100))
model.add(Dense(1, activation="sigmoid"))

Nous compilons notre modèle avec pour fonction de coût `binary crossentropy`, cette fonction nous aides à décider si le résultat devrait être 0 ou 1. Pour optimiser notre modèle, nous utiliserons `adam` et enfin, nous l'évaluerons grâce à `accuracy` (précision).

In [30]:
model.compile(loss='binary_crossentropy', optimizer="adam", metrics=["accuracy"])

## Résumé du modèle

Pour la couche `Embedding`, chacun de nos mots est converti en liste de 32 nombres, nous avons 5000 mots (32 x 5000 = 160000).

Puis, la couche `LSTM` réduit le nombre de paramètres à 5320 (5000 x 100 + 32 x 100 = 53200).

Et enfin, la couche `Dense` est connecté aux 100 unités de la couche précédente (100 + 1 = 101).

In [31]:
model.summary()

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_3 (Embedding)      (None, 500, 32)           160000    
_________________________________________________________________
lstm_3 (LSTM)                (None, 100)               53200     
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 101       
Total params: 213,301
Trainable params: 213,301
Non-trainable params: 0
_________________________________________________________________


## Entrainer le modèle

Nous allons entrainer notre modèle sur les données d'entrainement (train set) sur trois cycles (`epochs=3`) par groupe de 64 (`batch_size=64`). La précision de notre modèle devrait s'améliorer après chaque cycle. Cette étape devrait prendre ~10 minutes selon votre ordinateur.

In [32]:
model.fit(X_train, y_train, epochs=3, batch_size=64)

  "Converting sparse IndexedSlices to a dense Tensor of unknown shape. "


Epoch 1/3
Epoch 2/3
Epoch 3/3


<keras.callbacks.callbacks.History at 0x25385574cf8>

## Evaluation de notre modèle

Notre modèle à une precision de 90% sur nos données d'entrainement. Nous allons désormais l'évaluer sur son apprentissage en lui donnant des données qu'il n'a jamais vu avant, les données d'évaluation (test set).


In [38]:
scores = model.evaluate(X_test, y_test, verbose=0)
print("Notre modèle a une précision de", round(scores[1]*100, 2),"%")

Notre modèle a une précision de 86.94 %


## Conclusion

Notre modèle finit avec ~87% de précision sur les données d'évaluation.

Cela signifie que notre modèle peut prédire avec ~87% de précision si la critique d'un film est positive ou négative.

Notre ordinateur a classé 25000 critiques de films avec un bon résultat en seulement 10 minutes.

Pour améliorer notre modèle, nous pourrions améliorer la vitesse d'entrainement(utilisez un GPU, par exemple) ainsi que son taux de précision (compléxifiez notre modèle).