In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Import pour prétraitement du texte
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split

#Import pour créer le réseau de neurone
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM, SpatialDropout1D

##### Préparation des données
J'ai pré enregistrer un csv avec les commentaire nettoyés (sans chiffres, ponctuations et stopwords) pour pas avoir a refaire le traitement à chaque fois et gagner du temps.

In [5]:
data = pd.read_csv('./data/clean_data_imdb.csv')
data = data.replace({1.0:'positive',0.0:'negative'})
data.head()

Unnamed: 0,text,label
0,Bromwell High cartoon comedy run time program ...,positive
1,Homelessness Houselessness George Carlin state...,positive
2,brilliant act Lesley Ann Warren well dramatic ...,positive
3,easily underrated film inn Brooks cannon sure ...,positive
4,typical Mel Brooks film slapstick movie actual...,positive


##### Vectorisation des commentaires

In [6]:
# j'utilise la classe Tokenizer de keras preprocessing pour vectoriser mes commentaires avec 2000 mots de vocabulaire maximum.
tokenizer = Tokenizer(num_words=2000) # => création du tokenizer
tokenizer.fit_on_texts(data['text'].values) # => calibrage du tokenizer (correspond au .fit avec le tfidf)
X = tokenizer.texts_to_sequences(data['text'].values) # => vectorisation des commentaires (correspond au .transform avec le tfidf)

In [7]:
# dans keras preprocessing, pad_sequences permet de faire en sorte que tout les vecteurs aient la même longueur pour les donner au modèle
X = pad_sequences(X)

##### Preparation des labels
One hot encoding des labels pour le réseau de neurones

In [8]:
Y = pd.get_dummies(data['label']).values

##### Séparation des données d'entraînement et de test

In [9]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size = 0.25, random_state = 42)
print(X_train.shape,Y_train.shape)
print(X_test.shape,Y_test.shape)

(37500, 686) (37500, 2)
(12500, 686) (12500, 2)


##### Création du réseau de neurones

In [10]:
model = Sequential()
model.add(Embedding(2000, 64, input_length = X.shape[-1])) # => remplacer 2000 par le nombre de mots de votre vocabulaire
model.add(SpatialDropout1D(0.4))
model.add(LSTM(60, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(2,activation='softmax')) # => remplacer 2 par le nombre de classe à prédire (garder 2 si vous faite une classification binaire)

model.compile(loss = 'binary_crossentropy', optimizer='adam', metrics = ['accuracy'])
print(model.summary())

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (None, 686, 64)           128000    
                                                                 
 spatial_dropout1d (Spatial  (None, 686, 64)           0         
 Dropout1D)                                                      
                                                                 
 lstm (LSTM)                 (None, 60)                30000     
                                                                 
 dense (Dense)               (None, 2)                 122       
                                                                 
Total params: 158122 (617.66 KB)
Trainable params: 158122 (617.66 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
None


##### Entraînement du réseau de neurones
Entraînement très long, plus d'une heure en local, mais vous pouvez eventuellement utiliser google colab (entrainement dans le cloud google) pour accélerer les choses.

In [14]:
history = model.fit(X_train, Y_train, epochs = 10, batch_size = 64, validation_data=(X_test,Y_test))

Epoch 1/2

KeyboardInterrupt: 

##### Evaluation du modèle

Courbes d'apprentissage du réseau de neurone

In [None]:
losss = history.history['loss']
accu = history.history['accuracy']
val_loss = history.history['val_loss']
val_accu = history.history['val_accuracy']
    
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))
fig.suptitle('Loss and Accuracy curves')
ax1.plot(losss, label='train loss')
ax1.plot(val_loss, label='test loss')
ax1.legend(loc="upper right")
ax2.plot(accu, label='train accuracy')
ax2.plot(val_accu, label='test accuracy')
ax2.legend()
fig.show()

Prédiction sur l'ensemble de test

In [None]:
predictions = model.predict(X_test)

Accuracy Score et Matrice de confusion

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

In [None]:
print(accuracy_score(Y_test, predictions))

In [None]:
cm = confusion_matrix(predictions, Y_test)

f,ax = plt.subplots(figsize=(20, 20))
sns.heatmap(cm, annot=True, linewidths=0.01,cmap="Greens",linecolor="gray", fmt= '.1f',ax=ax)
plt.xlabel("Predicted Label")
plt.ylabel("True Label")
plt.title("Confusion Matrix")
plt.show()