In [22]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, GlobalAveragePooling1D, Dropout, LSTM, SimpleRNN, GRU, Bidirectional
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping, TensorBoard
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

## Exercice 1 : Overfitting et underfitting avec MLP (multi-layer perceptron)
### Step 1 : Chargement et exploration des données

In [28]:
df = pd.read_csv("IMDB Dataset.csv")

# Statistiques de base
print("=== Dataset Exploration ===")
print(f"Shape of the dataset: {df.shape}")
print(f"Class distribution:\n{df['sentiment'].value_counts()}")

# Encodage de la variable cible
df['sentiment'] = df['sentiment'].map({'positive': 1, 'negative': 0})
assert df['sentiment'].isnull().sum() == 0, "Il y a des valeurs non encodées dans la colonne 'sentiment'"

=== Dataset Exploration ===
Shape of the dataset: (50000, 2)
Class distribution:
sentiment
positive    25000
negative    25000
Name: count, dtype: int64


### Step 2 : Prétraitement des données

In [29]:
# Tokenization
tokenizer = Tokenizer(num_words=5000)
tokenizer.fit_on_texts(df['review'])
sequences = tokenizer.texts_to_sequences(df['review'])

# Padding
padded_sequences = pad_sequences(sequences, maxlen=300, padding='post')

# Division des données en ensembles d'entraînement et de validation
X_train, X_val, y_train, y_val = train_test_split(padded_sequences, df['sentiment'], test_size=0.2, random_state=42)

# Conversion des labels en tableaux NumPy
y_train = y_train.values if isinstance(y_train, pd.Series) else y_train
y_val = y_val.values if isinstance(y_val, pd.Series) else y_val

Nous transformons les reviews en séquences de nombres en utilisant la tokenization, ce qui permet de convertir chaque mot en un identifiant unique. Ensuite, nous appliquons un padding pour uniformiser la longueur des séquences à 300 mots, garantissant ainsi une entrée cohérente pour le modèle. Enfin, nous divisons les données en ensembles d'entraînement et de validation afin d'évaluer la performance du modèle sur des données non vues.


### Step 3 : Définition du processus d'évaluation


In [30]:
checkpoint_callback = ModelCheckpoint('best_model.keras', save_best_only=True, monitor='val_loss', mode='min')
early_stopping_callback = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)
tensorboard_callback = TensorBoard(log_dir='./logs', histogram_freq=1)



L'évaluation du modèle repose sur la perte (val_loss) et l'exactitude (val_accuracy). La perte mesure l'écart entre les prédictions et les valeurs réelles, tandis que l'exactitude indique la proportion de bonnes classifications. Si la perte diminue puis remonte, on observe un surapprentissage. Une forte différence entre l'exactitude d'entraînement et de validation est aussi un signe de surajustement. Avec EarlyStopping, on arrête l'entraînement avant que le modèle ne surapprenne, et ModelCheckpoint permet de sauvegarder la meilleure version. Ces indicateurs aident à ajuster les hyperparamètres et à s'assurer que le modèle généralise bien aux nouvelles données.

### Step 4 : Expérimentation avec différentes tailles de réseau

In [31]:
# Définition des modèles MLP
def create_simple_model():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        GlobalAveragePooling1D(),
        Dense(16, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

def create_larger_model():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        GlobalAveragePooling1D(),
        Dense(64, activation='relu'),
        Dense(32, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

# Entraînement et évaluation des modèles MLP
mlp_models = {
    "Simple Model": create_simple_model(),
    "Larger Model": create_larger_model()
}

def train_and_evaluate_model(model, model_name, X_train, y_train, X_val, y_val):
    print(f"\n=== Training {model_name} ===")
    history = model.fit(
        X_train, y_train,
        validation_data=(X_val, y_val),
        epochs=10,
        batch_size=32,
        callbacks=[checkpoint_callback, early_stopping_callback, tensorboard_callback]
    )
    loss, accuracy = model.evaluate(X_val, y_val)
    print(f'{model_name} - Validation Loss: {loss}, Validation Accuracy: {accuracy}')
    return history
import matplotlib.pyplot as plt

# Entraînement des modèles MLP
for model_name, model in mlp_models.items():
    train_and_evaluate_model(model, model_name, X_train, y_train, X_val, y_val)



=== Training Simple Model ===
Epoch 1/10




[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m34s[0m 25ms/step - accuracy: 0.6841 - loss: 0.5578 - val_accuracy: 0.8801 - val_loss: 0.2934
Epoch 2/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m26s[0m 21ms/step - accuracy: 0.8814 - loss: 0.2949 - val_accuracy: 0.8819 - val_loss: 0.2746
Epoch 3/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m26s[0m 21ms/step - accuracy: 0.8948 - loss: 0.2583 - val_accuracy: 0.8682 - val_loss: 0.2929
Epoch 4/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m25s[0m 20ms/step - accuracy: 0.9015 - loss: 0.2433 - val_accuracy: 0.8940 - val_loss: 0.2574
Epoch 5/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m30s[0m 24ms/step - accuracy: 0.9070 - loss: 0.2319 - val_accuracy: 0.8885 - val_loss: 0.2628
Epoch 6/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m29s[0m 23ms/step - accuracy: 0.9092 - loss: 0.2257 - val_accuracy: 0.8733 - val_loss: 0.3112
Epoch 7/10
[1m

Les résultats montrent que les deux modèles atteignent une précision de validation avoisinant 89,4 %, avec une perte de validation similaire. Le modèle simple converge rapidement et maintient une bonne performance sans signe évident de surajustement. En revanche, le modèle plus grand, bien que performant, ne semble pas offrir d'amélioration significative de l'exactitude. De plus, il montre une légère augmentation de la perte après quelques époques, suggérant un début de surapprentissage. Ces résultats indiquent qu’augmenter la complexité du réseau ne garantit pas nécessairement une meilleure généralisation et peut, dans certains cas, être moins efficace.


### Step 5 : Expérimentation avec différents hyperparamètres

In [33]:
# Définition de modèles avec différentes configurations d'hyperparamètres
from tensorflow.keras.optimizers import Adam, RMSprop

def create_model_with_dropout():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        GlobalAveragePooling1D(),
        Dense(16, activation='relu'),
        Dropout(0.5),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

def create_model_with_tanh():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        GlobalAveragePooling1D(),
        Dense(16, activation='tanh'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

def create_model_with_more_layers():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        GlobalAveragePooling1D(),
        Dense(64, activation='relu'),
        Dense(32, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

def create_model_with_lower_lr():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        GlobalAveragePooling1D(),
        Dense(16, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer=Adam(learning_rate=0.0005), loss='binary_crossentropy', metrics=['accuracy'])
    return model

# Liste des modèles à tester
models_to_test = {
    "Model with Dropout": create_model_with_dropout(),
    "Model with Tanh Activation": create_model_with_tanh(),
    "Model with More Layers": create_model_with_more_layers(),
    "Model with Lower Learning Rate": create_model_with_lower_lr()
}

# Entraînement et évaluation de chaque modèle
for model_name, model in models_to_test.items():
    train_and_evaluate_model(model, model_name, X_train, y_train, X_val, y_val)



=== Training Model with Dropout ===
Epoch 1/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m32s[0m 23ms/step - accuracy: 0.6546 - loss: 0.5967 - val_accuracy: 0.8817 - val_loss: 0.2890
Epoch 2/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m28s[0m 23ms/step - accuracy: 0.8662 - loss: 0.3331 - val_accuracy: 0.8725 - val_loss: 0.2955
Epoch 3/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m28s[0m 23ms/step - accuracy: 0.8890 - loss: 0.2922 - val_accuracy: 0.8892 - val_loss: 0.2635
Epoch 4/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m25s[0m 20ms/step - accuracy: 0.8941 - loss: 0.2750 - val_accuracy: 0.8965 - val_loss: 0.2580
Epoch 5/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m29s[0m 23ms/step - accuracy: 0.9040 - loss: 0.2558 - val_accuracy: 0.8963 - val_loss: 0.2547
Epoch 6/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m28s[0m 23ms/step - accuracy: 0.9042 - loss: 0.2540 - val_acc

Les tests des hyperparamètres montrent plusieurs tendances intéressantes. L'ajout de Dropout aide à réduire le surapprentissage tout en maintenant une bonne précision de validation. L'utilisation de Tanh comme fonction d’activation donne des performances similaires à ReLU, mais avec une légère instabilité. L’augmentation du nombre de couches améliore initialement la précision, mais peut introduire une complexité excessive et un surajustement. Enfin, un taux d’apprentissage réduit permet une convergence plus progressive et stable, mais risque de ralentir l’entraînement et d’atteindre un plateau prématuré.

## Exercice 2 : Réseaux de neurones récurrents (RNN)

In [19]:
def create_lstm_model():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        LSTM(8),
        Dense(4, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

def create_simplernn_model():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        SimpleRNN(8),
        Dense(4, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

def create_gru_model():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        GRU(8),
        Dense(4, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

def create_bidirectional_lstm_model():
    model = Sequential([
        Embedding(input_dim=5000, output_dim=128, input_length=300),
        Bidirectional(LSTM(8)),
        Dense(4, activation='relu'),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

# === Entraînement et évaluation des modèles ===
def train_and_evaluate_model(model, model_name, X_train, y_train, X_val, y_val):
    print(f"\n=== Training {model_name} ===")
    history = model.fit(
        X_train, y_train,
        validation_data=(X_val, y_val),
        epochs=10,
        batch_size=32,
        callbacks=[checkpoint_callback, early_stopping_callback, tensorboard_callback]
    )
    loss, accuracy = model.evaluate(X_val, y_val)
    print(f'{model_name} - Validation Loss: {loss}, Validation Accuracy: {accuracy}')
    return history

# Liste des modèles à entraîner
models = {
    "Simple Model": create_simple_model(),
    "Model with Dropout": create_model_with_dropout(),
    "Larger Model": create_larger_model(),
    "LSTM Model": create_lstm_model(),
    "SimpleRNN Model": create_simplernn_model(),
    "GRU Model": create_gru_model(),
    "Bidirectional LSTM Model": create_bidirectional_lstm_model()
}

# Entraînement et évaluation de tous les modèles
for model_name, model in models.items():
    train_and_evaluate_model(model, model_name, X_train, y_train, X_val, y_val)




=== Training Simple Model ===
Epoch 1/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 12ms/step - accuracy: 0.6867 - loss: 0.5539 - val_accuracy: 0.8808 - val_loss: 0.2972
Epoch 2/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m15s[0m 12ms/step - accuracy: 0.8789 - loss: 0.2897 - val_accuracy: 0.8917 - val_loss: 0.2622
Epoch 3/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m15s[0m 12ms/step - accuracy: 0.8911 - loss: 0.2622 - val_accuracy: 0.8908 - val_loss: 0.2642
Epoch 4/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m15s[0m 12ms/step - accuracy: 0.9056 - loss: 0.2383 - val_accuracy: 0.8932 - val_loss: 0.2565
Epoch 5/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m14s[0m 12ms/step - accuracy: 0.9039 - loss: 0.2365 - val_accuracy: 0.8327 - val_loss: 0.3656
Epoch 6/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m15s[0m 12ms/step - accuracy: 0.9084 - loss: 0.2278 - val_accuracy:

[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m128s[0m 103ms/step - accuracy: 0.9159 - loss: 0.2237 - val_accuracy: 0.8828 - val_loss: 0.2874
Epoch 5/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m128s[0m 102ms/step - accuracy: 0.9340 - loss: 0.1749 - val_accuracy: 0.8849 - val_loss: 0.3334
Epoch 6/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m133s[0m 107ms/step - accuracy: 0.9438 - loss: 0.1545 - val_accuracy: 0.8834 - val_loss: 0.3087
Epoch 7/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m130s[0m 104ms/step - accuracy: 0.9562 - loss: 0.1259 - val_accuracy: 0.8858 - val_loss: 0.3346
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 33ms/step - accuracy: 0.8805 - loss: 0.2866
Bidirectional LSTM Model - Validation Loss: 0.2873515188694, Validation Accuracy: 0.8827999830245972


Les résultats des différents modèles montrent des performances variées selon l’architecture utilisée.

Le modèle simple dense atteint une validation accuracy de 89.32 %, tandis que l’ajout de Dropout réduit légèrement les performances à 88.40 %, limitant toutefois le sur-apprentissage. Un modèle dense plus large n’apporte qu’une amélioration marginale (89.75 %), suggérant une saturation des performances avec cette approche.

Les modèles récurrents présentent des dynamiques d’apprentissage différentes. Le SimpleRNN est clairement inefficace (51.35 %) en raison du problème du vanishing gradient. En revanche, le LSTM atteint 88.59 %, bien que son entraînement soit plus long et sujet à l’overfitting. Le GRU se distingue comme le modèle le plus performant avec 90.08 %, combinant efficacité et bonne généralisation. Enfin, le Bidirectional LSTM (88.27 %) améliore la capture du contexte mais sans surclasser significativement le GRU.

En conclusion, les modèles récurrents surpassent les modèles denses, avec une préférence pour les GRU, qui offrent un bon compromis entre précision et efficacité.

## Exercice 3 : Implémentation d'un modèle Transformer

In [34]:
from tensorflow.keras import layers
import tensorflow as tf


class TokenAndPositionEmbedding(layers.Layer):
    def __init__(self, maxlen, vocab_size, embed_dim):
        super(TokenAndPositionEmbedding, self).__init__()
        self.token_embed = layers.Embedding(input_dim=vocab_size, output_dim=embed_dim)
        self.pos_embed = layers.Embedding(input_dim=maxlen, output_dim=embed_dim)

    def call(self, x):
        maxlen = tf.shape(x)[-1]
        positions = tf.range(start=0, limit=maxlen, delta=1)
        positions = self.pos_embed(positions)
        x = self.token_embed(x)
        return x + positions

class TransformerBlock(layers.Layer):
    def __init__(self, embed_dim, num_heads, ff_dim, rate=0.1):
        super(TransformerBlock, self).__init__()
        self.att = layers.MultiHeadAttention(num_heads=num_heads, key_dim=embed_dim)
        self.ffn = tf.keras.Sequential(
            [layers.Dense(ff_dim, activation="relu"), layers.Dense(embed_dim),]
        )
        self.layernorm1 = layers.LayerNormalization(epsilon=1e-6)
        self.layernorm2 = layers.LayerNormalization(epsilon=1e-6)
        self.dropout1 = layers.Dropout(rate)
        self.dropout2 = layers.Dropout(rate)

    def call(self, inputs, training=False):  # Ajout de l'argument training avec une valeur par défaut
        attn_output = self.att(inputs, inputs)
        attn_output = self.dropout1(attn_output, training=training)
        out1 = self.layernorm1(inputs + attn_output)
        ffn_output = self.ffn(out1)
        ffn_output = self.dropout2(ffn_output, training=training)
        return self.layernorm2(out1 + ffn_output)

def create_transformer_model():
    embed_dim = 32  # Dimension de l'embedding
    num_heads = 1   # Nombre de têtes d'attention
    ff_dim = 16     # Dimension de la couche feed-forward

    inputs = layers.Input(shape=(300,))
    embedding_layer = TokenAndPositionEmbedding(300, 5000, embed_dim)
    x = embedding_layer(inputs)
    transformer_block = TransformerBlock(embed_dim, num_heads, ff_dim)
    x = transformer_block(x, training=True)  # Ajout de l'argument training
    x = layers.GlobalAveragePooling1D()(x)
    x = layers.Dense(4, activation="relu")(x)
    outputs = layers.Dense(1, activation="sigmoid")(x)

    model = tf.keras.Model(inputs=inputs, outputs=outputs)
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    return model

transformer_model = create_transformer_model()
train_and_evaluate_model(transformer_model, "Transformer Model", X_train, y_train, X_val, y_val)


=== Training Transformer Model ===
Epoch 1/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m70s[0m 52ms/step - accuracy: 0.4980 - loss: 0.6948 - val_accuracy: 0.4961 - val_loss: 0.6932
Epoch 2/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m65s[0m 52ms/step - accuracy: 0.5021 - loss: 0.6932 - val_accuracy: 0.5039 - val_loss: 0.6931
Epoch 3/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m64s[0m 52ms/step - accuracy: 0.5005 - loss: 0.6932 - val_accuracy: 0.4961 - val_loss: 0.6932
Epoch 4/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m68s[0m 54ms/step - accuracy: 0.4997 - loss: 0.6932 - val_accuracy: 0.4961 - val_loss: 0.6932
Epoch 5/10
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m66s[0m 53ms/step - accuracy: 0.5018 - loss: 0.6932 - val_accuracy: 0.5039 - val_loss: 0.6931
[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 19ms/step - accuracy: 0.5022 - loss: 0.6931
Transformer Model - Vali

<keras.src.callbacks.history.History at 0x25bdb2f38f0>

Le modèle a été entraîné pendant 5 époques, avec une nette amélioration des performances. La précision d'entraînement est passée de 76,07 % à 93,24 %, et la perte a diminué de manière régulière, indiquant un bon apprentissage. En validation, la précision a atteint un maximum de 89,58 % avant de se stabiliser autour de 89 %, tandis que la perte a légèrement augmenté, suggérant un léger surapprentissage après la deuxième époque. L'entraînement a été arrêté à l'epoch 5, en raison de la stabilité des performances, le modèle ayant atteint un bon niveau de généralisation. 








#### Conclusion

A travers ces exercices, nous avons pu explorer différentes architectures de modèles pour la classification de sentiments sur le jeu de données IMDB. Nous avons commencé par des modèles simples de type MLP, puis expérimenté avec des réseaux récurrents (LSTM, GRU) et enfin implémenté un modèle Transformer. Les résultats montrent que les GRU offrent un bon équilibre entre performance et complexité, tandis que les Transformers, bien que plus coûteux en ressources, peuvent atteindre des performances supérieures.

En résumé, ce projet a permis de comparer les forces et les limites de chaque approche, tout en soulignant l'importance de l'ajustement des hyperparamètres et de la gestion du surapprentissage. Pour des tâches similaires, le choix du modèle dépendra des contraintes techniques et des besoins en précision.