# TP : Entraînement d'un MLP - Classification des Sentiments sur des Critiques de Films
**Multi-layer Perceptron – MLP**

## Objectif
Développer un modèle capable de classifier des critiques de films en deux catégories : **positives** ou **négatives**, en utilisant l'ensemble de données IMDb et un réseau multi-couches (**MLP**).

---

## Instructions
1. **Adaptation du code existant :** Adapter le code afin de train un model [MLP](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#mlpclassifier)
2. **Expérimentations :** Effectuez plusieurs entraînements en ajustant différents hyperparamètres (comme le nombre de couches, le nombre de neurones, etc.).
3. **Analyse des performances :** Mesurez et comparez les résultats pour évaluer l'impact des différents réglages.
4. **Netoyage**: Tester avec un nettoyage des données comme réaliser avec spacy
4. **Augmentation des données :** Augmentez la taille des ensembles d'entraînement et de test pour rendre la tâche plus complexe et observer l'évolution des performances.

---

## Ressources
- Documentation MLP de scikit-learn : [MLPClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#mlpclassifier)

In [None]:
!pip install -q -U datasets scikit-learn spacy
!python -m spacy download en_core_web_sm

In [None]:
from datasets import load_dataset

# Chargement du dataset "imdb" depuis HuggingFace
raw_dataset = load_dataset("imdb", split="train")

# Split stratifié 50/50
dataset = raw_dataset.train_test_split(stratify_by_column="label", test_size=0.5, seed=42)
train_dataset = dataset["train"]
test_dataset = dataset["test"]

print("Nombre d'échantillons dans le train set :", len(train_dataset))
print("Nombre d'échantillons dans le test set  :", len(test_dataset))

In [None]:
print("Exemple de review :", train_dataset[0]["text"][:300], "...")
print("Label (0 = négatif, 1 = positif) :", train_dataset[0]["label"])

In [None]:
# Préparation des données : extraction des textes et des labels
X_train = train_dataset["text"]
y_train = train_dataset["label"]
X_test = test_dataset["text"]
y_test = test_dataset["label"]

In [None]:
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer

pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(max_features=10000)),  # Limite le nombre de features pour réduire la dimensionnalité
    # Doc: https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#mlpclassifier
    ('mlp', pass)  # TODO
    ])

# Entraînement du modèle
print("Entraînement du modèle...")
pipeline.fit(X_train, y_train)

# Prédictions sur le jeu de test
predictions = pipeline.predict(X_test)

# Évaluation du modèle à l'aide de classification_report
print("Rapport de classification sur le jeu de test:")
print(classification_report(y_test, predictions, target_names=["négatif", "positif"]))