In [1]:
"""
Script d'entraînement de modèles CamemBERT pour la classification de synopsis de films d'horreur.

Ce script entraîne deux modèles de classification de texte en français, basés sur CamemBERT :
1. Un modèle binaire (horreur vs non-horreur)
2. Un modèle à trois classes (niveau de sévérité : 0 = neutre, 1 = modéré, 2 = intense)

Les données sont issues d’un fichier CSV contenant les textes annotés, produit par un script d’analyse lexicale
basé sur un dictionnaire de mots-clés horreur.

Fonctionnalités :
-----------------
- Chargement du dataset `dataset_horreur.csv`
- Séparation entraînement/test (20%)
- Tokenisation avec `CamembertTokenizer`
- Entraînement de deux modèles `CamembertForSequenceClassification`
- Évaluation automatique (accuracy, précision, rappel, F1, perte, temps)
- Sauvegarde des modèles et des résultats

Bibliothèques utilisées :
-------------------------
- pandas
- datasets (Hugging Face)
- transformers (Hugging Face)
- torch
- evaluate
- numpy
- scikit-learn (pour les métriques avancées)

Structure de sortie :
---------------------
- Dossiers `./camembert_binary` et `./camembert_severity` contenant les modèles entraînés.
- Dossier `./results_bin` et `./results_sev` pour les logs de chaque entraînement.
- Fichier `resultats_evaluation.csv` résumant les performances des deux modèles.
- Affichage console au format markdown.

Pré-requis :
------------
- Avoir exécuté le script d’annotation pour générer `dataset_horreur.csv`
- Environnement Python avec les dépendances installées :
    pip install pandas datasets transformers evaluate scikit-learn torch

"""

# Import des bibliothèques nécessaires
import pandas as pd
from datasets import Dataset
from transformers import CamembertTokenizer, CamembertForSequenceClassification, Trainer, TrainingArguments
import torch
import evaluate
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# ----------- CHARGEMENT DES DONNÉES -----------
# Lecture du fichier CSV contenant les synopsis et les labels
df = pd.read_csv('../TP4-augmentation_donnés/dataset_horreur.csv')

# ----------- CLASSIFICATION BINAIRE (Horreur ou non) -----------
# On ne garde que la colonne de texte et le label binaire
df_bin = df[['text', 'label_binary']].rename(columns={'label_binary': 'label'})
# Conversion en format Dataset Hugging Face
dataset_bin = Dataset.from_pandas(df_bin)
# Division en jeu d'entraînement et de test (80%/20%)
dataset_bin = dataset_bin.train_test_split(test_size=0.2, seed=42)

# Chargement du tokenizer CamemBERT
tokenizer = CamembertTokenizer.from_pretrained('camembert-base')

# Fonction de prétraitement : tokenisation et padding/troncature
def preprocess_function(examples):
    return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=128)

# Application de la tokenisation au jeu de données
encoded_bin = dataset_bin.map(preprocess_function, batched=True)

# Chargement du modèle CamemBERT avec 2 classes (binaire)
model_bin = CamembertForSequenceClassification.from_pretrained('camembert-base', num_labels=2)

# Fonction d'évaluation pour calculer la précision
metric = evaluate.load("accuracy")
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    preds = torch.argmax(torch.tensor(logits), dim=-1)
    return metric.compute(predictions=preds, references=labels)

# Définition des arguments d'entraînement
training_args_bin = TrainingArguments(
    output_dir='./results_bin',
    num_train_epochs=2,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    logging_dir='./logs_bin',
    save_total_limit=1,
)

# Entraîneur Hugging Face pour la classification binaire
trainer_bin = Trainer(
    model=model_bin,
    args=training_args_bin,
    train_dataset=encoded_bin['train'],
    eval_dataset=encoded_bin['test'],
    compute_metrics=compute_metrics
)

# Entraînement du modèle
trainer_bin.train()
# Évaluation sur le jeu de test
print(trainer_bin.evaluate())

# ----------- CLASSIFICATION PAR NIVEAU DE SÉVÉRITÉ (0, 1, 2) -----------
# Préparation des données pour la classification à 3 classes
df_sev = df[['text', 'label_severity']].rename(columns={'label_severity': 'label'})
dataset_sev = Dataset.from_pandas(df_sev)
dataset_sev = dataset_sev.train_test_split(test_size=0.2, seed=42)

# Application de la tokenisation
encoded_sev = dataset_sev.map(preprocess_function, batched=True)

# Chargement du modèle pour 3 classes
model_sev = CamembertForSequenceClassification.from_pretrained('camembert-base', num_labels=3)

# Définition des arguments d'entraînement pour la classification de sévérité
training_args_sev = TrainingArguments(
    output_dir='./results_sev',
    num_train_epochs=2,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    logging_dir='./logs_sev',
    save_total_limit=1,
)

# Entraîneur pour la classification par sévérité
trainer_sev = Trainer(
    model=model_sev,
    args=training_args_sev,
    train_dataset=encoded_sev['train'],
    eval_dataset=encoded_sev['test'],
    compute_metrics=compute_metrics
)

# Entraînement et évaluation
trainer_sev.train()
print(trainer_sev.evaluate())

# ----------- SAUVEGARDE DES MODÈLES -----------
# Sauvegarde du modèle binaire
model_bin.save_pretrained("./camembert_binary")
tokenizer.save_pretrained("./camembert_binary")

# Sauvegarde du modèle de sévérité
model_sev.save_pretrained("./camembert_severity")
tokenizer.save_pretrained("./camembert_severity")

print("Modèles sauvegardés avec succès.")

# ----------- ÉVALUATION COMPLÈTE AVEC MÉTRIQUES DÉTAILLÉES -----------

# Fonction qui calcule plusieurs métriques sur un jeu de données
def compute_all_metrics(trainer, dataset, average="weighted"):
    predictions = trainer.predict(dataset)
    preds = np.argmax(predictions.predictions, axis=1)
    labels = predictions.label_ids
    return {
        "Accuracy": accuracy_score(labels, preds),
        "Precision": precision_score(labels, preds, average=average, zero_division=0),
        "Recall": recall_score(labels, preds, average=average, zero_division=0),
        "F1-score": f1_score(labels, preds, average=average, zero_division=0),
        "Loss": predictions.metrics.get("test_loss", predictions.metrics.get("eval_loss")),
        "Temps (s)": predictions.metrics.get("test_runtime", predictions.metrics.get("eval_runtime"))
    }

# Évaluation des deux modèles
metrics_bin = compute_all_metrics(trainer_bin, encoded_bin["test"])
metrics_sev = compute_all_metrics(trainer_sev, encoded_sev["test"])

# ----------- AFFICHAGE ET SAUVEGARDE DES RÉSULTATS -----------

# Création d’un tableau de résultats avec pandas
results_df = pd.DataFrame([
    {"Modèle": "Classification binaire", **metrics_bin},
    {"Modèle": "Classification sévérité", **metrics_sev},
])

# Affichage des résultats au format markdown dans la console
print("\nÉvaluation complète des modèles :\n")
print(results_df.to_markdown(index=False))

# Sauvegarde dans un fichier CSV
results_df.to_csv("resultats_evaluation.csv", index=False, encoding="utf-8")



Map:   0%|          | 0/76 [00:00<?, ? examples/s]

Map:   0%|          | 0/20 [00:00<?, ? examples/s]

Some weights of CamembertForSequenceClassification were not initialized from the model checkpoint at camembert-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Step,Training Loss


{'eval_loss': 0.24591509997844696, 'eval_accuracy': 0.95, 'eval_runtime': 2.9169, 'eval_samples_per_second': 6.857, 'eval_steps_per_second': 1.029, 'epoch': 2.0}


Map:   0%|          | 0/76 [00:00<?, ? examples/s]

Map:   0%|          | 0/20 [00:00<?, ? examples/s]

Some weights of CamembertForSequenceClassification were not initialized from the model checkpoint at camembert-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Step,Training Loss


{'eval_loss': 0.6642757654190063, 'eval_accuracy': 0.8, 'eval_runtime': 2.9151, 'eval_samples_per_second': 6.861, 'eval_steps_per_second': 1.029, 'epoch': 2.0}
Modèles sauvegardés avec succès.

Évaluation complète des modèles :

| Modèle                  |   Accuracy |   Precision |   Recall |   F1-score |     Loss |   Temps (s) |
|:------------------------|-----------:|------------:|---------:|-----------:|---------:|------------:|
| Classification binaire  |       0.95 |      0.9025 |     0.95 |   0.925641 | 0.245915 |      2.8112 |
| Classification sévérité |       0.8  |      0.64   |     0.8  |   0.711111 | 0.664276 |      3.0152 |
