## ⚪ **Approche avec LLM : RoBERTa-base**

Après avoir établi les limites d'une approche naïve, nous passons à l'implémentation d'un modèle type transofrmer: RoBERTa. Contrairement à notre baseline, ce modèle n'étudie pas les mots de manière isolée mais capture la sémantique profonde et les relations contextuelles au sein des phrases.

Cette architecture doit nous permettre de résoudre les deux problèmes majeurs identifiés précédemment : la délimitation précise des frontières des arguments et la capacité de généralisation lors du passage du domaine des essais au domaine médical (*Domain Shift*).

## **Hugging Face Token**

Cette cellule nous permet de récupérer le token d'API Hugging Face pour l'authentification.

In [1]:
import os
from dotenv import load_dotenv
from transformers import AutoTokenizer

# Chargement du fichier .env
load_dotenv()

# Récupération du token
access_token = os.getenv("HUGGING_FACE_TOKEN")
model_id = "FacebookAI/roberta-base"

if access_token:
    tokenizer = AutoTokenizer.from_pretrained(model_id, token=access_token)
    print(f" Tokenizer chargé avec succès")
else:
    print("Erreur : HUGGING_FACE_TOKEN introuvable")

config.json:   0%|          | 0.00/481 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

 Tokenizer chargé avec succès


___

## **Définition des labels**

Ici on définit les catégories d'arguments que le modèle doit identifer en utilisant le format BIO (Begin, Inside, Outside).

In [2]:
# O : Hors argument, B- : Début d'un segment, I- : Intérieur d'un segment
label_list = [
    "O",
    "B-MajorClaim", "I-MajorClaim",
    "B-Claim", "I-Claim",
    "B-Premise", "I-Premise"
]

label2id = {label: i for i, label in enumerate(label_list)}
id2label = {i: label for i, label in enumerate(label_list)}

print(f"Labels configurés : {label2id}")

Labels configurés : {'O': 0, 'B-MajorClaim': 1, 'I-MajorClaim': 2, 'B-Claim': 3, 'I-Claim': 4, 'B-Premise': 5, 'I-Premise': 6}


___

## **Chargement et Extraction des séquences**
On a besoin d'extracter les listes de mots (tokens) ainsi que leur étiquettes d'argumentation correspondantes. Donc on charge les fichiers JSON depuis le dossier `data`

In [3]:
import json
from pathlib import Path

data_dir = Path("data")

def load_and_extract(file_name):
    """
    Charge un fichier JSON et extrait les séquences de mots et leurs étiquettes BIO.

    Args:
        file_name (str): Nom du fichier à charger dans le dossier data.

    Returns:
        tuple: (sentences, labels) où chaque élément est une liste de listes.
    """
    path = data_dir / file_name
    with open(path, "r", encoding="utf-8") as f:
        data = json.load(f)

    sentences = []
    labels = []

    for doc in data:
        # Parcours des paragraphes pour extraire BIO tags
        for paragraph in doc["tokens"]:
            if not paragraph:
                continue

            words = [token["str"] for token in paragraph]
            tags = [token["arg"] for token in paragraph]

            sentences.append(words)
            labels.append(tags)

    return sentences, labels

train_texts, train_tags = load_and_extract("aae_train.json")
dev_texts, dev_tags = load_and_extract("aae_dev.json")

# print(f"{len(train_texts)} phrases chargées pour l'entraînement.")
# print(f"Exemple de tokens : {train_texts[0][:5]}")
# print(f"Exemple de tags   : {train_tags[0][:5]}")

__________
## **Préparation et Alignements des Données**

Cette cellule prépare les données pour le modèle en alignant les étiquettes BIO avec les jetons (tokens) générés par RoBERTa. Elle gère notamment le découpage des mots en sous-unités et ignore les jetons spéciaux (CLS, SEP) via l'index `-100`. Les données sont ensuite encapsulées dans un objet `Dataset` PyTorch pour l'entraînement.

In [4]:
import torch

def tokenize_and_align_labels(texts, tags):
    """
    Tokenize les textes et aligne les étiquettes BIO avec les sous-unités de mots (sub-tokens).
    Gère les jetons spéciaux avec l'index -100 pour les ignorer lors du calcul de la perte.
    """
    tokenized_inputs = tokenizer(
        texts,
        truncation=True,
        is_split_into_words=True,
        padding='max_length',
        max_length=512
    )

    labels = []
    for i, label in enumerate(tags):
        word_ids = tokenized_inputs.word_ids(batch_index=i)
        previous_word_idx = None
        label_ids = []

        for word_idx in word_ids:
            # Index -100 pour ignorer les jetons spéciaux (CLS, SEP, Padding)
            if word_idx is None:
                label_ids.append(-100)
            # Assignation du label au premier sub-token du mot ou aux suivants
            elif word_idx != previous_word_idx:
                label_ids.append(label2id.get(label[word_idx], 0))
            else:
                label_ids.append(label2id.get(label[word_idx], 0))
            previous_word_idx = word_idx
        labels.append(label_ids)

    tokenized_inputs["labels"] = labels
    return tokenized_inputs

train_tokenized = tokenize_and_align_labels(train_texts, train_tags)
dev_tokenized = tokenize_and_align_labels(dev_texts, dev_tags)

class ArgumentDataset(torch.utils.data.Dataset):
    """
    Encapsulation des données tokenisées dans un objet Dataset PyTorch.
    Convertit les listes de listes en tenseurs PyTorch au moment de l'accès.
    """
    def __init__(self, encodings):
        self.encodings = encodings

    def __getitem__(self, idx):
        # Conversion dynamique de chaque clé (input_ids, attention_mask, labels)
        item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
        return item

    def __len__(self):
        return len(self.encodings["input_ids"])

train_dataset = ArgumentDataset(train_tokenized)
dev_dataset = ArgumentDataset(dev_tokenized)

___
## **Initialisation du modèle RoBERTA**
Cette étape charge le modèle pré-entraîné RoBERTa et le configure pour notre tâche de classification (Argument Mining). On définit la correspondance entre les étiquettes (ID/Label) et on transfère le modèle sur le **GPU (CUDA)** pour accélérer l'entraînement.

In [5]:
import torch
from transformers import AutoModelForTokenClassification

# On définit RoBERTa-base avec nos labels spécifiques
model = AutoModelForTokenClassification.from_pretrained(
    model_id,
    num_labels=len(label_list),
    id2label=id2label,
    label2id=label2id,
    token=access_token
)

# Détection automatique de la disponibilité du GPU (Cuda)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model.to(device)

print(f"Modèle sur : {device}")

model.safetensors:   0%|          | 0.00/499M [00:00<?, ?B/s]

Loading weights:   0%|          | 0/197 [00:00<?, ?it/s]

RobertaForTokenClassification LOAD REPORT from: FacebookAI/roberta-base
Key                             | Status     | 
--------------------------------+------------+-
lm_head.layer_norm.bias         | UNEXPECTED | 
lm_head.layer_norm.weight       | UNEXPECTED | 
lm_head.bias                    | UNEXPECTED | 
roberta.embeddings.position_ids | UNEXPECTED | 
lm_head.dense.weight            | UNEXPECTED | 
lm_head.dense.bias              | UNEXPECTED | 
classifier.weight               | MISSING    | 
classifier.bias                 | MISSING    | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.
- MISSING	:those params were newly initialized because missing from the checkpoint. Consider training on your downstream task.


Modèle sur : cuda


___
## **Configuration et Entrainement (Essais)**
On définit ici les hyperparamètres (vitesse d'apprentissage, taille des lots, nombre d'époques) et on initialise le `Trainer` de Hugging Face. Cette cellule lance l'entraînement spécifique sur le jeu de données des **Essais** et sauvegarde le meilleur modèle à la fin du processus.

In [6]:
from transformers import TrainingArguments, Trainer

# Configuration (optimisée pour GPU < 12GB)
training_args = TrainingArguments(
    output_dir="./results",
    eval_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    save_total_limit=2,
    fp16=torch.cuda.is_available(),
    logging_steps=50,
)

from transformers import Trainer, DataCollatorForTokenClassification

# padding
data_collator = DataCollatorForTokenClassification(tokenizer)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=dev_dataset,
    processing_class=tokenizer,
    data_collator=data_collator,
)

print("Entrainement en cours...")
trainer.train()
trainer.save_model("./best_arg_model")

Entrainement en cours...


Epoch,Training Loss,Validation Loss
1,0.815834,0.728322
2,0.609588,0.575638
3,0.509267,0.539711


Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

___
## **Evaluation de la généralisation**

Cette étape teste la capacité du modèle, entraîné uniquement sur les **essais**, à prédire des arguments dans le domaine **médical**. En comparant la perte (loss) entre le domaine source et les domaines cibles, on visualise directement **le conflit de domaine** (domain shift) : le modèle peine à généraliser ses connaissances à cause de la spécificité du jargon médical.

In [7]:
import pandas as pd

test_files = {
    "Essays (AAE - Source)": "aae_test.json",
    "Med. Neoplasm (Cible)": "abstrct_neoplasm_test.json",
    "Med. Glaucoma (Cible)": "abstrct_glaucoma_test.json",
    "Med. Mixed (Cible)": "abstrct_mixed_test.json"
}

all_metrics = []

print(f"{'Domaine de test':<25} | {'Perte (Loss)':<15}")
print("-" * 45)

# Boucle d'évaluation
for domain_name, file_path in test_files.items():
    try:

        texts, tags = load_and_extract(file_path)
        encodings = tokenize_and_align_labels(texts, tags)
        dataset = ArgumentDataset(encodings)

        output = trainer.predict(dataset)
        loss = output.metrics.get("test_loss", 0)

        all_metrics.append({
            "Domaine": domain_name,
            "Loss": round(loss, 4),
            "Echantillons": len(texts)
        })

        print(f"{domain_name:<25} | {loss:<15.4f}")

    except Exception as e:
        print(f" Erreur sur {domain_name}: {e}")

df_results = pd.DataFrame(all_metrics)
print("\n--- Tableau Récapitulatif ---")
print(df_results)

Domaine de test           | Perte (Loss)   
---------------------------------------------


Essays (AAE - Source)     | 0.4616         


Med. Neoplasm (Cible)     | 2.5800         


Med. Glaucoma (Cible)     | 1.6675         


Med. Mixed (Cible)        | 2.4639         

--- Tableau Récapitulatif ---
                 Domaine    Loss  Echantillons
0  Essays (AAE - Source)  0.4616           444
1  Med. Neoplasm (Cible)  2.5800            24
2  Med. Glaucoma (Cible)  1.6675           224
3     Med. Mixed (Cible)  2.4639            20


On observe une perte (**Loss**) cinq fois plus élevée sur les données médicales que sur les essais. Ce résultat confirme que le modèle ne parvient pas à généraliser ses connaissances à cause de la spécificité du vocabulaire technique et scientifique. Le transfert de domaine direct est ici un échec, rendant les prédictions médicales peu fiables en l'état.

Les résultats précédents montrent que le modèle entraîné sur les essais ne peut pas être transféré tel quel au domaine médical sans une perte majeure de précision. Pour remédier à cet échec de généralisation, nous divisons la suite du projet en deux étapes : une **Partie 1** dédiée à la consolidation du modèle sur son domaine d'origine (Essais) et une **Partie 2 **consacrée à un ré-entraînement spécifique sur le corpus médical pour s'adapter à sa complexité technique.

___
## **Partie 1 : Apprentissage sur le domain des Essais**
Cette étape est dédiée à l'apprentissage du modèle sur le jeu de données **AAE** (`aae_*.json`), spécialisé dans les structures argumentatives d'essais étudiants. Le processus englobe le chargement des données, l'initialisation de **RoBERTa** et un fine-tuning sur 6 époques. L'objectif est de créer un modèle de référence capable de capturer avec précision les segments de texte (spans) et leurs rôles logiques dans un langage courant.

In [8]:

train_texts, train_tags = load_and_extract("aae_train.json")
dev_texts, dev_tags = load_and_extract("aae_test.json")


train_encodings = tokenize_and_align_labels(train_texts, train_tags)
dev_encodings = tokenize_and_align_labels(dev_texts, dev_tags)

train_dataset = ArgumentDataset(train_encodings)
dev_dataset = ArgumentDataset(dev_encodings)

# Init modèle RoBERTA
model_essay = AutoModelForTokenClassification.from_pretrained(
    model_id,
    num_labels=len(label_list),
    id2label=id2label,
    label2id=label2id,
    token=access_token
).to(device)

# Config Train
training_args_essay = TrainingArguments(
    output_dir="./results_essays",
    eval_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=32,
    num_train_epochs=6,
    weight_decay=0.01,
    fp16=torch.cuda.is_available(),
    logging_steps=50,
)

# Trainer
trainer_essay = Trainer(
    model=model_essay,
    args=training_args_essay,
    train_dataset=train_dataset,
    eval_dataset=dev_dataset,
    processing_class=tokenizer,
    data_collator=DataCollatorForTokenClassification(tokenizer),
)

print("Entraînement en cours...")
trainer_essay.train()
trainer_essay.save_model("./model_essays_final")
print("Modèle sauvegardé.")

Loading weights:   0%|          | 0/197 [00:00<?, ?it/s]

RobertaForTokenClassification LOAD REPORT from: FacebookAI/roberta-base
Key                             | Status     | 
--------------------------------+------------+-
lm_head.layer_norm.bias         | UNEXPECTED | 
lm_head.layer_norm.weight       | UNEXPECTED | 
lm_head.bias                    | UNEXPECTED | 
roberta.embeddings.position_ids | UNEXPECTED | 
lm_head.dense.weight            | UNEXPECTED | 
lm_head.dense.bias              | UNEXPECTED | 
classifier.weight               | MISSING    | 
classifier.bias                 | MISSING    | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.
- MISSING	:those params were newly initialized because missing from the checkpoint. Consider training on your downstream task.


Entraînement en cours...


Epoch,Training Loss,Validation Loss
1,0.944705,0.842656
2,0.671747,0.536583
3,0.565745,0.496585
4,0.474752,0.459277
5,0.398849,0.449381
6,0.349647,0.44101


Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

Modèle sauvegardé.


___
## **Partie 2 : Apprentissage sur le domaine Médical**

Cette étape adapte le modèle aux spécificités du discours scientifique en utilisant les corpus médicaux **Glaucoma** et **Mixed** (`abstrct_*.json`) pour l'entraînement. En combinant ces données techniques, le pipeline permet à **RoBERTa** d'ajuster ses poids au vocabulaire médical complexe. Le jeu de données **Neoplasm** est utilisé comme référence de validation pour mesurer la capacité du modèle à identifier les structures argumentatives au sein de publications spécialisées.

In [9]:
# Combine Glaucoma et Mixed pour le train
texts_glaucoma, tags_glaucoma = load_and_extract("abstrct_glaucoma_test.json")
texts_mixed, tags_mixed = load_and_extract("abstrct_mixed_test.json")

med_train_texts = texts_glaucoma + texts_mixed
med_train_tags = tags_glaucoma + tags_mixed

med_dev_texts, med_dev_tags = load_and_extract("abstrct_neoplasm_test.json")

med_train_encodings = tokenize_and_align_labels(med_train_texts, med_train_tags)
med_dev_encodings = tokenize_and_align_labels(med_dev_texts, med_dev_tags)

med_train_dataset = ArgumentDataset(med_train_encodings)
med_dev_dataset = ArgumentDataset(med_dev_encodings)

# Init nouveau modèle
model_med = AutoModelForTokenClassification.from_pretrained(
    model_id,
    num_labels=len(label_list),
    id2label=id2label,
    label2id=label2id,
    token=access_token
).to(device)

# Config Train
training_args_med = TrainingArguments(
    output_dir="./results_medical",
    eval_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=4,
    num_train_epochs=6,
    weight_decay=0.01,
    fp16=torch.cuda.is_available(),
    logging_steps=10,
)

# Trainer
trainer_med = Trainer(
    model=model_med,
    args=training_args_med,
    train_dataset=med_train_dataset,
    eval_dataset=med_dev_dataset,
    processing_class=tokenizer,
    data_collator=DataCollatorForTokenClassification(tokenizer),
)

print("Entraînement en cours...")
trainer_med.train()
trainer_med.save_model("./model_medical_final")
print("Modèle sauvegardé.")

Loading weights:   0%|          | 0/197 [00:00<?, ?it/s]

RobertaForTokenClassification LOAD REPORT from: FacebookAI/roberta-base
Key                             | Status     | 
--------------------------------+------------+-
lm_head.layer_norm.bias         | UNEXPECTED | 
lm_head.layer_norm.weight       | UNEXPECTED | 
lm_head.bias                    | UNEXPECTED | 
roberta.embeddings.position_ids | UNEXPECTED | 
lm_head.dense.weight            | UNEXPECTED | 
lm_head.dense.bias              | UNEXPECTED | 
classifier.weight               | MISSING    | 
classifier.bias                 | MISSING    | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.
- MISSING	:those params were newly initialized because missing from the checkpoint. Consider training on your downstream task.


Entraînement en cours...


Epoch,Training Loss,Validation Loss
1,0.948964,0.921182
2,0.657019,0.84109
3,0.485766,0.530457
4,0.247074,0.461369
5,0.198646,0.498744
6,0.186602,0.476761


Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

Modèle sauvegardé.


___
## **Exportation des prédictions et formatage final**

Cette cellule génère les fichiers JSON finaux contenant les prédictions des modèles pour les deux domaines. Le processus inclut un nettoyage crucial des données : la suppression des clés spans originales pour forcer le script d'évaluation à utiliser uniquement les nouveaux labels BIO prédits par nos modèles. Ce formatage garantit une évaluation juste et rigoureuse de la capacité du modèle à délimiter les arguments par lui-même.

In [17]:
def final_export(file_name, current_trainer, output_name):
    """

    Génère un fichier JSON de prédictions compatible avec le script d'évaluation.

    Récupère les labels prédits par le modèle et les réinjecte dans la structure originale.

    """
    path = data_dir / file_name
    with open(path, "r", encoding="utf-8") as f:
        data = json.load(f)

    texts = []
    for doc in data:
        for paragraph in doc["tokens"]:
            if paragraph:
                texts.append([t.get("str", t.get("text", "")) for t in paragraph])

    tokenized_inputs = tokenizer(
        texts,
        truncation=True,
        is_split_into_words=True,
        padding='max_length',
        max_length=512
    )

    dataset = ArgumentDataset(tokenized_inputs)
    output = current_trainer.predict(dataset)
    predictions = np.argmax(output.predictions, axis=-1)

    idx = 0
    for doc in data:
        if 'spans' in doc:
            del doc['spans']

        for paragraph in doc["tokens"]:
            if not paragraph:
                continue

            word_ids = tokenized_inputs.word_ids(batch_index=idx)
            current_preds = predictions[idx]

            # Mapping
            word_to_label = {}
            previous_word_idx = None
            for i, word_idx in enumerate(word_ids):
                if word_idx is not None and word_idx != previous_word_idx:
                    word_to_label[word_idx] = id2label[current_preds[i]]
                previous_word_idx = word_idx

            for i, token in enumerate(paragraph):
                token["arg"] = word_to_label.get(i, "O")

            idx += 1

    with open(output_name, "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

    print(f"Exportation réussie dans {output_name}.")


# ESSAIS
final_export("aae_test.json", trainer_essay, "predictions_essays.json")

# MÉDICAL
final_export("abstrct_neoplasm_test.json", trainer_med, "predictions_neoplasm_final.json")
final_export("abstrct_glaucoma_test.json", trainer_med, "predictions_glaucoma_final.json")

Exportation réussie dans predictions_essays.json.


Exportation réussie dans predictions_neoplasm_final.json.


Exportation réussie dans predictions_glaucoma_final.json.


___
## **Evaluation finale et Rapport de Performance**
Cette étape ultime combine deux méthodes de mesure pour valider la qualité de nos modèles. D'une part, le script d'évaluation externe fournit une analyse des segments (spans) selon des critères stricts et assouplis.

D'autre part, la bibliothèque `seqeval` génère un rapport de classification détaillé, calculant la précision, le rappel et le score F1 pour chaque type de label (Claim, Premise). Cette double approche permet de confirmer la précision chirurgicale du modèle sur les essais et son adaptation réussie au domaine médical.

In [16]:
def print_header(title):
    print("\n" + "="*50)
    print(f"{title}")
    print("="*50)

print_header("ÉVALUATION : ESSAIS (AAE)")
!python evaluate.py data/aae_test.json predictions_essays.json

print_header("ÉVALUATION : MÉDECINE (NEOPLASM)")
!python evaluate.py data/abstrct_neoplasm_test.json predictions_neoplasm_final.json



ÉVALUATION : ESSAIS (AAE)


********************** SPANS *************************** 
   STRICT EVALUATION
    > Argument mining spans (unlabeled)
      Precision : 0.03261138827123396 
      Recall    : 0.03318542435109652
      F-score   : 0.03282891571056706
    > Argument mining spans (labeled)
      Precision : 0.028051801732966546 
      Recall    : 0.0284335658017696 
      F-score   : 0.028186773865584824

    RELAXED EVALUATION (α = 0.5)
    > Argument mining spans (unlabeled)
      Precision : 0.4897389143083219 
      Recall    : 0.9389139441539205
      F-score   : 0.6428800395780617
    > Argument mining spans (labeled)
      Precision : 0.4446815049984127 
      Recall    : 0.793745033244689 
      F-score   : 0.5688851653371413



******************* RELATIONS *************************** 
   STRICT EVALUATION
    > Argument mining spans (unlabeled)
      Precision : 1.0 
      Recall    : 1.0
      F-score   : 1.0
    > Argument mining spans (labeled)
      Precision : 

Avec le fichier abstrct.glaucoma.test.json, nous observons que le modèle échoue à identifier les segments argumentatifs sur ce domaine en retournant l'erreur `division by zero`. Plus précisément, aucune étiquette de début de segment `B-` n'est prédite. Cette absence totale de détection empêche le calcul des métriques de performance, car le modèle classifie l'intégralité du texte technique comme "Hors argument" `O`. Cela confirme que les marqueurs linguistiques du glaucome sont invisibles pour un modèle entraîné uniquement sur des essais.

In [None]:
#!pip install seqeval

from seqeval.metrics import classification_report

def evaluate_and_report(current_trainer, current_dataset, name):
    """
    Calcule et affiche un rapport de classification détaillé (Precision, Recall, F1)
    en utilisant la bibliothèque seqeval, adaptée aux séquences BIO.
    """

    output = current_trainer.predict(current_dataset)
    preds = np.argmax(output.predictions, axis=-1)
    labels = output.label_ids

    # Nettoyage des étiquettes
    true_predictions = [
        [id2label[p] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(preds, labels)
    ]
    true_labels = [
        [id2label[l] for (p, l) in zip(prediction, label) if l != -100]
        for prediction, label in zip(preds, labels)
    ]

    print(f"\n--- RAPPORT D'ÉVALUATION DÉTAILLÉ : {name} ---")
    print(classification_report(true_labels, true_predictions))


# ESSAIS
evaluate_and_report(trainer_essay, dev_dataset, "ESSAIS (AAE)")

# MÉDICAL
evaluate_and_report(trainer_med, med_dev_dataset, "MÉDECINE (ABSTRCT)")


 RAPPORT D'ÉVALUATION : ESSAIS (AAE)
              precision    recall  f1-score   support

       Claim       0.28      0.45      0.34       376
  MajorClaim       0.30      0.55      0.39       183
     Premise       0.58      0.68      0.63       922

   micro avg       0.44      0.60      0.51      1481
   macro avg       0.39      0.56      0.45      1481
weighted avg       0.47      0.60      0.52      1481




 RAPPORT D'ÉVALUATION : MÉDECINE (ABSTRCT)
              precision    recall  f1-score   support

       Claim       0.05      0.08      0.06        52
  MajorClaim       0.00      0.00      0.00         6
     Premise       0.30      0.41      0.35       147

   micro avg       0.23      0.32      0.27       205
   macro avg       0.12      0.16      0.14       205
weighted avg       0.23      0.32      0.27       205



  _warn_prf(average, modifier, msg_start, len(result))
