# Question Answering – Comparaison finale des 3 modèles

Ce notebook agrège les résultats d'évaluation des trois modèles
et crée un tableau comparatif sur toutes les métriques.

## Objectifs

- Charger automatiquement les résultats des 3 modèles
- Créer un tableau comparatif
- Visualiser les performances

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import json
import os

## Chargement automatique des résultats

Les résultats sont chargés depuis les fichiers JSON sauvegardés
par chaque notebook d'évaluation.

In [None]:
# Chemins des fichiers de résultats
results_files = {
    "DistilBERT": "outputs/results_distilbert.json",
    "BERT-base": "outputs/results_bert.json",
    "RoBERTa-base": "outputs/results_roberta.json"
}

# Charger les résultats
results_list = []
for model_name, filepath in results_files.items():
    if os.path.exists(filepath):
        with open(filepath, "r") as f:
            results = json.load(f)
            results_list.append(results)
        print(f"✓ {model_name} chargé")
    else:
        print(f"✗ {model_name} non trouvé (exécute 03_evaluation_{model_name.lower().replace('-', '')}.ipynb)")

## Tableau comparatif final

In [None]:
# Créer un DataFrame avec tous les résultats
comparison_df = pd.DataFrame(results_list)

# Arrondir à 4 décimales pour plus de lisibilité
comparison_df = comparison_df.round(4)

comparison_df

## Sauvegarde du tableau comparatif

In [None]:
# Exporter en CSV et JSON
comparison_df.to_csv("outputs/comparison_results.csv", index=False)
comparison_df.to_json("outputs/comparison_results.json", indent=2, orient="records")

print("✓ Tableau sauvegardé en CSV et JSON")

## Visualisation – Comparaison de l'EM et F1-score

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# EM
axes[0].bar(comparison_df["model"], comparison_df["EM"], color=["#1f77b4", "#ff7f0e", "#2ca02c"])
axes[0].set_title("Exact Match (EM)")
axes[0].set_ylabel("EM")
axes[0].set_ylim([0, 1])
for i, v in enumerate(comparison_df["EM"]):
    axes[0].text(i, v + 0.02, f"{v:.4f}", ha="center")

# F1
axes[1].bar(comparison_df["model"], comparison_df["F1"], color=["#1f77b4", "#ff7f0e", "#2ca02c"])
axes[1].set_title("F1-score")
axes[1].set_ylabel("F1")
axes[1].set_ylim([0, 1])
for i, v in enumerate(comparison_df["F1"]):
    axes[1].text(i, v + 0.02, f"{v:.4f}", ha="center")

plt.tight_layout()
plt.show()

## Visualisation – Comparaison AUC et Temps d'inférence

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# AUC
axes[0].bar(comparison_df["model"], comparison_df["AUC"], color=["#1f77b4", "#ff7f0e", "#2ca02c"])
axes[0].set_title("AUC")
axes[0].set_ylabel("AUC")
axes[0].set_ylim([0, 1])
for i, v in enumerate(comparison_df["AUC"]):
    axes[0].text(i, v + 0.02, f"{v:.4f}", ha="center")

# Temps d'inférence
axes[1].bar(comparison_df["model"], comparison_df["Inference_time_ms"], color=["#1f77b4", "#ff7f0e", "#2ca02c"])
axes[1].set_title("Temps d'inférence")
axes[1].set_ylabel("ms")
for i, v in enumerate(comparison_df["Inference_time_ms"]):
    axes[1].text(i, v + 0.5, f"{v:.2f}", ha="center")

plt.tight_layout()
plt.show()

## Conclusion

Le tableau comparatif montre un compromis clair entre qualité des réponses
et coût de calcul.

**DistilBERT** : Plus rapide, performances correctes

**BERT-base** : Bon compromis qualité / coût

**RoBERTa-base** : Meilleures performances, temps d'inférence plus élevé