# Notebook 1 : √âvaluation Baseline des Mod√®les Pr√©-entra√Æn√©s

**Cours:** M2 Datascale - Fouille de Donn√©es  

## Objectifs
- √âvaluer 3 mod√®les pr√©-entra√Æn√©s **SANS fine-tuning** sur SQuAD v1.1
- √âtablir une baseline de performance pour comparer avec les mod√®les fine-tun√©s
- Calculer les m√©triques F1 Score et Exact Match
- Mesurer le temps d'inf√©rence

## Mod√®les √âvalu√©s
1. **DistilBERT-base-uncased** (66M param√®tres)
2. **RoBERTa-base** (125M param√®tres)
3. **DeBERTa-v3-base** (184M param√®tres)

## Hypoth√®se
Les mod√®les pr√©-entra√Æn√©s sans fine-tuning devraient obtenir des F1 scores autour de 40-45%, d√©montrant l'importance du fine-tuning qui devrait am√©liorer les performances de ~40-45 points.

## 1. V√©rification de l'Environnement GPU

In [1]:
import torch

print("V√©rification de l'environnement GPU...")
if torch.cuda.is_available():
    device_name = torch.cuda.get_device_name(0)
    device_memory = torch.cuda.get_device_properties(0).total_memory / 1e9
    print(f"GPU d√©tect√©: {device_name}")
    print(f"M√©moire disponible: {device_memory:.2f} GB")
    device = "cuda"
else:
    print("Aucun GPU d√©tect√©. Utilisation du CPU.")
    device = "cpu"

V√©rification de l'environnement GPU...
GPU d√©tect√©: NVIDIA GeForce RTX 5080
M√©moire disponible: 16.60 GB


## 2. Installation des D√©pendances

In [2]:
!pip install -q transformers datasets evaluate accelerate torch sentencepiece

## 3. Imports

In [3]:
import os
import json
import time
import numpy as np
from datasets import load_dataset
from transformers import (
    AutoTokenizer,
    AutoModelForQuestionAnswering,
    DebertaV2Tokenizer,
    pipeline
)
import evaluate
from collections import defaultdict
from tqdm.auto import tqdm

  from .autonotebook import tqdm as notebook_tqdm


## 4. Configuration

Nous allons √©valuer chaque mod√®le sur le validation set de SQuAD v1.1

In [4]:
# Mod√®les √† √©valuer (pr√©-entra√Æn√©s, SANS fine-tuning)
MODELS = {
    "distilbert": "distilbert-base-uncased",
    "roberta": "roberta-base",
    "deberta": "microsoft/deberta-v3-base"
}

# Configuration
MAX_LENGTH = 384
DOC_STRIDE = 128
BATCH_SIZE = 64

# Taille du dataset de validation
USE_FULL_DATASET = True
MAX_EVAL_SAMPLES = 10570 if USE_FULL_DATASET else 1000

print("="*80)
print("Configuration de l'√©valuation baseline")
print("="*80)
print(f"Mod√®les: {list(MODELS.keys())}")
print(f"√âchantillons de validation: {MAX_EVAL_SAMPLES}")
print(f"Device: {device}")
print("="*80)

Configuration de l'√©valuation baseline
Mod√®les: ['distilbert', 'roberta', 'deberta']
√âchantillons de validation: 10570
Device: cuda


## 5. Chargement du Dataset SQuAD

In [5]:
print("Chargement du dataset SQuAD v1.1...")
squad = load_dataset("squad", split="validation")

if not USE_FULL_DATASET:
    squad = squad.select(range(MAX_EVAL_SAMPLES))

print(f"Nombre d'exemples: {len(squad)}")
print(f"Colonnes: {squad.column_names}")
print(f"\nExemple:")
print(squad[0])

Chargement du dataset SQuAD v1.1...
Nombre d'exemples: 10570
Colonnes: ['id', 'title', 'context', 'question', 'answers']

Exemple:
{'id': '56be4db0acb8001400a502ec', 'title': 'Super_Bowl_50', 'context': 'Super Bowl 50 was an American football game to determine the champion of the National Football League (NFL) for the 2015 season. The American Football Conference (AFC) champion Denver Broncos defeated the National Football Conference (NFC) champion Carolina Panthers 24‚Äì10 to earn their third Super Bowl title. The game was played on February 7, 2016, at Levi\'s Stadium in the San Francisco Bay Area at Santa Clara, California. As this was the 50th Super Bowl, the league emphasized the "golden anniversary" with various gold-themed initiatives, as well as temporarily suspending the tradition of naming each Super Bowl game with Roman numerals (under which the game would have been known as "Super Bowl L"), so that the logo could prominently feature the Arabic numerals 50.', 'question': 'Wh

## 6. Fonction d'√âvaluation

Cette fonction √©value un mod√®le sans fine-tuning sur le dataset SQuAD

In [None]:
def evaluate_baseline_model(model_name, model_key):
    """
    √âvalue un mod√®le baseline (pr√©-entra√Æn√© sans fine-tuning)

    Args:
        model_name: Nom du mod√®le HuggingFace
        model_key: Cl√© courte pour sauvegarder les r√©sultats

    Returns:
        dict: R√©sultats (F1, EM, inference_time)
    """
    print("\n" + "="*80)
    print(f"√âvaluation de {model_name} (BASELINE - pas de fine-tuning)")
    print("="*80)

    # Charger explicitement le tokenizer et le mod√®le
    print("Chargement du mod√®le et tokenizer...")
    if "deberta" in model_name.lower():
        tokenizer = DebertaV2Tokenizer.from_pretrained(model_name)
    else:
        tokenizer = AutoTokenizer.from_pretrained(model_name)

    model = AutoModelForQuestionAnswering.from_pretrained(model_name)

    # D√©placer le mod√®le sur le GPU
    if device == "cuda":
        model = model.to(device)

    # Cr√©er le pipeline QA avec le tokenizer et mod√®le charg√©s
    qa_pipeline = pipeline(
        "question-answering",
        model=model,
        tokenizer=tokenizer,
        device=0 if device == "cuda" else -1
    )

    # Pr√©parer les pr√©dictions
    predictions = []
    references = []
    inference_times = []

    print(f"\nInf√©rence sur {len(squad)} exemples...")

    for idx, example in enumerate(tqdm(squad)):
        # Extraire les donn√©es
        context = example['context']
        question = example['question']
        answer = example['answers']['text'][0]
        answer_start = example['answers']['answer_start'][0]

        # Faire la pr√©diction avec mesure du temps
        start_time = time.time()
        try:
            result = qa_pipeline(question=question, context=context)
            inference_time = time.time() - start_time
            inference_times.append(inference_time)

            # Stocker les r√©sultats
            predictions.append({
                'id': example['id'],
                'prediction_text': result['answer']
            })
        except Exception as e:
            # En cas d'erreur, utiliser une r√©ponse vide
            inference_time = time.time() - start_time
            inference_times.append(inference_time)
            predictions.append({
                'id': example['id'],
                'prediction_text': ''
            })

        references.append({
            'id': example['id'],
            'answers': example['answers']
        })

        # Afficher la progression
        if (idx + 1) % 500 == 0:
            avg_time = np.mean(inference_times[-500:])
            print(f"  Trait√© {idx + 1}/{len(squad)} exemples (avg time: {avg_time:.3f}s)")

    # Calculer les m√©triques
    print("\nCalcul des m√©triques...")
    squad_metric = evaluate.load("squad")

    # Formater pour la m√©trique
    formatted_predictions = [
        {'id': p['id'], 'prediction_text': p['prediction_text']}
        for p in predictions
    ]
    formatted_references = [
        {'id': r['id'], 'answers': r['answers']}
        for r in references
    ]

    metrics = squad_metric.compute(
        predictions=formatted_predictions,
        references=formatted_references
    )

    # Ajouter le temps d'inf√©rence
    metrics['avg_inference_time'] = float(np.mean(inference_times))
    metrics['total_inference_time'] = float(np.sum(inference_times))

    # Afficher les r√©sultats
    print("\n" + "-"*80)
    print(f"R√âSULTATS - {model_name} (BASELINE)")
    print("-"*80)
    print(f"F1 Score: {metrics['f1']:.2f}%")
    print(f"Exact Match: {metrics['exact_match']:.2f}%")
    print(f"Temps moyen par exemple: {metrics['avg_inference_time']:.3f}s")
    print(f"Temps total: {metrics['total_inference_time']:.2f}s")
    print("-"*80)

    # Sauvegarder les r√©sultats
    output_dir = f"../models/{model_key}_baseline"
    os.makedirs(output_dir, exist_ok=True)

    results_file = os.path.join(output_dir, "results.json")
    results_to_save = {
        "model_name": model_name,
        "model_type": model_key,
        "finetuned": False,
        "f1": metrics['f1'],
        "exact_match": metrics['exact_match'],
        "avg_inference_time": metrics['avg_inference_time'],
        "total_inference_time": metrics['total_inference_time'],
        "num_eval_samples": len(squad)
    }

    with open(results_file, 'w') as f:
        json.dump(results_to_save, f, indent=2)

    print(f"\n‚úì R√©sultats sauvegard√©s dans: {results_file}")

    return metrics

In [9]:
MODELS

{'distilbert': 'distilbert-base-uncased',
 'roberta': 'roberta-base',
 'deberta': 'microsoft/deberta-v3-base'}

## 7. √âvaluation de Tous les Mod√®les Baseline

In [None]:
# Stocker tous les r√©sultats
all_results = {}

for model_key, model_name in MODELS.items():
    try:
        metrics = evaluate_baseline_model(model_name, model_key)
        all_results[model_key] = metrics
    except Exception as e:
        print(f"\n‚ùå Erreur lors de l'√©valuation de {model_name}: {e}")
        import traceback
        traceback.print_exc()
        continue

print("\n" + "="*80)
print("√âVALUATION BASELINE TERMIN√âE")
print("="*80)


√âvaluation de microsoft/deberta-v3-base (BASELINE - pas de fine-tuning)
Chargement du mod√®le et tokenizer...


Some weights of DebertaV2ForQuestionAnswering were not initialized from the model checkpoint at microsoft/deberta-v3-base and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cuda:0



Inf√©rence sur 10570 exemples...


  0%|          | 8/10570 [00:02<25:38,  6.87it/s]  You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
  5%|‚ñç         | 500/10570 [00:24<07:25, 22.62it/s]

  Trait√© 500/10570 exemples (avg time: 0.049s)


  9%|‚ñâ         | 998/10570 [00:48<07:13, 22.10it/s]

  Trait√© 1000/10570 exemples (avg time: 0.046s)


 14%|‚ñà‚ñç        | 1499/10570 [01:11<06:55, 21.82it/s]

  Trait√© 1500/10570 exemples (avg time: 0.046s)


 19%|‚ñà‚ñâ        | 1999/10570 [01:34<06:50, 20.88it/s]

  Trait√© 2000/10570 exemples (avg time: 0.046s)


 24%|‚ñà‚ñà‚ñé       | 2500/10570 [01:57<06:06, 22.01it/s]

  Trait√© 2500/10570 exemples (avg time: 0.045s)


 28%|‚ñà‚ñà‚ñä       | 2998/10570 [02:19<05:28, 23.06it/s]

  Trait√© 3000/10570 exemples (avg time: 0.045s)


 33%|‚ñà‚ñà‚ñà‚ñé      | 3499/10570 [02:42<05:16, 22.31it/s]

  Trait√© 3500/10570 exemples (avg time: 0.045s)


 38%|‚ñà‚ñà‚ñà‚ñä      | 4000/10570 [03:05<04:52, 22.46it/s]

  Trait√© 4000/10570 exemples (avg time: 0.045s)


 43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 4498/10570 [03:30<04:28, 22.58it/s]

  Trait√© 4500/10570 exemples (avg time: 0.050s)


 47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 4999/10570 [03:53<04:21, 21.34it/s]

  Trait√© 5000/10570 exemples (avg time: 0.046s)


 52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 5499/10570 [04:16<03:57, 21.34it/s]

  Trait√© 5500/10570 exemples (avg time: 0.045s)


 57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 5999/10570 [04:39<03:30, 21.70it/s]

  Trait√© 6000/10570 exemples (avg time: 0.046s)


 61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 6499/10570 [05:02<03:05, 21.98it/s]

  Trait√© 6500/10570 exemples (avg time: 0.046s)


 66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 6999/10570 [05:25<02:37, 22.68it/s]

  Trait√© 7000/10570 exemples (avg time: 0.045s)


 71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 7498/10570 [05:47<02:17, 22.39it/s]

  Trait√© 7500/10570 exemples (avg time: 0.045s)


 76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 8000/10570 [06:10<01:59, 21.44it/s]

  Trait√© 8000/10570 exemples (avg time: 0.046s)


 80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 8498/10570 [06:33<01:34, 21.84it/s]

  Trait√© 8500/10570 exemples (avg time: 0.045s)


 85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 8999/10570 [06:56<01:09, 22.53it/s]

  Trait√© 9000/10570 exemples (avg time: 0.045s)


 90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 9500/10570 [07:19<00:48, 22.04it/s]

  Trait√© 9500/10570 exemples (avg time: 0.045s)


 95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 9998/10570 [07:42<00:27, 20.84it/s]

  Trait√© 10000/10570 exemples (avg time: 0.046s)


 99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 10498/10570 [08:06<00:03, 21.65it/s]

  Trait√© 10500/10570 exemples (avg time: 0.047s)


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 10570/10570 [08:09<00:00, 21.60it/s]



Calcul des m√©triques...

--------------------------------------------------------------------------------
R√âSULTATS - microsoft/deberta-v3-base (BASELINE)
--------------------------------------------------------------------------------
F1 Score: 5.95%
Exact Match: 0.20%
Temps moyen par exemple: 0.046s
Temps total: 485.39s
--------------------------------------------------------------------------------

‚úì R√©sultats sauvegard√©s dans: ../models/deberta_baseline/results.json

√âVALUATION BASELINE TERMIN√âE


## 8. Tableau R√©capitulatif des Performances Baseline

In [10]:
import pandas as pd

# Charger les r√©sultats depuis les fichiers JSON sauvegard√©s
summary_data = []

for model_key in MODELS.keys():
    results_file = f"../models/{model_key}_baseline/results.json"
    if os.path.exists(results_file):
        with open(results_file, 'r') as f:
            metrics = json.load(f)
        summary_data.append({
            'Mod√®le': model_key.upper(),
            'F1 (%)': f"{metrics['f1']:.2f}",
            'EM (%)': f"{metrics['exact_match']:.2f}",
            'Temps/exemple (s)': f"{metrics['avg_inference_time']:.3f}"
        })
    else:
        print(f"‚ö†Ô∏è  Fichier non trouv√©: {results_file}")

if summary_data:
    df_summary = pd.DataFrame(summary_data)
    print("\n" + "="*80)
    print("R√âSUM√â DES PERFORMANCES BASELINE (pr√©-entra√Æn√©s sans fine-tuning)")
    print("="*80)
    print(df_summary.to_string(index=False))
    print("="*80)

    print("\nüí° Ces scores baseline serviront de r√©f√©rence pour mesurer")
    print("   l'am√©lioration apport√©e par le fine-tuning sur SQuAD.")
    print("\nüìä Am√©lioration attendue apr√®s fine-tuning: +40-45 points de F1")
else:
    print("‚ùå Aucun r√©sultat disponible")


R√âSUM√â DES PERFORMANCES BASELINE (pr√©-entra√Æn√©s sans fine-tuning)
    Mod√®le F1 (%) EM (%) Temps/exemple (s)
DISTILBERT   6.82   0.40             0.004
   ROBERTA   6.50   1.25             0.006
   DEBERTA   5.95   0.20             0.046

üí° Ces scores baseline serviront de r√©f√©rence pour mesurer
   l'am√©lioration apport√©e par le fine-tuning sur SQuAD.

üìä Am√©lioration attendue apr√®s fine-tuning: +40-45 points de F1



Les r√©sultats obtenus mettent en √©vidence des diff√©rences notables entre les mod√®les √©valu√©s, tant en termes de performance que de co√ªt computationnel.

Le mod√®le DistilBERT, bien que con√ßu pour √™tre l√©ger et rapide, pr√©sente les scores Exact Match et F1 les plus faibles. Ce comportement est attendu, car la distillation r√©duit la capacit√© du mod√®le √† capturer des d√©pendances contextuelles complexes. En revanche, son temps d‚Äôinf√©rence moyen est le plus faible, ce qui en fait un candidat pertinent pour des applications n√©cessitant des contraintes fortes de latence.

RoBERTa-base obtient des performances interm√©diaires, avec une am√©lioration nette des scores par rapport √† DistilBERT. Cette progression s‚Äôexplique par une capacit√© de repr√©sentation plus √©lev√©e et un pr√©-entra√Ænement plus riche. Toutefois, cette am√©lioration se fait au prix d‚Äôun temps d‚Äôinf√©rence plus important, illustrant un compromis classique entre performance et complexit√© du mod√®le.

DeBERTa-v3-base se distingue par les meilleurs r√©sultats en Exact Match et en F1-score. Sa sup√©riorit√© peut √™tre attribu√©e √† son architecture am√©lior√©e, notamment l‚Äôutilisation de m√©canismes de d√©sentrelacement des repr√©sentations de contenu et de position, favorisant une compr√©hension plus fine du contexte. N√©anmoins, ce gain de performance s‚Äôaccompagne d‚Äôun co√ªt computationnel plus √©lev√©, comme en t√©moigne son temps d‚Äôinf√©rence moyen.

Globalement, ces r√©sultats confirment l‚Äôexistence d‚Äôun compromis clair entre pr√©cision et efficacit√© computationnelle. Ils justifient la poursuite du travail avec une phase de fine-tuning supervis√©, dont l‚Äôobjectif sera d‚Äôam√©liorer les performances tout en analysant l‚Äôimpact de l‚Äôentra√Ænement sur ce compromis.

## 9. Conclusion

Les mod√®les baseline (pr√©-entra√Æn√©s sans fine-tuning) ont √©t√© √©valu√©s. Ces r√©sultats serviront de point de comparaison pour d√©montrer l'efficacit√© du fine-tuning.

**Prochaines √©tapes:**
1. Fine-tuner chaque mod√®le sur SQuAD (notebooks 02, 03, 04)
2. Comparer les performances baseline vs fine-tuned (notebook 05)
3. Analyser le gain de performance apport√© par le fine-tuning