# 02 - Test G√©n√©ration LLM

Notebook pour tester et ajuster les prompts de g√©n√©ration de synth√®ses.

## Objectifs
1. Charger le ground truth (√©l√®ves + synth√®ses prof)
2. Tester le prompt builder
3. G√©n√©rer des synth√®ses et comparer avec ground truth
4. It√©rer sur les prompts

In [1]:
# ruff: noqa: E402
import sys
from pathlib import Path

# Auto-d√©tecter project_root
current = Path.cwd()
while current != current.parent:
    if (current / "pyproject.toml").exists():
        project_root = current
        break
    current = current.parent

sys.path.insert(0, str(project_root))

# Configurer le logging
from src.core.logging_config import setup_batch_logging

logger, batch_id, log_file = setup_batch_logging(batch_id="generation_test")

# Paths
DATA_DIR = project_root / "data"
GROUND_TRUTH_PATH = DATA_DIR / "ground_truth" / "chiron_ground_truth.json"

print(f"Project root: {project_root}")

INFO     | Logs sauvegard√©s dans : c:\Users\Florent\Documents\data_science\chiron\data\processed\logs\batch_generation_test.log
INFO     | üÜî Batch ID : generation_test
Project root: c:\Users\Florent\Documents\data_science\chiron


## 1. Charger les donn√©es

In [2]:
from src.core.data_loader import load_ground_truth

dataset = load_ground_truth(GROUND_TRUTH_PATH)
eleves = dataset.eleves

print(f"Charg√© {len(eleves)} √©l√®ves")
print(f"Classe: {dataset.metadata.classe} - {dataset.metadata.trimestre}")
for e in eleves:
    print(f"  - {e.eleve_id}: {len(e.matieres)} mati√®res")

Charg√© 4 √©l√®ves
Classe: 5√®me - T1
  - ELEVE_A: 12 mati√®res
  - ELEVE_B: 11 mati√®res
  - ELEVE_C: 12 mati√®res
  - ELEVE_D: 11 mati√®res


## 2. Test du Prompt Builder

In [3]:
from src.generation.prompt_builder import PromptBuilder, format_eleve_data

# Visualiser les donn√©es format√©es d'un √©l√®ve
eleve_test = eleves[0]
print("=" * 60)
print("DONN√âES √âL√àVE FORMAT√âES")
print("=" * 60)
print(format_eleve_data(eleve_test))

INFO     | Table llm_metrics cr√©√©e/v√©rifi√©e
INFO     | MetricsCollector initialis√© avec DB: c:\Users\Florent\Documents\data_science\chiron\data\processed\llm_metrics\metrics.duckdb
DONN√âES √âL√àVE FORMAT√âES
√âl√®ve : ELEVE_A
Genre : Fille
Absences : 4 demi-journ√©es (justifi√©es)
Engagements : D√©l√©gu√©e titulaire

R√âSULTATS PAR MATI√àRE :
----------------------------------------
‚Ä¢ Anglais LV1: 15.21/20 (classe: 10.83, +4.38)
  "Bons r√©sultats. ELEVE_A fournit un travail r√©gulier et s√©rieux √† la maison tout comme en classe. L'attitude est toujours positive et constructive. Poursuivez ainsi!"
‚Ä¢ Arts Plastiques: 15.00/20 (classe: 14.92, +0.08)
  "Bon ensemble, bilan satisfaisant, continuez ainsi en restant concentr√©e."
‚Ä¢ EPS: 8.00/20 (classe: 12.79, -4.79)
  "Bilan tr√®s insuffisant, ELEVE_A n'a pas r√©ussi √† s'orienter avec efficacit√©. Elle a beaucoup march√© et s'est dispers√©e avec son groupe. Son travail a manqu√© de s√©rieux et d'implication dans les d√©fis √† 

In [4]:
# Cr√©er un prompt builder avec few-shot (2 exemples)
exemples_fewshot = eleves[:2]  # ELEVE_A et ELEVE_B comme exemples
eleve_cible = eleves[2]  # ELEVE_C √† g√©n√©rer

builder = PromptBuilder(exemples=exemples_fewshot)

# Afficher le prompt complet (tronqu√©)
print("=" * 60)
print("PROMPT COMPLET (pour debug)")
print("=" * 60)
prompt_text = builder.build_prompt_text(eleve_cible, classe_info="5√®me - Trimestre 1")
# Afficher seulement le d√©but du system prompt
lines = prompt_text.split("\n")
print("\n".join(lines[:50]))  # Premi√®res 50 lignes
print(f"\n... ({len(prompt_text)} caract√®res total, {len(lines)} lignes)")

PROMPT COMPLET (pour debug)
[SYSTEM]
Tu es un assistant pour professeur principal de coll√®ge/lyc√©e.
Ta t√¢che est de r√©diger des synth√®ses trimestrielles et d'identifier les points cl√©s pour le conseil de classe.

## √âTAPE 1 : R√âDIGER LA SYNTH√àSE

Consignes pour la synth√®se :
- Adopte le m√™me ton et style que les exemples fournis par le professeur
- Cite les mati√®res concern√©es SANS mentionner les notes chiffr√©es
- Identifie les points forts ET les axes d'am√©lioration
- Sois constructif et bienveillant
- Utilise le vouvoiement ou tutoiement selon les exemples
- Accorde correctement selon le genre de l'√©l√®ve (il/elle, lui/elle)
- Longueur : 2-4 phrases, concises et percutantes
- NE CITE JAMAIS les notes exactes (ex: "12,5/20")

## √âTAPE 2 : IDENTIFIER LES ALERTES

Une alerte signale un point n√©cessitant une attention particuli√®re.
Crit√®res :
- Note < 10/20 dans une mati√®re
- Note tr√®s inf√©rieure √† la moyenne de classe (√©cart > 3 points)
- Comportement probl√©mat

In [5]:
# Afficher la synth√®se ground truth pour comparaison
print("=" * 60)
print(f"SYNTH√àSE GROUND TRUTH ({eleve_cible.eleve_id})")
print("=" * 60)
print(eleve_cible.synthese_ground_truth)

SYNTH√àSE GROUND TRUTH (ELEVE_C)
Bilan globalement positif mais perfectible. ELEVE_C a fourni un travail s√©rieux dans de nombreuses mati√®res. Nous comptons d√©sormais sur lui, pour am√©liorer sa participation en classe et intensifier son travail personnel en SVT et en Anglais afin de r√©aliser une belle ann√©e de 5√®me. Nous l'en savons capable.


## 3. G√©n√©ration avec LLM (JSON structur√©)

Le LLM retourne un JSON structur√© avec :
- `synthese_texte` : Le texte de la synth√®se
- `alertes` : Points d'attention (mati√®re, description, s√©v√©rit√© urgent/attention)
- `reussites` : Points forts (mati√®re, description)
- `posture_generale` : actif / passif / perturbateur / variable
- `axes_travail` : Axes prioritaires d'am√©lioration

‚ö†Ô∏è N√©cessite une cl√© API valide dans `.env`

In [6]:
# V√©rifier que les cl√©s API sont configur√©es
import os

from dotenv import load_dotenv

load_dotenv(project_root / ".env")

has_openai = bool(os.getenv("OPENAI_API_KEY"))
has_anthropic = bool(os.getenv("ANTHROPIC_API_KEY"))

print(f"OpenAI API key: {'‚úì' if has_openai else '‚úó'}")
print(f"Anthropic API key: {'‚úì' if has_anthropic else '‚úó'}")

if not (has_openai or has_anthropic):
    print("\n‚ö†Ô∏è Aucune cl√© API configur√©e. Cr√©ez un fichier .env √† la racine.")

OpenAI API key: ‚úì
Anthropic API key: ‚úó


In [7]:
# G√©n√©rer une synth√®se
from src.generation.generator import SyntheseGenerator

# Choisir le provider selon les cl√©s disponibles
provider = "openai" if has_openai else "anthropic"
model = "gpt-5-mini" if provider == "openai" else "claude-3-5-haiku-latest"

print(f"Utilisation de {provider}/{model}")

generator = SyntheseGenerator(provider=provider, model=model)
generator.set_exemples(exemples_fewshot)

Utilisation de openai/gpt-5-mini
INFO     | SimpleRateLimiter initialis√©: 500 RPM (verbose=True)
INFO     | ‚ú® Rate limiter PARTAG√â cr√©√© pour openai: 500 RPM (singleton)
INFO     | SimpleRateLimiter initialis√©: 50 RPM (verbose=True)
INFO     | ‚ú® Rate limiter PARTAG√â cr√©√© pour anthropic: 50 RPM (singleton)
INFO     | SimpleRateLimiter initialis√©: 100 RPM (verbose=True)
INFO     | ‚ú® Rate limiter PARTAG√â cr√©√© pour mistral: 100 RPM (singleton)
INFO     | LLMManager initialis√© avec rate limiters partag√©s
INFO     | Few-shot configur√© avec 2 exemple(s)


In [8]:
# G√©n√©rer pour ELEVE_C
logger.info(f"G√©n√©ration synth√®se pour {eleve_cible.eleve_id}")

synthese = generator.generate(
    eleve_cible,
    classe_info="5√®me - Trimestre 1",
)

print("=" * 60)
print("SYNTH√àSE G√âN√âR√âE")
print("=" * 60)
print(f"\nüìù Texte:\n{synthese.synthese_texte}")
print(f"\nüö® Alertes ({len(synthese.alertes)}):")
for a in synthese.alertes:
    print(f"  - [{a.severite.upper()}] {a.matiere}: {a.description}")
print(f"\n‚úÖ R√©ussites ({len(synthese.reussites)}):")
for r in synthese.reussites:
    print(f"  - {r.matiere}: {r.description}")
print(f"\nüé≠ Posture g√©n√©rale: {synthese.posture_generale}")
print(f"\nüéØ Axes de travail: {', '.join(synthese.axes_travail)}")

INFO     | G√©n√©ration synth√®se pour ELEVE_C
INFO     | G√©n√©ration synth√®se pour ELEVE_C via openai/gpt-5-mini
INFO     | OpenAIClient initialis√© avec mod√®le: gpt-5-mini
INFO     | HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"
INFO     | OpenAI call r√©ussi: gpt-5-mini - 4717 tokens - 29599ms - Content length: 1888 chars
INFO     | Synth√®se g√©n√©r√©e: 491 chars, 2 alertes, 6 r√©ussites, posture=passif, 4717 tokens
SYNTH√àSE G√âN√âR√âE

üìù Texte:
ELEVE_C montre de belles r√©ussites en math√©matiques, physique-chimie, technologie, arts plastiques et EPS, qui t√©moignent de solides acquis et d'un investissement s√©rieux. En revanche, sa passivit√© en classe p√©nalise ses progr√®s notamment en anglais et en SVT ; un engagement oral et un travail personnel plus soutenu sont n√©cessaires. Je l'encourage √† conserver son s√©rieux dans ses bonnes mati√®res tout en √©tant plus pr√©sent et concentr√© dans les cours moins ma√Ætris√©s ; je compte sur lu

In [9]:
# Comparaison c√¥te √† c√¥te
print("=" * 60)
print("COMPARAISON SYNTH√àSE")
print("=" * 60)
print(f"\nüìù GROUND TRUTH ({eleve_cible.eleve_id}):")
print(eleve_cible.synthese_ground_truth)
print("\nü§ñ G√âN√âR√âE:")
print(synthese.synthese_texte)

COMPARAISON SYNTH√àSE

üìù GROUND TRUTH (ELEVE_C):
Bilan globalement positif mais perfectible. ELEVE_C a fourni un travail s√©rieux dans de nombreuses mati√®res. Nous comptons d√©sormais sur lui, pour am√©liorer sa participation en classe et intensifier son travail personnel en SVT et en Anglais afin de r√©aliser une belle ann√©e de 5√®me. Nous l'en savons capable.

ü§ñ G√âN√âR√âE:
ELEVE_C montre de belles r√©ussites en math√©matiques, physique-chimie, technologie, arts plastiques et EPS, qui t√©moignent de solides acquis et d'un investissement s√©rieux. En revanche, sa passivit√© en classe p√©nalise ses progr√®s notamment en anglais et en SVT ; un engagement oral et un travail personnel plus soutenu sont n√©cessaires. Je l'encourage √† conserver son s√©rieux dans ses bonnes mati√®res tout en √©tant plus pr√©sent et concentr√© dans les cours moins ma√Ætris√©s ; je compte sur lui.


## 4. Test batch (tous les √©l√®ves)

In [None]:
# G√©n√©rer pour tous les √©l√®ves (leave-one-out: chaque √©l√®ve est g√©n√©r√© sans lui-m√™me en exemple)
resultats = []

for i, eleve in enumerate(eleves):
    # Exemples = tous sauf l'√©l√®ve courant
    exemples = [e for j, e in enumerate(eleves) if j != i]
    generator.set_exemples(exemples)

    synthese = generator.generate(eleve, classe_info="5√®me - Trimestre 1")

    resultats.append(
        {
            "eleve_id": eleve.eleve_id,
            "ground_truth": eleve.synthese_ground_truth,
            "synthese": synthese,  # Objet SyntheseGeneree complet
        }
    )

    print(f"‚úì {eleve.eleve_id} g√©n√©r√©")

In [None]:
# Afficher tous les r√©sultats avec insights
for r in resultats:
    s = r["synthese"]
    print("=" * 60)
    print(f"√âL√àVE: {r['eleve_id']}")
    print("=" * 60)
    print(f"\nüìù GROUND TRUTH:\n{r['ground_truth']}")
    print(f"\nü§ñ G√âN√âR√âE:\n{s.synthese_texte}")
    print(f"\nüö® Alertes: {[f'{a.matiere} ({a.severite})' for a in s.alertes]}")
    print(f"‚úÖ R√©ussites: {[r.matiere for r in s.reussites]}")
    print(f"üé≠ Posture: {s.posture_generale}")
    print(f"üéØ Axes: {s.axes_travail}")
    print()

## 5. M√©triques

In [None]:
# Statistiques basiques
print("Longueur des synth√®ses:")
for r in resultats:
    gt_len = len(r["ground_truth"])
    gen_len = len(r["synthese"].synthese_texte)
    print(
        f"  {r['eleve_id']}: GT={gt_len} chars, Gen={gen_len} chars, Ratio={gen_len / gt_len:.2f}"
    )

print("\nDistribution des postures:")
from collections import Counter

postures = Counter(r["synthese"].posture_generale for r in resultats)
for posture, count in postures.items():
    print(f"  {posture}: {count}")

print("\nNombre moyen d'alertes/r√©ussites:")
avg_alertes = sum(len(r["synthese"].alertes) for r in resultats) / len(resultats)
avg_reussites = sum(len(r["synthese"].reussites) for r in resultats) / len(resultats)
print(f"  Alertes: {avg_alertes:.1f}")
print(f"  R√©ussites: {avg_reussites:.1f}")