### Configuration et pr√©paration des donn√©es

In [None]:
import dspy
import warnings
warnings.filterwarnings('ignore')

# Configurer le mod√®le de langage
lm = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=0.3
)

# Configurer DSPy globalement
dspy.configure(lm=lm)

In [None]:
# Donn√©es d'entra√Ænement
trainset = [
    {"ticket": "Mon ordinateur ne d√©marre plus depuis ce matin. J'ai une pr√©sentation importante dans 2 heures.", "category": "Hardware", "priority": "Urgent"},
    {"ticket": "Je n'arrive pas √† me connecter √† l'imprimante du 3e √©tage. √áa peut attendre.", "category": "Peripherals", "priority": "Low"},
    {"ticket": "Le VPN ne fonctionne plus. Impossible d'acc√©der aux fichiers du serveur.", "category": "Network", "priority": "High"},
    {"ticket": "J'ai oubli√© mon mot de passe Outlook. Je peux utiliser le webmail.", "category": "Account", "priority": "Medium"},
    {"ticket": "Le site web affiche une erreur 500. Les clients ne peuvent plus commander!", "category": "Application", "priority": "Critical"},
    {"ticket": "Ma souris sans fil ne r√©pond plus bien. Les piles sont faibles.", "category": "Peripherals", "priority": "Low"},
    {"ticket": "Le syst√®me de paie ne calcule pas les heures suppl√©mentaires. C'est la fin du mois.", "category": "Application", "priority": "Urgent"},
    {"ticket": "J'aimerais une mise √† jour de mon logiciel Adobe quand vous aurez le temps.", "category": "Software", "priority": "Low"},
    {"ticket": "Le serveur de base de donn√©es est tr√®s lent. Toute la production est impact√©e.", "category": "Infrastructure", "priority": "Critical"},
    {"ticket": "Je ne re√ßois plus les emails. J'attends des r√©ponses de fournisseurs.", "category": "Email", "priority": "High"},
    {"ticket": "Mon √©cran externe ne s'affiche plus. Je peux travailler sur le laptop.", "category": "Hardware", "priority": "Medium"},
    {"ticket": "Le wifi de la salle A ne fonctionne pas. R√©union avec des externes dans 30 min.", "category": "Network", "priority": "Urgent"},
    {"ticket": "Je voudrais installer Slack pour mieux collaborer avec l'√©quipe.", "category": "Software", "priority": "Medium"},
    {"ticket": "Le syst√®me de sauvegarde a √©chou√© cette nuit selon le rapport.", "category": "Infrastructure", "priority": "High"},
    {"ticket": "Mon clavier a une touche qui colle. C'est g√©rable mais ennuyeux.", "category": "Peripherals", "priority": "Low"}
]

# Donn√©es de validation
valset = [
    {"ticket": "Le serveur de fichiers est inaccessible. Personne ne peut travailler.", "category": "Infrastructure", "priority": "Critical"},
    {"ticket": "J'ai besoin d'acc√®s au dossier comptabilit√© pour l'audit. C'est urgent.", "category": "Account", "priority": "Urgent"},
    {"ticket": "L'√©cran de mon coll√®gue en vacances clignote. On peut attendre.", "category": "Hardware", "priority": "Low"},
    {"ticket": "Le CRM plante quand j'essaie d'exporter les contacts.", "category": "Application", "priority": "High"},
    {"ticket": "Je voudrais changer ma photo de profil quand vous aurez un moment.", "category": "Account", "priority": "Low"},
    {"ticket": "La vid√©oconf√©rence ne fonctionne pas. R√©union avec New York dans 10 minutes!", "category": "Application", "priority": "Critical"},
    {"ticket": "Mon antivirus affiche un message d'expiration mais tout fonctionne.", "category": "Software", "priority": "Medium"}
]

# Cat√©gories et priorit√©s possibles
CATEGORIES = ["Hardware", "Software", "Network", "Application", "Infrastructure", "Account", "Email", "Peripherals"]
PRIORITIES = ["Low", "Medium", "High", "Urgent", "Critical"]

print(f"üìä Donn√©es charg√©es : {len(trainset)} entra√Ænement, {len(valset)} validation")
print(f"üì¶ {len(CATEGORIES)} cat√©gories, {len(PRIORITIES)} priorit√©s")

# Partie 4 : L'√©valuation

## Pourquoi √©valuer ?

Jusqu'√† pr√©sent, nous avons cr√©√© des modules et observ√© leurs sorties qualitativement. Mais pour :
- **Comparer** diff√©rents modules
- **Mesurer** les am√©liorations
- **Optimiser** automatiquement (avec GEPA)

...nous avons besoin de **mesures quantitatives** : les **m√©triques**.

## Qu'est-ce qu'une m√©trique ?

Une **m√©trique** est une fonction qui prend :
- Un **exemple** avec la vraie r√©ponse (ground truth)
- Une **pr√©diction** du mod√®le
- Et retourne un **score** (g√©n√©ralement entre 0 et 1)

### Format d'une m√©trique

```python
def ma_metrique(example, prediction, trace=None, pred_name=None, pred_trace=None):
    # Comparer example et prediction
    # Retourner un score entre 0 et 1
    return score
```

**Note** : Les param√®tres `trace`, `pred_name` et `pred_trace` sont optionnels et utilis√©s par certains optimiseurs.

## M√©trique 1 : exact match (correspondance exacte)

La m√©trique la plus stricte : tout doit √™tre parfait.

In [55]:
def exact_match_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    """
    M√©trique stricte : 1 si cat√©gorie ET priorit√© correctes, 0 sinon
    """
    # Normaliser les cha√Ænes (minuscules, sans espaces)
    pred_category = prediction.category.strip().lower()
    true_category = example['category'].strip().lower()
    
    pred_priority = prediction.priority.strip().lower()
    true_priority = example['priority'].strip().lower()
    
    # Les deux doivent √™tre corrects
    if pred_category == true_category and pred_priority == true_priority:
        return 1.0
    else:
        return 0.0

# Test de la m√©trique
print("üéØ M√©trique : exact match")
print("\nTest 1 : Pr√©diction correcte")
example1 = {"ticket": "Test", "category": "Hardware", "priority": "High"}
pred1 = dspy.Prediction(category="Hardware", priority="High")
score1 = exact_match_metric(example1, pred1)
print(f"  Attendu: Hardware | High")
print(f"  Pr√©dit:  Hardware | High")
print(f"  Score: {score1}")

print("\nTest 2 : Cat√©gorie correcte, priorit√© incorrecte")
pred2 = dspy.Prediction(category="Hardware", priority="Low")
score2 = exact_match_metric(example1, pred2)
print(f"  Attendu: Hardware | High")
print(f"  Pr√©dit:  Hardware | Low")
print(f"  Score: {score2}")

üéØ M√©trique : exact match

Test 1 : Pr√©diction correcte
  Attendu: Hardware | High
  Pr√©dit:  Hardware | High
  Score: 1.0

Test 2 : Cat√©gorie correcte, priorit√© incorrecte
  Attendu: Hardware | High
  Pr√©dit:  Hardware | Low
  Score: 0.0


## M√©trique 2 : partial match (correspondance partielle)

Plus nuanc√©e : donne des points partiels si au moins un champ est correct.

In [56]:
def partial_match_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    """
    M√©trique nuanc√©e avec points partiels :
    - 1.0 : Les deux corrects
    - 0.7 : Cat√©gorie correcte uniquement
    - 0.5 : Priorit√© correcte uniquement
    - 0.0 : Aucun correct
    """
    pred_category = prediction.category.strip().lower()
    true_category = example['category'].strip().lower()
    
    pred_priority = prediction.priority.strip().lower()
    true_priority = example['priority'].strip().lower()
    
    category_match = (pred_category == true_category)
    priority_match = (pred_priority == true_priority)
    
    if category_match and priority_match:
        return 1.0
    elif category_match:
        return 0.7  # La cat√©gorie est plus importante
    elif priority_match:
        return 0.5
    else:
        return 0.0

# Test de la m√©trique
print("üéØ M√©trique : partial match")
print("\nTest 1 : Les deux corrects")
score1 = partial_match_metric(example1, pred1)
print(f"  Score: {score1}")

print("\nTest 2 : Cat√©gorie correcte uniquement")
score2 = partial_match_metric(example1, pred2)
print(f"  Score: {score2}")

print("\nTest 3 : Priorit√© correcte uniquement")
pred3 = dspy.Prediction(category="Software", priority="High")
score3 = partial_match_metric(example1, pred3)
print(f"  Score: {score3}")

print("\nTest 4 : Aucun correct")
pred4 = dspy.Prediction(category="Software", priority="Low")
score4 = partial_match_metric(example1, pred4)
print(f"  Score: {score4}")

üéØ M√©trique : partial match

Test 1 : Les deux corrects
  Score: 1.0

Test 2 : Cat√©gorie correcte uniquement
  Score: 0.7

Test 3 : Priorit√© correcte uniquement
  Score: 0.5

Test 4 : Aucun correct
  Score: 0.0


## Fonction d'√©valuation r√©utilisable

Cr√©ons une fonction pour √©valuer n'importe quel module sur un dataset complet.

In [57]:
def evaluate_module(module, dataset, metric, verbose=False):
    """
    √âvalue un module sur un dataset complet
    
    Args:
        module: Le module DSPy √† √©valuer
        dataset: Liste de dictionnaires avec 'ticket', 'category', 'priority'
        metric: Fonction de m√©trique
        verbose: Si True, affiche les d√©tails
    
    Returns:
        float: Score moyen (entre 0 et 1)
    """
    total_score = 0
    n_examples = len(dataset)
    
    for i, example in enumerate(dataset):
        # Pr√©diction
        prediction = module(ticket=example['ticket'])
        
        # Calcul du score
        score = metric(example, prediction)
        total_score += score
        
        # Affichage optionnel
        if verbose:
            print(f"Exemple {i+1}/{n_examples}")
            print(f"  Ticket: {example['ticket'][:50]}...")
            print(f"  Attendu: {example['category']} | {example['priority']}")
            print(f"  Pr√©dit:  {prediction.category} | {prediction.priority}")
            print(f"  Score: {score}\\n")
    
    # Score moyen
    avg_score = total_score / n_examples
    return avg_score

# Test de la fonction d'√©valuation
print("üìä √âvaluation de ChainOfThought sur le dataset de validation")
print("="*70 + "\\n")

score = evaluate_module(cot_classifier, valset, exact_match_metric, verbose=False)
print(f"Score moyen (exact match): {score:.2%}")

score_partial = evaluate_module(cot_classifier, valset, partial_match_metric, verbose=False)
print(f"Score moyen (partial match): {score_partial:.2%}")

üìä √âvaluation de ChainOfThought sur le dataset de validation
Score moyen (exact match): 57.14%
Score moyen (partial match): 67.14%


## Comparaison de modules

Maintenant que nous avons des m√©triques, comparons nos diff√©rents modules !

In [58]:
# Comparer tous nos modules
modules_to_compare = [
    ("Predict", predict_classifier),
    ("ChainOfThought", cot_classifier),
    ("Sequential", sequential),
    ("Validated", validated),
    ("Ensemble", ensemble)
]

print("="*70)
print("Comparaison des modules")
print("="*70 + "\\n")

results = []

for name, module in modules_to_compare:
    print(f"√âvaluation de {name}...")
    score_exact = evaluate_module(module, valset, exact_match_metric)
    score_partial = evaluate_module(module, valset, partial_match_metric)
    
    results.append({
        'module': name,
        'exact': score_exact,
        'partial': score_partial
    })

print("\\n" + "="*70)
print("R√©sultats")
print("="*70 + "\\n")

print(f"{'Module':<20} {'Exact Match':<15} {'Partial Match':<15}")
print("-" * 50)
for r in results:
    print(f"{r['module']:<20} {r['exact']:<14.1%} {r['partial']:<14.1%}")

# Trouver le meilleur
best = max(results, key=lambda x: x['exact'])
print(f"\nüèÜ Meilleur module (exact match): {best['module']} avec {best['exact']:.1%}")

Comparaison des modules
√âvaluation de Predict...
√âvaluation de ChainOfThought...
√âvaluation de Sequential...
√âvaluation de Validated...
√âvaluation de Ensemble...
R√©sultats
Module               Exact Match     Partial Match  
--------------------------------------------------
Predict              57.1%          87.1%         
ChainOfThought       57.1%          67.1%         
Sequential           42.9%          80.0%         
Validated            57.1%          67.1%         
Ensemble             57.1%          67.1%         

üèÜ Meilleur module (exact match): Predict avec 57.1%


## üí° Bonnes pratiques pour l'√©valuation

### ‚úÖ √Ä faire

1. **Toujours avoir un dataset de validation s√©par√©** : Ne jamais √©valuer sur les donn√©es d'entra√Ænement
2. **Utiliser plusieurs m√©triques** : Exact match + partial match donnent une vue compl√®te
3. **Tester sur des cas limites** : Tickets ambigus, tr√®s courts, tr√®s longs
4. **Documenter vos m√©triques** : Expliquez ce que signifie chaque score
5. **Comparer de mani√®re √©quitable** : M√™me dataset, m√™me m√©trique

### ‚ùå √Ä √©viter

1. **Une seule m√©trique** : Peut cacher des probl√®mes
2. **Dataset trop petit** : Minimum 20-30 exemples pour validation
3. **Ignorer les erreurs** : Analyser les √©checs est crucial
4. **Sur-optimiser** : Attention au surapprentissage sur le dataset de validation

### üìä M√©triques avanc√©es (optionnel)

Pour aller plus loin, vous pouvez calculer :
- **Pr√©cision par cat√©gorie** : Performance sur chaque cat√©gorie s√©par√©ment
- **Matrice de confusion** : Quelles cat√©gories sont confondues
- **Temps d'ex√©cution** : Trade-off pr√©cision/vitesse
- **Co√ªt** : Nombre de tokens utilis√©s