# Tutoriel DSPy et GEPA : Classification Automatique de Tickets IT

Ce tutoriel complet vous guide de mani√®re progressive √† travers **DSPy** (Declarative Self-improving Language Programs) et **GEPA** (Genetic-Pareto Algorithm).

## Objectifs d'apprentissage

1. Ma√Ætriser les **Signatures** : d√©finir les entr√©es/sorties de vos t√¢ches
2. Comprendre les **Modules** : les diff√©rents types et comment les composer
3. √âvaluer les performances avec des **m√©triques**
4. Optimiser automatiquement avec les **Optimiseurs**
5. Utiliser diff√©rents **mod√®les de langage** facilement
6. Ma√Ætriser **GEPA** pour l'optimisation avanc√©e

## Pr√©requis

- Python 3.9+
- Ollama install√© et en cours d'ex√©cution
- Un mod√®le t√©l√©charg√© (ex: `ollama pull llama3.1:8b`)

## Structure du tutoriel

1. **Configuration et Donn√©es** - Pr√©parer l'environnement
2. **Les Signatures DSPy** - D√©finir ce que vous voulez faire
3. **Les Modules DSPy** - Comment le faire
4. **L'√âvaluation** - Mesurer les performances
5. **Les Optimiseurs** - Am√©liorer automatiquement
6. **Multi-Mod√®les** - Flexibilit√© entre providers
7. **GEPA en Pratique** - Optimisation avanc√©e

## Configuration initiale

Commen√ßons par installer les d√©pendances et configurer notre environnement.

In [None]:
# Installation des d√©pendances (d√©commentez si n√©cessaire)
# !uv pip install dspy-ai

In [39]:
import dspy
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Biblioth√®ques import√©es avec succ√®s!")

‚úÖ Biblioth√®ques import√©es avec succ√®s!


### Configuration du mod√®le de langage

Nous utilisons Ollama avec Llama 3.1, un mod√®le open-source qui fonctionne localement.

In [40]:
print("üöÄ Configuration de DSPy avec Ollama...")

# Configurer le mod√®le de langage
lm = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=0.3
)

# Configurer DSPy globalement
dspy.configure(lm=lm)

print("‚úÖ DSPy configur√© avec Ollama Llama 3.1:8b")

üöÄ Configuration de DSPy avec Ollama...
‚úÖ DSPy configur√© avec Ollama Llama 3.1:8b


### Pr√©paration des donn√©es

Nous travaillons avec des tickets IT en fran√ßais. Chaque ticket contient :
- Une **description** du probl√®me
- Une **cat√©gorie** (Hardware, Software, Network, etc.)
- Une **priorit√©** (Low, Medium, High, Urgent, Critical)

In [41]:
# Donn√©es d'entra√Ænement
trainset = [
    {"ticket": "Mon ordinateur ne d√©marre plus depuis ce matin. J'ai une pr√©sentation importante dans 2 heures.", "category": "Hardware", "priority": "Urgent"},
    {"ticket": "Je n'arrive pas √† me connecter √† l'imprimante du 3e √©tage. √áa peut attendre.", "category": "Peripherals", "priority": "Low"},
    {"ticket": "Le VPN ne fonctionne plus. Impossible d'acc√©der aux fichiers du serveur.", "category": "Network", "priority": "High"},
    {"ticket": "J'ai oubli√© mon mot de passe Outlook. Je peux utiliser le webmail.", "category": "Account", "priority": "Medium"},
    {"ticket": "Le site web affiche une erreur 500. Les clients ne peuvent plus commander!", "category": "Application", "priority": "Critical"},
    {"ticket": "Ma souris sans fil ne r√©pond plus bien. Les piles sont faibles.", "category": "Peripherals", "priority": "Low"},
    {"ticket": "Le syst√®me de paie ne calcule pas les heures suppl√©mentaires. C'est la fin du mois.", "category": "Application", "priority": "Urgent"},
    {"ticket": "J'aimerais une mise √† jour de mon logiciel Adobe quand vous aurez le temps.", "category": "Software", "priority": "Low"},
    {"ticket": "Le serveur de base de donn√©es est tr√®s lent. Toute la production est impact√©e.", "category": "Infrastructure", "priority": "Critical"},
    {"ticket": "Je ne re√ßois plus les emails. J'attends des r√©ponses de fournisseurs.", "category": "Email", "priority": "High"},
    {"ticket": "Mon √©cran externe ne s'affiche plus. Je peux travailler sur le laptop.", "category": "Hardware", "priority": "Medium"},
    {"ticket": "Le wifi de la salle A ne fonctionne pas. R√©union avec des externes dans 30 min.", "category": "Network", "priority": "Urgent"},
    {"ticket": "Je voudrais installer Slack pour mieux collaborer avec l'√©quipe.", "category": "Software", "priority": "Medium"},
    {"ticket": "Le syst√®me de sauvegarde a √©chou√© cette nuit selon le rapport.", "category": "Infrastructure", "priority": "High"},
    {"ticket": "Mon clavier a une touche qui colle. C'est g√©rable mais ennuyeux.", "category": "Peripherals", "priority": "Low"}
]

# Donn√©es de validation
valset = [
    {"ticket": "Le serveur de fichiers est inaccessible. Personne ne peut travailler.", "category": "Infrastructure", "priority": "Critical"},
    {"ticket": "J'ai besoin d'acc√®s au dossier comptabilit√© pour l'audit. C'est urgent.", "category": "Account", "priority": "Urgent"},
    {"ticket": "L'√©cran de mon coll√®gue en vacances clignote. On peut attendre.", "category": "Hardware", "priority": "Low"},
    {"ticket": "Le CRM plante quand j'essaie d'exporter les contacts.", "category": "Application", "priority": "High"},
    {"ticket": "Je voudrais changer ma photo de profil quand vous aurez un moment.", "category": "Account", "priority": "Low"},
    {"ticket": "La vid√©oconf√©rence ne fonctionne pas. R√©union avec New York dans 10 minutes!", "category": "Application", "priority": "Critical"},
    {"ticket": "Mon antivirus affiche un message d'expiration mais tout fonctionne.", "category": "Software", "priority": "Medium"}
]

# Cat√©gories et priorit√©s possibles
CATEGORIES = ["Hardware", "Software", "Network", "Application", "Infrastructure", "Account", "Email", "Peripherals"]
PRIORITIES = ["Low", "Medium", "High", "Urgent", "Critical"]

print(f"üìä Donn√©es charg√©es : {len(trainset)} entra√Ænement, {len(valset)} validation")
print(f"üì¶ {len(CATEGORIES)} cat√©gories, {len(PRIORITIES)} priorit√©s")

üìä Donn√©es charg√©es : 15 entra√Ænement, 7 validation
üì¶ 8 cat√©gories, 5 priorit√©s


# Partie 1 : Les signatures DSPy

## Qu'est-ce qu'une signature ?

Une **signature** dans DSPy est une **d√©claration de ce que votre programme doit faire**, pas comment le faire.

### Analogie
Imaginez que vous engagez un assistant :
- ‚ùå **Sans DSPy** : Vous lui donnez des instructions d√©taill√©es ("d'abord lis le ticket, ensuite regarde si c'est hardware...")
- ‚úÖ **Avec DSPy** : Vous lui donnez simplement le contrat ("je te donne un ticket, tu me donnes la cat√©gorie et la priorit√©")

### Composants d'une signature

1. **Docstring** : Description de la t√¢che
2. **Champs d'entr√©e** (`InputField`) : Ce que vous fournissez
3. **Champs de sortie** (`OutputField`) : Ce que vous attendez
4. **Descriptions** (optionnelles) : Pr√©cisions sur chaque champ

### Exemple 1 : Signature simple

La forme la plus basique d'une signature.

In [42]:
class BasicSignature(dspy.Signature):
    """Classifier un ticket IT."""
    
    ticket = dspy.InputField()
    category = dspy.OutputField()

print("‚úÖ Signature simple cr√©√©e")
print("   - 1 entr√©e : ticket")
print("   - 1 sortie : category")

‚úÖ Signature simple cr√©√©e
   - 1 entr√©e : ticket
   - 1 sortie : category


### Exemple 2 : Signature avec descriptions

Ajouter des descriptions aide le mod√®le √† mieux comprendre la t√¢che.

In [43]:
class DescriptiveSignature(dspy.Signature):
    """Classifier un ticket de support IT selon sa cat√©gorie."""
    
    ticket = dspy.InputField(desc="Description du probl√®me rapport√© par l'utilisateur")
    category = dspy.OutputField(desc="Cat√©gorie technique du probl√®me")

print("‚úÖ Signature avec descriptions cr√©√©e")
print("   Les descriptions aident le mod√®le √† mieux comprendre")

‚úÖ Signature avec descriptions cr√©√©e
   Les descriptions aident le mod√®le √† mieux comprendre


### Exemple 3 : Signature avec contraintes

Sp√©cifier les valeurs possibles dans la description.

In [44]:
class ConstrainedSignature(dspy.Signature):
    """Classifier un ticket IT selon cat√©gorie et priorit√©."""
    
    ticket = dspy.InputField(desc="Description du ticket de support IT")
    category = dspy.OutputField(desc=f"Cat√©gorie parmi: {', '.join(CATEGORIES)}")
    priority = dspy.OutputField(desc=f"Priorit√© parmi: {', '.join(PRIORITIES)}")

print("‚úÖ Signature avec contraintes cr√©√©e")
print("   Les contraintes guident le mod√®le vers des r√©ponses valides")

‚úÖ Signature avec contraintes cr√©√©e
   Les contraintes guident le mod√®le vers des r√©ponses valides


### Exemple 4 : Signature avec contexte suppl√©mentaire

Ajouter des entr√©es contextuelles pour des t√¢ches complexes.

In [45]:
class ContextualSignature(dspy.Signature):
    """Classifier un ticket en tenant compte de l'historique utilisateur."""
    
    ticket = dspy.InputField(desc="Description du probl√®me actuel")
    user_history = dspy.InputField(desc="Historique des tickets pr√©c√©dents de l'utilisateur")
    category = dspy.OutputField(desc=f"Cat√©gorie parmi: {', '.join(CATEGORIES)}")
    priority = dspy.OutputField(desc=f"Priorit√© parmi: {', '.join(PRIORITIES)}")
    reasoning = dspy.OutputField(desc="Explication de la d√©cision")

print("‚úÖ Signature contextuelle cr√©√©e")
print("   - 2 entr√©es : ticket + historique")
print("   - 3 sorties : cat√©gorie + priorit√© + raisonnement")

‚úÖ Signature contextuelle cr√©√©e
   - 2 entr√©es : ticket + historique
   - 3 sorties : cat√©gorie + priorit√© + raisonnement


### Exemple 5 : Signature avec format de sortie structur√©

Demander un format particulier pour la sortie.

In [46]:
class StructuredOutputSignature(dspy.Signature):
    """Analyser un ticket et produire un rapport structur√©."""
    
    ticket = dspy.InputField(desc="Description du ticket")
    category = dspy.OutputField(desc="Cat√©gorie technique")
    priority = dspy.OutputField(desc="Niveau de priorit√©")
    estimated_time = dspy.OutputField(desc="Temps estim√© de r√©solution en heures")
    required_skills = dspy.OutputField(desc="Comp√©tences requises (liste s√©par√©e par des virgules)")

print("‚úÖ Signature avec sortie structur√©e cr√©√©e")
print("   Utile pour g√©n√©rer des rapports complets")

‚úÖ Signature avec sortie structur√©e cr√©√©e
   Utile pour g√©n√©rer des rapports complets


### üí° Bonnes Pratiques pour les signatures

#### ‚úÖ √Ä faire

1. **Docstring claire** : D√©crivez la t√¢che en une phrase
2. **Noms explicites** : `ticket` plut√¥t que `input`, `category` plut√¥t que `output`
3. **Descriptions pr√©cises** : Ajoutez `desc` pour guider le mod√®le
4. **Contraintes claires** : Listez les valeurs possibles quand applicable
5. **Commencer simple** : Ajoutez des champs progressivement

#### ‚ùå √Ä √©viter

1. **Trop de champs** : Commencez avec 1-3 sorties maximum
2. **Descriptions vagues** : "texte" ‚Üí "description du probl√®me utilisateur"
3. **Noms g√©n√©riques** : `input1`, `output1` ‚Üí `ticket`, `category`
4. **Instructions dans le nom** : Le nom d√©crit le contenu, pas l'action

### üéØ Signature pour notre tutoriel

Nous utiliserons cette signature pour le reste du tutoriel :

In [47]:
class TicketClassifier(dspy.Signature):
    """Classifier un ticket de support IT selon sa cat√©gorie et sa priorit√©."""
    
    ticket = dspy.InputField(desc="Description du ticket de support IT")
    category = dspy.OutputField(desc=f"Cat√©gorie parmi: {', '.join(CATEGORIES)}")
    priority = dspy.OutputField(desc=f"Priorit√© parmi: {', '.join(PRIORITIES)}")

print("‚úÖ Signature principale d√©finie : TicketClassifier")
print("   Cette signature sera utilis√©e dans tout le tutoriel")

‚úÖ Signature principale d√©finie : TicketClassifier
   Cette signature sera utilis√©e dans tout le tutoriel


---
# Partie 2 : les modules DSPy

## Qu'est-ce qu'un module ?

Un **module** dans DSPy est un composant qui **utilise une signature** pour g√©n√©rer des pr√©dictions.

### Analogie
- **Signature** = Le contrat ("je te donne X, tu me donnes Y")
- **Module** = L'employ√© qui ex√©cute le contrat (avec sa propre m√©thode de travail)

### Les diff√©rents types de modules

DSPy offre plusieurs modules, chacun avec une strat√©gie diff√©rente :

1. **Predict** : G√©n√©ration directe (le plus simple)
2. **ChainOfThought** : Raisonnement avant de r√©pondre
3. **ReAct** : Raisonnement avec actions possibles
4. **ProgramOfThought** : G√©n√©ration de code pour raisonner
5. **Modules personnalis√©s** : Composition de plusieurs modules

## Module 1 : Predict (le plus simple)

**Predict** est le module de base : il g√©n√®re directement une r√©ponse.

### Fonctionnement
1. Re√ßoit les entr√©es
2. G√©n√®re imm√©diatement les sorties
3. Retourne le r√©sultat

### Quand l'utiliser
- T√¢ches simples
- Besoin de rapidit√©
- Premi√®re version d'un syst√®me

In [48]:
# Cr√©er un module Predict avec notre signature
predict_classifier = dspy.Predict(TicketClassifier)

# Tester sur un exemple
test_ticket = "Mon ordinateur ne d√©marre plus. J'ai une pr√©sentation dans 1 heure."
result = predict_classifier(ticket=test_ticket)

print("üîÆ Module : Predict")
print(f"üìù Ticket : {test_ticket}")
print(f"üì¶ Cat√©gorie pr√©dite : {result.category}")
print(f"‚ö° Priorit√© pr√©dite : {result.priority}")

üîÆ Module : Predict
üìù Ticket : Mon ordinateur ne d√©marre plus. J'ai une pr√©sentation dans 1 heure.
üì¶ Cat√©gorie pr√©dite : Hardware
‚ö° Priorit√© pr√©dite : Urgent


In [49]:
dspy.inspect_history(n=3)





[34m[2025-10-15T13:50:28.356017][0m

[31mSystem message:[0m

Your input fields are:
1. `ticket` (str): Description du ticket de support IT
Your output fields are:
1. `reasoning` (str): 
2. `category` (str): Cat√©gorie parmi: Hardware, Software, Network, Application, Infrastructure, Account, Email, Peripherals
3. `priority` (str): Priorit√© parmi: Low, Medium, High, Urgent, Critical
All interactions will be structured in the following way, with the appropriate values filled in.

[[ ## ticket ## ]]
{ticket}

[[ ## reasoning ## ]]
{reasoning}

[[ ## category ## ]]
{category}

[[ ## priority ## ]]
{priority}

[[ ## completed ## ]]
In adhering to this structure, your objective is: 
        Classifier un ticket de support IT selon sa cat√©gorie et sa priorit√©.


[31mUser message:[0m

[[ ## ticket ## ]]
Mon antivirus affiche un message d'expiration mais tout fonctionne.

Respond with the corresponding output fields, starting with the field `[[ ## reasoning ## ]]`, then `[[ ## categ

## Module 2 : ChainOfThought (avec raisonnement)

**ChainOfThought** demande au mod√®le de raisonner avant de r√©pondre.

### Fonctionnement
1. Re√ßoit les entr√©es
2. **G√©n√®re d'abord un raisonnement**
3. G√©n√®re ensuite les sorties bas√©es sur ce raisonnement
4. Retourne le r√©sultat (avec le raisonnement)

### Quand l'utiliser
- T√¢ches complexes n√©cessitant de la r√©flexion
- Besoin d'expliquer les d√©cisions
- Am√©liorer la pr√©cision (+5-15% typiquement)

### Avantages
- ‚úÖ Meilleure pr√©cision
- ‚úÖ Raisonnement inspectable
- ‚úÖ Plus robuste sur des cas complexes

In [50]:
# Cr√©er un module ChainOfThought avec notre signature
cot_classifier = dspy.ChainOfThought(TicketClassifier)

# Tester sur le m√™me exemple
result = cot_classifier(ticket=test_ticket)

print("üß† Module : ChainOfThought")
print(f"üìù Ticket : {test_ticket}")
print(f"üí≠ Raisonnement : {getattr(result, 'rationale', 'non disponible')}")
print(f"üì¶ Cat√©gorie pr√©dite : {result.category}")
print(f"‚ö° Priorit√© pr√©dite : {result.priority}")

üß† Module : ChainOfThought
üìù Ticket : Mon ordinateur ne d√©marre plus. J'ai une pr√©sentation dans 1 heure.
üí≠ Raisonnement : non disponible
üì¶ Cat√©gorie pr√©dite : Hardware
‚ö° Priorit√© pr√©dite : High


### Comparaison Predict vs ChainOfThought

Testons les deux modules sur plusieurs exemples pour voir la diff√©rence.

In [51]:
# Tester sur 3 exemples
test_cases = valset[:3]

print("="*70)
print("Comparaison Predict vs ChainOfThought")
print("="*70 + "\n")

for i, example in enumerate(test_cases, 1):
    print(f"--- Exemple {i} ---")
    print(f"Ticket : {example['ticket']}")
    print(f"Attendu : {example['category']} | {example['priority']}\n")
    
    # Predict
    pred_result = predict_classifier(ticket=example['ticket'])
    print(f"  Predict : {pred_result.category} | {pred_result.priority}")
    
    # ChainOfThought
    cot_result = cot_classifier(ticket=example['ticket'])
    print(f"  ChainOfThought : {cot_result.category} | {cot_result.priority}")
    print()

Comparaison Predict vs ChainOfThought

--- Exemple 1 ---
Ticket : Le serveur de fichiers est inaccessible. Personne ne peut travailler.
Attendu : Infrastructure | Critical

  Predict : Infrastructure | High
  ChainOfThought : Infrastructure | High

--- Exemple 2 ---
Ticket : J'ai besoin d'acc√®s au dossier comptabilit√© pour l'audit. C'est urgent.
Attendu : Account | Urgent

  Predict : Account | Urgent
  ChainOfThought : Account | Urgent

--- Exemple 3 ---
Ticket : L'√©cran de mon coll√®gue en vacances clignote. On peut attendre.
Attendu : Hardware | Low

  Predict : Hardware | Low
  ChainOfThought : Hardware | Low



## Module 3 : ReAct (raisonnement + actions)

**ReAct** alterne entre raisonnement et actions.

### Fonctionnement
1. Raisonne sur le probl√®me
2. D√©cide d'une action √† faire (ex: chercher dans une base de donn√©es)
3. Observe le r√©sultat de l'action
4. Raisonne √† nouveau avec cette nouvelle information
5. R√©p√®te jusqu'√† avoir la r√©ponse

### Quand l'utiliser
- Besoin d'interactions avec des outils externes
- Recherche d'informations n√©cessaire
- T√¢ches multi-√©tapes

**Note** : ReAct n√©cessite de d√©finir des outils/actions disponibles. C'est plus avanc√©, nous ne le couvrirons pas en d√©tail ici.

## Module 4 : ProgramOfThought (g√©n√©ration de code)

**ProgramOfThought** g√©n√®re du code Python pour raisonner.

### Fonctionnement
1. Analyse le probl√®me
2. G√©n√®re du code Python pour le r√©soudre
3. Ex√©cute le code
4. Utilise le r√©sultat pour g√©n√©rer la r√©ponse

### Quand l'utiliser
- Probl√®mes math√©matiques
- Calculs complexes
- Manipulation de donn√©es structur√©es

**Exemple typique** : "Combien font 347 * 892 + 123 / 7 ?"
- Le mod√®le g√©n√®re : `result = 347 * 892 + 123 / 7`
- Ex√©cute le code : `309541.57`
- Retourne la r√©ponse

**Note** : Moins pertinent pour notre classification de tickets, mais tr√®s utile pour d'autres t√¢ches.

## Module 5 : modules personnalis√©s (composition)

Vous pouvez cr√©er vos propres modules en **composant** plusieurs modules existants.

### Pourquoi composer des modules ?
- D√©composer une t√¢che complexe en sous-t√¢ches
- R√©utiliser des modules existants
- Cr√©er des pipelines sophistiqu√©s

### Exemple 1 : pipeline s√©quentiel

Classifier d'abord la cat√©gorie, puis la priorit√© en fonction de la cat√©gorie.

In [52]:
# D√©finir des signatures sp√©cialis√©es
class CategoryClassifier(dspy.Signature):
    """D√©terminer la cat√©gorie technique d'un ticket IT."""
    ticket = dspy.InputField(desc="Description du ticket")
    category = dspy.OutputField(desc=f"Cat√©gorie parmi: {', '.join(CATEGORIES)}")

class PriorityClassifier(dspy.Signature):
    """D√©terminer la priorit√© d'un ticket en fonction de sa cat√©gorie."""
    ticket = dspy.InputField(desc="Description du ticket")
    category = dspy.InputField(desc="Cat√©gorie technique d√©j√† identifi√©e")
    priority = dspy.OutputField(desc=f"Priorit√© parmi: {', '.join(PRIORITIES)}")

# Cr√©er un module compos√©
class SequentialClassifier(dspy.Module):
    def __init__(self):
        super().__init__()
        self.category_predictor = dspy.ChainOfThought(CategoryClassifier)
        self.priority_predictor = dspy.ChainOfThought(PriorityClassifier)
    
    def forward(self, ticket):
        # √âtape 1 : Pr√©dire la cat√©gorie
        category_result = self.category_predictor(ticket=ticket)
        
        # √âtape 2 : Pr√©dire la priorit√© en utilisant la cat√©gorie
        priority_result = self.priority_predictor(
            ticket=ticket,
            category=category_result.category
        )
        
        # Retourner les deux r√©sultats
        return dspy.Prediction(
            category=category_result.category,
            priority=priority_result.priority
        )

# Tester le module compos√©
sequential = SequentialClassifier()
result = sequential(ticket=test_ticket)

print("üîó Module compos√© : SequentialClassifier")
print(f"üìù Ticket : {test_ticket}")
print(f"üì¶ Cat√©gorie (√©tape 1) : {result.category}")
print(f"‚ö° Priorit√© (√©tape 2, bas√©e sur cat√©gorie) : {result.priority}")

üîó Module compos√© : SequentialClassifier
üìù Ticket : Mon ordinateur ne d√©marre plus. J'ai une pr√©sentation dans 1 heure.
üì¶ Cat√©gorie (√©tape 1) : Hardware
‚ö° Priorit√© (√©tape 2, bas√©e sur cat√©gorie) : Urgent


### Exemple 2 : module avec validation

Ajouter une √©tape de validation pour v√©rifier que les pr√©dictions sont valides.

In [53]:
class ValidatedClassifier(dspy.Module):
    def __init__(self):
        super().__init__()
        self.classifier = dspy.ChainOfThought(TicketClassifier)
    
    def forward(self, ticket):
        # Pr√©diction
        result = self.classifier(ticket=ticket)
        
        # Validation de la cat√©gorie
        if result.category not in CATEGORIES:
            print(f"‚ö†Ô∏è Cat√©gorie invalide '{result.category}', correction...")
            result.category = "Application"  # Valeur par d√©faut
        
        # Validation de la priorit√©
        if result.priority not in PRIORITIES:
            print(f"‚ö†Ô∏è Priorit√© invalide '{result.priority}', correction...")
            result.priority = "Medium"  # Valeur par d√©faut
        
        return result

# Tester le module avec validation
validated = ValidatedClassifier()
result = validated(ticket=test_ticket)

print("\n‚úÖ Module avec validation : ValidatedClassifier")
print(f"üì¶ Cat√©gorie valid√©e : {result.category}")
print(f"‚ö° Priorit√© valid√©e : {result.priority}")


‚úÖ Module avec validation : ValidatedClassifier
üì¶ Cat√©gorie valid√©e : Hardware
‚ö° Priorit√© valid√©e : High


### Exemple 3 : module avec consensus (ensemble)

Utiliser plusieurs modules et combiner leurs pr√©dictions.

In [54]:
from collections import Counter

class EnsembleClassifier(dspy.Module):
    def __init__(self, n_models=3):
        super().__init__()
        # Cr√©er plusieurs modules
        self.classifiers = [
            dspy.ChainOfThought(TicketClassifier)
            for _ in range(n_models)
        ]
    
    def forward(self, ticket):
        # Collecter les pr√©dictions de tous les mod√®les
        categories = []
        priorities = []
        
        for classifier in self.classifiers:
            result = classifier(ticket=ticket)
            categories.append(result.category)
            priorities.append(result.priority)
        
        # Vote majoritaire
        category_vote = Counter(categories).most_common(1)[0][0]
        priority_vote = Counter(priorities).most_common(1)[0][0]
        
        return dspy.Prediction(
            category=category_vote,
            priority=priority_vote
        )

# Tester l'ensemble
print("üó≥Ô∏è Module ensemble : EnsembleClassifier")
print("   (Combine 3 pr√©dictions par vote majoritaire)")
print(f"\nüìù Ticket : {test_ticket}")

ensemble = EnsembleClassifier(n_models=3)
result = ensemble(ticket=test_ticket)

print(f"üì¶ Cat√©gorie (consensus) : {result.category}")
print(f"‚ö° Priorit√© (consensus) : {result.priority}")

üó≥Ô∏è Module ensemble : EnsembleClassifier
   (Combine 3 pr√©dictions par vote majoritaire)

üìù Ticket : Mon ordinateur ne d√©marre plus. J'ai une pr√©sentation dans 1 heure.
üì¶ Cat√©gorie (consensus) : Hardware
‚ö° Priorit√© (consensus) : High


## üí° Bonnes pratiques pour les modules

### ‚úÖ √Ä faire

1. **Commencer simple** : Utilisez d'abord `Predict`, puis `ChainOfThought` si besoin
2. **Nommer clairement** : `TicketClassifier` plut√¥t que `Classifier1`
3. **Un module = une t√¢che** : Gardez les modules focalis√©s
4. **Composer progressivement** : Testez chaque module individuellement
5. **Documenter** : Ajoutez des docstrings √† vos modules personnalis√©s

### ‚ùå √Ä √©viter

1. **Utiliser ChainOfThought partout** : Plus lent et plus co√ªteux
2. **Modules trop complexes** : Difficiles √† d√©bugger
3. **Trop de composition** : Peut devenir difficile √† maintenir
4. **Ignorer les erreurs** : Toujours valider les sorties

### üéØ R√©sum√© des modules

| Module | Rapidit√© | Pr√©cision | Complexit√© | Usage |
|--------|----------|-----------|------------|-------|
| **Predict** | ‚ö°‚ö°‚ö° | üéØ | üü¢ Simple | T√¢ches simples, prototypage |
| **ChainOfThought** | ‚ö°‚ö° | üéØüéØüéØ | üü¢ Simple | T√¢ches complexes, besoin de raisonnement |
| **ReAct** | ‚ö° | üéØüéØüéØ | üü° Moyen | Interactions avec outils |
| **ProgramOfThought** | ‚ö°‚ö° | üéØüéØüéØüéØ | üü° Moyen | Calculs, manipulation de donn√©es |
| **Modules compos√©s** | ‚ö° | üéØüéØüéØüéØ | üî¥ Avanc√© | Pipelines complexes |

---
# Partie 3 : L'√©valuation

## Pourquoi √©valuer ?

Jusqu'√† pr√©sent, nous avons cr√©√© des modules et observ√© leurs sorties qualitativement. Mais pour :
- **Comparer** diff√©rents modules
- **Mesurer** les am√©liorations
- **Optimiser** automatiquement (avec GEPA)

...nous avons besoin de **mesures quantitatives** : les **m√©triques**.

## Qu'est-ce qu'une m√©trique ?

Une **m√©trique** est une fonction qui prend :
- Un **exemple** avec la vraie r√©ponse (ground truth)
- Une **pr√©diction** du mod√®le
- Et retourne un **score** (g√©n√©ralement entre 0 et 1)

### Format d'une m√©trique

```python
def ma_metrique(example, prediction, trace=None, pred_name=None, pred_trace=None):
    # Comparer example et prediction
    # Retourner un score entre 0 et 1
    return score
```

**Note** : Les param√®tres `trace`, `pred_name` et `pred_trace` sont optionnels et utilis√©s par certains optimiseurs.

## M√©trique 1 : exact match (correspondance exacte)

La m√©trique la plus stricte : tout doit √™tre parfait.

In [55]:
def exact_match_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    """
    M√©trique stricte : 1 si cat√©gorie ET priorit√© correctes, 0 sinon
    """
    # Normaliser les cha√Ænes (minuscules, sans espaces)
    pred_category = prediction.category.strip().lower()
    true_category = example['category'].strip().lower()
    
    pred_priority = prediction.priority.strip().lower()
    true_priority = example['priority'].strip().lower()
    
    # Les deux doivent √™tre corrects
    if pred_category == true_category and pred_priority == true_priority:
        return 1.0
    else:
        return 0.0

# Test de la m√©trique
print("üéØ M√©trique : exact match")
print("\nTest 1 : Pr√©diction correcte")
example1 = {"ticket": "Test", "category": "Hardware", "priority": "High"}
pred1 = dspy.Prediction(category="Hardware", priority="High")
score1 = exact_match_metric(example1, pred1)
print(f"  Attendu: Hardware | High")
print(f"  Pr√©dit:  Hardware | High")
print(f"  Score: {score1}")

print("\nTest 2 : Cat√©gorie correcte, priorit√© incorrecte")
pred2 = dspy.Prediction(category="Hardware", priority="Low")
score2 = exact_match_metric(example1, pred2)
print(f"  Attendu: Hardware | High")
print(f"  Pr√©dit:  Hardware | Low")
print(f"  Score: {score2}")

üéØ M√©trique : exact match

Test 1 : Pr√©diction correcte
  Attendu: Hardware | High
  Pr√©dit:  Hardware | High
  Score: 1.0

Test 2 : Cat√©gorie correcte, priorit√© incorrecte
  Attendu: Hardware | High
  Pr√©dit:  Hardware | Low
  Score: 0.0


## M√©trique 2 : partial match (correspondance partielle)

Plus nuanc√©e : donne des points partiels si au moins un champ est correct.

In [56]:
def partial_match_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    """
    M√©trique nuanc√©e avec points partiels :
    - 1.0 : Les deux corrects
    - 0.7 : Cat√©gorie correcte uniquement
    - 0.5 : Priorit√© correcte uniquement
    - 0.0 : Aucun correct
    """
    pred_category = prediction.category.strip().lower()
    true_category = example['category'].strip().lower()
    
    pred_priority = prediction.priority.strip().lower()
    true_priority = example['priority'].strip().lower()
    
    category_match = (pred_category == true_category)
    priority_match = (pred_priority == true_priority)
    
    if category_match and priority_match:
        return 1.0
    elif category_match:
        return 0.7  # La cat√©gorie est plus importante
    elif priority_match:
        return 0.5
    else:
        return 0.0

# Test de la m√©trique
print("üéØ M√©trique : partial match")
print("\nTest 1 : Les deux corrects")
score1 = partial_match_metric(example1, pred1)
print(f"  Score: {score1}")

print("\nTest 2 : Cat√©gorie correcte uniquement")
score2 = partial_match_metric(example1, pred2)
print(f"  Score: {score2}")

print("\nTest 3 : Priorit√© correcte uniquement")
pred3 = dspy.Prediction(category="Software", priority="High")
score3 = partial_match_metric(example1, pred3)
print(f"  Score: {score3}")

print("\nTest 4 : Aucun correct")
pred4 = dspy.Prediction(category="Software", priority="Low")
score4 = partial_match_metric(example1, pred4)
print(f"  Score: {score4}")

üéØ M√©trique : partial match

Test 1 : Les deux corrects
  Score: 1.0

Test 2 : Cat√©gorie correcte uniquement
  Score: 0.7

Test 3 : Priorit√© correcte uniquement
  Score: 0.5

Test 4 : Aucun correct
  Score: 0.0


## Fonction d'√©valuation r√©utilisable

Cr√©ons une fonction pour √©valuer n'importe quel module sur un dataset complet.

In [57]:
def evaluate_module(module, dataset, metric, verbose=False):
    """
    √âvalue un module sur un dataset complet
    
    Args:
        module: Le module DSPy √† √©valuer
        dataset: Liste de dictionnaires avec 'ticket', 'category', 'priority'
        metric: Fonction de m√©trique
        verbose: Si True, affiche les d√©tails
    
    Returns:
        float: Score moyen (entre 0 et 1)
    """
    total_score = 0
    n_examples = len(dataset)
    
    for i, example in enumerate(dataset):
        # Pr√©diction
        prediction = module(ticket=example['ticket'])
        
        # Calcul du score
        score = metric(example, prediction)
        total_score += score
        
        # Affichage optionnel
        if verbose:
            print(f"Exemple {i+1}/{n_examples}")
            print(f"  Ticket: {example['ticket'][:50]}...")
            print(f"  Attendu: {example['category']} | {example['priority']}")
            print(f"  Pr√©dit:  {prediction.category} | {prediction.priority}")
            print(f"  Score: {score}\\n")
    
    # Score moyen
    avg_score = total_score / n_examples
    return avg_score

# Test de la fonction d'√©valuation
print("üìä √âvaluation de ChainOfThought sur le dataset de validation")
print("="*70 + "\\n")

score = evaluate_module(cot_classifier, valset, exact_match_metric, verbose=False)
print(f"Score moyen (exact match): {score:.2%}")

score_partial = evaluate_module(cot_classifier, valset, partial_match_metric, verbose=False)
print(f"Score moyen (partial match): {score_partial:.2%}")

üìä √âvaluation de ChainOfThought sur le dataset de validation
Score moyen (exact match): 57.14%
Score moyen (partial match): 67.14%


## Comparaison de modules

Maintenant que nous avons des m√©triques, comparons nos diff√©rents modules !

In [58]:
# Comparer tous nos modules
modules_to_compare = [
    ("Predict", predict_classifier),
    ("ChainOfThought", cot_classifier),
    ("Sequential", sequential),
    ("Validated", validated),
    ("Ensemble", ensemble)
]

print("="*70)
print("Comparaison des modules")
print("="*70 + "\\n")

results = []

for name, module in modules_to_compare:
    print(f"√âvaluation de {name}...")
    score_exact = evaluate_module(module, valset, exact_match_metric)
    score_partial = evaluate_module(module, valset, partial_match_metric)
    
    results.append({
        'module': name,
        'exact': score_exact,
        'partial': score_partial
    })

print("\\n" + "="*70)
print("R√©sultats")
print("="*70 + "\\n")

print(f"{'Module':<20} {'Exact Match':<15} {'Partial Match':<15}")
print("-" * 50)
for r in results:
    print(f"{r['module']:<20} {r['exact']:<14.1%} {r['partial']:<14.1%}")

# Trouver le meilleur
best = max(results, key=lambda x: x['exact'])
print(f"\nüèÜ Meilleur module (exact match): {best['module']} avec {best['exact']:.1%}")

Comparaison des modules
√âvaluation de Predict...
√âvaluation de ChainOfThought...
√âvaluation de Sequential...
√âvaluation de Validated...
√âvaluation de Ensemble...
R√©sultats
Module               Exact Match     Partial Match  
--------------------------------------------------
Predict              57.1%          87.1%         
ChainOfThought       57.1%          67.1%         
Sequential           42.9%          80.0%         
Validated            57.1%          67.1%         
Ensemble             57.1%          67.1%         

üèÜ Meilleur module (exact match): Predict avec 57.1%


## üí° Bonnes pratiques pour l'√©valuation

### ‚úÖ √Ä faire

1. **Toujours avoir un dataset de validation s√©par√©** : Ne jamais √©valuer sur les donn√©es d'entra√Ænement
2. **Utiliser plusieurs m√©triques** : Exact match + partial match donnent une vue compl√®te
3. **Tester sur des cas limites** : Tickets ambigus, tr√®s courts, tr√®s longs
4. **Documenter vos m√©triques** : Expliquez ce que signifie chaque score
5. **Comparer de mani√®re √©quitable** : M√™me dataset, m√™me m√©trique

### ‚ùå √Ä √©viter

1. **Une seule m√©trique** : Peut cacher des probl√®mes
2. **Dataset trop petit** : Minimum 20-30 exemples pour validation
3. **Ignorer les erreurs** : Analyser les √©checs est crucial
4. **Sur-optimiser** : Attention au surapprentissage sur le dataset de validation

### üìä M√©triques avanc√©es (optionnel)

Pour aller plus loin, vous pouvez calculer :
- **Pr√©cision par cat√©gorie** : Performance sur chaque cat√©gorie s√©par√©ment
- **Matrice de confusion** : Quelles cat√©gories sont confondues
- **Temps d'ex√©cution** : Trade-off pr√©cision/vitesse
- **Co√ªt** : Nombre de tokens utilis√©s

# Partie 4: Les optimiseurs

## 4.1 Introduction: modules vs optimiseurs

Jusqu'√† pr√©sent, nous avons vu des **modules** (Predict, ChainOfThought, ReAct, etc.). Ces modules **ex√©cutent** des t√¢ches en interrogeant le LLM.

Les **optimiseurs**, quant √† eux, **am√©liorent** les modules en :
- Ajoutant des exemples de d√©monstration (few-shot learning)
- Optimisant les instructions (prompts)
- Ajustant les param√®tres
- S√©lectionnant les meilleures configurations

**Analogie** : Si un module est comme un √©tudiant qui r√©sout un probl√®me, un optimiseur est comme un professeur qui am√©liore la m√©thode de l'√©tudiant en lui montrant des exemples et en affinant ses instructions.

### Principaux optimiseurs DSPy

1. **BootstrapFewShot** - Le plus simple : g√©n√®re des exemples de d√©monstration
2. **BootstrapFewShotWithRandomSearch** - Teste plusieurs combinaisons d'exemples
3. **MIPRO** - Optimise √† la fois les instructions et les exemples
4. **SignatureOptimizer** - Se concentre uniquement sur l'optimisation des instructions
5. **GEPA** - Le plus sophistiqu√© : utilise des algorithmes g√©n√©tiques et la r√©flexion LLM

Dans cette section, nous allons explorer les optimiseurs 1-4. GEPA sera couvert en d√©tail dans la Partie 7.

## 4.2 BootstrapFewShot: g√©n√©rer des exemples de d√©monstration

**BootstrapFewShot** est l'optimiseur le plus simple de DSPy. Il fonctionne en :

1. Ex√©cutant votre module sur les donn√©es d'entra√Ænement
2. Gardant les pr√©dictions correctes (valid√©es par votre m√©trique)
3. Utilisant ces pr√©dictions comme exemples de d√©monstration (few-shot)
4. Injectant ces exemples dans le prompt du module optimis√©

**Avantages** :
- Simple √† comprendre et √† utiliser
- Rapide √† ex√©cuter
- Am√©lioration typique de 5-15%

**Inconv√©nients** :
- Ne modifie pas les instructions
- Qualit√© d√©pend de la qualit√© des donn√©es d'entra√Ænement

### Exemple pratique

In [59]:
from dspy.teleprompt import BootstrapFewShot

print("üîß Optimisation avec BootstrapFewShot...")

# 1. Pr√©parer les donn√©es au format DSPy
train_examples = [
    dspy.Example(
        ticket=ex['ticket'],
        category=ex['category'],
        priority=ex['priority']
    ).with_inputs('ticket')
    for ex in trainset
]

# 2. Cr√©er le module de base
basic_classifier = SimpleTicketClassifier()

# 3. √âvaluer AVANT optimisation
print("\nüìä Performance AVANT optimisation:")
score_before = evaluate_module(basic_classifier, val_examples, exact_match_metric)
print(f"   Score: {score_before:.2%}")

# 4. Configurer l'optimiseur BootstrapFewShot
optimizer = BootstrapFewShot(
    metric=exact_match_metric,
    max_bootstrapped_demos=4,  # Nombre d'exemples √† g√©n√©rer
    max_labeled_demos=4         # Nombre max d'exemples √† utiliser
)

# 5. Compiler (optimiser) le module
print("\nüîÑ Compilation avec BootstrapFewShot...")
optimized_classifier = optimizer.compile(
    student=basic_classifier,
    trainset=train_examples
)

# 6. √âvaluer APR√àS optimisation
print("\nüìä Performance APR√àS optimisation:")
score_after = evaluate_module(optimized_classifier, val_examples, exact_match_metric)
print(f"   Score: {score_after:.2%}")

# 7. Calculer l'am√©lioration
improvement = ((score_after - score_before) / score_before) * 100 if score_before > 0 else 0
print(f"\nüìà Am√©lioration: {improvement:+.1f}%")

üîß Optimisation avec BootstrapFewShot...


NameError: name 'SimpleTicketClassifier' is not defined

### Inspecter les exemples g√©n√©r√©s

BootstrapFewShot a ajout√© des exemples de d√©monstration au module. Nous pouvons les visualiser :

In [None]:
# Inspecter les exemples de d√©monstration ajout√©s par BootstrapFewShot
if hasattr(optimized_classifier, 'classifier'):
    predictor = optimized_classifier.classifier
    
    if hasattr(predictor, 'demos') and predictor.demos:
        print(f"üìö BootstrapFewShot a ajout√© {len(predictor.demos)} exemples de d√©monstration:\n")
        
        for i, demo in enumerate(predictor.demos[:3], 1):  # Afficher les 3 premiers
            print(f"Exemple {i}:")
            print(f"  Ticket: {demo.ticket[:80]}...")
            print(f"  Cat√©gorie: {demo.category}")
            print(f"  Priorit√©: {demo.priority}")
            print()
    else:
        print("‚ÑπÔ∏è Aucun exemple de d√©monstration trouv√© (ou version DSPy diff√©rente)")
else:
    print("‚ÑπÔ∏è Structure du module diff√©rente de celle attendue")

## 4.3 MIPRO: optimisation des instructions et exemples

**MIPRO** (Multi-prompt Instruction Proposal Optimizer) est un optimiseur plus avanc√© qui :

1. **G√©n√®re plusieurs variantes d'instructions** pour votre signature
2. **S√©lectionne les meilleurs exemples** de d√©monstration
3. **Teste diff√©rentes combinaisons** (instructions √ó exemples)
4. **Garde la meilleure configuration** selon votre m√©trique

**Avantages** :
- Optimise √† la fois les instructions et les exemples
- Am√©lioration typique de 10-25%
- Explore l'espace des possibilit√©s de mani√®re syst√©matique

**Inconv√©nients** :
- Plus lent que BootstrapFewShot (n√©cessite plus d'appels LLM)
- Peut prendre 10-20 minutes avec Ollama local

### Exemple pratique

In [None]:
from dspy.teleprompt import MIPRO

print("üöÄ Optimisation avec MIPRO...")
print("‚è∞ Attention : Cela peut prendre 10-20 minutes avec Ollama\n")

# 1. Cr√©er un module de base
mipro_classifier = SimpleTicketClassifier()

# 2. Configurer MIPRO
optimizer = MIPRO(
    metric=exact_match_metric,
    num_candidates=5,           # Nombre de variantes d'instructions √† g√©n√©rer
    init_temperature=1.0        # Temp√©rature pour la g√©n√©ration d'instructions
)

# 3. Compiler avec MIPRO
# Note: MIPRO n√©cessite √† la fois trainset et valset (optionnel)
print("üîÑ Compilation avec MIPRO (cela va prendre du temps)...")

try:
    mipro_optimized = optimizer.compile(
        student=mipro_classifier,
        trainset=train_examples,
        max_bootstrapped_demos=3,  # Nombre d'exemples √† g√©n√©rer
        max_labeled_demos=3,        # Nombre max d'exemples √† utiliser
        requires_permission_to_run=False  # Pas de confirmation interactive
    )
    
    # 4. √âvaluer le r√©sultat
    print("\nüìä Performance apr√®s MIPRO:")
    score_mipro = evaluate_module(mipro_optimized, val_examples, exact_match_metric)
    print(f"   Score: {score_mipro:.2%}")
    
    improvement_mipro = ((score_mipro - score_before) / score_before) * 100 if score_before > 0 else 0
    print(f"   Am√©lioration vs baseline: {improvement_mipro:+.1f}%")
    
except Exception as e:
    print(f"‚ö†Ô∏è Erreur lors de l'optimisation MIPRO: {e}")
    print("   MIPRO n√©cessite une configuration sp√©cifique selon la version de DSPy")
    print("   Consultez la documentation DSPy pour plus de d√©tails.")

## 4.4 Autres optimiseurs importants

### SignatureOptimizer

**SignatureOptimizer** se concentre uniquement sur l'optimisation des instructions de votre signature, sans ajouter d'exemples de d√©monstration.

**Utilisation** :
```python
from dspy.teleprompt import SignatureOptimizer

optimizer = SignatureOptimizer(
    metric=exact_match_metric,
    breadth=10,  # Nombre de variantes √† g√©n√©rer
    depth=3      # Nombre d'it√©rations de raffinement
)

optimized = optimizer.compile(student=classifier, trainset=train_examples)
```

**Avantages** :
- Rapide (pas de g√©n√©ration d'exemples)
- Am√©liore la clart√© des instructions
- Bon pour les t√¢ches o√π les exemples ne sont pas critiques

**Inconv√©nients** :
- Am√©lioration modeste (5-10%)
- Ne tire pas parti du few-shot learning

### BootstrapFewShotWithRandomSearch

Extension de BootstrapFewShot qui teste plusieurs combinaisons al√©atoires d'exemples.

**Utilisation** :
```python
from dspy.teleprompt import BootstrapFewShotWithRandomSearch

optimizer = BootstrapFewShotWithRandomSearch(
    metric=exact_match_metric,
    max_bootstrapped_demos=4,
    num_candidate_programs=8  # Nombre de combinaisons √† tester
)

optimized = optimizer.compile(student=classifier, trainset=train_examples)
```

**Avantages** :
- Trouve de meilleures combinaisons d'exemples
- Plus robuste que BootstrapFewShot simple
- Am√©lioration typique de 8-18%

**Inconv√©nients** :
- Plus lent que BootstrapFewShot (teste plusieurs combinaisons)

## 4.5 Comparaison des optimiseurs

| Optimiseur | Ce qu'il optimise | Vitesse | Am√©lioration typique | Complexit√© | Quand l'utiliser |
|------------|------------------|---------|---------------------|------------|------------------|
| **BootstrapFewShot** | Exemples uniquement | ‚ö°‚ö°‚ö° Rapide | 5-15% | Simple | Premi√®re optimisation, tests rapides |
| **BootstrapFewShotWithRandomSearch** | Exemples (avec recherche) | ‚ö°‚ö° Moyen | 8-18% | Simple | Quand vous avez un peu plus de temps |
| **SignatureOptimizer** | Instructions uniquement | ‚ö°‚ö°‚ö° Rapide | 5-10% | Moyen | T√¢ches o√π les instructions sont critiques |
| **MIPRO** | Instructions + exemples | ‚ö° Lent | 10-25% | Avanc√© | Production, quand vous visez la meilleure performance |
| **GEPA** | Instructions + exemples + r√©flexion | ‚ö° Tr√®s lent | 15-30% | Tr√®s avanc√© | Maximum de performance, recherche |

### Guide de s√©lection

**Pour d√©buter** :
1. Commencez avec **BootstrapFewShot** pour comprendre le concept
2. Si les r√©sultats sont bons, passez √† **BootstrapFewShotWithRandomSearch**
3. Si vous avez du temps, essayez **MIPRO**

**Pour la production** :
- Si vous avez des contraintes de temps : **BootstrapFewShotWithRandomSearch**
- Si vous visez la meilleure performance : **MIPRO** ou **GEPA**
- Si vos instructions sont mal formul√©es : **SignatureOptimizer** d'abord, puis un autre

**Pour la recherche** :
- **GEPA** pour explorer les limites de performance
- **MIPRO** pour une approche plus syst√©matique

### Strat√©gie recommand√©e

1. **Phase 1 - Exploration** : Utilisez BootstrapFewShot pour tester rapidement
2. **Phase 2 - Am√©lioration** : Passez √† MIPRO si les r√©sultats sont prometteurs
3. **Phase 3 - Optimisation finale** : Utilisez GEPA pour maximiser la performance (voir Partie 7)

## 4.6 Introduction √† GEPA

**GEPA** (Genetic-Pareto Algorithm) est l'optimiseur le plus sophistiqu√© de DSPy. Il m√©rite une section compl√®te (Partie 7) car il combine plusieurs techniques avanc√©es :

### Comment GEPA fonctionne

1. **Algorithmes g√©n√©tiques** : √âvolution de populations de prompts
2. **R√©flexion LLM** : Utilise un LLM pour analyser les erreurs et proposer des am√©liorations
3. **Optimisation Pareto** : √âquilibre plusieurs objectifs (pr√©cision, concision, etc.)
4. **It√©rations adaptatives** : Apprend de ses erreurs pour s'am√©liorer

### Nouveaut√©s dans DSPy 3.0+

GEPA a √©t√© int√©gr√© directement dans DSPy et n√©cessite maintenant :
- Un **reflection_lm** : mod√®le d√©di√© √† l'analyse des erreurs
- Configuration via **auto** : 'light', 'medium', ou 'heavy'
- M√©trique compatible avec les nouveaux param√®tres

### Aper√ßu rapide

```python
from dspy.teleprompt import GEPA

# Configuration du mod√®le de r√©flexion
reflection_lm = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=1.0,
    max_tokens=8000
)

# Optimiseur GEPA
optimizer = GEPA(
    metric=exact_match_metric,
    auto='light',  # 'light', 'medium', ou 'heavy'
    reflection_lm=reflection_lm
)

# Compilation
optimized = optimizer.compile(
    student=classifier,
    trainset=train_examples,
    valset=val_examples
)
```

### Quand utiliser GEPA

- ‚úÖ Vous avez du temps (15-30 minutes minimum)
- ‚úÖ Vous visez la meilleure performance possible
- ‚úÖ Vous avez suffisamment de donn√©es d'entra√Ænement (20+ exemples)
- ‚úÖ Votre m√©trique est bien d√©finie
- ‚úÖ Vous √™tes pr√™t √† exp√©rimenter avec les param√®tres

**La Partie 7 de ce tutoriel couvre GEPA en profondeur avec des exemples pratiques, des comparaisons de param√®tres, et des conseils d'optimisation.**

## 4.7 R√©sum√© de la Partie 4

### Ce que nous avons appris

1. **Diff√©rence modules vs optimiseurs** :
   - Les modules **ex√©cutent** des t√¢ches
   - Les optimiseurs **am√©liorent** les modules

2. **Les optimiseurs principaux** :
   - **BootstrapFewShot** : Simple, rapide, g√©n√®re des exemples
   - **BootstrapFewShotWithRandomSearch** : Teste plusieurs combinaisons
   - **SignatureOptimizer** : Optimise uniquement les instructions
   - **MIPRO** : Optimise instructions + exemples
   - **GEPA** : Le plus sophistiqu√© (d√©tails en Partie 7)

3. **Comment choisir** :
   - D√©buter : BootstrapFewShot
   - Production rapide : BootstrapFewShotWithRandomSearch
   - Meilleure performance : MIPRO ou GEPA
   - Instructions mal formul√©es : SignatureOptimizer

### Points cl√©s √† retenir

- ‚úÖ Toujours √©valuer **avant** et **apr√®s** optimisation
- ‚úÖ Commencer simple, puis complexifier
- ‚úÖ Les optimiseurs n√©cessitent des donn√©es d'entra√Ænement de qualit√©
- ‚úÖ Plus de temps d'optimisation = g√©n√©ralement meilleure performance
- ‚úÖ Votre m√©trique d√©termine ce que l'optimiseur optimise

### Prochaines √©tapes

- **Partie 5** : Multi-mod√®les (utiliser diff√©rents LLMs)
- **Partie 6** : Patterns avanc√©s (optionnel)
- **Partie 7** : GEPA en pratique (optimisation approfondie)

# Partie 5: Multi-mod√®les et flexibilit√©

## 5.1 Introduction: pourquoi utiliser plusieurs mod√®les?

DSPy offre une **abstraction puissante** : votre code reste le m√™me quel que soit le mod√®le utilis√©. Vous pouvez :

1. **Changer de fournisseur** facilement (Ollama ‚Üí OpenAI ‚Üí Anthropic)
2. **Comparer les performances** de diff√©rents mod√®les
3. **Cr√©er des architectures hybrides** (mod√®le rapide pour cat√©gorie, mod√®le pr√©cis pour priorit√©)
4. **Optimiser co√ªt vs performance**

### Avantages du multi-mod√®les

- üîÑ **Flexibilit√©** : Pas de vendor lock-in
- üí∞ **Optimisation des co√ªts** : Mod√®le gratuit (Ollama) pour dev, mod√®le payant pour prod
- üéØ **Performance** : Choisir le meilleur mod√®le pour chaque t√¢che
- üß™ **Exp√©rimentation** : Tester facilement diff√©rents mod√®les

### Ce que nous allons voir

1. Configurer diff√©rents fournisseurs (Ollama, OpenAI, Anthropic)
2. Comparer les performances de diff√©rents mod√®les
3. Cr√©er des architectures hybrides
4. G√©rer les cl√©s API de mani√®re s√©curis√©e

## 5.2 Configuration de diff√©rents fournisseurs

### 5.2.1 Ollama (local, gratuit)

Ollama permet d'ex√©cuter des mod√®les **localement** sans API key ni co√ªts.

**Mod√®les recommand√©s** :
- `llama3.1:8b` - √âquilibr√©, bon pour la plupart des t√¢ches (4.7 GB)
- `mistral:7b` - Rapide, bon pour les t√¢ches simples (4.1 GB)
- `qwen2.5:7b` - Haute qualit√©, excellent pour les t√¢ches complexes (4.7 GB)
- `gemma2:9b` - Alternative de Google, tr√®s performant (5.4 GB)

**Configuration** :

In [None]:
# Configuration Ollama
lm_ollama_llama = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=0.3
)

lm_ollama_mistral = dspy.LM(
    model='ollama_chat/mistral:7b',
    api_base='http://localhost:11434',
    temperature=0.3
)

lm_ollama_qwen = dspy.LM(
    model='ollama_chat/qwen2.5:7b',
    api_base='http://localhost:11434',
    temperature=0.3
)

print("‚úÖ Mod√®les Ollama configur√©s:")
print("   - llama3.1:8b")
print("   - mistral:7b")
print("   - qwen2.5:7b")

### 5.2.2 OpenAI (API, payant)

OpenAI propose des mod√®les tr√®s performants via API.

**Mod√®les recommand√©s** :
- `gpt-4o-mini` - Rapide et √©conomique, bon rapport qualit√©/prix
- `gpt-4o` - Haute performance, multimodal
- `gpt-4-turbo` - √âquilibr√© performance/co√ªt

**Configuration** :

In [None]:
import os

# Configuration OpenAI (n√©cessite OPENAI_API_KEY dans l'environnement)
if os.getenv('OPENAI_API_KEY'):
    lm_openai_mini = dspy.LM(
        model='openai/gpt-4o-mini',
        temperature=0.3
    )
    
    lm_openai_4o = dspy.LM(
        model='openai/gpt-4o',
        temperature=0.3
    )
    
    print("‚úÖ Mod√®les OpenAI configur√©s:")
    print("   - gpt-4o-mini")
    print("   - gpt-4o")
else:
    print("‚ö†Ô∏è OPENAI_API_KEY non d√©finie - mod√®les OpenAI non disponibles")
    print("   Pour utiliser OpenAI, d√©finissez la variable d'environnement:")
    print("   export OPENAI_API_KEY='votre-cl√©-api'")
    lm_openai_mini = None
    lm_openai_4o = None

### 5.2.3 Anthropic (API, payant)

Anthropic propose les mod√®les Claude, connus pour leur qualit√© et leur s√©curit√©.

**Mod√®les recommand√©s** :
- `claude-3-5-haiku-20241022` - Rapide et √©conomique
- `claude-3-5-sonnet-20241022` - √âquilibr√©, excellent pour la plupart des t√¢ches
- `claude-3-opus-20240229` - Maximum de performance

**Configuration** :

In [None]:
# Configuration Anthropic (n√©cessite ANTHROPIC_API_KEY dans l'environnement)
if os.getenv('ANTHROPIC_API_KEY'):
    lm_claude_haiku = dspy.LM(
        model='anthropic/claude-3-5-haiku-20241022',
        temperature=0.3
    )
    
    lm_claude_sonnet = dspy.LM(
        model='anthropic/claude-3-5-sonnet-20241022',
        temperature=0.3
    )
    
    print("‚úÖ Mod√®les Anthropic configur√©s:")
    print("   - claude-3-5-haiku")
    print("   - claude-3-5-sonnet")
else:
    print("‚ö†Ô∏è ANTHROPIC_API_KEY non d√©finie - mod√®les Anthropic non disponibles")
    print("   Pour utiliser Anthropic, d√©finissez la variable d'environnement:")
    print("   export ANTHROPIC_API_KEY='votre-cl√©-api'")
    lm_claude_haiku = None
    lm_claude_sonnet = None

## 5.3 Comparer les performances de diff√©rents mod√®les

Maintenant que nous avons configur√© plusieurs mod√®les, comparons leurs performances sur notre t√¢che de classification de tickets IT.

### Fonction de benchmarking

In [None]:
import time

def benchmark_model(lm, model_name, examples, metric):
    """
    √âvalue un mod√®le sur un ensemble d'exemples
    
    Args:
        lm: Le language model DSPy
        model_name: Nom du mod√®le (pour affichage)
        examples: Liste d'exemples de validation
        metric: Fonction de m√©trique
    
    Returns:
        dict avec score et temps d'ex√©cution
    """
    # Configurer DSPy avec ce mod√®le
    dspy.configure(lm=lm)
    
    # Cr√©er un classifier avec ce mod√®le
    classifier = SimpleTicketClassifier()
    
    # Mesurer le temps
    start_time = time.time()
    
    # √âvaluer
    total_score = 0
    for example in examples:
        prediction = classifier(ticket=example['ticket'])
        score = metric(example, prediction)
        total_score += score
    
    end_time = time.time()
    
    # Calculer les r√©sultats
    avg_score = total_score / len(examples)
    elapsed_time = end_time - start_time
    
    return {
        'model': model_name,
        'score': avg_score,
        'time': elapsed_time
    }

print("‚úÖ Fonction de benchmarking d√©finie")

### Comparaison des mod√®les Ollama

Comparons les 3 mod√®les Ollama locaux :

In [None]:
print("üîç Comparaison des mod√®les Ollama...")
print("‚è∞ Cela va prendre quelques minutes\n")

results = []

# Benchmarker llama3.1:8b
print("1/3 √âvaluation de llama3.1:8b...")
result_llama = benchmark_model(lm_ollama_llama, 'llama3.1:8b', valset, exact_match_metric)
results.append(result_llama)
print(f"   Score: {result_llama['score']:.2%} | Temps: {result_llama['time']:.1f}s\n")

# Benchmarker mistral:7b
print("2/3 √âvaluation de mistral:7b...")
result_mistral = benchmark_model(lm_ollama_mistral, 'mistral:7b', valset, exact_match_metric)
results.append(result_mistral)
print(f"   Score: {result_mistral['score']:.2%} | Temps: {result_mistral['time']:.1f}s\n")

# Benchmarker qwen2.5:7b
print("3/3 √âvaluation de qwen2.5:7b...")
result_qwen = benchmark_model(lm_ollama_qwen, 'qwen2.5:7b', valset, exact_match_metric)
results.append(result_qwen)
print(f"   Score: {result_qwen['score']:.2%} | Temps: {result_qwen['time']:.1f}s\n")

# Afficher le r√©sum√©
print("=" * 60)
print("üìä R√âSUM√â DES PERFORMANCES")
print("=" * 60)
for r in sorted(results, key=lambda x: x['score'], reverse=True):
    print(f"{r['model']:20} | Score: {r['score']:6.2%} | Temps: {r['time']:5.1f}s")
print("=" * 60)

## 5.4 Architectures hybrides: utiliser diff√©rents mod√®les pour diff√©rentes t√¢ches

Une **architecture hybride** utilise diff√©rents mod√®les pour diff√©rentes parties de votre pipeline. Par exemple :

- Mod√®le **rapide et √©conomique** pour la cat√©gorisation
- Mod√®le **pr√©cis mais co√ªteux** pour la priorisation

### Avantages

- üí∞ **Optimisation des co√ªts** : Utiliser des mod√®les co√ªteux uniquement quand n√©cessaire
- ‚ö° **Optimisation de la vitesse** : Mod√®les rapides pour les t√¢ches simples
- üéØ **Optimisation de la qualit√©** : Meilleurs mod√®les pour les t√¢ches critiques

### Exemple: pipeline hybride

Cr√©ons un classifier qui utilise deux mod√®les diff√©rents :

In [None]:
class HybridTicketClassifier(dspy.Module):
    """
    Classifier hybride utilisant 2 mod√®les diff√©rents:
    - Mod√®le rapide pour la cat√©gorie
    - Mod√®le pr√©cis pour la priorit√©
    """
    
    def __init__(self, fast_lm, accurate_lm):
        super().__init__()
        self.fast_lm = fast_lm
        self.accurate_lm = accurate_lm
        
        # Signature pour la cat√©gorie
        self.category_signature = CategoryClassifier
        
        # Signature pour la priorit√©
        self.priority_signature = PriorityClassifier
    
    def forward(self, ticket):
        # √âtape 1: Cat√©gorisation avec le mod√®le rapide
        with dspy.settings.context(lm=self.fast_lm):
            category_predictor = dspy.ChainOfThought(self.category_signature)
            category_result = category_predictor(ticket=ticket)
        
        # √âtape 2: Priorisation avec le mod√®le pr√©cis
        with dspy.settings.context(lm=self.accurate_lm):
            priority_predictor = dspy.ChainOfThought(self.priority_signature)
            priority_result = priority_predictor(
                ticket=ticket,
                category=category_result.category
            )
        
        return dspy.Prediction(
            category=category_result.category,
            priority=priority_result.priority
        )

print("‚úÖ Classe HybridTicketClassifier d√©finie")

### Tester le classifier hybride

In [None]:
print("üîÄ Test du classifier hybride")
print("   Mod√®le rapide (cat√©gorie): mistral:7b")
print("   Mod√®le pr√©cis (priorit√©): llama3.1:8b\n")

# Cr√©er le classifier hybride
hybrid_classifier = HybridTicketClassifier(
    fast_lm=lm_ollama_mistral,      # Rapide pour la cat√©gorie
    accurate_lm=lm_ollama_llama     # Pr√©cis pour la priorit√©
)

# Configurer DSPy (requis pour l'ex√©cution)
dspy.configure(lm=lm_ollama_llama)

# Tester sur quelques exemples
print("üìù Exemples de pr√©dictions:\n")

test_tickets = [
    "Mon ordinateur portable ne d√©marre plus, j'ai une pr√©sentation importante dans 2 heures",
    "Je voudrais acc√®s au VPN pour le t√©l√©travail quand c'est possible",
    "Toutes les imprimantes de l'√©tage sont hors ligne"
]

for i, ticket in enumerate(test_tickets, 1):
    result = hybrid_classifier(ticket=ticket)
    print(f"{i}. Ticket: {ticket[:60]}...")
    print(f"   ‚Üí Cat√©gorie: {result.category} | Priorit√©: {result.priority}\n")

# √âvaluer sur l'ensemble de validation
print("üìä √âvaluation sur l'ensemble de validation:")
score_hybrid = evaluate_module(hybrid_classifier, val_examples, exact_match_metric)
print(f"   Score: {score_hybrid:.2%}")

## 5.5 Guide de s√©lection de mod√®les

### Crit√®res de s√©lection

| Crit√®re | Ollama (local) | OpenAI | Anthropic |
|---------|---------------|--------|-----------|
| **Co√ªt** | Gratuit (mat√©riel local) | Payant √† l'usage | Payant √† l'usage |
| **Vitesse** | D√©pend du mat√©riel | Rapide (API cloud) | Rapide (API cloud) |
| **Confidentialit√©** | ‚úÖ 100% local | ‚ö†Ô∏è Donn√©es envoy√©es √† OpenAI | ‚ö†Ô∏è Donn√©es envoy√©es √† Anthropic |
| **Qualit√©** | Bonne (7-8B params) | Excellente | Excellente |
| **Disponibilit√©** | N√©cessite installation | API toujours disponible | API toujours disponible |
| **Latence** | Faible (local) | Moyenne (r√©seau) | Moyenne (r√©seau) |

### Recommandations par cas d'usage

#### 1. D√©veloppement et prototypage
**Choix recommand√©** : Ollama (llama3.1:8b ou qwen2.5:7b)
- ‚úÖ Gratuit, it√©rations rapides
- ‚úÖ Pas de limite de requ√™tes
- ‚úÖ Confidentialit√© des donn√©es

#### 2. Production √† faible volume (<1000 requ√™tes/jour)
**Choix recommand√©** : OpenAI (gpt-4o-mini) ou Anthropic (claude-3-5-haiku)
- ‚úÖ Co√ªts acceptables
- ‚úÖ Haute disponibilit√©
- ‚úÖ Excellente qualit√©

#### 3. Production √† haut volume (>10000 requ√™tes/jour)
**Choix recommand√©** : Architecture hybride
- Ollama pour les t√¢ches simples (cat√©gorisation)
- API payante pour les t√¢ches critiques (priorisation)
- ‚úÖ Optimisation du rapport co√ªt/performance

#### 4. Donn√©es sensibles (sant√©, finance, etc.)
**Choix recommand√©** : Ollama uniquement
- ‚úÖ Aucune donn√©e ne quitte votre infrastructure
- ‚úÖ Conformit√© RGPD/HIPAA facilit√©e

#### 5. Recherche et exp√©rimentation
**Choix recommand√©** : Tous les mod√®les
- Tester plusieurs mod√®les pour trouver le meilleur
- Utiliser Ollama pour les it√©rations rapides
- Valider avec des mod√®les API avant production

## 5.6 R√©sum√© de la Partie 5

### Ce que nous avons appris

1. **Abstraction DSPy** : Un seul code fonctionne avec tous les fournisseurs LLM
   
2. **Configuration de fournisseurs** :
   - **Ollama** : Local, gratuit, confidentialit√© maximale
   - **OpenAI** : API cloud, haute qualit√©, payant
   - **Anthropic** : API cloud, excellente qualit√©, payant

3. **Comparaison de mod√®les** :
   - Fonction de benchmarking pour comparer performances
   - Mesure du score ET du temps d'ex√©cution
   - Aide √† la d√©cision data-driven

4. **Architectures hybrides** :
   - Diff√©rents mod√®les pour diff√©rentes t√¢ches
   - Optimisation co√ªt/performance/vitesse
   - Utilisation de `dspy.settings.context(lm=...)`

5. **Guide de s√©lection** :
   - Crit√®res : co√ªt, vitesse, confidentialit√©, qualit√©
   - Recommandations par cas d'usage
   - Strat√©gies adapt√©es au contexte

### Points cl√©s √† retenir

- ‚úÖ **Flexibilit√©** : Changer de mod√®le ne n√©cessite que quelques lignes de code
- ‚úÖ **Exp√©rimentation** : Tester plusieurs mod√®les est facile et recommand√©
- ‚úÖ **Optimisation** : Architectures hybrides pour le meilleur rapport co√ªt/performance
- ‚úÖ **Confidentialit√©** : Ollama pour les donn√©es sensibles
- ‚úÖ **√âvolutivit√©** : Commencer avec Ollama, migrer vers API si n√©cessaire

### Exemple de workflow recommand√©

```python
# 1. D√©veloppement avec Ollama (gratuit, rapide)
lm_dev = dspy.LM('ollama_chat/llama3.1:8b', api_base='http://localhost:11434')
dspy.configure(lm=lm_dev)

# 2. Test avec plusieurs mod√®les
models = [lm_ollama_llama, lm_ollama_qwen, lm_openai_mini]
results = [benchmark_model(lm, name, valset, metric) for lm, name in models]

# 3. Production avec le meilleur mod√®le ou architecture hybride
lm_prod = best_model  # Ou HybridTicketClassifier(fast_lm, accurate_lm)
```

### Prochaines √©tapes

- **Partie 6** : Patterns avanc√©s (optionnel - validation, retry, fallback)
- **Partie 7** : GEPA en pratique (optimisation sophistiqu√©e)

# Partie 6: Patterns avanc√©s (optionnel)

## 6.1 Introduction aux patterns avanc√©s

Cette section couvre des **patterns de production** pour rendre vos modules DSPy plus robustes, fiables et performants.

### Pourquoi utiliser ces patterns?

En production, les LLMs peuvent :
- ‚ùå G√©n√©rer des sorties invalides (mauvais format, valeurs hors limites)
- ‚ùå √âchouer temporairement (timeout, rate limiting)
- ‚ùå Produire des r√©sultats incoh√©rents
- ‚ùå √ätre indisponibles (downtime API)

Les **patterns avanc√©s** permettent de g√©rer ces situations.

### Patterns couverts

1. **Validation** : V√©rifier et corriger les sorties invalides
2. **Retry** : R√©essayer automatiquement en cas d'erreur
3. **Fallback** : Utiliser un mod√®le de secours si le principal √©choue
4. **Ensemble** : Combiner plusieurs pr√©dictions pour plus de robustesse
5. **Cha√Ænage avec contr√¥le** : Pipelines complexes avec branchement conditionnel

Ces patterns sont **optionnels** mais fortement recommand√©s pour les applications de production.

## 6.2 Pattern de validation

Le **pattern de validation** v√©rifie que les sorties du LLM respectent les contraintes de votre application.

### Probl√®me

Les LLMs peuvent g√©n√©rer :
- Des cat√©gories qui n'existent pas ("Mat√©riel" au lieu de "Hardware")
- Des priorit√©s invalides ("Tr√®s urgent" au lieu de "Urgent")
- Des formats incorrects (minuscules au lieu de majuscules)

### Solution

Cr√©er un module qui :
1. Ex√©cute la pr√©diction
2. **Valide** la sortie
3. **Corrige** ou **rejette** si invalide
4. Optionnellement, **r√©essaye** avec des instructions clarifi√©es

### Exemple: classifier avec validation

In [None]:
class ValidatedTicketClassifier(dspy.Module):
    """
    Classifier avec validation des sorties
    """
    
    def __init__(self):
        super().__init__()
        self.classifier = dspy.ChainOfThought(TicketClassifier)
        
        # Valeurs valides
        self.valid_categories = set(cat.lower() for cat in CATEGORIES)
        self.valid_priorities = set(pri.lower() for pri in PRIORITIES)
    
    def validate_and_correct(self, category, priority):
        """
        Valide et corrige les sorties si n√©cessaire
        
        Returns:
            (category, priority, is_valid)
        """
        category_lower = category.strip().lower()
        priority_lower = priority.strip().lower()
        
        is_valid = True
        
        # Validation de la cat√©gorie
        if category_lower not in self.valid_categories:
            # Essayer de trouver une correspondance approximative
            if 'hard' in category_lower or 'mat√©r' in category_lower:
                category = 'Hardware'
            elif 'soft' in category_lower or 'logic' in category_lower:
                category = 'Software'
            elif 'r√©seau' in category_lower or 'network' in category_lower:
                category = 'Network'
            elif 'compte' in category_lower or 'account' in category_lower:
                category = 'Account'
            else:
                # Par d√©faut, mettre "Other"
                category = 'Other'
                is_valid = False
        else:
            # Normaliser la casse
            category = next(c for c in CATEGORIES if c.lower() == category_lower)
        
        # Validation de la priorit√©
        if priority_lower not in self.valid_priorities:
            # Essayer de mapper
            if 'critic' in priority_lower or 'critique' in priority_lower:
                priority = 'Critical'
            elif 'urgent' in priority_lower:
                priority = 'Urgent'
            elif 'high' in priority_lower or 'haut' in priority_lower:
                priority = 'High'
            elif 'medium' in priority_lower or 'moyen' in priority_lower:
                priority = 'Medium'
            else:
                priority = 'Low'
                is_valid = False
        else:
            # Normaliser la casse
            priority = next(p for p in PRIORITIES if p.lower() == priority_lower)
        
        return category, priority, is_valid
    
    def forward(self, ticket):
        # Pr√©diction initiale
        result = self.classifier(ticket=ticket)
        
        # Validation et correction
        category, priority, is_valid = self.validate_and_correct(
            result.category,
            result.priority
        )
        
        return dspy.Prediction(
            category=category,
            priority=priority,
            is_valid=is_valid
        )

print("‚úÖ Classe ValidatedTicketClassifier d√©finie")

### Test du classifier avec validation

In [None]:
print("‚úÖ Test du classifier avec validation\n")

# Configurer le mod√®le
dspy.configure(lm=lm_ollama_llama)

# Cr√©er le classifier valid√©
validated_classifier = ValidatedTicketClassifier()

# Tester sur quelques exemples
test_examples = [
    "Mon imprimante ne fonctionne pas",
    "Besoin d'acc√®s au serveur de fichiers",
    "Le r√©seau est tr√®s lent, urgent!"
]

for i, ticket in enumerate(test_examples, 1):
    result = validated_classifier(ticket=ticket)
    status = "‚úÖ Valide" if result.is_valid else "‚ö†Ô∏è Corrig√©"
    print(f"{i}. {ticket}")
    print(f"   ‚Üí {result.category} | {result.priority} | {status}\n")

# √âvaluer sur l'ensemble de validation
print("üìä √âvaluation sur l'ensemble de validation:")
score = evaluate_module(validated_classifier, val_examples, exact_match_metric)
print(f"   Score: {score:.2%}")

# Compter les corrections effectu√©es
corrections = 0
for example in val_examples[:10]:
    result = validated_classifier(ticket=example['ticket'])
    if not result.is_valid:
        corrections += 1

print(f"   Corrections appliqu√©es: {corrections}/10 sur les premiers exemples")

## 6.3 Pattern de retry (r√©essayer en cas d'erreur)

Le **pattern de retry** r√©essaye automatiquement une op√©ration en cas d'√©chec temporaire.

### Probl√®me

Les APIs LLM peuvent √©chouer pour diverses raisons :
- Timeout r√©seau
- Rate limiting (trop de requ√™tes)
- Surcharge temporaire du service
- Erreurs intermittentes

### Solution

Impl√©menter une logique de retry avec :
1. **Nombre maximum de tentatives** (ex: 3)
2. **D√©lai exponentiel** entre les tentatives (1s, 2s, 4s)
3. **Gestion des erreurs** sp√©cifiques

### Exemple: classifier avec retry

In [None]:
import time

class RetryTicketClassifier(dspy.Module):
    """
    Classifier avec logique de retry en cas d'erreur
    """
    
    def __init__(self, max_retries=3, initial_delay=1.0):
        super().__init__()
        self.classifier = dspy.ChainOfThought(TicketClassifier)
        self.max_retries = max_retries
        self.initial_delay = initial_delay
    
    def forward(self, ticket):
        last_error = None
        
        for attempt in range(self.max_retries):
            try:
                # Tentative de pr√©diction
                result = self.classifier(ticket=ticket)
                
                # Succ√®s - retourner le r√©sultat
                return dspy.Prediction(
                    category=result.category,
                    priority=result.priority,
                    attempts=attempt + 1
                )
                
            except Exception as e:
                last_error = e
                
                # Si c'est la derni√®re tentative, on va lever l'erreur
                if attempt == self.max_retries - 1:
                    break
                
                # Calculer le d√©lai avec backoff exponentiel
                delay = self.initial_delay * (2 ** attempt)
                
                print(f"‚ö†Ô∏è Tentative {attempt + 1} √©chou√©e: {e}")
                print(f"   Nouvelle tentative dans {delay:.1f}s...")
                
                time.sleep(delay)
        
        # Toutes les tentatives ont √©chou√©
        raise Exception(f"√âchec apr√®s {self.max_retries} tentatives: {last_error}")

print("‚úÖ Classe RetryTicketClassifier d√©finie")

## 6.4 Pattern de fallback (mod√®le de secours)

Le **pattern de fallback** utilise un mod√®le de secours si le mod√®le principal √©choue.

### Probl√®me

- Le mod√®le principal (API payante) peut √™tre indisponible
- Vous voulez garantir la disponibilit√© du service
- Budget limit√© : utiliser un mod√®le local en secours

### Solution

Cr√©er un module qui :
1. Essaye avec le **mod√®le principal** (haute qualit√©)
2. Si √©chec, bascule vers le **mod√®le de secours** (local/gratuit)
3. Retourne quelle strat√©gie a √©t√© utilis√©e

### Exemple: classifier avec fallback

In [None]:
class FallbackTicketClassifier(dspy.Module):
    """
    Classifier avec fallback vers un mod√®le de secours
    """
    
    def __init__(self, primary_lm, fallback_lm):
        super().__init__()
        self.primary_lm = primary_lm
        self.fallback_lm = fallback_lm
        self.signature = TicketClassifier
    
    def forward(self, ticket):
        # Tentative avec le mod√®le principal
        try:
            with dspy.settings.context(lm=self.primary_lm):
                predictor = dspy.ChainOfThought(self.signature)
                result = predictor(ticket=ticket)
                
                return dspy.Prediction(
                    category=result.category,
                    priority=result.priority,
                    model_used='primary'
                )
        
        except Exception as e:
            print(f"‚ö†Ô∏è Mod√®le principal √©chou√©: {e}")
            print(f"   Basculement vers le mod√®le de secours...")
            
            # Fallback vers le mod√®le de secours
            try:
                with dspy.settings.context(lm=self.fallback_lm):
                    predictor = dspy.ChainOfThought(self.signature)
                    result = predictor(ticket=ticket)
                    
                    return dspy.Prediction(
                        category=result.category,
                        priority=result.priority,
                        model_used='fallback'
                    )
            
            except Exception as fallback_error:
                # Les deux mod√®les ont √©chou√©
                raise Exception(f"√âchec des deux mod√®les. Fallback error: {fallback_error}")

print("‚úÖ Classe FallbackTicketClassifier d√©finie")

### Test du classifier avec fallback

In [None]:
print("üîÄ Test du classifier avec fallback")
print("   Mod√®le principal: llama3.1:8b")
print("   Mod√®le de secours: mistral:7b\n")

# Cr√©er le classifier avec fallback
fallback_classifier = FallbackTicketClassifier(
    primary_lm=lm_ollama_llama,
    fallback_lm=lm_ollama_mistral
)

# Tester (normalement, le mod√®le principal devrait fonctionner)
test_ticket = "Mon imprimante ne fonctionne plus"
result = fallback_classifier(ticket=test_ticket)

print(f"Ticket: {test_ticket}")
print(f"R√©sultat: {result.category} | {result.priority}")
print(f"Mod√®le utilis√©: {result.model_used}")
print()

# Note: Dans un cas r√©el, le fallback se d√©clencherait si:
# - L'API est indisponible
# - Le rate limit est atteint
# - Le timeout est d√©pass√©
# - Une erreur r√©seau se produit

print("üí° Le pattern de fallback garantit la disponibilit√© du service")
print("   m√™me en cas de probl√®me avec le mod√®le principal.")

## 6.5 Pattern de raffinement it√©ratif (Refine)

`dspy.Refine` est un module qui am√©liore it√©rativement une pr√©diction en :
1. **Ex√©cutant le module N fois** avec diff√©rents param√®tres
2. **√âvaluant chaque pr√©diction** avec une fonction de r√©compense
3. **Retournant la meilleure pr√©diction** ou s'arr√™tant si le seuil est atteint

### Diff√©rence avec les autres modules :

| Module | Approche |
|--------|----------|
| `ChainOfThought` | Une seule tentative avec raisonnement |
| `ReAct` | Raisonnement + actions s√©quentielles |
| `Refine` | **Plusieurs tentatives √©valu√©es par score de qualit√©** |

### Cas d'usage id√©aux :
- Classifications **ambigu√´s** n√©cessitant plusieurs analyses
- Situations o√π la **qualit√© est critique** et on peut se permettre plus de calculs
- T√¢ches avec des **crit√®res de qualit√© mesurables** (via fonction de r√©compense)


In [None]:
class RefinedTicketClassifier(dspy.Module):
    """
    Classifier avec raffinement it√©ratif.
    
    Utilise dspy.Refine pour ex√©cuter le classifier plusieurs fois
    et retourner la meilleure pr√©diction selon une fonction de r√©compense.
    """
    
    def __init__(self, N=3, threshold=1.0):
        super().__init__()
        self.valid_categories = {'hardware', 'software', 'network', 'account', 'application'}
        self.valid_priorities = {'critical', 'urgent', 'high', 'medium', 'low'}
        
        # Module de base √† raffiner
        base_module = dspy.ChainOfThought(TicketClassifier)
        
        # Cr√©er le module Refine avec fonction de r√©compense
        self.refine = dspy.Refine(
            module=base_module,
            N=N,  # Nombre de tentatives
            reward_fn=self._reward_function,  # Fonction d'√©valuation
            threshold=threshold  # Arr√™t anticip√© si atteint
        )
    
    def _reward_function(self, args, prediction):
        """
        Fonction de r√©compense : √©value la qualit√© de la pr√©diction.
        
        Retourne un score entre 0.0 et 1.0 :
        - 1.0 : cat√©gorie ET priorit√© valides
        - 0.5 : seulement l'un des deux valide
        - 0.0 : les deux invalides
        """
        score = 0.0
        
        # V√©rifier la validit√© de la cat√©gorie
        if hasattr(prediction, 'category'):
            if prediction.category.strip().lower() in self.valid_categories:
                score += 0.5
        
        # V√©rifier la validit√© de la priorit√©
        if hasattr(prediction, 'priority'):
            if prediction.priority.strip().lower() in self.valid_priorities:
                score += 0.5
        
        return score
    
    def forward(self, ticket):
        # Refine ex√©cutera le module N fois et retournera la meilleure pr√©diction
        result = self.refine(ticket=ticket)
        return dspy.Prediction(
            category=result.category,
            priority=result.priority
        )

### Test du classifier avec raffinement


In [None]:
print("üîÑ Test du classifier avec raffinement it√©ratif\n")

# Cr√©er le classifier avec 3 tentatives
refined_classifier = RefinedTicketClassifier(N=3, threshold=1.0)

# Ticket ambigu pour tester le raffinement
ticket_ambigu = "Le syst√®me affiche des messages d'erreur √©tranges. Parfois √ßa marche, parfois non."

print(f"Ticket: {ticket_ambigu}\n")

# Classifier avec raffinement
result = refined_classifier(ticket=ticket_ambigu)

print(f"‚úÖ R√©sultat apr√®s raffinement:")
print(f"   Cat√©gorie: {result.category}")
print(f"   Priorit√©: {result.priority}")

print("\nüí° Le module Refine a ex√©cut√© le classifier jusqu'√† 3 fois")
print("   et a retourn√© la pr√©diction avec le meilleur score de qualit√©.")

### üìä Comparaison : ChainOfThought vs Refine

| Aspect | ChainOfThought | Refine |
|--------|----------------|--------|
| **Nombre de tentatives** | 1 | N (configurable) |
| **√âvaluation** | Aucune | Fonction de r√©compense |
| **Co√ªt (appels LLM)** | Faible (1x) | Plus √©lev√© (Nx) |
| **Qualit√©** | Bonne | Potentiellement meilleure |
| **Cas d'usage** | T√¢ches standard | T√¢ches critiques/ambigu√´s |

### üéØ Quand utiliser Refine ?

‚úÖ **Utilisez Refine quand :**
- La qualit√© est **critique** (d√©cisions importantes)
- Les tickets sont **ambigus** ou complexes
- Vous avez une **fonction de qualit√©** claire
- Le **co√ªt suppl√©mentaire** est acceptable

‚ùå **√âvitez Refine si :**
- Vous avez des **contraintes de latence** strictes
- Les **co√ªts** doivent √™tre minimis√©s
- La t√¢che est **simple** et ChainOfThought suffit


## 6.6 Pattern d'ensemble (combiner plusieurs pr√©dictions)

Le **pattern d'ensemble** combine les pr√©dictions de plusieurs mod√®les pour am√©liorer la robustesse et la pr√©cision.

### Probl√®me

- Un seul mod√®le peut faire des erreurs
- Diff√©rents mod√®les ont diff√©rentes forces
- Vous voulez maximiser la fiabilit√©

### Solution

Cr√©er un module qui :
1. Ex√©cute la pr√©diction avec **plusieurs mod√®les**
2. **Combine** les r√©sultats (vote majoritaire, moyenne pond√©r√©e, etc.)
3. Retourne la pr√©diction la plus consensuelle

### Strat√©gies de combinaison

- **Vote majoritaire** : La pr√©diction la plus fr√©quente
- **Vote pond√©r√©** : Chaque mod√®le a un poids diff√©rent
- **Consensus strict** : Tous les mod√®les doivent √™tre d'accord

### Exemple: classifier d'ensemble

In [None]:
from collections import Counter

class EnsembleTicketClassifier(dspy.Module):
    """
    Classifier d'ensemble utilisant plusieurs mod√®les et vote majoritaire
    """
    
    def __init__(self, models):
        """
        Args:
            models: Liste de tuples (lm, weight) o√π weight est le poids du mod√®le
        """
        super().__init__()
        self.models = models
        self.signature = TicketClassifier
    
    def forward(self, ticket):
        predictions = []
        
        # Obtenir les pr√©dictions de chaque mod√®le
        for lm, weight in self.models:
            try:
                with dspy.settings.context(lm=lm):
                    predictor = dspy.ChainOfThought(self.signature)
                    result = predictor(ticket=ticket)
                    
                    # Ajouter la pr√©diction avec son poids
                    for _ in range(weight):
                        predictions.append({
                            'category': result.category.strip().lower(),
                            'priority': result.priority.strip().lower()
                        })
            
            except Exception as e:
                print(f"‚ö†Ô∏è Erreur avec un mod√®le: {e}")
                continue
        
        if not predictions:
            raise Exception("Aucun mod√®le n'a pu faire de pr√©diction")
        
        # Vote majoritaire pour la cat√©gorie
        categories = [p['category'] for p in predictions]
        category_counts = Counter(categories)
        winning_category = category_counts.most_common(1)[0][0]
        
        # Vote majoritaire pour la priorit√©
        priorities = [p['priority'] for p in predictions]
        priority_counts = Counter(priorities)
        winning_priority = priority_counts.most_common(1)[0][0]
        
        # Normaliser les r√©sultats
        category = next((c for c in CATEGORIES if c.lower() == winning_category), winning_category)
        priority = next((p for p in PRIORITIES if p.lower() == winning_priority), winning_priority)
        
        # Calculer la confiance (pourcentage d'accord)
        category_confidence = category_counts[winning_category] / len(predictions)
        priority_confidence = priority_counts[winning_priority] / len(predictions)
        
        return dspy.Prediction(
            category=category,
            priority=priority,
            category_confidence=category_confidence,
            priority_confidence=priority_confidence,
            num_models=len(self.models)
        )

print("‚úÖ Classe EnsembleTicketClassifier d√©finie")

### Test du classifier d'ensemble

In [None]:
print("üéØ Test du classifier d'ensemble")
print("   Combinaison de 3 mod√®les avec vote majoritaire\n")

# Cr√©er l'ensemble avec 3 mod√®les
# Format: (mod√®le, poids)
ensemble_classifier = EnsembleTicketClassifier([
    (lm_ollama_llama, 2),    # Poids 2 (meilleur mod√®le)
    (lm_ollama_qwen, 2),     # Poids 2 (aussi tr√®s bon)
    (lm_ollama_mistral, 1)   # Poids 1 (plus rapide mais moins pr√©cis)
])

# Tester sur quelques exemples
test_tickets = [
    "Mon ordinateur portable ne d√©marre plus, pr√©sentation urgente dans 1h",
    "Besoin d'acc√®s au VPN pour le t√©l√©travail",
]

for i, ticket in enumerate(test_tickets, 1):
    print(f"{i}. Ticket: {ticket}")
    result = ensemble_classifier(ticket=ticket)
    print(f"   ‚Üí Cat√©gorie: {result.category} (confiance: {result.category_confidence:.1%})")
    print(f"   ‚Üí Priorit√©: {result.priority} (confiance: {result.priority_confidence:.1%})")
    print()

# √âvaluer sur l'ensemble de validation
print("üìä √âvaluation de l'ensemble sur la validation:")
score_ensemble = evaluate_module(ensemble_classifier, val_examples, exact_match_metric)
print(f"   Score: {score_ensemble:.2%}")
print()

print("üí° L'ensemble combine les forces de plusieurs mod√®les")
print("   pour am√©liorer la robustesse et la pr√©cision.")

## 6.7 Combiner les patterns

En production, vous pouvez **combiner plusieurs patterns** pour maximiser la robustesse :

### Exemple: classifier de production complet

```python
class ProductionTicketClassifier(dspy.Module):
    """
    Classifier de production avec tous les patterns
    """
    
    def __init__(self, primary_lm, fallback_lm, ensemble_models):
        super().__init__()
        self.primary_lm = primary_lm
        self.fallback_lm = fallback_lm
        self.ensemble_models = ensemble_models
        self.valid_categories = set(cat.lower() for cat in CATEGORIES)
        self.valid_priorities = set(pri.lower() for pri in PRIORITIES)
    
    def forward(self, ticket, use_ensemble=False):
        # 1. D√©cider de la strat√©gie
        if use_ensemble:
            # Utiliser l'ensemble pour les cas critiques
            classifier = EnsembleTicketClassifier(self.ensemble_models)
        else:
            # Utiliser le fallback pour les cas normaux
            classifier = FallbackTicketClassifier(self.primary_lm, self.fallback_lm)
        
        # 2. Ex√©cuter avec retry
        max_retries = 3
        for attempt in range(max_retries):
            try:
                result = classifier(ticket=ticket)
                
                # 3. Valider et corriger
                category, priority, is_valid = self.validate_and_correct(
                    result.category,
                    result.priority
                )
                
                return dspy.Prediction(
                    category=category,
                    priority=priority,
                    is_valid=is_valid,
                    strategy='ensemble' if use_ensemble else 'fallback',
                    attempts=attempt + 1
                )
                
            except Exception as e:
                if attempt == max_retries - 1:
                    raise
                time.sleep(2 ** attempt)
```

### Quand utiliser chaque pattern

| Pattern | Quand l'utiliser | Co√ªt |
|---------|-----------------|------|
| **Validation** | Toujours (critique) | Faible |
| **Retry** | APIs externes | Faible |
| **Fallback** | Haute disponibilit√© requise | Moyen |
| **Ensemble** | Pr√©cision maximale requise | √âlev√© |
| **Combinaison** | Production critique | Tr√®s √©lev√© |

## 6.8 R√©sum√© de la Partie 6

### Ce que nous avons appris

1. **Pattern de validation** :
   - V√©rifier que les sorties respectent les contraintes
   - Corriger automatiquement les valeurs invalides
   - Normaliser les formats

2. **Pattern de retry** :
   - R√©essayer automatiquement en cas d'erreur temporaire
   - Backoff exponentiel (1s, 2s, 4s, 8s...)
   - Nombre maximum de tentatives

3. **Pattern de fallback** :
   - Mod√®le de secours si le principal √©choue
   - Garantir la disponibilit√© du service
   - Compromis qualit√©/disponibilit√©

4. **Pattern d'ensemble** :
   - Combiner plusieurs mod√®les (vote majoritaire)
   - Am√©liorer la robustesse
   - Mesurer la confiance

5. **Combinaison de patterns** :
   - Utiliser plusieurs patterns ensemble
   - Architecture de production robuste
   - Adapter selon les besoins

### Points cl√©s √† retenir

- ‚úÖ **Validation** : Toujours valider les sorties en production
- ‚úÖ **Retry** : G√©rer les erreurs temporaires automatiquement
- ‚úÖ **Fallback** : Avoir un plan B pour la disponibilit√©
- ‚úÖ **Ensemble** : Utiliser pour les cas critiques n√©cessitant haute pr√©cision
- ‚úÖ **Combinaison** : Adapter les patterns selon vos contraintes

### Compromis √† consid√©rer

| Aspect | Simple | Production robuste |
|--------|--------|-------------------|
| **Complexit√© du code** | Faible | √âlev√©e |
| **Co√ªt d'ex√©cution** | Faible | √âlev√© (multiple LLM calls) |
| **Latence** | Rapide | Plus lente |
| **Fiabilit√©** | Moyenne | Tr√®s √©lev√©e |
| **Maintenance** | Simple | Plus complexe |

### Recommandations

**Pour d√©buter** :
- Commencer simple (sans patterns)
- Ajouter la validation d√®s que possible
- Ajouter les autres patterns selon les besoins

**Pour la production** :
- Validation : **obligatoire**
- Retry : **fortement recommand√©** pour les APIs
- Fallback : selon l'importance de la disponibilit√©
- Ensemble : uniquement si la pr√©cision est critique

**Strat√©gie progressive** :
1. Phase 1 : Module simple + validation
2. Phase 2 : Ajouter retry pour g√©rer les erreurs
3. Phase 3 : Ajouter fallback pour la disponibilit√©
4. Phase 4 : Ensemble pour les cas critiques seulement

### Prochaines √©tapes

- **Partie 7** : GEPA en pratique (optimisation sophistiqu√©e avec algorithmes g√©n√©tiques)
- **Partie 8** : Conclusion et mise en production

# Partie 7: GEPA en pratique

## 7.1 Introduction √† GEPA

**GEPA** (Genetic-Pareto Algorithm) est l'optimiseur le plus sophistiqu√© de DSPy. Il combine plusieurs techniques avanc√©es pour am√©liorer automatiquement vos prompts.

### Qu'est-ce que GEPA?

GEPA utilise une approche inspir√©e de l'√©volution biologique :

1. **üß¨ Algorithmes g√©n√©tiques** : G√©n√®re des "populations" de prompts qui √©voluent
2. **ü§î R√©flexion LLM** : Utilise un LLM pour analyser les erreurs et proposer des am√©liorations
3. **üìä Optimisation Pareto** : √âquilibre plusieurs objectifs (pr√©cision, concision, etc.)
4. **üîÑ It√©rations adaptatives** : Apprend de ses erreurs pour s'am√©liorer

### Comment √ßa fonctionne?

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ 1. POPULATION INITIALE                                  ‚îÇ
‚îÇ    G√©n√®re plusieurs variantes de prompts               ‚îÇ
‚îÇ    ‚Üì                                                    ‚îÇ
‚îÇ 2. √âVALUATION                                          ‚îÇ
‚îÇ    Teste chaque variante sur les donn√©es d'entra√Ænement‚îÇ
‚îÇ    ‚Üì                                                    ‚îÇ
‚îÇ 3. S√âLECTION                                           ‚îÇ
‚îÇ    Garde les meilleurs (front de Pareto)               ‚îÇ
‚îÇ    ‚Üì                                                    ‚îÇ
‚îÇ 4. R√âFLEXION                                           ‚îÇ
‚îÇ    LLM analyse les erreurs et propose des am√©liorations‚îÇ
‚îÇ    ‚Üì                                                    ‚îÇ
‚îÇ 5. MUTATION                                            ‚îÇ
‚îÇ    G√©n√®re de nouvelles variantes bas√©es sur la r√©flexion‚îÇ
‚îÇ    ‚Üì                                                    ‚îÇ
‚îÇ 6. R√âP√àTE jusqu'√† convergence                          ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

### Pourquoi GEPA est diff√©rent?

| Optimiseur | Approche | R√©flexion LLM | Am√©lioration typique |
|------------|----------|---------------|---------------------|
| BootstrapFewShot | Exemples fixes | ‚ùå Non | 5-15% |
| MIPRO | Variations syst√©matiques | ‚ùå Non | 10-25% |
| **GEPA** | **√âvolution + R√©flexion** | **‚úÖ Oui** | **15-30%** |

### Nouveaut√©s dans DSPy 3.0+

GEPA a √©t√© int√©gr√© directement dans DSPy et n√©cessite maintenant :
- **reflection_lm** : Un mod√®le LLM d√©di√© √† l'analyse des erreurs
- **auto** : Niveau d'optimisation ('light', 'medium', 'heavy')
- **M√©trique compatible** : Doit accepter les param√®tres GEPA

## 7.2 Configuration de GEPA

### Pr√©requis

Avant d'utiliser GEPA, vous devez avoir :

1. ‚úÖ **Donn√©es d'entra√Ænement** : Au moins 15-20 exemples de qualit√©
2. ‚úÖ **Donn√©es de validation** : 5-10 exemples s√©par√©s pour √©viter le surapprentissage
3. ‚úÖ **M√©trique d'√©valuation** : Fonction retournant un score entre 0 et 1
4. ‚úÖ **Module √† optimiser** : Votre module DSPy de base
5. ‚úÖ **Temps** : 10-30 minutes selon le niveau d'optimisation

### Configuration du mod√®le de r√©flexion

Le **reflection_lm** est un LLM utilis√© par GEPA pour analyser les erreurs et proposer des am√©liorations. Il est distinct du mod√®le principal.

**Recommandations** :
- Utiliser un mod√®le avec bonne capacit√© de raisonnement
- Temp√©rature √©lev√©e (1.0) pour plus de cr√©ativit√©
- Max tokens √©lev√© (8000+) pour des analyses d√©taill√©es

In [None]:
print("üîß Configuration de GEPA\n")

# 1. Configurer le mod√®le principal (celui qu'on optimise)
lm_main = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=0.3
)

dspy.configure(lm=lm_main)

# 2. Configurer le mod√®le de r√©flexion pour GEPA
# Important: Temp√©rature √©lev√©e pour plus de cr√©ativit√© dans l'analyse
reflection_lm = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=1.0,      # Haute temp√©rature = plus de cr√©ativit√©
    max_tokens=8000       # Tokens √©lev√©s = analyses d√©taill√©es
)

print("‚úÖ Mod√®le principal configur√©: llama3.1:8b (temp=0.3)")
print("‚úÖ Mod√®le de r√©flexion configur√©: llama3.1:8b (temp=1.0)")
print()

# 3. Pr√©parer les donn√©es au format DSPy
train_examples = [
    dspy.Example(
        ticket=ex['ticket'],
        category=ex['category'],
        priority=ex['priority']
    ).with_inputs('ticket')
    for ex in trainset
]

val_examples = [
    dspy.Example(
        ticket=ex['ticket'],
        category=ex['category'],
        priority=ex['priority']
    ).with_inputs('ticket')
    for ex in valset
]

print(f"‚úÖ Donn√©es pr√©par√©es:")
print(f"   - Entra√Ænement: {len(train_examples)} exemples")
print(f"   - Validation: {len(val_examples)} exemples")

## 7.3 Optimisation avec GEPA (mode 'light')

Le mode **'light'** est le niveau d'optimisation le plus rapide de GEPA. Il est id√©al pour :
- Premi√®re exp√©rimentation avec GEPA
- Tests rapides (5-10 minutes)
- Validation du concept
- Ressources limit√©es

### Niveaux d'optimisation GEPA

| Niveau | Temps estim√© | Appels LLM | Am√©lioration | Usage |
|--------|-------------|------------|--------------|-------|
| **light** | 5-10 min | ~200-400 | 10-20% | Tests, prototypage |
| **medium** | 10-20 min | ~400-800 | 15-25% | Production l√©g√®re |
| **heavy** | 20-40 min | ~800-1600 | 20-30% | Maximum performance |

### Exemple pratique

In [None]:
from dspy.teleprompt import GEPA

print("=" * 70)
print("üß¨ OPTIMISATION GEPA - MODE 'LIGHT'")
print("=" * 70)
print()

# 1. Cr√©er le module √† optimiser
print("1Ô∏è‚É£ Cr√©ation du module de base...")
baseline_classifier = SimpleTicketClassifier()

# 2. √âvaluer AVANT optimisation
print("2Ô∏è‚É£ √âvaluation AVANT optimisation...")
score_before = evaluate_module(baseline_classifier, val_examples, exact_match_metric)
print(f"   üìä Score baseline: {score_before:.2%}\n")

# 3. Configurer l'optimiseur GEPA
print("3Ô∏è‚É£ Configuration de l'optimiseur GEPA...")
optimizer = GEPA(
    metric=exact_match_metric,
    auto='light',                    # Mode rapide
    reflection_lm=reflection_lm      # Mod√®le pour l'analyse des erreurs
)
print("   ‚úÖ Optimiseur configur√© (mode: light)\n")

# 4. Lancer l'optimisation
print("4Ô∏è‚É£ Lancement de l'optimisation GEPA...")
print("   ‚è∞ Cela va prendre 5-10 minutes avec Ollama")
print("   ‚òï C'est le moment de prendre un caf√©!\n")

try:
    optimized_classifier = optimizer.compile(
        student=baseline_classifier,
        trainset=train_examples,
        valset=val_examples
    )
    
    print("\n‚úÖ Optimisation GEPA termin√©e!\n")
    
    # 5. √âvaluer APR√àS optimisation
    print("5Ô∏è‚É£ √âvaluation APR√àS optimisation...")
    score_after = evaluate_module(optimized_classifier, val_examples, exact_match_metric)
    print(f"   üìä Score optimis√©: {score_after:.2%}\n")
    
    # 6. Calculer l'am√©lioration
    improvement = ((score_after - score_before) / score_before) * 100 if score_before > 0 else 0
    improvement_abs = score_after - score_before
    
    print("=" * 70)
    print("üìà R√âSULTATS DE L'OPTIMISATION")
    print("=" * 70)
    print(f"Score AVANT:      {score_before:.2%}")
    print(f"Score APR√àS:      {score_after:.2%}")
    print(f"Am√©lioration:     {improvement_abs:+.2%} ({improvement:+.1f}%)")
    print("=" * 70)
    
except Exception as e:
    print(f"\n‚ùå Erreur lors de l'optimisation GEPA: {e}")
    print("   V√©rifiez que:")
    print("   - Ollama est en cours d'ex√©cution")
    print("   - Le mod√®le llama3.1:8b est t√©l√©charg√©")
    print("   - Vous avez suffisamment de m√©moire disponible")

## 7.4 Analyser les prompts optimis√©s

Une des forces de GEPA est qu'il **g√©n√®re des prompts explicites** que vous pouvez inspecter et comprendre. Cela permet de :
- üîç Voir ce que GEPA a chang√©
- üìö Apprendre comment am√©liorer vos prompts manuellement
- ‚úÖ Valider que les modifications ont du sens
- üéì Comprendre pourquoi la performance s'est am√©lior√©e

### Inspection des prompts

In [None]:
print("üîç Inspection des prompts optimis√©s par GEPA\n")

# Essayer d'acc√©der aux prompts optimis√©s
if hasattr(optimized_classifier, 'classifier'):
    predictor = optimized_classifier.classifier
    
    # 1. Signature optimis√©e
    if hasattr(predictor, 'extended_signature'):
        print("=" * 70)
        print("üìù SIGNATURE OPTIMIS√âE")
        print("=" * 70)
        sig = predictor.extended_signature
        print(f"Docstring: {sig.__doc__}")
        print()
        
        # Afficher les champs
        if hasattr(sig, 'input_fields'):
            print("Champs d'entr√©e:")
            for name, field in sig.input_fields.items():
                desc = getattr(field, 'desc', 'N/A')
                print(f"  - {name}: {desc}")
        
        if hasattr(sig, 'output_fields'):
            print("\nChamps de sortie:")
            for name, field in sig.output_fields.items():
                desc = getattr(field, 'desc', 'N/A')
                print(f"  - {name}: {desc}")
        print()
    
    # 2. Exemples de d√©monstration
    if hasattr(predictor, 'demos') and predictor.demos:
        print("=" * 70)
        print("üìö EXEMPLES DE D√âMONSTRATION G√âN√âR√âS")
        print("=" * 70)
        print(f"Nombre d'exemples: {len(predictor.demos)}\n")
        
        # Afficher les 3 premiers exemples
        for i, demo in enumerate(predictor.demos[:3], 1):
            print(f"Exemple {i}:")
            print(f"  Ticket: {demo.ticket[:80]}...")
            if hasattr(demo, 'category'):
                print(f"  Cat√©gorie: {demo.category}")
            if hasattr(demo, 'priority'):
                print(f"  Priorit√©: {demo.priority}")
            print()
    
    else:
        print("‚ÑπÔ∏è Aucun exemple de d√©monstration trouv√©")
        print("   (GEPA peut optimiser uniquement les instructions)")
    
else:
    print("‚ÑπÔ∏è Structure du module diff√©rente")
    print("   L'optimisation s'est concentr√©e sur d'autres aspects")

print("=" * 70)
print("üí° Ce que GEPA a fait:")
print("=" * 70)
print("‚úÖ Analys√© les erreurs sur les donn√©es d'entra√Ænement")
print("‚úÖ G√©n√©r√© des variantes de prompts")
print("‚úÖ Utilis√© la r√©flexion LLM pour proposer des am√©liorations")
print("‚úÖ S√©lectionn√© la meilleure configuration via Pareto")
print("=" * 70)

## 7.5 Tester le classifier optimis√©

Maintenant que GEPA a optimis√© notre classifier, testons-le sur de nouveaux exemples pour voir la diff√©rence.

### Comparaison c√¥te √† c√¥te

In [None]:
print("üß™ Test comparatif: Baseline vs GEPA optimis√©\n")

# Exemples de test
test_cases = [
    {
        'ticket': "Mon ordinateur portable ne s'allume plus, j'ai une r√©union importante dans 1h",
        'expected_category': 'Hardware',
        'expected_priority': 'Urgent'
    },
    {
        'ticket': "Je voudrais acc√®s √† la base de donn√©es pour faire des analyses",
        'expected_category': 'Account',
        'expected_priority': 'Medium'
    },
    {
        'ticket': "Le WiFi est compl√®tement HS dans tout le b√¢timent!",
        'expected_category': 'Network',
        'expected_priority': 'Critical'
    },
    {
        'ticket': "Mon logiciel de comptabilit√© plante quand j'exporte en PDF",
        'expected_category': 'Software',
        'expected_priority': 'High'
    }
]

print("=" * 100)
print(f"{'Ticket':<50} | {'Attendu':<20} | {'Baseline':<20} | {'GEPA':<20}")
print("=" * 100)

correct_baseline = 0
correct_gepa = 0

for test in test_cases:
    ticket = test['ticket']
    expected = f"{test['expected_category']}/{test['expected_priority']}"
    
    # Pr√©diction baseline
    pred_baseline = baseline_classifier(ticket=ticket)
    baseline_result = f"{pred_baseline.category}/{pred_baseline.priority}"
    baseline_match = (pred_baseline.category == test['expected_category'] and 
                     pred_baseline.priority == test['expected_priority'])
    
    # Pr√©diction GEPA
    pred_gepa = optimized_classifier(ticket=ticket)
    gepa_result = f"{pred_gepa.category}/{pred_gepa.priority}"
    gepa_match = (pred_gepa.category == test['expected_category'] and 
                 pred_gepa.priority == test['expected_priority'])
    
    if baseline_match:
        correct_baseline += 1
    if gepa_match:
        correct_gepa += 1
    
    # Afficher avec indicateurs de succ√®s
    baseline_icon = "‚úÖ" if baseline_match else "‚ùå"
    gepa_icon = "‚úÖ" if gepa_match else "‚ùå"
    
    print(f"{ticket[:48]:<50} | {expected:<20} | {baseline_icon} {baseline_result:<17} | {gepa_icon} {gepa_result:<17}")

print("=" * 100)
print(f"Pr√©cision sur les exemples de test:")
print(f"  Baseline: {correct_baseline}/{len(test_cases)} ({correct_baseline/len(test_cases)*100:.0f}%)")
print(f"  GEPA:     {correct_gepa}/{len(test_cases)} ({correct_gepa/len(test_cases)*100:.0f}%)")
print("=" * 100)

## 7.6 Conseils pour optimiser avec GEPA

### 7.6.1 Qualit√© des donn√©es

La qualit√© de l'optimisation GEPA d√©pend **fortement** de vos donn√©es :

‚úÖ **Bonnes pratiques** :
- Minimum 15-20 exemples d'entra√Ænement (id√©alement 30-50)
- Exemples **diversifi√©s** couvrant tous les cas d'usage
- Labels **corrects** et **coh√©rents**
- Donn√©es de validation **s√©par√©es** du trainset

‚ùå **√Ä √©viter** :
- Trop peu d'exemples (<10)
- Exemples r√©p√©titifs ou tr√®s similaires
- Labels incoh√©rents ou ambigus
- Utiliser les m√™mes donn√©es pour train et validation

### 7.6.2 Choix de la m√©trique

Votre **m√©trique d√©termine ce que GEPA optimise** :

```python
# M√©trique stricte (tout ou rien)
def exact_match(example, prediction, trace=None, pred_name=None, pred_trace=None):
    return 1.0 if (prediction.category == example.category and 
                   prediction.priority == example.priority) else 0.0

# M√©trique avec cr√©dit partiel (souvent meilleure pour GEPA)
def partial_match(example, prediction, trace=None, pred_name=None, pred_trace=None):
    category_match = prediction.category == example.category
    priority_match = prediction.priority == example.priority
    
    if category_match and priority_match:
        return 1.0
    elif category_match:
        return 0.7  # Cat√©gorie plus importante
    elif priority_match:
        return 0.5
    else:
        return 0.0
```

üí° **Conseil** : Les m√©triques avec cr√©dit partiel donnent g√©n√©ralement de meilleurs r√©sultats car elles fournissent plus de signal d'apprentissage √† GEPA.

### 7.6.3 Choix du niveau d'optimisation

| Situation | Niveau recommand√© | Raison |
|-----------|------------------|---------|
| Premi√®re exp√©rimentation | **light** | Test rapide du concept |
| Prototype pour d√©mo | **light** | Balance vitesse/performance |
| Application production (non-critique) | **medium** | Bon compromis |
| Application production (critique) | **heavy** | Maximum de performance |
| Recherche / benchmark | **heavy** | Explorer les limites |

### 7.6.4 Configuration du mod√®le de r√©flexion

Le **reflection_lm** influence la qualit√© des am√©liorations :

‚úÖ **Bonnes pratiques** :
- Utiliser un mod√®le avec bonne capacit√© de raisonnement
- Temp√©rature √©lev√©e (0.8-1.2) pour la cr√©ativit√©
- Max tokens √©lev√© (6000-10000) pour analyses d√©taill√©es
- Peut √™tre le m√™me mod√®le que le mod√®le principal

‚ùå **√Ä √©viter** :
- Mod√®les trop petits (<7B param√®tres)
- Temp√©rature trop basse (<0.5)
- Max tokens trop faible (<4000)

### 7.6.5 √âviter le surapprentissage

GEPA peut **surapprendre** sur les donn√©es d'entra√Ænement :

‚úÖ **Pr√©vention** :
- Toujours avoir un **valset s√©par√©**
- Valider sur de **nouvelles donn√©es** apr√®s optimisation
- Comparer les scores train vs validation
- Si grand √©cart : vos donn√©es ne sont pas assez diversifi√©es

```python
# Bon: √âvaluation sur donn√©es s√©par√©es
score_train = evaluate_module(optimized, train_examples, metric)
score_val = evaluate_module(optimized, val_examples, metric)

if score_train - score_val > 0.2:
    print("‚ö†Ô∏è Possible surapprentissage!")
```

## 7.7 Troubleshooting et erreurs courantes

### Erreur 1: `TypeError: GEPA.__init__() got an unexpected keyword argument`

**Sympt√¥me** :
```
TypeError: GEPA.__init__() got an unexpected keyword argument 'breadth'
```

**Cause** : Utilisation de param√®tres de l'ancienne API GEPA (pre-3.0)

**Solution** :
```python
# ‚ùå Ancienne API (ne fonctionne plus)
optimizer = GEPA(
    metric=my_metric,
    breadth=10,
    depth=3
)

# ‚úÖ Nouvelle API (DSPy 3.0+)
optimizer = GEPA(
    metric=my_metric,
    auto='light',  # ou 'medium', 'heavy'
    reflection_lm=reflection_lm
)
```

### Erreur 2: `TypeError: metric() missing required positional argument`

**Sympt√¥me** :
```
TypeError: metric() missing 2 required positional arguments: 'pred_name' and 'pred_trace'
```

**Cause** : M√©trique pas compatible avec l'API GEPA

**Solution** : Ajouter les param√®tres optionnels √† votre m√©trique
```python
# ‚ùå Ancienne signature
def my_metric(example, prediction):
    return 1.0 if prediction.category == example.category else 0.0

# ‚úÖ Nouvelle signature (compatible GEPA)
def my_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    return 1.0 if prediction.category == example.category else 0.0
```

### Erreur 3: Ollama timeout ou erreur de connexion

**Sympt√¥me** :
```
ConnectionError: Failed to connect to Ollama
```

**Causes possibles** :
1. Ollama n'est pas d√©marr√©
2. Mod√®le non t√©l√©charg√©
3. M√©moire insuffisante

**Solutions** :
```bash
# 1. V√©rifier qu'Ollama tourne
ollama list

# 2. D√©marrer Ollama si n√©cessaire
ollama serve

# 3. T√©l√©charger le mod√®le
ollama pull llama3.1:8b

# 4. V√©rifier la m√©moire disponible
# GEPA + Ollama n√©cessite ~8-12 GB RAM
```

### Erreur 4: GEPA ne s'am√©liore pas

**Sympt√¥me** : Score apr√®s optimisation ‚âà score avant

**Causes possibles** :
1. Donn√©es d'entra√Ænement insuffisantes ou de mauvaise qualit√©
2. M√©trique mal d√©finie
3. T√¢che trop difficile pour le mod√®le
4. Module d√©j√† bien optimis√©

**Solutions** :
```python
# V√©rifier la qualit√© des donn√©es
print(f"Nombre d'exemples train: {len(trainset)}")
print(f"Nombre d'exemples val: {len(valset)}")

# V√©rifier la m√©trique
for ex in trainset[:5]:
    pred = baseline(ticket=ex['ticket'])
    score = metric(ex, pred)
    print(f"Score: {score} | Pred: {pred.category}/{pred.priority} | Truth: {ex['category']}/{ex['priority']}")

# Essayer un niveau plus √©lev√©
optimizer = GEPA(
    metric=metric,
    auto='heavy',  # au lieu de 'light'
    reflection_lm=reflection_lm
)
```

### Erreur 5: Out of Memory (OOM)

**Sympt√¥me** : Ollama ou Python crash avec erreur de m√©moire

**Solutions** :
1. Utiliser un mod√®le plus petit : `mistral:7b` au lieu de `llama3.1:8b`
2. R√©duire `max_tokens` du reflection_lm
3. Utiliser `auto='light'` au lieu de `medium` ou `heavy`
4. Fermer les autres applications
5. Utiliser une API cloud au lieu d'Ollama local

## 7.8 R√©sum√© de la Partie 7

### Ce que nous avons appris

1. **GEPA : L'optimiseur le plus sophistiqu√©**
   - Combine algorithmes g√©n√©tiques + r√©flexion LLM + Pareto
   - Am√©lioration typique : 15-30%
   - N√©cessite un mod√®le de r√©flexion (reflection_lm)

2. **Configuration essentielle**
   - `auto` : 'light', 'medium', ou 'heavy'
   - `reflection_lm` : Mod√®le pour analyser les erreurs (temp=1.0, max_tokens=8000)
   - `metric` : Doit accepter les param√®tres GEPA (trace, pred_name, pred_trace)

3. **Niveaux d'optimisation**
   - **light** : 5-10 min, ~200-400 appels LLM, 10-20% am√©lioration
   - **medium** : 10-20 min, ~400-800 appels LLM, 15-25% am√©lioration
   - **heavy** : 20-40 min, ~800-1600 appels LLM, 20-30% am√©lioration

4. **Inspection des r√©sultats**
   - Voir les prompts optimis√©s
   - Comprendre les changements
   - Valider les am√©liorations

5. **Bonnes pratiques**
   - Donn√©es : 15-20+ exemples diversifi√©s
   - M√©trique : Cr√©dit partiel souvent meilleur
   - Validation : Toujours sur donn√©es s√©par√©es
   - Mod√®le : ‚â•7B param√®tres recommand√©

6. **Troubleshooting**
   - Erreurs d'API : V√©rifier la signature de la m√©trique
   - Pas d'am√©lioration : V√©rifier qualit√© des donn√©es
   - OOM : R√©duire niveau ou utiliser mod√®le plus petit

### Points cl√©s √† retenir

- ‚úÖ **GEPA est puissant** mais n√©cessite temps et ressources
- ‚úÖ **Commencer avec 'light'** pour tester le concept
- ‚úÖ **Qualit√© des donn√©es = qualit√© des r√©sultats**
- ‚úÖ **Toujours valider** sur donn√©es s√©par√©es
- ‚úÖ **Inspecter les prompts** pour comprendre les am√©liorations

### Quand utiliser GEPA?

| Situation | GEPA? | Alternative |
|-----------|-------|-------------|
| Prototypage rapide | ‚ùå Non | Module simple |
| Tests initiaux | ‚ùå Non | BootstrapFewShot |
| Application production (non-critique) | ‚ö†Ô∏è Peut-√™tre | MIPRO |
| Application production (critique) | ‚úÖ Oui | GEPA medium/heavy |
| Recherche / Maximum performance | ‚úÖ Oui | GEPA heavy |
| Ressources limit√©es | ‚ùå Non | BootstrapFewShot |

### Workflow recommand√©

```python
# Phase 1: Baseline
classifier = SimpleTicketClassifier()
score_baseline = evaluate(classifier, valset, metric)

# Phase 2: Optimisation simple
from dspy.teleprompt import BootstrapFewShot
optimizer_simple = BootstrapFewShot(metric=metric)
classifier_simple = optimizer_simple.compile(classifier, trainset)
score_simple = evaluate(classifier_simple, valset, metric)

# Phase 3: GEPA (si am√©lioration justifie le temps)
if score_simple < target_score:
    from dspy.teleprompt import GEPA
    optimizer_gepa = GEPA(metric=metric, auto='light', reflection_lm=reflection_lm)
    classifier_gepa = optimizer_gepa.compile(classifier, trainset, valset)
    score_gepa = evaluate(classifier_gepa, valset, metric)
    
    # Phase 4: GEPA heavy si n√©cessaire
    if score_gepa < target_score:
        optimizer_heavy = GEPA(metric=metric, auto='heavy', reflection_lm=reflection_lm)
        classifier_final = optimizer_heavy.compile(classifier, trainset, valset)
```

### Ressources additionnelles

- üìÑ [Paper GEPA (arXiv)](https://arxiv.org/abs/2507.19457)
- üíª [GitHub GEPA](https://github.com/gepa-ai/gepa)
- üìñ [Documentation DSPy](https://dspy-docs.vercel.app/)

### Prochaines √©tapes

- **Partie 8** : Conclusion et mise en production

# Partie 8: Conclusion et mise en production

## 8.1 R√©capitulatif du parcours

F√©licitations! üéâ Vous avez parcouru un tutoriel complet sur DSPy et GEPA. R√©capitulons ce que vous avez appris :

### Partie 0: Configuration
‚úÖ Installation de DSPy et Ollama  
‚úÖ Configuration des mod√®les locaux  
‚úÖ Chargement des donn√©es d'entra√Ænement

### Partie 1: Signatures
‚úÖ D√©finition des entr√©es/sorties avec `dspy.Signature`  
‚úÖ 5 exemples progressifs de signatures  
‚úÖ Bonnes pratiques pour des signatures efficaces

### Partie 2: Modules
‚úÖ `Predict` : Module de base  
‚úÖ `ChainOfThought` : Raisonnement explicite  
‚úÖ `ReAct` : Raisonnement + actions  
‚úÖ `ProgramOfThought` : Code + raisonnement  
‚úÖ Composition de modules (s√©quentiel, validation, ensemble)

### Partie 3: √âvaluation
‚úÖ M√©triques d'√©valuation (exact match, partial match)  
‚úÖ Fonction `evaluate_module`  
‚úÖ Comparaison de diff√©rents modules

### Partie 4: Optimiseurs
‚úÖ `BootstrapFewShot` : G√©n√©ration d'exemples  
‚úÖ `MIPRO` : Optimisation instructions + exemples  
‚úÖ `SignatureOptimizer` : Optimisation d'instructions  
‚úÖ Comparaison et guide de s√©lection

### Partie 5: Multi-mod√®les
‚úÖ Configuration Ollama, OpenAI, Anthropic  
‚úÖ Benchmarking de mod√®les  
‚úÖ Architectures hybrides  
‚úÖ Guide de s√©lection par cas d'usage

### Partie 6: Patterns avanc√©s
‚úÖ Validation des sorties  
‚úÖ Retry automatique  
‚úÖ Fallback (mod√®le de secours)  
‚úÖ Ensemble (vote majoritaire)  
‚úÖ Combinaison de patterns

### Partie 7: GEPA en pratique
‚úÖ Configuration et utilisation de GEPA  
‚úÖ Niveaux d'optimisation (light/medium/heavy)  
‚úÖ Inspection des prompts optimis√©s  
‚úÖ Bonnes pratiques et troubleshooting

**Vous ma√Ætrisez maintenant les concepts fondamentaux et avanc√©s de DSPy!** üöÄ

## 8.2 Checklist de mise en production

Avant de d√©ployer votre application DSPy en production, voici une checklist compl√®te :

### 8.2.1 Donn√©es et m√©triques

- [ ] **Donn√©es d'entra√Ænement de qualit√©**
  - Au moins 30-50 exemples diversifi√©s
  - Labels v√©rifi√©s et coh√©rents
  - Couverture de tous les cas d'usage importants
  
- [ ] **Donn√©es de validation s√©par√©es**
  - 15-20% des donn√©es totales
  - Jamais utilis√©es pour l'entra√Ænement
  - Repr√©sentatives de la production
  
- [ ] **M√©trique bien d√©finie**
  - Refl√®te les objectifs m√©tier
  - Compatible avec GEPA (param√®tres optionnels)
  - Test√©e sur des cas limites

- [ ] **Donn√©es de test pour la production**
  - Ensemble de test compl√®tement s√©par√©
  - Mis √† jour r√©guli√®rement
  - Utilis√© pour monitoring continu

### 8.2.2 Optimisation

- [ ] **Module de base test√©**
  - Fonctionne correctement sur les cas simples
  - Performance baseline document√©e
  - Code propre et maintenable

- [ ] **Optimisation appropri√©e**
  - BootstrapFewShot ou MIPRO pour d√©marrer
  - GEPA si performance critique
  - Niveau d'optimisation adapt√© aux contraintes

- [ ] **Validation crois√©e**
  - Performance train vs validation v√©rifi√©e
  - Pas de surapprentissage d√©tect√©
  - Tests sur donn√©es r√©elles de production

### 8.2.3 Robustesse

- [ ] **Validation des sorties**
  - V√©rification des formats
  - Valeurs dans les plages attendues
  - Gestion des cas invalides

- [ ] **Gestion des erreurs**
  - Retry pour les erreurs temporaires
  - Fallback si mod√®le principal √©choue
  - Logs d√©taill√©s pour le debugging

- [ ] **Monitoring**
  - M√©triques de performance en temps r√©el
  - Alertes sur d√©gradation
  - Collecte des erreurs

### 8.2.4 Infrastructure

- [ ] **Choix du mod√®le**
  - Ollama pour confidentialit√©/co√ªts
  - API cloud pour disponibilit√©/performance
  - Architecture hybride pour optimiser

- [ ] **Ressources suffisantes**
  - RAM : 8-16 GB pour Ollama
  - CPU/GPU : Selon le mod√®le
  - Bande passante : Pour APIs cloud

- [ ] **S√©curit√©**
  - Cl√©s API stock√©es dans variables d'environnement
  - Pas de secrets dans le code
  - Logs ne contenant pas de donn√©es sensibles

### 8.2.5 Documentation

- [ ] **Code document√©**
  - Docstrings pour toutes les classes/fonctions
  - Commentaires pour la logique complexe
  - README avec instructions de d√©ploiement

- [ ] **Tests automatis√©s**
  - Tests unitaires pour les composants
  - Tests d'int√©gration end-to-end
  - Tests de r√©gression sur donn√©es fixes

- [ ] **Versioning**
  - Git avec commits clairs
  - Tags pour les versions de production
  - Historique des performances

## 8.3 Adapter ce tutoriel √† votre cas d'usage

Ce tutoriel utilise la classification de tickets IT comme exemple, mais DSPy peut √™tre appliqu√© √† de nombreux cas d'usage. Voici comment adapter ce code √† votre probl√®me.

### 8.3.1 D√©finir votre t√¢che

**Questions √† se poser** :
1. Quelle est mon entr√©e? (texte, image, tableau, etc.)
2. Quelle est ma sortie attendue? (classification, extraction, g√©n√©ration, etc.)
3. Ai-je des exemples d'entr√©e/sortie?
4. Comment mesurer si la sortie est correcte?

### 8.3.2 Cr√©er votre signature

```python
# Exemple 1: Analyse de sentiments
class SentimentAnalysis(dspy.Signature):
    """Analyser le sentiment d'un avis client"""
    review = dspy.InputField(desc="Avis client en texte libre")
    sentiment = dspy.OutputField(desc="Sentiment: Positif, N√©gatif, ou Neutre")
    confidence = dspy.OutputField(desc="Niveau de confiance: Faible, Moyen, √âlev√©")

# Exemple 2: Extraction d'informations
class InformationExtraction(dspy.Signature):
    """Extraire des informations structur√©es d'un texte"""
    text = dspy.InputField(desc="Texte source")
    entities = dspy.OutputField(desc="Entit√©s trouv√©es (personnes, lieux, organisations)")
    dates = dspy.OutputField(desc="Dates mentionn√©es")
    
# Exemple 3: G√©n√©ration de contenu
class ContentGeneration(dspy.Signature):
    """G√©n√©rer une description de produit marketing"""
    product_name = dspy.InputField(desc="Nom du produit")
    features = dspy.InputField(desc="Liste des caract√©ristiques principales")
    tone = dspy.InputField(desc="Ton souhait√©: Professionnel, D√©contract√©, Technique")
    description = dspy.OutputField(desc="Description marketing en 2-3 phrases")

# Exemple 4: Question-r√©ponse
class QuestionAnswering(dspy.Signature):
    """R√©pondre √† une question bas√©e sur un contexte"""
    context = dspy.InputField(desc="Contexte ou document source")
    question = dspy.InputField(desc="Question de l'utilisateur")
    answer = dspy.OutputField(desc="R√©ponse concise bas√©e sur le contexte")
    source = dspy.OutputField(desc="Citation du contexte utilis√© pour r√©pondre")
```

### 8.3.3 Pr√©parer vos donn√©es

```python
# Format de base pour vos donn√©es
trainset = [
    {
        'input_field1': 'valeur1',
        'input_field2': 'valeur2',
        'output_field': 'sortie attendue'
    },
    # ... plus d'exemples
]

# Convertir au format DSPy
train_examples = [
    dspy.Example(
        input_field1=ex['input_field1'],
        input_field2=ex['input_field2'],
        output_field=ex['output_field']
    ).with_inputs('input_field1', 'input_field2')
    for ex in trainset
]
```

### 8.3.4 D√©finir votre m√©trique

```python
def your_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    """
    M√©trique adapt√©e √† votre t√¢che
    
    Retourne un score entre 0.0 et 1.0
    """
    # Exemple 1: Exact match
    if prediction.output_field == example.output_field:
        return 1.0
    else:
        return 0.0
    
    # Exemple 2: Similarit√© partielle
    # from difflib import SequenceMatcher
    # similarity = SequenceMatcher(None, 
    #     prediction.output_field.lower(), 
    #     example.output_field.lower()
    # ).ratio()
    # return similarity
    
    # Exemple 3: M√©trique composite
    # score = 0.0
    # if prediction.field1 == example.field1:
    #     score += 0.5
    # if prediction.field2 == example.field2:
    #     score += 0.5
    # return score
```

### 8.3.5 Template de d√©marrage complet

```python
import dspy

# 1. Configuration
lm = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=0.3
)
dspy.configure(lm=lm)

# 2. Signature
class YourTask(dspy.Signature):
    """Description claire de votre t√¢che"""
    input_field = dspy.InputField(desc="Description de l'entr√©e")
    output_field = dspy.OutputField(desc="Description de la sortie")

# 3. Module
class YourModule(dspy.Module):
    def __init__(self):
        super().__init__()
        self.predictor = dspy.ChainOfThought(YourTask)
    
    def forward(self, input_field):
        result = self.predictor(input_field=input_field)
        return dspy.Prediction(output_field=result.output_field)

# 4. Donn√©es
trainset = [...]  # Vos donn√©es
train_examples = [
    dspy.Example(**ex).with_inputs('input_field')
    for ex in trainset
]

# 5. M√©trique
def your_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    return 1.0 if prediction.output_field == example.output_field else 0.0

# 6. √âvaluation
module = YourModule()
from Partie3 import evaluate_module  # Utiliser la fonction du tutoriel
score = evaluate_module(module, train_examples[:10], your_metric)
print(f"Score baseline: {score:.2%}")

# 7. Optimisation (optionnel)
from dspy.teleprompt import BootstrapFewShot
optimizer = BootstrapFewShot(metric=your_metric, max_bootstrapped_demos=3)
optimized_module = optimizer.compile(module, trainset=train_examples)
score_optimized = evaluate_module(optimized_module, train_examples[:10], your_metric)
print(f"Score optimis√©: {score_optimized:.2%}")
```

## 8.4 Prochaines √©tapes et apprentissage continu

### 8.4.1 Approfondir DSPy

**Concepts avanc√©s √† explorer** :

1. **Retrieval-Augmented Generation (RAG)**
   - Combiner DSPy avec des bases de donn√©es vectorielles
   - Modules : `dspy.Retrieve`, `dspy.RetrieveThenGenerate`
   - Cas d'usage : QA sur documents, chatbots avec connaissance sp√©cifique

2. **Agents multi-√©tapes**
   - Cha√Ænes de d√©cisions complexes
   - Utiliser `ReAct` pour des t√¢ches it√©ratives
   - Cas d'usage : Assistants autonomes, automatisation de workflows

3. **Fine-tuning de mod√®les**
   - DSPy peut g√©n√©rer des datasets pour fine-tuning
   - Exporter les prompts optimis√©s comme donn√©es d'entra√Ænement
   - Cas d'usage : Mod√®les sp√©cialis√©s pour votre domaine

4. **Optimiseurs avanc√©s**
   - `BayesianSignatureOptimizer` : Optimisation bay√©sienne
   - `KNNFewShot` : S√©lection dynamique d'exemples
   - Combinaison d'optimiseurs

### 8.4.2 Cas d'usage inspirants

**Applications r√©elles de DSPy** :

- üè• **Sant√©** : Extraction d'informations m√©dicales, classification de sympt√¥mes
- üíº **Entreprise** : Analyse de contrats, classification de documents
- üéì **√âducation** : Correction automatique, g√©n√©ration de quiz
- üõí **E-commerce** : Cat√©gorisation de produits, recommandations
- üì∞ **M√©dias** : R√©sum√©s d'articles, d√©tection de fake news
- üí¨ **Customer Support** : Classification de tickets (comme ce tutoriel!), routage automatique

### 8.4.3 Ressources recommand√©es

**Documentation officielle** :
- üìñ [DSPy Documentation](https://dspy-docs.vercel.app/) - Guide complet
- üíª [DSPy GitHub](https://github.com/stanfordnlp/dspy) - Code source et exemples
- üìÑ [Paper DSPy](https://arxiv.org/abs/2310.03714) - Recherche originale

**GEPA** :
- üìÑ [Paper GEPA](https://arxiv.org/abs/2507.19457) - Algorithme d√©taill√©
- üíª [GEPA GitHub](https://github.com/gepa-ai/gepa) - Impl√©mentation

**Ollama** :
- üìñ [Ollama Documentation](https://ollama.ai/docs) - Guide d'installation
- ü§ñ [Ollama Models Library](https://ollama.ai/library) - Catalogue de mod√®les
- üí¨ [Ollama Discord](https://discord.gg/ollama) - Communaut√© active

**Communaut√© et support** :
- üí¨ [DSPy Discord](https://discord.gg/dspy) - Discussions et aide
- üê¶ [Twitter @DSPy_ai](https://twitter.com/dspy_ai) - Actualit√©s
- üì∫ [Tutoriels YouTube](https://www.youtube.com/results?search_query=dspy+tutorial) - Vid√©os explicatives

### 8.4.4 Contribuer √† l'√©cosyst√®me

**Fa√ßons de contribuer** :

1. **Partager vos cas d'usage**
   - Publier vos exp√©riences sur GitHub
   - √âcrire des articles de blog
   - Pr√©senter dans des meetups

2. **Am√©liorer la documentation**
   - Signaler des erreurs ou ambigu√Øt√©s
   - Proposer de nouveaux exemples
   - Traduire la documentation

3. **D√©velopper des extensions**
   - Nouveaux optimiseurs
   - Nouveaux modules
   - Int√©grations avec d'autres outils

4. **Aider la communaut√©**
   - R√©pondre aux questions sur Discord
   - Partager vos solutions
   - Mentorer les d√©butants

## 8.5 Conclusion

### Le pouvoir de DSPy

DSPy repr√©sente un **changement de paradigme** dans le d√©veloppement avec les LLMs :

**Avant DSPy** :
- ‚ùå Prompts √©crits manuellement et fragiles
- ‚ùå Difficile de maintenir la coh√©rence
- ‚ùå Optimisation par essai-erreur
- ‚ùå Code sp√©cifique √† chaque mod√®le

**Avec DSPy** :
- ‚úÖ Prompts optimis√©s automatiquement
- ‚úÖ Abstraction propre et maintenable
- ‚úÖ Optimisation algorithmique (GEPA, MIPRO)
- ‚úÖ Ind√©pendance du fournisseur LLM

### Principes cl√©s √† retenir

1. **D√©claratif > Imp√©ratif**
   - D√©finissez *ce que* vous voulez (Signature)
   - Laissez DSPy d√©terminer *comment* le faire

2. **Optimisation algorithmique > Ing√©nierie manuelle**
   - Les optimiseurs trouvent de meilleurs prompts que l'humain
   - GEPA utilise la r√©flexion LLM pour s'am√©liorer

3. **Composition > Monolithe**
   - Construisez des syst√®mes complexes √† partir de modules simples
   - Chaque module a une responsabilit√© claire

4. **Mesure > Intuition**
   - D√©finissez des m√©triques claires
   - Validez sur des donn√©es r√©elles
   - It√©rez bas√© sur les donn√©es

5. **Flexibilit√© > Lock-in**
   - Changez de mod√®le sans changer le code
   - Testez facilement diff√©rentes approches
   - Adaptez selon vos contraintes

### Votre parcours commence maintenant

Vous avez maintenant tous les outils pour :
- üöÄ Construire des applications LLM robustes et performantes
- üîß Optimiser automatiquement vos prompts avec GEPA
- üéØ Adapter DSPy √† vos cas d'usage sp√©cifiques
- üåü Contribuer √† l'√©cosyst√®me DSPy

### Message final

L'IA g√©n√©rative √©volue rapidement. **DSPy vous donne une base solide** pour construire des syst√®mes qui :
- √âvoluent avec les nouveaux mod√®les
- S'am√©liorent automatiquement
- Restent maintenables √† long terme

**N'attendez plus** :
1. Identifiez un probl√®me dans votre domaine
2. Cr√©ez une signature DSPy
3. Collectez quelques exemples
4. Laissez GEPA optimiser
5. D√©ployez en production

Chaque grande application commence par un premier exemple. **Le v√¥tre est √† port√©e de main.**

---

### Remerciements

Merci d'avoir suivi ce tutoriel jusqu'au bout! üôè

Si ce tutoriel vous a √©t√© utile :
- ‚≠ê Donnez une √©toile au projet sur GitHub
- üí¨ Partagez vos r√©ussites avec la communaut√©
- üêõ Signalez les erreurs ou am√©liorations possibles
- ü§ù Aidez d'autres d√©veloppeurs √† d√©marrer avec DSPy

**Bon d√©veloppement avec DSPy et GEPA!** üéâ

---

*Ce tutoriel a √©t√© cr√©√© pour aider la communaut√© francophone √† d√©couvrir DSPy et GEPA. N'h√©sitez pas √† l'adapter, le partager et le faire √©voluer.*

In [None]:
print("=" * 80)
print(" " * 25 + "üéì TUTORIEL TERMIN√â! üéì")
print("=" * 80)
print()
print("Vous avez compl√©t√© le tutoriel DSPy et GEPA!")
print()
print("üìä R√©sum√© de ce que vous avez appris:")
print()
print("   ‚úÖ Partie 0: Configuration et installation")
print("   ‚úÖ Partie 1: Signatures (5 exemples)")
print("   ‚úÖ Partie 2: Modules (Predict, ChainOfThought, ReAct, ProgramOfThought)")
print("   ‚úÖ Partie 3: √âvaluation et m√©triques")
print("   ‚úÖ Partie 4: Optimiseurs (BootstrapFewShot, MIPRO, etc.)")
print("   ‚úÖ Partie 5: Multi-mod√®les et architectures hybrides")
print("   ‚úÖ Partie 6: Patterns avanc√©s (validation, retry, fallback, ensemble)")
print("   ‚úÖ Partie 7: GEPA en pratique")
print("   ‚úÖ Partie 8: Conclusion et mise en production")
print()
print("=" * 80)
print()
print("üöÄ Prochaines √©tapes sugg√©r√©es:")
print()
print("   1. Adaptez ce code √† votre cas d'usage")
print("   2. Collectez vos propres donn√©es d'entra√Ænement")
print("   3. Exp√©rimentez avec diff√©rents mod√®les")
print("   4. Optimisez avec GEPA")
print("   5. D√©ployez en production!")
print()
print("=" * 80)
print()
print("üí° Ressources:")
print()
print("   üìñ Documentation: https://dspy-docs.vercel.app/")
print("   üíª GitHub DSPy:   https://github.com/stanfordnlp/dspy")
print("   üí¨ Discord:       https://discord.gg/dspy")
print("   üìÑ Paper GEPA:    https://arxiv.org/abs/2507.19457")
print()
print("=" * 80)
print()
print("Bon d√©veloppement avec DSPy! üéâ")
print()
print("=" * 80)

In [None]:
# Just add a ‚Äòno_think: str‚Äô input field on your signature and pass it ‚Äòfoo.Predict(no_think=‚Äú/no_think‚Äù‚Äô

# https://github.com/Columbia-NLP-Lab/PAPILLON/blob/main/papillon_tutorial.ipynb

