### Configuration et préparation des données

In [None]:
import dspy
import warnings
warnings.filterwarnings('ignore')

# Configurer le modèle de langage
lm = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=0.3
)

# Configurer DSPy globalement
dspy.configure(lm=lm)

In [None]:
# Données d'entraînement
trainset = [
    {"ticket": "Mon ordinateur ne démarre plus depuis ce matin. J'ai une présentation importante dans 2 heures.", "category": "Hardware", "priority": "Urgent"},
    {"ticket": "Je n'arrive pas à me connecter à l'imprimante du 3e étage. Ça peut attendre.", "category": "Peripherals", "priority": "Low"},
    {"ticket": "Le VPN ne fonctionne plus. Impossible d'accéder aux fichiers du serveur.", "category": "Network", "priority": "High"},
    {"ticket": "J'ai oublié mon mot de passe Outlook. Je peux utiliser le webmail.", "category": "Account", "priority": "Medium"},
    {"ticket": "Le site web affiche une erreur 500. Les clients ne peuvent plus commander!", "category": "Application", "priority": "Critical"},
    {"ticket": "Ma souris sans fil ne répond plus bien. Les piles sont faibles.", "category": "Peripherals", "priority": "Low"},
    {"ticket": "Le système de paie ne calcule pas les heures supplémentaires. C'est la fin du mois.", "category": "Application", "priority": "Urgent"},
    {"ticket": "J'aimerais une mise à jour de mon logiciel Adobe quand vous aurez le temps.", "category": "Software", "priority": "Low"},
    {"ticket": "Le serveur de base de données est très lent. Toute la production est impactée.", "category": "Infrastructure", "priority": "Critical"},
    {"ticket": "Je ne reçois plus les emails. J'attends des réponses de fournisseurs.", "category": "Email", "priority": "High"},
    {"ticket": "Mon écran externe ne s'affiche plus. Je peux travailler sur le laptop.", "category": "Hardware", "priority": "Medium"},
    {"ticket": "Le wifi de la salle A ne fonctionne pas. Réunion avec des externes dans 30 min.", "category": "Network", "priority": "Urgent"},
    {"ticket": "Je voudrais installer Slack pour mieux collaborer avec l'équipe.", "category": "Software", "priority": "Medium"},
    {"ticket": "Le système de sauvegarde a échoué cette nuit selon le rapport.", "category": "Infrastructure", "priority": "High"},
    {"ticket": "Mon clavier a une touche qui colle. C'est gérable mais ennuyeux.", "category": "Peripherals", "priority": "Low"}
]

# Données de validation
valset = [
    {"ticket": "Le serveur de fichiers est inaccessible. Personne ne peut travailler.", "category": "Infrastructure", "priority": "Critical"},
    {"ticket": "J'ai besoin d'accès au dossier comptabilité pour l'audit. C'est urgent.", "category": "Account", "priority": "Urgent"},
    {"ticket": "L'écran de mon collègue en vacances clignote. On peut attendre.", "category": "Hardware", "priority": "Low"},
    {"ticket": "Le CRM plante quand j'essaie d'exporter les contacts.", "category": "Application", "priority": "High"},
    {"ticket": "Je voudrais changer ma photo de profil quand vous aurez un moment.", "category": "Account", "priority": "Low"},
    {"ticket": "La vidéoconférence ne fonctionne pas. Réunion avec New York dans 10 minutes!", "category": "Application", "priority": "Critical"},
    {"ticket": "Mon antivirus affiche un message d'expiration mais tout fonctionne.", "category": "Software", "priority": "Medium"}
]

# Catégories et priorités possibles
CATEGORIES = ["Hardware", "Software", "Network", "Application", "Infrastructure", "Account", "Email", "Peripherals"]
PRIORITIES = ["Low", "Medium", "High", "Urgent", "Critical"]

print(f"📊 Données chargées : {len(trainset)} entraînement, {len(valset)} validation")
print(f"📦 {len(CATEGORIES)} catégories, {len(PRIORITIES)} priorités")

# Partie 8: Conclusion et mise en production

## 8.1 Récapitulatif du parcours

Félicitations! 🎉 Vous avez parcouru un tutoriel complet sur DSPy et GEPA. Récapitulons ce que vous avez appris :

### Partie 0: Configuration
✅ Installation de DSPy et Ollama  
✅ Configuration des modèles locaux  
✅ Chargement des données d'entraînement

### Partie 1: Signatures
✅ Définition des entrées/sorties avec `dspy.Signature`  
✅ 5 exemples progressifs de signatures  
✅ Bonnes pratiques pour des signatures efficaces

### Partie 2: Modules
✅ `Predict` : Module de base  
✅ `ChainOfThought` : Raisonnement explicite  
✅ `ReAct` : Raisonnement + actions  
✅ `ProgramOfThought` : Code + raisonnement  
✅ Composition de modules (séquentiel, validation, ensemble)

### Partie 3: Évaluation
✅ Métriques d'évaluation (exact match, partial match)  
✅ Fonction `evaluate_module`  
✅ Comparaison de différents modules

### Partie 4: Optimiseurs
✅ `BootstrapFewShot` : Génération d'exemples  
✅ `MIPRO` : Optimisation instructions + exemples  
✅ `SignatureOptimizer` : Optimisation d'instructions  
✅ Comparaison et guide de sélection

### Partie 5: Multi-modèles
✅ Configuration Ollama, OpenAI, Anthropic  
✅ Benchmarking de modèles  
✅ Architectures hybrides  
✅ Guide de sélection par cas d'usage

### Partie 6: Patterns avancés
✅ Validation des sorties  
✅ Retry automatique  
✅ Fallback (modèle de secours)  
✅ Ensemble (vote majoritaire)  
✅ Combinaison de patterns

### Partie 7: GEPA en pratique
✅ Configuration et utilisation de GEPA  
✅ Niveaux d'optimisation (light/medium/heavy)  
✅ Inspection des prompts optimisés  
✅ Bonnes pratiques et troubleshooting

**Vous maîtrisez maintenant les concepts fondamentaux et avancés de DSPy!** 🚀

## 8.2 Checklist de mise en production

Avant de déployer votre application DSPy en production, voici une checklist complète :

### 8.2.1 Données et métriques

- [ ] **Données d'entraînement de qualité**
  - Au moins 30-50 exemples diversifiés
  - Labels vérifiés et cohérents
  - Couverture de tous les cas d'usage importants
  
- [ ] **Données de validation séparées**
  - 15-20% des données totales
  - Jamais utilisées pour l'entraînement
  - Représentatives de la production
  
- [ ] **Métrique bien définie**
  - Reflète les objectifs métier
  - Compatible avec GEPA (paramètres optionnels)
  - Testée sur des cas limites

- [ ] **Données de test pour la production**
  - Ensemble de test complètement séparé
  - Mis à jour régulièrement
  - Utilisé pour monitoring continu

### 8.2.2 Optimisation

- [ ] **Module de base testé**
  - Fonctionne correctement sur les cas simples
  - Performance baseline documentée
  - Code propre et maintenable

- [ ] **Optimisation appropriée**
  - BootstrapFewShot ou MIPRO pour démarrer
  - GEPA si performance critique
  - Niveau d'optimisation adapté aux contraintes

- [ ] **Validation croisée**
  - Performance train vs validation vérifiée
  - Pas de surapprentissage détecté
  - Tests sur données réelles de production

### 8.2.3 Robustesse

- [ ] **Validation des sorties**
  - Vérification des formats
  - Valeurs dans les plages attendues
  - Gestion des cas invalides

- [ ] **Gestion des erreurs**
  - Retry pour les erreurs temporaires
  - Fallback si modèle principal échoue
  - Logs détaillés pour le debugging

- [ ] **Monitoring**
  - Métriques de performance en temps réel
  - Alertes sur dégradation
  - Collecte des erreurs

### 8.2.4 Infrastructure

- [ ] **Choix du modèle**
  - Ollama pour confidentialité/coûts
  - API cloud pour disponibilité/performance
  - Architecture hybride pour optimiser

- [ ] **Ressources suffisantes**
  - RAM : 8-16 GB pour Ollama
  - CPU/GPU : Selon le modèle
  - Bande passante : Pour APIs cloud

- [ ] **Sécurité**
  - Clés API stockées dans variables d'environnement
  - Pas de secrets dans le code
  - Logs ne contenant pas de données sensibles

### 8.2.5 Documentation

- [ ] **Code documenté**
  - Docstrings pour toutes les classes/fonctions
  - Commentaires pour la logique complexe
  - README avec instructions de déploiement

- [ ] **Tests automatisés**
  - Tests unitaires pour les composants
  - Tests d'intégration end-to-end
  - Tests de régression sur données fixes

- [ ] **Versioning**
  - Git avec commits clairs
  - Tags pour les versions de production
  - Historique des performances

## 8.3 Adapter ce tutoriel à votre cas d'usage

Ce tutoriel utilise la classification de tickets IT comme exemple, mais DSPy peut être appliqué à de nombreux cas d'usage. Voici comment adapter ce code à votre problème.

### 8.3.1 Définir votre tâche

**Questions à se poser** :
1. Quelle est mon entrée? (texte, image, tableau, etc.)
2. Quelle est ma sortie attendue? (classification, extraction, génération, etc.)
3. Ai-je des exemples d'entrée/sortie?
4. Comment mesurer si la sortie est correcte?

### 8.3.2 Créer votre signature

```python
# Exemple 1: Analyse de sentiments
class SentimentAnalysis(dspy.Signature):
    """Analyser le sentiment d'un avis client"""
    review = dspy.InputField(desc="Avis client en texte libre")
    sentiment = dspy.OutputField(desc="Sentiment: Positif, Négatif, ou Neutre")
    confidence = dspy.OutputField(desc="Niveau de confiance: Faible, Moyen, Élevé")

# Exemple 2: Extraction d'informations
class InformationExtraction(dspy.Signature):
    """Extraire des informations structurées d'un texte"""
    text = dspy.InputField(desc="Texte source")
    entities = dspy.OutputField(desc="Entités trouvées (personnes, lieux, organisations)")
    dates = dspy.OutputField(desc="Dates mentionnées")
    
# Exemple 3: Génération de contenu
class ContentGeneration(dspy.Signature):
    """Générer une description de produit marketing"""
    product_name = dspy.InputField(desc="Nom du produit")
    features = dspy.InputField(desc="Liste des caractéristiques principales")
    tone = dspy.InputField(desc="Ton souhaité: Professionnel, Décontracté, Technique")
    description = dspy.OutputField(desc="Description marketing en 2-3 phrases")

# Exemple 4: Question-réponse
class QuestionAnswering(dspy.Signature):
    """Répondre à une question basée sur un contexte"""
    context = dspy.InputField(desc="Contexte ou document source")
    question = dspy.InputField(desc="Question de l'utilisateur")
    answer = dspy.OutputField(desc="Réponse concise basée sur le contexte")
    source = dspy.OutputField(desc="Citation du contexte utilisé pour répondre")
```

### 8.3.3 Préparer vos données

```python
# Format de base pour vos données
trainset = [
    {
        'input_field1': 'valeur1',
        'input_field2': 'valeur2',
        'output_field': 'sortie attendue'
    },
    # ... plus d'exemples
]

# Convertir au format DSPy
train_examples = [
    dspy.Example(
        input_field1=ex['input_field1'],
        input_field2=ex['input_field2'],
        output_field=ex['output_field']
    ).with_inputs('input_field1', 'input_field2')
    for ex in trainset
]
```

### 8.3.4 Définir votre métrique

```python
def your_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    """
    Métrique adaptée à votre tâche
    
    Retourne un score entre 0.0 et 1.0
    """
    # Exemple 1: Exact match
    if prediction.output_field == example.output_field:
        return 1.0
    else:
        return 0.0
    
    # Exemple 2: Similarité partielle
    # from difflib import SequenceMatcher
    # similarity = SequenceMatcher(None, 
    #     prediction.output_field.lower(), 
    #     example.output_field.lower()
    # ).ratio()
    # return similarity
    
    # Exemple 3: Métrique composite
    # score = 0.0
    # if prediction.field1 == example.field1:
    #     score += 0.5
    # if prediction.field2 == example.field2:
    #     score += 0.5
    # return score
```

### 8.3.5 Template de démarrage complet

```python
import dspy

# 1. Configuration
lm = dspy.LM(
    model='ollama_chat/llama3.1:8b',
    api_base='http://localhost:11434',
    temperature=0.3
)
dspy.configure(lm=lm)

# 2. Signature
class YourTask(dspy.Signature):
    """Description claire de votre tâche"""
    input_field = dspy.InputField(desc="Description de l'entrée")
    output_field = dspy.OutputField(desc="Description de la sortie")

# 3. Module
class YourModule(dspy.Module):
    def __init__(self):
        super().__init__()
        self.predictor = dspy.ChainOfThought(YourTask)
    
    def forward(self, input_field):
        result = self.predictor(input_field=input_field)
        return dspy.Prediction(output_field=result.output_field)

# 4. Données
trainset = [...]  # Vos données
train_examples = [
    dspy.Example(**ex).with_inputs('input_field')
    for ex in trainset
]

# 5. Métrique
def your_metric(example, prediction, trace=None, pred_name=None, pred_trace=None):
    return 1.0 if prediction.output_field == example.output_field else 0.0

# 6. Évaluation
module = YourModule()
from Partie3 import evaluate_module  # Utiliser la fonction du tutoriel
score = evaluate_module(module, train_examples[:10], your_metric)
print(f"Score baseline: {score:.2%}")

# 7. Optimisation (optionnel)
from dspy.teleprompt import BootstrapFewShot
optimizer = BootstrapFewShot(metric=your_metric, max_bootstrapped_demos=3)
optimized_module = optimizer.compile(module, trainset=train_examples)
score_optimized = evaluate_module(optimized_module, train_examples[:10], your_metric)
print(f"Score optimisé: {score_optimized:.2%}")
```

## 8.4 Prochaines étapes et apprentissage continu

### 8.4.1 Approfondir DSPy

**Concepts avancés à explorer** :

1. **Retrieval-Augmented Generation (RAG)**
   - Combiner DSPy avec des bases de données vectorielles
   - Modules : `dspy.Retrieve`, `dspy.RetrieveThenGenerate`
   - Cas d'usage : QA sur documents, chatbots avec connaissance spécifique

2. **Agents multi-étapes**
   - Chaînes de décisions complexes
   - Utiliser `ReAct` pour des tâches itératives
   - Cas d'usage : Assistants autonomes, automatisation de workflows

3. **Fine-tuning de modèles**
   - DSPy peut générer des datasets pour fine-tuning
   - Exporter les prompts optimisés comme données d'entraînement
   - Cas d'usage : Modèles spécialisés pour votre domaine

4. **Optimiseurs avancés**
   - `BayesianSignatureOptimizer` : Optimisation bayésienne
   - `KNNFewShot` : Sélection dynamique d'exemples
   - Combinaison d'optimiseurs

### 8.4.2 Cas d'usage inspirants

**Applications réelles de DSPy** :

- 🏥 **Santé** : Extraction d'informations médicales, classification de symptômes
- 💼 **Entreprise** : Analyse de contrats, classification de documents
- 🎓 **Éducation** : Correction automatique, génération de quiz
- 🛒 **E-commerce** : Catégorisation de produits, recommandations
- 📰 **Médias** : Résumés d'articles, détection de fake news
- 💬 **Customer Support** : Classification de tickets (comme ce tutoriel!), routage automatique

### 8.4.3 Ressources recommandées

**Documentation officielle** :
- 📖 [DSPy Documentation](https://dspy-docs.vercel.app/) - Guide complet
- 💻 [DSPy GitHub](https://github.com/stanfordnlp/dspy) - Code source et exemples
- 📄 [Paper DSPy](https://arxiv.org/abs/2310.03714) - Recherche originale

**GEPA** :
- 📄 [Paper GEPA](https://arxiv.org/abs/2507.19457) - Algorithme détaillé
- 💻 [GEPA GitHub](https://github.com/gepa-ai/gepa) - Implémentation

**Ollama** :
- 📖 [Ollama Documentation](https://ollama.ai/docs) - Guide d'installation
- 🤖 [Ollama Models Library](https://ollama.ai/library) - Catalogue de modèles
- 💬 [Ollama Discord](https://discord.gg/ollama) - Communauté active

**Communauté et support** :
- 💬 [DSPy Discord](https://discord.gg/dspy) - Discussions et aide
- 🐦 [Twitter @DSPy_ai](https://twitter.com/dspy_ai) - Actualités
- 📺 [Tutoriels YouTube](https://www.youtube.com/results?search_query=dspy+tutorial) - Vidéos explicatives

### 8.4.4 Contribuer à l'écosystème

**Façons de contribuer** :

1. **Partager vos cas d'usage**
   - Publier vos expériences sur GitHub
   - Écrire des articles de blog
   - Présenter dans des meetups

2. **Améliorer la documentation**
   - Signaler des erreurs ou ambiguïtés
   - Proposer de nouveaux exemples
   - Traduire la documentation

3. **Développer des extensions**
   - Nouveaux optimiseurs
   - Nouveaux modules
   - Intégrations avec d'autres outils

4. **Aider la communauté**
   - Répondre aux questions sur Discord
   - Partager vos solutions
   - Mentorer les débutants

## 8.5 Conclusion

### Le pouvoir de DSPy

DSPy représente un **changement de paradigme** dans le développement avec les LLMs :

**Avant DSPy** :
- ❌ Prompts écrits manuellement et fragiles
- ❌ Difficile de maintenir la cohérence
- ❌ Optimisation par essai-erreur
- ❌ Code spécifique à chaque modèle

**Avec DSPy** :
- ✅ Prompts optimisés automatiquement
- ✅ Abstraction propre et maintenable
- ✅ Optimisation algorithmique (GEPA, MIPRO)
- ✅ Indépendance du fournisseur LLM

### Principes clés à retenir

1. **Déclaratif > Impératif**
   - Définissez *ce que* vous voulez (Signature)
   - Laissez DSPy déterminer *comment* le faire

2. **Optimisation algorithmique > Ingénierie manuelle**
   - Les optimiseurs trouvent de meilleurs prompts que l'humain
   - GEPA utilise la réflexion LLM pour s'améliorer

3. **Composition > Monolithe**
   - Construisez des systèmes complexes à partir de modules simples
   - Chaque module a une responsabilité claire

4. **Mesure > Intuition**
   - Définissez des métriques claires
   - Validez sur des données réelles
   - Itérez basé sur les données

5. **Flexibilité > Lock-in**
   - Changez de modèle sans changer le code
   - Testez facilement différentes approches
   - Adaptez selon vos contraintes

### Votre parcours commence maintenant

Vous avez maintenant tous les outils pour :
- 🚀 Construire des applications LLM robustes et performantes
- 🔧 Optimiser automatiquement vos prompts avec GEPA
- 🎯 Adapter DSPy à vos cas d'usage spécifiques
- 🌟 Contribuer à l'écosystème DSPy

### Message final

L'IA générative évolue rapidement. **DSPy vous donne une base solide** pour construire des systèmes qui :
- Évoluent avec les nouveaux modèles
- S'améliorent automatiquement
- Restent maintenables à long terme

**N'attendez plus** :
1. Identifiez un problème dans votre domaine
2. Créez une signature DSPy
3. Collectez quelques exemples
4. Laissez GEPA optimiser
5. Déployez en production

Chaque grande application commence par un premier exemple. **Le vôtre est à portée de main.**

---

### Remerciements

Merci d'avoir suivi ce tutoriel jusqu'au bout! 🙏

Si ce tutoriel vous a été utile :
- ⭐ Donnez une étoile au projet sur GitHub
- 💬 Partagez vos réussites avec la communauté
- 🐛 Signalez les erreurs ou améliorations possibles
- 🤝 Aidez d'autres développeurs à démarrer avec DSPy

**Bon développement avec DSPy et GEPA!** 🎉

---

*Ce tutoriel a été créé pour aider la communauté francophone à découvrir DSPy et GEPA. N'hésitez pas à l'adapter, le partager et le faire évoluer.*

In [None]:
print("=" * 80)
print(" " * 25 + "🎓 TUTORIEL TERMINÉ! 🎓")
print("=" * 80)
print()
print("Vous avez complété le tutoriel DSPy et GEPA!")
print()
print("📊 Résumé de ce que vous avez appris:")
print()
print("   ✅ Partie 0: Configuration et installation")
print("   ✅ Partie 1: Signatures (5 exemples)")
print("   ✅ Partie 2: Modules (Predict, ChainOfThought, ReAct, ProgramOfThought)")
print("   ✅ Partie 3: Évaluation et métriques")
print("   ✅ Partie 4: Optimiseurs (BootstrapFewShot, MIPRO, etc.)")
print("   ✅ Partie 5: Multi-modèles et architectures hybrides")
print("   ✅ Partie 6: Patterns avancés (validation, retry, fallback, ensemble)")
print("   ✅ Partie 7: GEPA en pratique")
print("   ✅ Partie 8: Conclusion et mise en production")
print()
print("=" * 80)
print()
print("🚀 Prochaines étapes suggérées:")
print()
print("   1. Adaptez ce code à votre cas d'usage")
print("   2. Collectez vos propres données d'entraînement")
print("   3. Expérimentez avec différents modèles")
print("   4. Optimisez avec GEPA")
print("   5. Déployez en production!")
print()
print("=" * 80)
print()
print("💡 Ressources:")
print()
print("   📖 Documentation: https://dspy-docs.vercel.app/")
print("   💻 GitHub DSPy:   https://github.com/stanfordnlp/dspy")
print("   💬 Discord:       https://discord.gg/dspy")
print("   📄 Paper GEPA:    https://arxiv.org/abs/2507.19457")
print()
print("=" * 80)
print()
print("Bon développement avec DSPy! 🎉")
print()
print("=" * 80)

In [None]:
# Just add a ‘no_think: str’ input field on your signature and pass it ‘foo.Predict(no_think=“/no_think”’

# https://github.com/Columbia-NLP-Lab/PAPILLON/blob/main/papillon_tutorial.ipynb

