# Patterns de Production : APIs Avancées OpenAI

Ce notebook couvre les fonctionnalités avancées nécessaires pour des applications en production :
- **Conversations API** : Persistance d'état entre sessions
- **Background Mode** : Tâches asynchrones longues
- **Rate Limiting** : Gestion des limites d'API
- **Optimisation** : Réduction des coûts

**Objectifs :**
- Gérer des conversations multi-sessions
- Exécuter des tâches en arrière-plan
- Implémenter des patterns de résilience
- Optimiser les coûts d'API

**Prérequis :** Notebooks 1-4

**Durée estimée :** 70 minutes

In [None]:
%pip install -q openai python-dotenv tenacity

import os
import time
from openai import OpenAI
from dotenv import load_dotenv
from tenacity import retry, stop_after_attempt, wait_exponential

load_dotenv('../.env')
client = OpenAI()

# Modèle par défaut depuis .env
DEFAULT_MODEL = os.getenv("OPENAI_MODEL", "gpt-4o")
BATCH_MODE = os.getenv("BATCH_MODE", "false").lower() == "true"

print("Client OpenAI initialisé !")
print(f"Modèle par défaut: {DEFAULT_MODEL}")
print(f"Mode batch: {BATCH_MODE}")

## 1. Responses API avec Store

La **Responses API** avec l'option `store=True` permet de :
- **Persister les réponses** : Les réponses sont stockées côté serveur
- **Chaîner les requêtes** : Utiliser `previous_response_id` pour maintenir le contexte
- **Bénéficier du cache** : Économies de 40-80% sur les tokens d'entrée répétés

**Cas d'usage :**
- Conversations étendues sur plusieurs sessions
- Réduction des coûts pour contextes répétitifs
- Traçabilité complète des échanges

**Limitations :**
- Les réponses stockées expirent après 30 jours
- Le cache ne fonctionne que sur les préfixes identiques

In [None]:
# Premier message avec persistance
response1 = client.responses.create(
    model=DEFAULT_MODEL,
    store=True,
    input="Je m'appelle Jean et j'habite à Paris. Retiens ces informations."
)
print(f"Response 1 ID: {response1.id}")

# Extraire le contenu de la réponse
content1 = ""
if response1.output:
    for item in response1.output:
        if hasattr(item, 'content'):
            for c in item.content:
                if hasattr(c, 'text'):
                    content1 += c.text
print(f"Contenu: {content1[:200]}...")

# Deuxième message (contexte préservé via previous_response_id)
response2 = client.responses.create(
    model=DEFAULT_MODEL,
    store=True,
    previous_response_id=response1.id,
    input="Quel est mon nom et où j'habite?"
)
print(f"\nResponse 2 ID: {response2.id}")

# Extraire le contenu
content2 = ""
if response2.output:
    for item in response2.output:
        if hasattr(item, 'content'):
            for c in item.content:
                if hasattr(c, 'text'):
                    content2 += c.text
print(f"Contenu: {content2}")

# Vérifier les tokens si disponibles
if hasattr(response2, 'usage') and response2.usage:
    print(f"\nTokens utilisés: {response2.usage.input_tokens} input / {response2.usage.output_tokens} output")

## 2. Conversations API

La **Conversations API** offre une abstraction de plus haut niveau pour les conversations multi-tours :
- **Gestion automatique du contexte** : Plus besoin de passer `previous_response_id` manuellement
- **Persistance longue durée** : Les conversations peuvent durer des jours/semaines
- **Historique complet** : Accès à tous les messages de la conversation

**Architecture :**
```
Conversation (ID unique)
  └─ Messages
      ├─ Message 1 (user)
      ├─ Message 2 (assistant)
      ├─ Message 3 (user)
      └─ ...
```

**Avantages vs Responses chaînées :**
- Simplifie le code (pas de gestion manuelle des IDs)
- Permet la reprise après interruption
- Facilite l'audit et le debug

In [None]:
# Simulation de Conversations API avec Responses API chaînées
# Note: La Conversations API peut ne pas être disponible dans toutes les versions.
# Nous utilisons ici les Responses chaînées via previous_response_id

print("=== Simulation de conversation multi-turn ===\n")

# Premier échange
resp1 = client.responses.create(
    model=DEFAULT_MODEL,
    store=True,
    input="Tu es un assistant de voyage. Je planifie un voyage au Japon."
)
print(f"Conversation ID (via Response): {resp1.id}")

# Extraire le texte
text1 = ""
for item in resp1.output:
    if hasattr(item, 'content'):
        for c in item.content:
            if hasattr(c, 'text'):
                text1 += c.text
print(f"\nAssistant: {text1[:200]}...")

# Deuxième échange (contexte automatiquement préservé)
resp2 = client.responses.create(
    model=DEFAULT_MODEL,
    store=True,
    previous_response_id=resp1.id,
    input="Quels sont les meilleurs endroits à Tokyo?"
)
text2 = ""
for item in resp2.output:
    if hasattr(item, 'content'):
        for c in item.content:
            if hasattr(c, 'text'):
                text2 += c.text
print(f"\nAssistant: {text2[:200]}...")

# Troisième échange
resp3 = client.responses.create(
    model=DEFAULT_MODEL,
    store=True,
    previous_response_id=resp2.id,
    input="Quelle est la meilleure période pour y aller?"
)
text3 = ""
for item in resp3.output:
    if hasattr(item, 'content'):
        for c in item.content:
            if hasattr(c, 'text'):
                text3 += c.text
print(f"\nAssistant: {text3[:200]}...")

print(f"\n3 messages dans la conversation chaînée")
print(f"  Response IDs: {resp1.id[:20]}... -> {resp2.id[:20]}... -> {resp3.id[:20]}...")

## 3. Background Mode

Le **Background Mode** permet d'exécuter des tâches longues de manière asynchrone :
- **Traitement long** : Analyses complexes, génération de rapports
- **Polling** : Vérifier périodiquement le statut
- **Libération du client** : Le client peut continuer d'autres tâches

**Modèles supportés :**
- `gpt-5-thinking` : Raisonnement approfondi (OpenAI o1/o3)
- `gpt-4o` : Tâches multimodales complexes

**Workflow typique :**
1. Lancer la tâche avec `background=True`
2. Récupérer l'ID de la réponse
3. Polling périodique avec `client.responses.retrieve(id)`
4. Récupérer le résultat final quand `status == "completed"`

**États possibles :**
- `pending` : En attente de traitement
- `processing` : En cours d'exécution
- `completed` : Terminé avec succès
- `failed` : Échec (voir `error` pour détails)

In [None]:
if not BATCH_MODE:
    # Lancer une tâche longue en background
    response = client.responses.create(
        model=DEFAULT_MODEL,
        background=True,
        store=True,
        input="""
        Analyse approfondie: Compare les avantages et inconvénients 
        de 5 architectures de microservices différentes pour une 
        application e-commerce à forte charge.
        """
    )
    
    print(f"Tâche lancée: {response.id}")
    print(f"Status initial: {response.status}")
    
    # Polling pour vérifier le statut
    max_wait = 120  # 2 minutes max
    start = time.time()
    while time.time() - start < max_wait:
        status = client.responses.retrieve(response.id)
        print(f"Status: {status.status} ({int(time.time() - start)}s)")
        
        if status.status == "completed":
            print("\n=== Résultat ===")
            result_text = ""
            for item in status.output:
                if hasattr(item, 'content'):
                    for c in item.content:
                        if hasattr(c, 'text'):
                            result_text += c.text
            print(result_text[:500] if result_text else "Pas de contenu")
            break
        elif status.status == "failed":
            print(f"Erreur: {status.error if hasattr(status, 'error') else 'Erreur inconnue'}")
            break
        
        time.sleep(5)
    else:
        print("Timeout - la tâche continue en arrière-plan")
        print(f"Vous pouvez récupérer le résultat plus tard avec: client.responses.retrieve('{response.id}')")
else:
    print("[BATCH_MODE] Simulation de tâche background:")
    print("Status: pending -> processing -> completed (30s)")
    print("Résultat: Comparaison de 5 architectures microservices (500 caractères)")

## 4. Rate Limiting et Retry

En production, il est essentiel de gérer les erreurs transitoires et les limites d'API :

### Retry avec Backoff Exponentiel

La bibliothèque **tenacity** permet d'implémenter facilement un retry automatique :
- **Backoff exponentiel** : Attendre 2s, puis 4s, puis 8s, etc.
- **Retry sélectif** : Uniquement sur certaines exceptions
- **Limite de tentatives** : Éviter les boucles infinies

**Pattern recommandé :**
```python
@retry(
    stop=stop_after_attempt(5),
    wait=wait_exponential(multiplier=1, min=2, max=60),
    retry=retry_if_exception_type((RateLimitError, APIError))
)
```

**Erreurs à gérer :**
- `RateLimitError` : Limite de requêtes dépassée (429)
- `APIError` : Erreur serveur temporaire (500, 502, 503)
- `Timeout` : Délai d'attente dépassé

In [None]:
from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type
from openai import RateLimitError, APIError

@retry(
    stop=stop_after_attempt(5),
    wait=wait_exponential(multiplier=1, min=2, max=60),
    retry=retry_if_exception_type((RateLimitError, APIError))
)
def safe_completion(prompt: str, model: str = None) -> str:
    """Appel API avec retry automatique sur erreurs transitoires"""
    model = model or DEFAULT_MODEL
    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        max_tokens=200
    )
    return response.choices[0].message.content

# Test
result = safe_completion("Dis 'Hello World' en 5 langues.")
print(result)

### Rate Limiter Personnalisé

Pour respecter les limites de requêtes par minute (RPM), implémentons un **rate limiter** :
- **Fenêtre glissante** : Compte les requêtes sur les 60 dernières secondes
- **Attente automatique** : Bloque jusqu'à ce qu'une requête soit autorisée
- **Configurable** : Adapter selon votre tier OpenAI

**Limites par tier (exemple) :**
- Free : 3 RPM
- Tier 1 : 500 RPM
- Tier 2 : 5000 RPM
- Tier 5 : 10000 RPM

In [6]:
import time
from collections import deque

class RateLimiter:
    """Limite le nombre de requêtes par minute"""
    def __init__(self, max_requests_per_minute: int = 60):
        self.max_rpm = max_requests_per_minute
        self.requests = deque()
    
    def wait_if_needed(self):
        now = time.time()
        # Nettoyer les anciennes requêtes (plus de 60s)
        while self.requests and now - self.requests[0] > 60:
            self.requests.popleft()
        
        # Si limite atteinte, attendre
        if len(self.requests) >= self.max_rpm:
            wait_time = 60 - (now - self.requests[0])
            if wait_time > 0:
                print(f"Rate limit: attente de {wait_time:.1f}s")
                time.sleep(wait_time)
        
        self.requests.append(time.time())

# Exemple d'utilisation
limiter = RateLimiter(max_requests_per_minute=10)

for i in range(3):
    limiter.wait_if_needed()
    result = safe_completion(f"Nombre aléatoire #{i+1}")
    print(f"Requête {i+1}: {result[:50]}...")

Requête 1: Voici un nombre aléatoire : **27**. Si tu as besoi...
Requête 2: Bien sûr! Voilà un nombre aléatoire: 47. Si souhai...
Requête 3: Voici un nom aléatoire pour vous : **Léa Fontaine*...


## 5. Optimisation des Coûts

Stratégies pour réduire les coûts d'API en production :

### 1. Utiliser le Cache (store=True)
- Économie de 40-80% sur les tokens d'entrée répétés
- Activer sur toutes les conversations longues

### 2. Choisir le Bon Modèle
| Modèle | Prix Input | Prix Output | Cas d'usage |
|--------|------------|-------------|-------------|
| gpt-4o-mini | $0.15/1M | $0.60/1M | Tâches simples, production |
| gpt-4o | $2.50/1M | $10.00/1M | Tâches complexes |
| gpt-5-thinking | $10.00/1M | $40.00/1M | Raisonnement profond |

### 3. Limiter les Tokens
- Utiliser `max_tokens` pour contrôler la longueur
- Préférer les prompts courts et précis
- Éviter les contextes inutilement longs

### 4. Batch Processing
- Utiliser l'API Batch pour réductions de 50%
- Acceptable pour tâches non-temps-réel

### 5. Monitoring et Alertes
- Suivre les coûts quotidiens/mensuels
- Configurer des alertes budgétaires

In [None]:
def optimized_completion(prompt: str, use_cache: bool = True) -> dict:
    """Completion optimisée avec métriques de coût"""
    
    # Utiliser store pour le cache si activé
    response = client.responses.create(
        model=DEFAULT_MODEL,
        store=use_cache,
        input=prompt
    )
    
    # Calculer les coûts approximatifs
    # Prix gpt-4o: ~$2.50/1M input, ~$10.00/1M output
    input_tokens = response.usage.input_tokens if hasattr(response, 'usage') and response.usage else 0
    output_tokens = response.usage.output_tokens if hasattr(response, 'usage') and response.usage else 0
    
    cost_input = input_tokens * 0.0000025
    cost_output = output_tokens * 0.00001
    
    # Extraire le contenu
    content = ""
    if response.output:
        for item in response.output:
            if hasattr(item, 'content'):
                for c in item.content:
                    if hasattr(c, 'text'):
                        content += c.text
    
    return {
        "content": content,
        "input_tokens": input_tokens,
        "output_tokens": output_tokens,
        "estimated_cost": cost_input + cost_output,
        "cached": getattr(response, 'cached', False)
    }

# Test sans cache
result1 = optimized_completion("Résume les avantages de Python en 3 points.", use_cache=False)
print("=== Sans cache ===")
print(f"Réponse: {result1['content'][:100]}...")
print(f"Tokens: {result1['input_tokens']} in / {result1['output_tokens']} out")
print(f"Coût estimé: ${result1['estimated_cost']:.6f}")

# Test avec cache
result2 = optimized_completion("Résume les avantages de JavaScript en 3 points.", use_cache=True)
print("\n=== Avec cache ===")
print(f"Réponse: {result2['content'][:100]}...")
print(f"Tokens: {result2['input_tokens']} in / {result2['output_tokens']} out")
print(f"Coût estimé: ${result2['estimated_cost']:.6f}")
print(f"Cache utilisé: {result2['cached']}")

## 6. Monitoring et Logging

Bonnes pratiques pour le monitoring en production :

### Logging Structuré
- **Timestamp** : Horodatage de chaque requête
- **Modèle** : Quel modèle a été utilisé
- **Durée** : Temps de réponse
- **Tokens** : Consommation de tokens
- **Succès/Échec** : Status de la requête
- **Erreurs** : Type et message d'erreur

### Métriques à Surveiller
- **Latence** : p50, p95, p99
- **Taux d'erreur** : Pourcentage de requêtes échouées
- **Coûts** : Dépenses quotidiennes/mensuelles
- **Tokens/requête** : Moyenne et variance
- **Rate limiting** : Nombre de requêtes rejetées

### Outils Recommandés
- **Logging** : Python `logging`, Loguru
- **APM** : Datadog, New Relic, OpenTelemetry
- **Alerting** : PagerDuty, Opsgenie
- **Dashboards** : Grafana, Kibana

In [None]:
import logging
from datetime import datetime

# Configuration du logger
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s | %(name)s | %(levelname)s | %(message)s',
    datefmt='%Y-%m-%d %H:%M:%S'
)
logger = logging.getLogger("OpenAI_Production")

def logged_completion(prompt: str, model: str = None) -> str:
    """Completion avec logging complet"""
    model = model or DEFAULT_MODEL
    start = datetime.now()
    
    try:
        response = client.chat.completions.create(
            model=model,
            messages=[{"role": "user", "content": prompt}],
            max_tokens=200
        )
        
        duration = (datetime.now() - start).total_seconds()
        logger.info(f"SUCCESS | Model: {model} | Duration: {duration:.2f}s | "
                   f"Tokens: {response.usage.total_tokens} (in: {response.usage.prompt_tokens}, out: {response.usage.completion_tokens})")
        
        return response.choices[0].message.content
        
    except Exception as e:
        duration = (datetime.now() - start).total_seconds()
        logger.error(f"FAILED | Model: {model} | Duration: {duration:.2f}s | "
                    f"Error: {type(e).__name__}: {str(e)[:100]}")
        raise

# Tests
print("=== Test réussi ===")
result = logged_completion("Quelle heure est-il?")
print(f"Réponse: {result}\n")

print("=== Test avec modèle invalide ===")
try:
    result = logged_completion("Test", model="gpt-invalid-model")
except Exception as e:
    print(f"Erreur capturée: {type(e).__name__}")

## 7. Patterns Avancés : Streaming et Modération

### Streaming pour UX Réactive

Le streaming permet d'afficher la réponse progressivement :
- **Meilleure UX** : L'utilisateur voit la réponse se construire
- **Latence perçue réduite** : Premier token en ~200ms vs 5s pour réponse complète
- **Annulation précoce** : Possibilité de stopper si réponse non pertinente

### Modération de Contenu

OpenAI propose une API de modération pour détecter :
- Contenu haineux/violent
- Harcèlement
- Contenu sexuel
- Auto-mutilation
- Etc.

**Pattern recommandé :**
1. Modérer l'input utilisateur
2. Générer la réponse si OK
3. Modérer l'output avant affichage

In [None]:
# Streaming
print("=== Streaming Example ===")
stream = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=[{"role": "user", "content": "Écris un haïku sur la programmation."}],
    stream=True,
    max_tokens=100
)

print("Réponse streamée: ", end="", flush=True)
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
print("\n")

# Modération
print("=== Moderation Example ===")
test_inputs = [
    "Bonjour, comment vas-tu?",
    "Je déteste ce produit, c'est nul!"
]

for text in test_inputs:
    moderation = client.moderations.create(input=text)
    result = moderation.results[0]
    
    print(f"\nTexte: {text}")
    print(f"Flaggé: {result.flagged}")
    if result.flagged:
        print(f"Catégories: {[cat for cat, flagged in result.categories.__dict__.items() if flagged]}")

## 8. Checklist Déploiement Production

### Sécurité
- [ ] API keys stockées dans variables d'environnement (jamais hardcodées)
- [ ] Rotation régulière des clés
- [ ] Rate limiting côté serveur
- [ ] Validation et sanitization des inputs utilisateur
- [ ] Modération de contenu activée
- [ ] Logs ne contiennent pas de données sensibles

### Résilience
- [ ] Retry automatique avec backoff exponentiel
- [ ] Timeout configurés
- [ ] Circuit breaker pour dépendances externes
- [ ] Fallback gracieux en cas d'erreur
- [ ] Health checks réguliers

### Performance
- [ ] Cache activé (`store=True`)
- [ ] Choix du modèle adapté au cas d'usage
- [ ] `max_tokens` configuré pour limiter les coûts
- [ ] Streaming pour réponses longues
- [ ] Background mode pour tâches longues

### Monitoring
- [ ] Logging structuré configuré
- [ ] Métriques : latence, taux d'erreur, coûts
- [ ] Alertes budgétaires configurées
- [ ] Dashboards temps réel
- [ ] Traçabilité des requêtes (request ID)

### Coûts
- [ ] Budget mensuel défini
- [ ] Alertes à 50%, 80%, 100% du budget
- [ ] Audit régulier de l'usage par endpoint/utilisateur
- [ ] Optimisation continue des prompts
- [ ] Évaluation régulière des modèles (nouveaux modèles moins chers?)

### Conformité
- [ ] RGPD : consentement utilisateur pour traitement des données
- [ ] Politique de rétention des données
- [ ] Anonymisation des données personnelles
- [ ] Documentation des traitements de données
- [ ] DPO informé de l'usage d'IA

## Conclusion

### Récapitulatif des Patterns

| Pattern | Cas d'usage | Complexité |
|---------|-------------|------------|
| **Responses API + store** | Conversations courtes avec cache | ⭐⭐ |
| **Conversations API** | Conversations longue durée | ⭐⭐ |
| **Background Mode** | Tâches longues (>30s) | ⭐⭐⭐ |
| **Retry + Backoff** | Résilience production | ⭐⭐ |
| **Rate Limiter** | Respect limites API | ⭐⭐ |
| **Logging structuré** | Monitoring et debug | ⭐⭐ |
| **Streaming** | UX temps réel | ⭐⭐ |
| **Modération** | Sécurité contenu | ⭐ |

### Ressources Supplémentaires

**Documentation OpenAI :**
- [Responses API](https://platform.openai.com/docs/api-reference/responses)
- [Conversations API](https://platform.openai.com/docs/api-reference/conversations)
- [Rate Limits](https://platform.openai.com/docs/guides/rate-limits)
- [Error Codes](https://platform.openai.com/docs/guides/error-codes)

**Bibliothèques Python :**
- [tenacity](https://tenacity.readthedocs.io/) : Retry robuste
- [openai](https://github.com/openai/openai-python) : SDK officiel
- [loguru](https://loguru.readthedocs.io/) : Logging simplifié

**Prochaines étapes :**
- Implémenter ces patterns dans votre application
- Configurer un monitoring complet
- Tester la résilience (chaos engineering)
- Optimiser les coûts progressivement

## Exercices Pratiques

### Exercice 1 : Chatbot Multi-Session (30 min)

Créez un chatbot de support client qui :
1. Utilise la Conversations API pour maintenir le contexte
2. Persiste les conversations dans un fichier JSON (pour reprise après redémarrage)
3. Implémente un retry avec backoff
4. Log toutes les interactions

**Bonus :** Ajouter une commande `/summary` qui résume la conversation en cours.

### Exercice 2 : Système d'Analyse de Documents (40 min)

Implémentez un système qui :
1. Prend un long document en entrée
2. Lance l'analyse en background mode
3. Affiche une barre de progression pendant le traitement
4. Retourne un rapport structuré (points clés, résumé, recommandations)
5. Calcule et affiche le coût total de l'analyse

**Bonus :** Comparer les coûts entre gpt-4o-mini et gpt-4o.

### Exercice 3 : Rate Limiter Multi-Tier (20 min)

Améliorez la classe `RateLimiter` pour supporter :
1. Des limites par minute ET par jour
2. Des priorités de requêtes (high/medium/low)
3. Un mode "burst" (permettre 10 requêtes instantanées, puis throttling)

**Bonus :** Ajouter des statistiques (nombre de requêtes dans les dernières 24h, temps moyen d'attente).