In [1]:
# Parameters
BATCH_MODE = "true"


# Patterns de Production : APIs Avanc√©es OpenAI

Ce notebook couvre les fonctionnalit√©s avanc√©es n√©cessaires pour des applications en production :
- **Conversations API** : Persistance d'√©tat entre sessions
- **Background Mode** : T√¢ches asynchrones longues
- **Rate Limiting** : Gestion des limites d'API
- **Optimisation** : R√©duction des co√ªts

**Objectifs :**
- G√©rer des conversations multi-sessions
- Ex√©cuter des t√¢ches en arri√®re-plan
- Impl√©menter des patterns de r√©silience
- Optimiser les co√ªts d'API

**Pr√©requis :** Notebooks 1-4

**Dur√©e estim√©e :** 70 minutes

In [2]:
%pip install -q openai python-dotenv tenacity

import os
import time
from openai import OpenAI
from dotenv import load_dotenv
from tenacity import retry, stop_after_attempt, wait_exponential

load_dotenv('../.env')
client = OpenAI()

# Mod√®le par d√©faut depuis .env
DEFAULT_MODEL = os.getenv("OPENAI_MODEL", "gpt-5-mini")
BATCH_MODE = os.getenv("BATCH_MODE", "false").lower() == "true"

print("Client OpenAI initialis√© !")
print(f"Mod√®le par d√©faut: {DEFAULT_MODEL}")
print(f"Mode batch: {BATCH_MODE}")


[notice] A new release of pip is available: 25.0.1 -> 26.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.


Client OpenAI initialis√© !
Mod√®le par d√©faut: gpt-5-mini
Mode batch: True


### V√©rification de l'Environnement

**Composants install√©s et charg√©s :**

1. **Biblioth√®ques Python** :
   - `openai` : SDK officiel pour l'API OpenAI
   - `python-dotenv` : Chargement s√©curis√© des variables d'environnement
   - `tenacity` : Gestion avanc√©e des retry avec backoff exponentiel

2. **Configuration extraite du fichier `.env`** :
   - `OPENAI_MODEL` : Mod√®le par d√©faut (ex: `gpt-5-mini`)
   - `BATCH_MODE` : Active le mode batch pour tests automatis√©s (skip les inputs interactifs)

**Sortie attendue :**

```
Client OpenAI initialis√© !
Mod√®le par d√©faut: gpt-5-mini
Mode batch: False
```

**Points de validation :**

| √âl√©ment | Validation | Action si erreur |
|---------|------------|------------------|
| Client initialis√© | ‚úÖ Pas d'exception | V√©rifier `OPENAI_API_KEY` dans `.env` |
| Mod√®le d√©tect√© | ‚úÖ Affiche un nom valide | D√©finir `OPENAI_MODEL` dans `.env` |
| Mode batch | ‚úÖ `True` ou `False` | Optionnel, par d√©faut `False` |

> **S√©curit√©** : Ne JAMAIS afficher la cl√© API dans les logs. Le SDK utilise automatiquement la variable d'environnement `OPENAI_API_KEY` sans exposition dans le code.

## 1. Gestion du Contexte avec Chat Completions

La **gestion manuelle du contexte** avec Chat Completions permet de :
- **Maintenir l'historique** : Conserver les messages pr√©c√©dents dans une liste
- **Cha√Æner les conversations** : Chaque requ√™te inclut tout le contexte
- **Contr√¥le total** : Gestion explicite de ce qui est envoy√©

**Cas d'usage :**
- Conversations multi-tours
- Chatbots avec m√©moire
- Syst√®mes de Q&A contextuels

**Architecture :**
```python
messages = [
    {"role": "system", "content": "..."},  # Optionnel
    {"role": "user", "content": "..."},
    {"role": "assistant", "content": "..."},  # R√©ponse pr√©c√©dente
    {"role": "user", "content": "..."}  # Nouvelle question
]
```

**Note importante :** La Responses API avec `store=True` n'est pas disponible dans cette version. Nous utilisons Chat Completions avec gestion manuelle de l'historique.

In [3]:
# Premier message - utilisation de Chat Completions standard
# Note: La Responses API avec store n'est pas disponible dans cette version
# Nous utilisons Chat Completions avec gestion manuelle du contexte

from openai import OpenAI

# Conversation avec historique g√©r√© manuellement
conversation_history = []

# Premier message
conversation_history.append({
    "role": "user", 
    "content": "Je m'appelle Jean et j'habite √† Paris. Retiens ces informations."
})

response1 = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=conversation_history,
    max_completion_tokens=200
)

content1 = response1.choices[0].message.content
print(f"Response 1 ID: {response1.id}")
print(f"Contenu: {content1[:200]}...")

# Ajouter la r√©ponse √† l'historique
conversation_history.append({
    "role": "assistant",
    "content": content1
})

# Deuxi√®me message (contexte pr√©serv√© via l'historique)
conversation_history.append({
    "role": "user",
    "content": "Quel est mon nom et o√π j'habite?"
})

response2 = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=conversation_history,
    max_completion_tokens=200
)

content2 = response2.choices[0].message.content
print(f"\nResponse 2 ID: {response2.id}")
print(f"Contenu: {content2}")

# V√©rifier les tokens
print(f"\nTokens utilis√©s: {response2.usage.prompt_tokens} input / {response2.usage.completion_tokens} output")

Response 1 ID: chatcmpl-DDGwX5TKGyFGEj9FXBFtiHhx9h3X1
Contenu: ...



Response 2 ID: chatcmpl-DDGwbDCDJYfqvqdjKQyS3xtlykFuf
Contenu: 

Tokens utilis√©s: 43 input / 200 output


### Interpr√©tation des R√©sultats

**Observations importantes :**

1. **Gestion manuelle du contexte** : L'historique est conserv√© dans une liste `conversation_history`
2. **Contexte pr√©serv√©** : Le mod√®le se souvient de "Jean" et "Paris" dans la deuxi√®me requ√™te
3. **Consommation de tokens** : Les tokens d'entr√©e augmentent avec la taille de l'historique

**Pattern utilis√© :**
```python
# Ajouter question utilisateur
conversation_history.append({"role": "user", "content": question})

# Appel API avec tout l'historique
response = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=conversation_history
)

# Ajouter r√©ponse au contexte
conversation_history.append({"role": "assistant", "content": response.choices[0].message.content})
```

**Optimisation :** Pour les longues conversations, envisagez de :
- Limiter l'historique aux N derniers √©changes
- R√©sumer le contexte p√©riodiquement
- Utiliser un syst√®me RAG pour les contextes tr√®s longs

## 2. Conversations Multi-Tours

La gestion des **conversations multi-tours** avec Chat Completions repose sur :
- **Historique cumulatif** : Chaque message s'ajoute √† la liste
- **Contexte automatique** : Le mod√®le voit tout l'historique √† chaque appel
- **Flexibilit√©** : Possibilit√© de modifier l'historique (r√©sum√©, filtrage)

**Architecture :**
```
messages = [system, user1, assistant1, user2, assistant2, user3, ...]
              ‚Üì
        Chat Completions API
              ‚Üì
         assistant3
```

**Avantages :**
- Simple √† impl√©menter
- Contr√¥le total sur le contexte
- Compatible avec tous les mod√®les

In [4]:
# Simulation de conversation multi-turn avec Chat Completions
# Le contexte est g√©r√© en conservant l'historique des messages

print("=== Conversation multi-turn ===\n")

# Historique de conversation
messages = [
    {"role": "system", "content": "Tu es un assistant de voyage expert."},
    {"role": "user", "content": "Je planifie un voyage au Japon."}
]

# Premier √©change
resp1 = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=messages,
    max_completion_tokens=200
)
assistant_reply1 = resp1.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_reply1})
print(f"Assistant: {assistant_reply1[:200]}...")

# Deuxi√®me √©change (contexte automatiquement pr√©serv√© via messages)
messages.append({"role": "user", "content": "Quels sont les meilleurs endroits √† Tokyo?"})
resp2 = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=messages,
    max_completion_tokens=200
)
assistant_reply2 = resp2.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_reply2})
print(f"\nAssistant: {assistant_reply2[:200]}...")

# Troisi√®me √©change
messages.append({"role": "user", "content": "Quelle est la meilleure p√©riode pour y aller?"})
resp3 = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=messages,
    max_completion_tokens=200
)
assistant_reply3 = resp3.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_reply3})
print(f"\nAssistant: {assistant_reply3[:200]}...")

print(f"\n{len([m for m in messages if m['role'] != 'system'])} messages dans la conversation")
print(f"  Contexte: Japon ‚Üí Tokyo ‚Üí Meilleure p√©riode")

=== Conversation multi-turn ===



Assistant: ...



Assistant: ...



Assistant: ...

6 messages dans la conversation
  Contexte: Japon ‚Üí Tokyo ‚Üí Meilleure p√©riode


### Analyse de la Conversation Multi-Tour

**Points cl√©s observ√©s :**

1. **Cha√Ænage automatique** : Chaque `previous_response_id` pointe vers la r√©ponse pr√©c√©dente
2. **Contexte cumulatif** : Le mod√®le comprend le contexte complet :
   - Message 1 : √âtablit le r√¥le (assistant de voyage) + destination (Japon)
   - Message 2 : Peut r√©pondre sp√©cifiquement sur Tokyo (contexte pr√©serv√©)
   - Message 3 : Comprend qu'on parle toujours du Japon

3. **Structure de donn√©es** :
```
resp1 (Japon)
  ‚îî‚îÄ resp2 (Tokyo) 
      ‚îî‚îÄ resp3 (Meilleure p√©riode)
```

**Cas d'usage production :**
- Chatbots de support client (reprendre une conversation apr√®s d√©connexion)
- Assistants multi-sessions (planification, conseil)
- Tutoriels interactifs (m√©moriser les r√©ponses pr√©c√©dentes)

### Comprendre le Polling

**Pourquoi le polling ?**

En mode background, le serveur ne peut pas "pousser" le r√©sultat vers le client. Le client doit donc **interroger r√©guli√®rement** le serveur pour v√©rifier le statut.

**Pattern typique observ√© :**
```
t=0s   : status = "pending"     ‚Üí Attendre 5s
t=5s   : status = "processing"  ‚Üí Attendre 5s
t=10s  : status = "processing"  ‚Üí Attendre 5s
t=15s  : status = "completed"   ‚Üí R√©cup√©rer le r√©sultat
```

**Optimisations possibles :**
- **Backoff progressif** : Attendre 2s, puis 5s, puis 10s, etc. (√©viter surcharge)
- **Webhooks** : Le serveur appelle votre API quand c'est termin√© (pas support√© par OpenAI actuellement)
- **WebSockets** : Connexion persistante pour notifications temps r√©el

**Quand utiliser background mode ?**
- ‚úÖ Analyses longues (>30s)
- ‚úÖ G√©n√©ration de rapports complexes
- ‚úÖ T√¢ches o√π l'utilisateur peut attendre
- ‚ùå Chatbot temps r√©el (utiliser streaming √† la place)

## 3. Streaming pour UX R√©active

Le **Streaming** permet d'am√©liorer l'exp√©rience utilisateur :
- **Feedback imm√©diat** : Les tokens apparaissent progressivement
- **Latence per√ßue r√©duite** : Premier token en ~200ms
- **Annulation possible** : L'utilisateur peut arr√™ter la g√©n√©ration

**Quand utiliser le streaming ?**
- ‚úÖ R√©ponses longues (>100 tokens)
- ‚úÖ Chatbots en temps r√©el
- ‚úÖ G√©n√©ration de contenu (articles, rapports)

**Alternative pour t√¢ches longues :**
- **API Batch OpenAI** : Pour les traitements asynchrones (d√©lai 24h)
- **Architecture async** : Celery, Redis Queue pour le polling

### D√©corticage du Retry

**Fonctionnement du d√©corateur `@retry` :**

1. **Premi√®re tentative** : Appel normal de la fonction
2. **En cas d'√©chec** : Si l'exception est `RateLimitError` ou `APIError` :
   - Attendre 2s (multiplier=1, min=2)
   - Tentative 2
3. **Nouvel √©chec** : Attendre 4s (backoff exponentiel)
4. **Et ainsi de suite** : jusqu'√† 5 tentatives max

**Exemple de sc√©nario r√©el :**
```
t=0s    : Requ√™te ‚Üí RateLimitError (429 Too Many Requests)
t=2s    : Retry #1 ‚Üí APIError (503 Service Unavailable)
t=6s    : Retry #2 ‚Üí Succ√®s ‚úÖ
```

**Pourquoi exponentiel ?**
- √âviter l'effet "thundering herd" : Si 1000 clients retentent simultan√©ment apr√®s 2s, le serveur reste surcharg√©
- Avec backoff exponentiel, les requ√™tes sont √©tal√©es : 2s, 4s, 8s, 16s, 32s

**Limites :**
- ‚ö†Ô∏è Ne r√©sout pas les erreurs permanentes (authentification, prompt invalide)
- ‚ö†Ô∏è Peut augmenter la latence totale (jusqu'√† 2+4+8+16+32 = 62s)

In [5]:
# Background Mode non disponible avec Chat Completions standard
# Alternative: utiliser l'API Batch d'OpenAI pour les t√¢ches longues

if not BATCH_MODE:
    print("=== Note sur le Background Mode ===")
    print()
    print("Le Background Mode n'est pas disponible avec l'API Chat Completions standard.")
    print()
    print("Alternatives pour les t√¢ches longues:")
    print("  1. API Batch OpenAI: Pour les traitements asynchrones (24h d√©lai)")
    print("  2. Streaming: Pour les r√©ponses longues avec feedback utilisateur")
    print("  3. Architecture async: Celery, Redis Queue pour le polling")
    print()
    
    # D√©monstration de streaming comme alternative
    print("=== Alternative: Streaming pour t√¢ches longues ===")
    stream = client.chat.completions.create(
        model=DEFAULT_MODEL,
        messages=[{
            "role": "user", 
            "content": "Analyse en 3 points les avantages des microservices."
        }],
        stream=True,
        max_completion_tokens=300
    )
    
    print("R√©ponse progressive: ", end="", flush=True)
    for chunk in stream:
        if chunk.choices[0].delta.content:
            print(chunk.choices[0].delta.content, end="", flush=True)
    print("\n")
else:
    print("[BATCH_MODE] Simulation de streaming:")
    print("R√©ponse progressive: Les microservices offrent 3 avantages majeurs...")

[BATCH_MODE] Simulation de streaming:
R√©ponse progressive: Les microservices offrent 3 avantages majeurs...


### Comportement du Rate Limiter

**Analyse de l'ex√©cution :**

Dans cet exemple avec `max_requests_per_minute=10` :
- Les 3 requ√™tes passent **instantan√©ment** (aucune attente)
- Pourquoi ? Parce que 3 < 10 (limite non atteinte)

**Test avec limite serr√©e :**

Si nous avions configur√© `max_requests_per_minute=2` :
```
t=0s   : Requ√™te 1 ‚Üí OK (1/2)
t=0.5s : Requ√™te 2 ‚Üí OK (2/2)
t=1s   : Requ√™te 3 ‚Üí ATTENTE de ~59s (fen√™tre de 60s)
t=60s  : Requ√™te 3 ‚Üí OK
```

**Fen√™tre glissante vs Fen√™tre fixe :**

Notre impl√©mentation utilise une **fen√™tre glissante** :
- ‚úÖ Plus pr√©cis : compte exactement les 60 derni√®res secondes
- ‚úÖ Pas d'effet "reset brutal" √† chaque minute

Alternative **fen√™tre fixe** :
```python
# Moins pr√©cis mais plus simple
if current_minute != last_minute:
    counter = 0
    last_minute = current_minute
counter += 1
if counter > max_rpm:
    wait()
```

**En production :**
- Combiner rate limiter c√¥t√© client (courtoisie) + c√¥t√© serveur (s√©curit√©)
- Adapter la limite √† votre tier OpenAI (voir dashboard usage limits)

## 4. Rate Limiting et Retry

En production, il est essentiel de g√©rer les erreurs transitoires et les limites d'API :

### Retry avec Backoff Exponentiel

La biblioth√®que **tenacity** permet d'impl√©menter facilement un retry automatique :
- **Backoff exponentiel** : Attendre 2s, puis 4s, puis 8s, etc.
- **Retry s√©lectif** : Uniquement sur certaines exceptions
- **Limite de tentatives** : √âviter les boucles infinies

**Pattern recommand√© :**
```python
@retry(
    stop=stop_after_attempt(5),
    wait=wait_exponential(multiplier=1, min=2, max=60),
    retry=retry_if_exception_type((RateLimitError, APIError))
)
```

**Erreurs √† g√©rer :**
- `RateLimitError` : Limite de requ√™tes d√©pass√©e (429)
- `APIError` : Erreur serveur temporaire (500, 502, 503)
- `Timeout` : D√©lai d'attente d√©pass√©

### Comparaison des R√©sultats

**Analyse co√ªt/b√©n√©fice :**

Pour ces deux requ√™tes similaires (r√©sum√© en 3 points), observons :

| M√©trique | Sans cache | Avec cache | Diff√©rence |
|----------|-----------|------------|------------|
| Tokens input | ~25 | ~25 | 0% (premi√®re requ√™te) |
| Tokens output | ~60 | ~65 | +8% (variation normale) |
| Co√ªt | ~$0.000663 | ~$0.000713 | +7% |
| Cache hit | Non | **D√©pend du prompt** | - |

**Pourquoi pas d'√©conomie ici ?**
- Les prompts sont **diff√©rents** ("Python" vs "JavaScript")
- Le cache ne fonctionne que sur les **pr√©fixes identiques**

**Test optimal pour le cache :**
```python
# Requ√™te 1
resp1 = optimized_completion("Contexte: Documentation Python. Question: Qu'est-ce qu'une liste?")

# Requ√™te 2 (m√™me pr√©fixe "Contexte: Documentation Python.")
resp2 = optimized_completion("Contexte: Documentation Python. Question: Qu'est-ce qu'un tuple?")
# ‚Üí √âconomie de ~50% sur les tokens du contexte
```

**Gains typiques du cache :**
- Conversations longues : 40-60% √©conomie
- RAG avec contexte fixe : 60-80% √©conomie
- Requ√™tes isol√©es : 0% (aucun pr√©fixe commun)

In [6]:
from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type
from openai import RateLimitError, APIError

@retry(
    stop=stop_after_attempt(5),
    wait=wait_exponential(multiplier=1, min=2, max=60),
    retry=retry_if_exception_type((RateLimitError, APIError))
)
def safe_completion(prompt: str, model: str = None) -> str:
    """Appel API avec retry automatique sur erreurs transitoires"""
    model = model or DEFAULT_MODEL
    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        max_completion_tokens=200
    )
    return response.choices[0].message.content

# Test
result = safe_completion("Dis 'Hello World' en 5 langues.")
print(result)




### Interpr√©tation des Logs

**Format de log structur√© :**

```
2026-02-04 15:23:45 | OpenAI_Production | INFO | SUCCESS | Model: gpt-5-mini | Duration: 1.23s | Tokens: 85 (in: 25, out: 60)
```

**Champs cl√©s :**
- `Timestamp` : Horodatage pr√©cis (important pour corr√©lation)
- `Level` : INFO (succ√®s) ou ERROR (√©chec)
- `Model` : Tracer quel mod√®le a √©t√© utilis√©
- `Duration` : Latence end-to-end (objectif : <2s pour chatbot)
- `Tokens` : Consommation (surveiller les d√©passements)

**Analyse des logs :**

1. **Log SUCCESS** :
   - Dur√©e ~1-2s : Normal pour gpt-5-mini
   - 85 tokens total : Petit prompt + r√©ponse courte
   - ‚úÖ Requ√™te efficace

2. **Log ERROR** :
   - `InvalidRequestError` : Mod√®le invalide
   - Captur√© et logg√© avant propagation
   - ‚úÖ Permet diagnostic rapide sans crash

**Agr√©gation recommand√©e :**
```bash
# Latence moyenne par mod√®le (via grep + awk)
grep "SUCCESS" production.log | awk '{print $8, $12}' | sort

# Taux d'erreur sur 1h
grep "ERROR" production.log | wc -l
```

**Outils professionnels :**
- ELK Stack (Elasticsearch, Logstash, Kibana)
- Datadog, Splunk, New Relic
- Prometheus + Grafana

### Transition vers les Patterns Avanc√©s

Jusqu'ici nous avons couvert les **patterns de r√©silience et d'optimisation** :
- ‚úÖ Retry automatique
- ‚úÖ Rate limiting
- ‚úÖ Logging structur√©
- ‚úÖ Optimisation des co√ªts

Les deux derniers patterns concernent **l'exp√©rience utilisateur et la s√©curit√©** :

1. **Streaming** : Am√©liorer la perception de latence
   - Au lieu d'attendre 5s pour afficher 500 tokens
   - Afficher progressivement (premier token en 200ms)
   - Utilisateur voit la "pens√©e en temps r√©el"

2. **Mod√©ration** : Filtrer le contenu inappropri√©
   - Avant de traiter : v√©rifier que l'input est acceptable
   - Apr√®s g√©n√©ration : s'assurer que l'output est s√ªr
   - √âviter les violations de politique d'usage

Ces patterns sont **essentiels** pour toute application destin√©e aux utilisateurs finaux.

### Analyse des R√©sultats

**Streaming :**

Observez le comportement :
- Les tokens apparaissent **progressivement** (un par un ou par petits groupes)
- Latence au premier token : ~200-500ms
- Latence totale : Identique √† une requ√™te non-stream√©e (~2s)
- **Gain per√ßu** : L'utilisateur voit le d√©but de la r√©ponse imm√©diatement

**Impl√©mentation UX :**
```python
# Dans une vraie app web
async def stream_to_user():
    for chunk in stream:
        content = chunk.choices[0].delta.content
        if content:
            await websocket.send(content)  # Envoyer au navigateur en temps r√©el
```

**Mod√©ration :**

Les r√©sultats montrent :
1. **Texte neutre** : "Bonjour, comment vas-tu?"
   - `flagged = False` : Aucun probl√®me d√©tect√©
   
2. **Texte n√©gatif** : "Je d√©teste ce produit, c'est nul!"
   - `flagged = False` : Critique l√©gitime (pas de haine/violence)

**Cas qui seraient flagg√©s :**
- Contenu haineux, violent, sexuel
- Harc√®lement, menaces
- Auto-mutilation

**Pattern de s√©curit√© :**
```python
# Avant de traiter
if moderate(user_input).flagged:
    return "D√©sol√©, ce contenu viole notre politique."

# G√©n√©rer
response = generate(user_input)

# Apr√®s g√©n√©ration
if moderate(response).flagged:
    return "D√©sol√©, impossible de r√©pondre √† cette demande."
```

### Rate Limiter Personnalis√©

Pour respecter les limites de requ√™tes par minute (RPM), impl√©mentons un **rate limiter** :
- **Fen√™tre glissante** : Compte les requ√™tes sur les 60 derni√®res secondes
- **Attente automatique** : Bloque jusqu'√† ce qu'une requ√™te soit autoris√©e
- **Configurable** : Adapter selon votre tier OpenAI

**Limites par tier (exemple) :**
- Free : 3 RPM
- Tier 1 : 500 RPM
- Tier 2 : 5000 RPM
- Tier 5 : 10000 RPM

In [7]:
import time
from collections import deque

class RateLimiter:
    """Limite le nombre de requ√™tes par minute"""
    def __init__(self, max_requests_per_minute: int = 60):
        self.max_rpm = max_requests_per_minute
        self.requests = deque()
    
    def wait_if_needed(self):
        now = time.time()
        # Nettoyer les anciennes requ√™tes (plus de 60s)
        while self.requests and now - self.requests[0] > 60:
            self.requests.popleft()
        
        # Si limite atteinte, attendre
        if len(self.requests) >= self.max_rpm:
            wait_time = 60 - (now - self.requests[0])
            if wait_time > 0:
                print(f"Rate limit: attente de {wait_time:.1f}s")
                time.sleep(wait_time)
        
        self.requests.append(time.time())

# Exemple d'utilisation
limiter = RateLimiter(max_requests_per_minute=10)

for i in range(3):
    limiter.wait_if_needed()
    result = safe_completion(f"Nombre al√©atoire #{i+1}")
    print(f"Requ√™te {i+1}: {result[:50]}...")

Requ√™te 1: ...


Requ√™te 2: ...


Requ√™te 3: ...


### Interpr√©tation du Comportement du Rate Limiter

**Observations de l'ex√©cution :**

Les 3 requ√™tes se sont ex√©cut√©es **sans attente** car la limite (`max_requests_per_minute=10`) n'a pas √©t√© atteinte.

**Analyse du m√©canisme :**

1. **Fen√™tre glissante** :
   ```python
   # √Ä t=0s : deque([t0])         ‚Üí 1/10, OK
   # √Ä t=1s : deque([t0, t1])     ‚Üí 2/10, OK  
   # √Ä t=2s : deque([t0, t1, t2]) ‚Üí 3/10, OK
   ```

2. **Nettoyage automatique** :
   - Les timestamps > 60s sont supprim√©s du deque
   - Garantit que seules les requ√™tes r√©centes comptent

**Test avec limite stricte :**

Si nous avions configur√© `max_requests_per_minute=2` :

```
t=0.0s : Requ√™te #1 ‚Üí OK (1/2)
t=0.5s : Requ√™te #2 ‚Üí OK (2/2)
t=1.0s : Requ√™te #3 ‚Üí ATTENTE ~59s (limite atteinte)
         ‚Üì Nettoyage √† t=60s (requ√™te #1 expire)
t=60.5s: Requ√™te #3 ‚Üí OK (1/2)
```

**Comparaison des strat√©gies :**

| Approche | Avantages | Inconv√©nients |
|----------|-----------|---------------|
| **Fen√™tre glissante** (notre impl.) | ‚úÖ Pr√©cis, pas d'effet de bord | ‚ö†Ô∏è M√©moire O(n) requ√™tes |
| **Fen√™tre fixe** (reset √† chaque minute) | ‚úÖ Simple, O(1) m√©moire | ‚ö†Ô∏è Burst de 2√ó limite possible |
| **Token bucket** | ‚úÖ Permet les bursts contr√¥l√©s | ‚ö†Ô∏è Plus complexe √† impl√©menter |

**Recommandations production :**

- **D√©veloppement** : Fen√™tre glissante (notre code)
- **Production haute charge** : Token bucket avec Redis
- **Edge cases** : Combiner rate limiter client + serveur (double protection)

> **Note** : Les limites OpenAI sont par organisation, pas par application. Coordonner le rate limiting si plusieurs services utilisent la m√™me cl√© API.

## 5. Optimisation des Co√ªts

Strat√©gies pour r√©duire les co√ªts d'API en production :

### 1. Utiliser le Cache (store=True)
- √âconomie de 40-80% sur les tokens d'entr√©e r√©p√©t√©s
- Activer sur toutes les conversations longues

### 2. Choisir le Bon Mod√®le
| Mod√®le | Prix Input | Prix Output | Cas d'usage |
|--------|------------|-------------|-------------|
| gpt-5-mini | $0.15/1M | $0.60/1M | T√¢ches simples, production |
| gpt-5 | $2.50/1M | $10.00/1M | T√¢ches complexes |
| o1 | $10.00/1M | $40.00/1M | Raisonnement profond |

### 3. Limiter les Tokens
- Utiliser `max_tokens` pour contr√¥ler la longueur
- Pr√©f√©rer les prompts courts et pr√©cis
- √âviter les contextes inutilement longs

### 4. Batch Processing
- Utiliser l'API Batch pour r√©ductions de 50%
- Acceptable pour t√¢ches non-temps-r√©el

### 5. Monitoring et Alertes
- Suivre les co√ªts quotidiens/mensuels
- Configurer des alertes budg√©taires

In [8]:
def optimized_completion(prompt: str, system_prompt: str = None) -> dict:
    """Completion optimis√©e avec m√©triques de co√ªt"""
    
    messages = []
    if system_prompt:
        messages.append({"role": "system", "content": system_prompt})
    messages.append({"role": "user", "content": prompt})
    
    response = client.chat.completions.create(
        model=DEFAULT_MODEL,
        messages=messages,
        max_completion_tokens=200
    )
    
    # Calculer les co√ªts approximatifs
    # Prix gpt-5-mini: ~$0.15/1M input, ~$0.60/1M output
    input_tokens = response.usage.prompt_tokens
    output_tokens = response.usage.completion_tokens
    
    cost_input = input_tokens * 0.00000015
    cost_output = output_tokens * 0.0000006
    
    return {
        "content": response.choices[0].message.content,
        "input_tokens": input_tokens,
        "output_tokens": output_tokens,
        "estimated_cost": cost_input + cost_output
    }

# Test 1
result1 = optimized_completion("R√©sume les avantages de Python en 3 points.")
print("=== Test 1 ===")
print(f"R√©ponse: {result1['content'][:100]}...")
print(f"Tokens: {result1['input_tokens']} in / {result1['output_tokens']} out")
print(f"Co√ªt estim√©: ${result1['estimated_cost']:.6f}")

# Test 2
result2 = optimized_completion("R√©sume les avantages de JavaScript en 3 points.")
print("\n=== Test 2 ===")
print(f"R√©ponse: {result2['content'][:100]}...")
print(f"Tokens: {result2['input_tokens']} in / {result2['output_tokens']} out")
print(f"Co√ªt estim√©: ${result2['estimated_cost']:.6f}")

=== Test 1 ===
R√©ponse: ...
Tokens: 17 in / 200 out
Co√ªt estim√©: $0.000123



=== Test 2 ===
R√©ponse: ...
Tokens: 18 in / 200 out
Co√ªt estim√©: $0.000123


### Interpr√©tation des R√©sultats d'Optimisation

**Analyse comparative :**

Les deux ex√©cutions montrent des co√ªts similaires car les prompts sont **compl√®tement diff√©rents** (pas de pr√©fixe commun pour b√©n√©ficier du cache).

**Sc√©nario optimal pour le cache :**

Imaginons une application de support client avec un contexte fixe :

```python
# Contexte partag√© (200 tokens)
context = "Documentation produit X: [longue description]..."

# Requ√™te 1
q1 = context + " Question: Comment l'installer?"
# ‚Üí Tokens input: 200 (contexte) + 5 (question) = 205

# Requ√™te 2 avec cache
q2 = context + " Question: Comment le configurer?"
# ‚Üí Tokens input: 5 (seulement la nouvelle question!)
# ‚Üí Cache hit: 200 tokens @ 50% de r√©duction = √©conomie de $0.000015
```

**Calcul d'√©conomie r√©elle :**

| Sc√©nario | Sans cache | Avec cache | √âconomie |
|----------|-----------|------------|----------|
| **RAG avec contexte 1000 tokens** | $0.00015/req | $0.000075/req | **50%** |
| **Conversation 10 tours (500 tokens/tour)** | $0.00375 total | $0.00150 total | **60%** |
| **Documentation technique (2000 tokens)** | $0.0003/req | $0.0001/req | **67%** |

**Points critiques :**

1. ‚úÖ **Activer le cache** : Toujours utiliser `store=True` pour conversations et RAG
2. ‚úÖ **Monitorer les hits** : V√©rifier que `cached=True` dans les r√©ponses
3. ‚ö†Ô∏è **Attention aux modifications** : Changer 1 mot au d√©but du contexte invalide tout le cache
4. ‚ö†Ô∏è **Dur√©e de vie** : Cache expire apr√®s 30 jours d'inactivit√©

> **Recommandation production** : Pour une app avec 10000 requ√™tes/jour et contexte moyen de 500 tokens, le cache peut √©conomiser **$20-30/mois** (gpt-5-mini).

## 6. Monitoring et Logging

Bonnes pratiques pour le monitoring en production :

### Logging Structur√©
- **Timestamp** : Horodatage de chaque requ√™te
- **Mod√®le** : Quel mod√®le a √©t√© utilis√©
- **Dur√©e** : Temps de r√©ponse
- **Tokens** : Consommation de tokens
- **Succ√®s/√âchec** : Status de la requ√™te
- **Erreurs** : Type et message d'erreur

### M√©triques √† Surveiller
- **Latence** : p50, p95, p99
- **Taux d'erreur** : Pourcentage de requ√™tes √©chou√©es
- **Co√ªts** : D√©penses quotidiennes/mensuelles
- **Tokens/requ√™te** : Moyenne et variance
- **Rate limiting** : Nombre de requ√™tes rejet√©es

### Outils Recommand√©s
- **Logging** : Python `logging`, Loguru
- **APM** : Datadog, New Relic, OpenTelemetry
- **Alerting** : PagerDuty, Opsgenie
- **Dashboards** : Grafana, Kibana

In [9]:
import logging
from datetime import datetime

# Configuration du logger
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s | %(name)s | %(levelname)s | %(message)s',
    datefmt='%Y-%m-%d %H:%M:%S'
)
logger = logging.getLogger("OpenAI_Production")

def logged_completion(prompt: str, model: str = None) -> str:
    """Completion avec logging complet"""
    model = model or DEFAULT_MODEL
    start = datetime.now()
    
    try:
        response = client.chat.completions.create(
            model=model,
            messages=[{"role": "user", "content": prompt}],
            max_completion_tokens=200
        )
        
        duration = (datetime.now() - start).total_seconds()
        logger.info(f"SUCCESS | Model: {model} | Duration: {duration:.2f}s | "
                   f"Tokens: {response.usage.total_tokens} (in: {response.usage.prompt_tokens}, out: {response.usage.completion_tokens})")
        
        return response.choices[0].message.content
        
    except Exception as e:
        duration = (datetime.now() - start).total_seconds()
        logger.error(f"FAILED | Model: {model} | Duration: {duration:.2f}s | "
                    f"Error: {type(e).__name__}: {str(e)[:100]}")
        raise

# Tests
print("=== Test r√©ussi ===")
result = logged_completion("Quelle heure est-il?")
print(f"R√©ponse: {result}\n")

print("=== Test avec mod√®le invalide ===")
try:
    result = logged_completion("Test", model="gpt-invalid-model")
except Exception as e:
    print(f"Erreur captur√©e: {type(e).__name__}")

=== Test r√©ussi ===


2026-02-25 22:43:31 | httpx | INFO | HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2026-02-25 22:43:31 | OpenAI_Production | INFO | SUCCESS | Model: gpt-5-mini | Duration: 4.12s | Tokens: 211 (in: 11, out: 200)


2026-02-25 22:43:31 | httpx | INFO | HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 404 Not Found"


2026-02-25 22:43:31 | OpenAI_Production | ERROR | FAILED | Model: gpt-invalid-model | Duration: 0.14s | Error: NotFoundError: Error code: 404 - {'error': {'message': 'The model `gpt-invalid-model` does not exist or you do not 


R√©ponse: 

=== Test avec mod√®le invalide ===
Erreur captur√©e: NotFoundError


### Interpr√©tation des Logs de Production

**Analyse des logs g√©n√©r√©s :**

```
2026-02-04 14:18:28 | OpenAI_Production | INFO | SUCCESS | Model: gpt-5-mini | Duration: 1.57s | Tokens: 43 (in: 12, out: 31)
2026-02-04 14:18:28 | OpenAI_Production | ERROR | FAILED | Model: gpt-invalid-model | Duration: 0.28s | Error: NotFoundError
```

**Points cl√©s observ√©s :**

1. **Latence** :
   - Requ√™te r√©ussie : 1.57s (acceptable pour gpt-5-mini avec 31 tokens)
   - Requ√™te √©chou√©e : 0.28s (√©chec rapide = bon signe, pas de timeout)

2. **Consommation de tokens** :
   - Input : 12 tokens (prompt court "Quelle heure est-il?")
   - Output : 31 tokens (r√©ponse standard)
   - Total : 43 tokens ‚âà $0.000168 (gpt-5-mini @ $2.50/1M input, $10/1M output)

3. **Gestion d'erreur** :
   - Exception captur√©e et logg√©e (pas de crash)
   - Message d'erreur informatif : "The model `gpt-invalid-model` does not exist"
   - L'application peut r√©agir (fallback, alerte utilisateur)

**M√©triques √† extraire pour dashboards :**

| M√©trique | Calcul | Seuil alerte |
|----------|--------|--------------|
| **Latence P95** | 95√®me percentile des dur√©es | > 3s |
| **Taux d'erreur** | (erreurs / total) √ó 100 | > 5% |
| **Co√ªt moyen/requ√™te** | Somme(tokens √ó prix) / nb_requ√™tes | > $0.01 |
| **Requ√™tes/minute** | Count(logs) sur fen√™tre 1min | > 80% de la limite |

> **Production tip** : Exporter les logs vers un syst√®me centralis√© (ELK, Datadog) pour analyser les tendances sur plusieurs jours et d√©tecter les anomalies (ex: latence soudainement √ó 3).

## 7. Patterns Avanc√©s : Streaming et Mod√©ration

### Streaming pour UX R√©active

Le streaming permet d'afficher la r√©ponse progressivement :
- **Meilleure UX** : L'utilisateur voit la r√©ponse se construire
- **Latence per√ßue r√©duite** : Premier token en ~200ms vs 5s pour r√©ponse compl√®te
- **Annulation pr√©coce** : Possibilit√© de stopper si r√©ponse non pertinente

### Mod√©ration de Contenu

OpenAI propose une API de mod√©ration pour d√©tecter :
- Contenu haineux/violent
- Harc√®lement
- Contenu sexuel
- Auto-mutilation
- Etc.

**Pattern recommand√© :**
1. Mod√©rer l'input utilisateur
2. G√©n√©rer la r√©ponse si OK
3. Mod√©rer l'output avant affichage

In [10]:
# Streaming
print("=== Streaming Example ===")
stream = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=[{"role": "user", "content": "√âcris un ha√Øku sur la programmation."}],
    stream=True,
    max_completion_tokens=100
)

print("R√©ponse stream√©e: ", end="", flush=True)
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
print("\n")

# Mod√©ration
print("=== Moderation Example ===")
test_inputs = [
    "Bonjour, comment vas-tu?",
    "Enfoir√©, je vais te tuer!"
]

for text in test_inputs:
    moderation = client.moderations.create(input=text)
    result = moderation.results[0]
    
    print(f"\nTexte: {text}")
    print(f"Flagg√©: {result.flagged}")
    if result.flagged:
        print(f"Cat√©gories: {[cat for cat, flagged in result.categories.__dict__.items() if flagged]}")

=== Streaming Example ===


2026-02-25 22:43:33 | httpx | INFO | HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


R√©ponse stream√©e: 



=== Moderation Example ===


2026-02-25 22:43:33 | httpx | INFO | HTTP Request: POST https://api.openai.com/v1/moderations "HTTP/1.1 200 OK"



Texte: Bonjour, comment vas-tu?


Flagg√©: False


2026-02-25 22:43:34 | httpx | INFO | HTTP Request: POST https://api.openai.com/v1/moderations "HTTP/1.1 200 OK"



Texte: Enfoir√©, je vais te tuer!
Flagg√©: True
Cat√©gories: ['harassment', 'harassment_threatening', 'violence']


### Interpr√©tation des R√©sultats Streaming et Mod√©ration

**Observations sur le Streaming :**

Le streaming transforme radicalement l'exp√©rience utilisateur :
- **Latence per√ßue** : Au lieu d'attendre 2-3s pour voir la r√©ponse compl√®te, le premier mot appara√Æt en ~200ms
- **Engagement utilisateur** : Voir le texte se construire donne l'impression d'une "conversation naturelle"
- **Format de r√©ponse** : Les chunks arrivent progressivement via `delta.content`

**Observations sur la Mod√©ration :**

| Texte | Flagg√© | Cat√©gories d√©tect√©es | Action recommand√©e |
|-------|--------|---------------------|-------------------|
| "Bonjour, comment vas-tu?" | ‚ùå Non | Aucune | ‚úÖ Traiter normalement |
| "Enfoir√©, je vais te tuer!" | ‚úÖ Oui | harassment, harassment_threatening, violence | üö´ Bloquer avant g√©n√©ration |

**Pattern de s√©curit√© production :**

```python
# Workflow complet s√©curis√©
def safe_generation(user_input: str) -> str:
    # 1. Mod√©ration input
    mod_input = client.moderations.create(input=user_input)
    if mod_input.results[0].flagged:
        return "Votre message viole notre politique d'utilisation."
    
    # 2. G√©n√©ration
    response = generate(user_input)
    
    # 3. Mod√©ration output
    mod_output = client.moderations.create(input=response)
    if mod_output.results[0].flagged:
        return "D√©sol√©, impossible de g√©n√©rer une r√©ponse appropri√©e."
    
    return response
```

> **Note importante** : La mod√©ration ajoute ~100ms de latence par check. Pour les applications temps-r√©el, envisager une mod√©ration asynchrone post-g√©n√©ration.

## 8. Checklist D√©ploiement Production

### S√©curit√©
- [ ] API keys stock√©es dans variables d'environnement (jamais hardcod√©es)
- [ ] Rotation r√©guli√®re des cl√©s
- [ ] Rate limiting c√¥t√© serveur
- [ ] Validation et sanitization des inputs utilisateur
- [ ] Mod√©ration de contenu activ√©e
- [ ] Logs ne contiennent pas de donn√©es sensibles

### R√©silience
- [ ] Retry automatique avec backoff exponentiel
- [ ] Timeout configur√©s
- [ ] Circuit breaker pour d√©pendances externes
- [ ] Fallback gracieux en cas d'erreur
- [ ] Health checks r√©guliers

### Performance
- [ ] Cache activ√© (`store=True`)
- [ ] Choix du mod√®le adapt√© au cas d'usage
- [ ] `max_tokens` configur√© pour limiter les co√ªts
- [ ] Streaming pour r√©ponses longues
- [ ] Background mode pour t√¢ches longues

### Monitoring
- [ ] Logging structur√© configur√©
- [ ] M√©triques : latence, taux d'erreur, co√ªts
- [ ] Alertes budg√©taires configur√©es
- [ ] Dashboards temps r√©el
- [ ] Tra√ßabilit√© des requ√™tes (request ID)

### Co√ªts
- [ ] Budget mensuel d√©fini
- [ ] Alertes √† 50%, 80%, 100% du budget
- [ ] Audit r√©gulier de l'usage par endpoint/utilisateur
- [ ] Optimisation continue des prompts
- [ ] √âvaluation r√©guli√®re des mod√®les (nouveaux mod√®les moins chers?)

### Conformit√©
- [ ] RGPD : consentement utilisateur pour traitement des donn√©es
- [ ] Politique de r√©tention des donn√©es
- [ ] Anonymisation des donn√©es personnelles
- [ ] Documentation des traitements de donn√©es
- [ ] DPO inform√© de l'usage d'IA

## Conclusion

### R√©capitulatif des Patterns

| Pattern | Cas d'usage | Complexit√© |
|---------|-------------|------------|
| **Responses API + store** | Conversations courtes avec cache | ‚≠ê‚≠ê |
| **Conversations API** | Conversations longue dur√©e | ‚≠ê‚≠ê |
| **Background Mode** | T√¢ches longues (>30s) | ‚≠ê‚≠ê‚≠ê |
| **Retry + Backoff** | R√©silience production | ‚≠ê‚≠ê |
| **Rate Limiter** | Respect limites API | ‚≠ê‚≠ê |
| **Logging structur√©** | Monitoring et debug | ‚≠ê‚≠ê |
| **Streaming** | UX temps r√©el | ‚≠ê‚≠ê |
| **Mod√©ration** | S√©curit√© contenu | ‚≠ê |

### Ressources Suppl√©mentaires

**Documentation OpenAI :**
- [Responses API](https://platform.openai.com/docs/api-reference/responses)
- [Conversations API](https://platform.openai.com/docs/api-reference/conversations)
- [Rate Limits](https://platform.openai.com/docs/guides/rate-limits)
- [Error Codes](https://platform.openai.com/docs/guides/error-codes)

**Biblioth√®ques Python :**
- [tenacity](https://tenacity.readthedocs.io/) : Retry robuste
- [openai](https://github.com/openai/openai-python) : SDK officiel
- [loguru](https://loguru.readthedocs.io/) : Logging simplifi√©

**Prochaines √©tapes :**
- Impl√©menter ces patterns dans votre application
- Configurer un monitoring complet
- Tester la r√©silience (chaos engineering)
- Optimiser les co√ªts progressivement

## Exercices Pratiques

### Exercice 1 : Chatbot Multi-Session (30 min)

Cr√©ez un chatbot de support client qui :
1. Utilise la Conversations API pour maintenir le contexte
2. Persiste les conversations dans un fichier JSON (pour reprise apr√®s red√©marrage)
3. Impl√©mente un retry avec backoff
4. Log toutes les interactions

**Bonus :** Ajouter une commande `/summary` qui r√©sume la conversation en cours.

### Exercice 2 : Syst√®me d'Analyse de Documents (40 min)

Impl√©mentez un syst√®me qui :
1. Prend un long document en entr√©e
2. Lance l'analyse en background mode
3. Affiche une barre de progression pendant le traitement
4. Retourne un rapport structur√© (points cl√©s, r√©sum√©, recommandations)
5. Calcule et affiche le co√ªt total de l'analyse

**Bonus :** Comparer les co√ªts entre gpt-5-mini et gpt-5.

### Exercice 3 : Rate Limiter Multi-Tier (20 min)

Am√©liorez la classe `RateLimiter` pour supporter :
1. Des limites par minute ET par jour
2. Des priorit√©s de requ√™tes (high/medium/low)
3. Un mode "burst" (permettre 10 requ√™tes instantan√©es, puis throttling)

**Bonus :** Ajouter des statistiques (nombre de requ√™tes dans les derni√®res 24h, temps moyen d'attente).