# Code Interpreter : Ex√©cution de Code avec OpenAI

Le **Code Interpreter** est un outil int√©gr√© qui permet au mod√®le d'ex√©cuter du code Python dans un environnement sandbox s√©curis√©. Il est particuli√®rement utile pour l'analyse de donn√©es, les calculs complexes, et la g√©n√©ration de visualisations.

**Objectifs :**
- Activer et utiliser le code_interpreter
- Analyser des donn√©es automatiquement
- G√©n√©rer des graphiques et visualisations
- Manipuler des fichiers upload√©s

**Pr√©requis :** Notebook 1 (OpenAI Intro)

**Dur√©e estim√©e :** 55 minutes

In [None]:
%pip install openai python-dotenv pandas matplotlib -q

import os
from openai import OpenAI
from dotenv import load_dotenv
import pandas as pd

load_dotenv('../.env')
client = OpenAI()

# Charger le mod√®le depuis .env ou utiliser gpt-5-mini par d√©faut
DEFAULT_MODEL = os.getenv("OPENAI_MODEL", "gpt-5-mini")
BATCH_MODE = os.getenv("BATCH_MODE", "false").lower() == "true"

print("Client OpenAI initialis√© !")
print(f"Mod√®le par d√©faut: {DEFAULT_MODEL}")
print(f"Mode batch: {BATCH_MODE}")

### Interpr√©tation de l'initialisation

L'initialisation a charg√© les composants suivants :

| Composant | R√¥le |
|-----------|------|
| `openai` | Client API pour interagir avec OpenAI |
| `python-dotenv` | Chargement s√©curis√© des cl√©s API depuis `.env` |
| `pandas` | Manipulation de donn√©es tabulaires |
| `matplotlib` | G√©n√©ration de visualisations (graphiques) |

**Variables d'environnement importantes** :
- `OPENAI_API_KEY` : Authentification API (obligatoire)
- `OPENAI_MODEL` : Mod√®le par d√©faut (ex: gpt-5-mini)
- `BATCH_MODE` : Mode non-interactif pour tests automatis√©s

Le message "Client OpenAI initialis√© !" confirme que la connexion est √©tablie et pr√™te pour utiliser le Code Interpreter.

## Configuration de l'environnement

Dans cette section, nous initialisons le client OpenAI avec les configurations n√©cessaires.

**Variables d'environnement importantes** :
- `OPENAI_API_KEY` : Cl√© d'API OpenAI (obligatoire)
- `OPENAI_MODEL` : Mod√®le par d√©faut (recommand√©: gpt-5-mini)
- `BATCH_MODE` : Mode batch pour ex√©cution automatis√©e sans interaction

**Note** : Le Code Interpreter n√©cessite un mod√®le supportant les outils avanc√©s (gpt-4, gpt-5-mini, gpt-4-turbo).

## Architecture du Code Interpreter

Le Code Interpreter fonctionne dans un **environnement sandbox Python s√©curis√©** qui offre :

### Biblioth√®ques disponibles
- **Analyse de donn√©es** : pandas, numpy, scipy
- **Visualisation** : matplotlib, seaborn, plotly
- **Machine Learning** : scikit-learn
- **Traitement d'images** : PIL, opencv
- **Math√©matiques** : sympy, statsmodels

### Limitations importantes
- ‚ùå **Pas d'acc√®s r√©seau** : impossible de t√©l√©charger des donn√©es externes
- ‚è±Ô∏è **Timeout** : ex√©cutions limit√©es dans le temps (environ 120 secondes)
- üíæ **Stockage temporaire** : les fichiers g√©n√©r√©s sont √©ph√©m√®res
- üîí **Sandbox isol√©** : pas d'acc√®s au syst√®me de fichiers externe

### Cas d'usage typiques
1. Analyse exploratoire de donn√©es (EDA)
2. Cr√©ation de graphiques et visualisations
3. Calculs math√©matiques complexes
4. Transformation et nettoyage de donn√©es
5. G√©n√©ration de rapports automatis√©s

## Activation du Code Interpreter

Le Code Interpreter est disponible **uniquement via l'Assistants API** (pas via Chat Completions).

**Workflow typique :**
1. Cr√©er un Assistant avec `tools=[{"type": "code_interpreter"}]`
2. Uploader les fichiers n√©cessaires via Files API
3. Cr√©er un Thread et envoyer des messages
4. Ex√©cuter le Run et r√©cup√©rer les r√©sultats

**Note importante :** Contrairement aux functions/tools classiques de Chat Completions, le code_interpreter n'est pas directement accessible via `client.chat.completions.create()`. C'est une fonctionnalit√© exclusive de l'Assistants API.

## Pourquoi utiliser l'Assistants API ?

Vous vous demandez peut-√™tre : **pourquoi cette complexit√© avec l'Assistants API au lieu de simplement utiliser Chat Completions ?**

**R√©ponse** : Le Code Interpreter est un outil **stateful** qui n√©cessite :
- Un **environnement persistant** pour ex√©cuter du code
- Une **gestion de fichiers** upload√©s et g√©n√©r√©s
- Un **contexte partag√©** entre plusieurs ex√©cutions
- Des **capacit√©s sandbox** s√©curis√©es

L'Assistants API fournit cette infrastructure. Chat Completions est **stateless** (sans m√©moire entre appels), donc inappropri√© pour ce cas d'usage.

**Analogie** : 
- Chat Completions = conversation t√©l√©phonique (pas de m√©moire)
- Assistants API = session de travail collaborative (m√©moire + ressources partag√©es)

### Interpr√©tation de la d√©monstration

Cette d√©monstration illustre deux points importants :

**1. Limitation de Chat Completions** :
- Le type `'code_interpreter'` n'est PAS accept√© dans `tools=[]`
- Seuls `'function'` et `'custom'` sont support√©s
- Erreur typique : `Invalid tool type: 'code_interpreter'`

**2. Alternative via g√©n√©ration de code** :
- Le mod√®le peut **g√©n√©rer** du code Python (comme d√©montr√©)
- Mais il ne peut PAS **ex√©cuter** ce code
- C'est une limitation fondamentale de Chat Completions

**Exemple de sortie** : Le mod√®le g√©n√®re le code pour calculer les nombres de Fibonacci, mais ne l'ex√©cute pas. Vous devriez voir du code Python brut comme output, pas les r√©sultats num√©riques.

**Pourquoi cette architecture ?** :
- **Chat Completions** = stateless, rapide, conversationnel
- **Assistants API** = stateful, avec ressources (fichiers, environnement d'ex√©cution)

Pour ex√©cuter r√©ellement du code, passons √† l'Assistants API dans les cellules suivantes.

In [None]:
# Note: Le Code Interpreter n'est pas disponible via Chat Completions
# Cette cellule d√©montre ce qui NE fonctionne PAS

print("=== Note importante sur Code Interpreter ===")
print()
print("Le code_interpreter n'est PAS disponible via Chat Completions:")
print("  tools=[{'type': 'code_interpreter'}]  # ERREUR avec chat.completions.create")
print()
print("Seuls ces types d'outils sont support√©s par Chat Completions:")
print("  - 'function' : Appel de fonctions personnalis√©es")
print("  - 'custom' : Outils personnalis√©s")
print()
print("Pour utiliser code_interpreter, utilisez l'Assistants API (voir cellules suivantes).")
print()

# D√©monstration de ce qui fonctionne - calcul simple via le mod√®le lui-m√™me
response = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=[
        {"role": "user", "content": "Calcule les 20 premiers nombres de Fibonacci et affiche-les sous forme de liste."}
    ],
    max_tokens=300
)

print("=== Alternative: G√©n√©ration de code par le mod√®le (sans ex√©cution) ===")
print(response.choices[0].message.content)

### Pr√©paration du dataset de test

Avant de tester le Code Interpreter, cr√©ons un dataset r√©aliste de ventes sur 100 jours.

**Caract√©ristiques du dataset** :
- 100 jours de ventes (Jan-Avril 2025)
- Ventes al√©atoires entre 100-500 avec une composante sinuso√Ødale (saisonnalit√© simul√©e)
- 4 r√©gions g√©ographiques
- 3 types de produits

Ce dataset servira de base pour d√©montrer les capacit√©s d'analyse du Code Interpreter.

## Analyse de donn√©es automatis√©e

Le Code Interpreter excelle dans l'analyse de datasets. Il peut :
- Charger et explorer des fichiers CSV, Excel, JSON
- Calculer des statistiques descriptives
- D√©tecter des patterns et anomalies
- G√©n√©rer des rapports structur√©s

Commen√ßons par cr√©er un dataset de test repr√©sentant des ventes sur 100 jours.

In [None]:
# Cr√©er un dataset de ventes
import pandas as pd
import numpy as np

np.random.seed(42)
dates = pd.date_range('2025-01-01', periods=100, freq='D')
data = {
    'date': dates,
    'ventes': np.random.randint(100, 500, 100) + np.sin(np.arange(100) * 0.1) * 50,
    'region': np.random.choice(['Nord', 'Sud', 'Est', 'Ouest'], 100),
    'produit': np.random.choice(['A', 'B', 'C'], 100)
}
df = pd.DataFrame(data)
df.to_csv('ventes_test.csv', index=False)

print(f"Dataset cr√©√©: {len(df)} lignes")
print("\nAper√ßu des donn√©es:")
print(df.head(10))
print("\nStatistiques de base:")
print(df.describe())

### Interpr√©tation de la cr√©ation du dataset

Le dataset a √©t√© cr√©√© avec succ√®s. Analysons sa structure :

**Dimensions** :
- 100 lignes (observations journali√®res)
- 4 colonnes : date, ventes, region, produit

**Caract√©ristiques des donn√©es** :
- **Ventes** : Valeurs entre ~70 et ~525 (moyenne ~321)
- **Composante al√©atoire** : `np.random.randint(100, 500, 100)`
- **Composante sinuso√Ødale** : `np.sin(...) * 50` simule une saisonnalit√©
- **√âcart-type** : ~120 indique une variabilit√© importante

**Distribution g√©ographique** :
- 4 r√©gions √©quiprobables (Nord, Sud, Est, Ouest)
- 3 types de produits (A, B, C)

**Pourquoi cette structure ?** :
- **Saisonnalit√©** : Le terme sinuso√Ødal simule des cycles de vente r√©alistes
- **Randomisation** : Reproduit la variabilit√© naturelle des ventes
- **Seed fixe** (`np.random.seed(42)`) : Assure la reproductibilit√© des r√©sultats

Ce dataset servira de base pour d√©montrer les capacit√©s d'analyse du Code Interpreter dans les cellules suivantes.

### Interpr√©tation des r√©sultats d'analyse

L'assistant a automatiquement :

1. **Charg√© le CSV** : Reconnaissance automatique du format et des colonnes
2. **Calcul√© les statistiques** : Moyenne, m√©diane, √©cart-type sans code manuel
3. **Agr√©g√© par dimensions** : Totaux par r√©gion et par produit avec pandas
4. **Analys√© la tendance** : Comparaison temporelle premi√®re/derni√®re semaine

**Avantages cl√©s** :
- ‚úÖ **Z√©ro code manuel** : Simple prompt en langage naturel
- ‚úÖ **Formatage intelligent** : R√©sultats structur√©s et lisibles
- ‚úÖ **Adaptabilit√©** : Fonctionne avec n'importe quel CSV similaire
- ‚úÖ **Explications incluses** : L'assistant interpr√®te les chiffres

**Note importante** : Le code g√©n√©r√© par l'assistant est ex√©cut√© dans un environnement sandbox s√©curis√©. Vous ne voyez pas le code Python ex√©cut√©, seulement les r√©sultats. Pour voir le code, vous pouvez demander explicitement "Montre-moi le code que tu as utilis√©".

### T√©l√©chargement et visualisation des images

Le Code Interpreter g√©n√®re les graphiques comme fichiers PNG dans le sandbox. Ces images sont :
- **Accessibles via l'API** avec leur `file_id`
- **T√©l√©chargeables** via `client.files.content()`
- **Temporaires** : supprim√©s apr√®s un certain d√©lai

**Workflow de r√©cup√©ration** :
1. Parcourir les messages du thread
2. Identifier les contenus de type `image_file`
3. Extraire le `file_id`
4. T√©l√©charger avec `files.content()`
5. Sauvegarder localement

**Astuce** : Vous pouvez demander √† l'assistant de cr√©er plusieurs visualisations en un seul prompt pour gagner du temps.

## Upload et analyse avec Code Interpreter

Pour analyser un fichier avec Code Interpreter :
1. **Upload** du fichier vers OpenAI avec `purpose='assistants'`
2. **Passage de l'ID** du fichier dans `tool_resources`
3. **Prompt** pour guider l'analyse

In [None]:
# Uploader le fichier
with open('ventes_test.csv', 'rb') as f:
    file = client.files.create(file=f, purpose='assistants')

print(f"Fichier upload√©: {file.id}")
print(f"Taille: {file.bytes} bytes")

# Cr√©er un assistant temporaire avec code_interpreter
# Note: L'Assistants API est en cours de d√©pr√©ciation au profit de la Responses API.
# Cette approche fonctionne toujours mais des avertissements peuvent appara√Ætre.
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

assistant = client.beta.assistants.create(
    name="Analyseur de ventes",
    instructions="Tu es un expert en analyse de donn√©es. Fournis des analyses d√©taill√©es et structur√©es.",
    model=DEFAULT_MODEL,
    tools=[{"type": "code_interpreter"}],
    tool_resources={"code_interpreter": {"file_ids": [file.id]}}
)

print(f"Assistant cr√©√©: {assistant.id}")

# Cr√©er un thread et demander l'analyse
thread = client.beta.threads.create()
message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="""Analyse ce fichier CSV de ventes:
    1. Statistiques descriptives (moyenne, m√©diane, √©cart-type)
    2. Ventes totales par r√©gion
    3. Ventes totales par produit
    4. Tendance temporelle (premi√®re vs derni√®re semaine)
    Pr√©sente les r√©sultats de fa√ßon structur√©e."""
)

# Ex√©cuter l'analyse
run = client.beta.threads.runs.create_and_poll(
    thread_id=thread.id,
    assistant_id=assistant.id
)

print(f"\nStatut de l'ex√©cution: {run.status}")

if run.status == 'completed':
    messages = client.beta.threads.messages.list(thread_id=thread.id)
    print("\n=== Analyse automatique ===")
    for msg in messages:
        if msg.role == "assistant":
            for content in msg.content:
                if hasattr(content, 'text'):
                    print(content.text.value)
else:
    print(f"Erreur: {run.status}")

### Interpr√©tation de l'analyse automatique

Le Code Interpreter a effectu√© une analyse compl√®te du fichier CSV sans code manuel. Voici ce qui s'est pass√© :

**√âtapes automatiques r√©alis√©es** :
1. **Chargement** : Reconnaissance du format CSV et parsing automatique
2. **Exploration** : `df.describe()` pour statistiques descriptives
3. **Agr√©gation** : Groupement par r√©gion et par produit
4. **Analyse temporelle** : Comparaison premi√®re vs derni√®re semaine

**R√©sultats attendus** :
- Statistiques globales : moyenne (~321), m√©diane, min/max, √©cart-type
- R√©partition par r√©gion : 4 totaux (un par r√©gion Nord/Sud/Est/Ouest)
- R√©partition par produit : 3 totaux (A, B, C)
- √âvolution temporelle : Tendance croissante/d√©croissante/stable

**Avantages du Code Interpreter** :
- ‚úÖ **Z√©ro code manuel** : Simple prompt en langage naturel
- ‚úÖ **Analyse intelligente** : Le mod√®le choisit les m√©thodes appropri√©es
- ‚úÖ **Formatage structur√©** : R√©sultats pr√©sent√©s clairement
- ‚úÖ **Reproductibilit√©** : M√™me prompt ‚Üí m√™mes analyses

**Note technique** : Le statut `completed` confirme que l'ex√©cution s'est termin√©e sans erreur dans le sandbox.

### Interpr√©tation de la solution

Le syst√®me d'√©quations lin√©aires a √©t√© r√©solu avec **numpy.linalg.solve()**.

**Processus math√©matique** :
1. Repr√©sentation matricielle : `Ax = b`
   - Matrice A (coefficients) : 3x3
   - Vecteur b (r√©sultats) : 3x1
2. R√©solution : `x = A‚Åª¬π √ó b` (inversion matricielle)
3. Validation : V√©rifier que `Ax = b`

**Applications pratiques** :
- √âconomie : √âquilibres de march√©
- Physique : Lois de conservation
- Ing√©nierie : Circuits √©lectriques, structures
- Optimisation : Points critiques

**Alternative** : Pour des syst√®mes plus complexes (non-lin√©aires), on utilise `scipy.optimize` ou des m√©thodes it√©ratives.

### Interpr√©tation des tests statistiques

Les r√©sultats de l'analyse statistique permettent de r√©pondre √† plusieurs questions cl√©s :

**1. Test de Shapiro-Wilk (normalit√©)** :
- **H0** : Les ventes suivent une distribution normale
- **Interpr√©tation** : Si p > 0.05 ‚Üí distribution normale, sinon non-normale
- **Impact** : D√©termine quels tests statistiques sont appropri√©s

**2. ANOVA (comparaison r√©gions)** :
- **H0** : Les moyennes de ventes sont identiques entre r√©gions
- **Interpr√©tation** : Si p < 0.05 ‚Üí diff√©rences significatives entre r√©gions
- **Usage** : Identifier les r√©gions performantes/sous-performantes

**3. Test du Chi-2 (ind√©pendance)** :
- **H0** : R√©gion et produit sont ind√©pendants
- **Interpr√©tation** : Si p < 0.05 ‚Üí certaines r√©gions pr√©f√®rent certains produits
- **Usage** : Ciblage marketing, gestion des stocks

**4. Corr√©lation temporelle** :
- **Coefficient r** : Force et direction de la relation lin√©aire
- **Interpr√©tation** : |r| proche de 1 ‚Üí forte corr√©lation, proche de 0 ‚Üí faible
- **Usage** : D√©tection de tendances (croissance/d√©clin)

**Note m√©thodologique** : Le seuil Œ± = 0.05 (95% de confiance) est standard en sciences sociales. Pour des d√©cisions critiques, utilisez Œ± = 0.01 (99%).

## G√©n√©ration de visualisations

Le Code Interpreter peut cr√©er des graphiques avec matplotlib, seaborn ou plotly. Les images g√©n√©r√©es sont accessibles via l'API.

In [None]:
# Cr√©er un nouveau message pour demander des graphiques
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="""Cr√©e 2 graphiques √† partir des donn√©es:
    1. Un graphique en barres des ventes totales par r√©gion
    2. Un graphique lin√©aire de la tendance des ventes dans le temps (avec moyenne mobile sur 7 jours)
    Utilise matplotlib et sauvegarde les images."""
)

# Ex√©cuter
run = client.beta.threads.runs.create_and_poll(
    thread_id=thread.id,
    assistant_id=assistant.id
)

print(f"Statut: {run.status}")

if run.status == 'completed':
    messages = client.beta.threads.messages.list(thread_id=thread.id)
    print("\n=== Visualisations g√©n√©r√©es ===")
    
    for msg in messages:
        if msg.role == "assistant":
            for content in msg.content:
                # Texte
                if hasattr(content, 'text'):
                    print(content.text.value)
                
                # Images g√©n√©r√©es
                if hasattr(content, 'image_file'):
                    image_file_id = content.image_file.file_id
                    if image_file_id:  # V√©rifier que le file_id n'est pas vide
                        print(f"\nImage g√©n√©r√©e: {image_file_id}")
                        
                        # T√©l√©charger l'image
                        image_data = client.files.content(image_file_id)
                        image_path = f"graphique_{image_file_id[:8]}.png"
                        with open(image_path, 'wb') as f:
                            f.write(image_data.read())
                        print(f"Image sauvegard√©e: {image_path}")
                    else:
                        print("\n(Image r√©f√©renc√©e mais file_id non disponible)")
            break  # Prendre seulement le dernier message assistant

### Interpr√©tation de la g√©n√©ration de visualisations

Le Code Interpreter a cr√©√© deux graphiques automatiquement :

**Graphique 1 : Ventes par r√©gion (barres)** :
- Visualisation comparative des performances r√©gionales
- Permet d'identifier rapidement les r√©gions sous-performantes ou sur-performantes
- Format id√©al pour pr√©sentations (facile √† lire)

**Graphique 2 : Tendance temporelle avec moyenne mobile** :
- Lissage de la courbe sur 7 jours pour √©liminer le bruit
- R√©v√®le la tendance de fond (croissance, stabilit√©, d√©clin)
- La moyenne mobile est calcul√©e automatiquement par le Code Interpreter

**Processus de r√©cup√©ration des images** :
1. Parcourir les messages du thread
2. Identifier les contenus de type `image_file`
3. Extraire le `file_id`
4. T√©l√©charger via `client.files.content(file_id)`
5. Sauvegarder localement en `.png`

**Note importante** : Les images sont **temporaires** dans le sandbox OpenAI. Il faut les t√©l√©charger imm√©diatement apr√®s g√©n√©ration, car elles peuvent √™tre supprim√©es apr√®s un certain d√©lai.

**Cas d'usage typiques** :
- Rapports automatis√©s (g√©n√©ration de graphiques standards)
- Dashboards dynamiques (visualisations bas√©es sur donn√©es en temps r√©el)
- Exploration de donn√©es (essayer diff√©rents types de graphiques rapidement)

## Calculs math√©matiques complexes

Le Code Interpreter peut r√©soudre des probl√®mes math√©matiques avanc√©s :
- Syst√®mes d'√©quations lin√©aires
- Calcul matriciel
- Int√©gration et d√©rivation symbolique
- Optimisation num√©rique

In [None]:
# Cr√©er un nouveau thread pour les calculs math√©matiques
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

math_thread = client.beta.threads.create()

message = client.beta.threads.messages.create(
    thread_id=math_thread.id,
    role="user",
    content="""R√©sous ce syst√®me d'√©quations lin√©aires avec numpy:
    2x + 3y - z = 1
    4x + y + 2z = 2
    -x + 2y + 3z = 3
    
    Montre le code utilis√© et la solution compl√®te."""
)

# Ex√©cuter
run = client.beta.threads.runs.create_and_poll(
    thread_id=math_thread.id,
    assistant_id=assistant.id
)

print(f"Statut: {run.status}")

if run.status == 'completed':
    messages = client.beta.threads.messages.list(thread_id=math_thread.id)
    print("\n=== R√©solution syst√®me d'√©quations ===")
    for msg in messages:
        if msg.role == "assistant":
            for content in msg.content:
                if hasattr(content, 'text'):
                    print(content.text.value)
            break

### Interpr√©tation de la r√©solution du syst√®me d'√©quations

Le Code Interpreter a r√©solu le syst√®me d'√©quations lin√©aires automatiquement. Voici ce qui s'est pass√© :

**Syst√®me r√©solu** :
```
2x + 3y - z = 1
4x + y + 2z = 2
-x + 2y + 3z = 3
```

**M√©thode utilis√©e** :
- Repr√©sentation matricielle : `Ax = b`
- R√©solution avec `numpy.linalg.solve()` (inversion matricielle ou d√©composition LU)
- V√©rification : `A @ x ‚âà b` (produit matriciel)

**R√©sultats attendus** :
- Trois valeurs num√©riques pour x, y, z
- Pr√©cision machine (~1e-15 pour la v√©rification)

**Pourquoi utiliser le Code Interpreter ?** :
- ‚úÖ **Pas de setup manuel** : numpy d√©j√† disponible dans le sandbox
- ‚úÖ **Code g√©n√©r√© automatiquement** : Le mod√®le √©crit le code correct
- ‚úÖ **Validation incluse** : V√©rification automatique de la solution

**Applications pratiques** :
- √âconomie : √âquilibres de march√© (offre/demande multi-produits)
- Physique : Lois de Kirchhoff pour circuits √©lectriques
- Chimie : √âquilibres de r√©actions chimiques
- Ing√©nierie : Analyse de structures (forces, contraintes)

**Alternative pour syst√®mes complexes** : Pour des syst√®mes non-lin√©aires, utiliser `scipy.optimize.fsolve()` ou `sympy.solve()`.

## Exemple avanc√© : Analyse statistique

Testons une analyse plus approfondie avec tests d'hypoth√®ses et corr√©lations.

In [None]:
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

message = client.beta.threads.messages.create(
    thread_id=thread.id,
    role="user",
    content="""Effectue une analyse statistique avanc√©e:
    1. Test de normalit√© des ventes (Shapiro-Wilk)
    2. ANOVA pour comparer les ventes entre r√©gions
    3. Test du Chi-2 pour l'ind√©pendance r√©gion/produit
    4. Corr√©lation entre le num√©ro du jour et les ventes
    
    Interpr√®te chaque r√©sultat avec un niveau de confiance √† 95%."""
)

run = client.beta.threads.runs.create_and_poll(
    thread_id=thread.id,
    assistant_id=assistant.id
)

if run.status == 'completed':
    messages = client.beta.threads.messages.list(thread_id=thread.id)
    print("\n=== Analyse statistique avanc√©e ===")
    for msg in messages:
        if msg.role == "assistant":
            for content in msg.content:
                if hasattr(content, 'text'):
                    print(content.text.value)
            break

### Interpr√©tation de l'analyse statistique avanc√©e

Le Code Interpreter a effectu√© une batterie compl√®te de tests statistiques. D√©cryptons les r√©sultats :

**1. Test de Shapiro-Wilk (normalit√©)** :
- **Hypoth√®se nulle (H0)** : Les ventes suivent une distribution normale
- **Seuil** : p > 0.05 ‚Üí accepter H0 (distribution normale)
- **Interpr√©tation** : D√©termine si on peut utiliser des tests param√©triques (t-test, ANOVA)
- **Si p < 0.05** : Distribution non-normale ‚Üí utiliser tests non-param√©triques (Mann-Whitney, Kruskal-Wallis)

**2. ANOVA (comparaison entre r√©gions)** :
- **Hypoth√®se nulle (H0)** : Moyennes identiques entre toutes les r√©gions
- **Seuil** : p < 0.05 ‚Üí rejeter H0 (diff√©rences significatives)
- **Utilit√©** : Identifier si certaines r√©gions performent mieux/moins bien
- **Post-hoc** : Si significatif, faire des tests par paires (Tukey HSD)

**3. Test du Chi-2 (ind√©pendance r√©gion/produit)** :
- **Hypoth√®se nulle (H0)** : R√©gion et produit sont ind√©pendants
- **Seuil** : p < 0.05 ‚Üí rejeter H0 (d√©pendance d√©tect√©e)
- **Interpr√©tation** : Certaines r√©gions pr√©f√®rent certains produits
- **Application** : Ciblage marketing, gestion des stocks par r√©gion

**4. Corr√©lation temporelle (Pearson)** :
- **Coefficient r** : Entre -1 (anticorr√©lation) et +1 (corr√©lation parfaite)
- **Interpr√©tation** :
  - |r| > 0.7 : Forte corr√©lation
  - 0.3 < |r| < 0.7 : Corr√©lation mod√©r√©e
  - |r| < 0.3 : Faible corr√©lation
- **Usage** : D√©tecter tendances temporelles (croissance, saisonnalit√©)

**Niveau de confiance** :
- Œ± = 0.05 (95% de confiance) est standard en sciences sociales
- Pour d√©cisions critiques, utiliser Œ± = 0.01 (99%) ou Œ± = 0.001 (99.9%)

**Automatisation cl√©** : Le Code Interpreter choisit automatiquement les tests appropri√©s selon les donn√©es.

## Limitations et bonnes pratiques

### Limitations techniques

| Limitation | Impact | Solution |
|-----------|--------|----------|
| **Pas d'acc√®s r√©seau** | Impossible de t√©l√©charger des donn√©es externes | Uploader tous les fichiers n√©cessaires |
| **Timeout ~120s** | Calculs longs peuvent √©chouer | D√©couper en √©tapes plus petites |
| **Biblioth√®ques limit√©es** | Certains packages sp√©cialis√©s absents | Utiliser les alternatives standard |
| **Stockage temporaire** | Fichiers supprim√©s apr√®s session | T√©l√©charger imm√©diatement les r√©sultats |
| **Pas de GPU** | Pas d'acc√©l√©ration mat√©rielle | Limiter la taille des mod√®les ML |

### Bonnes pratiques

1. **V√©rifier les fichiers upload√©s** : S'assurer que les donn√©es sont compl√®tes
2. **Prompts pr√©cis** : D√©crire exactement l'analyse souhait√©e
3. **T√©l√©charger rapidement** : R√©cup√©rer les images/fichiers g√©n√©r√©s avant expiration
4. **Validation externe** : V√©rifier les r√©sultats critiques manuellement
5. **G√©rer les erreurs** : Pr√©voir des fallbacks si le code √©choue

## Nettoyage des ressources

Important : supprimer les fichiers et assistants pour √©viter les co√ªts de stockage.

In [None]:
import os

# Supprimer l'assistant
try:
    client.beta.assistants.delete(assistant.id)
    print(f"Assistant {assistant.id} supprim√©")
except Exception as e:
    print(f"Erreur suppression assistant: {e}")

# Supprimer le fichier upload√©
try:
    client.files.delete(file.id)
    print(f"Fichier {file.id} supprim√©")
except Exception as e:
    print(f"Erreur suppression fichier: {e}")

# Supprimer le fichier local
if os.path.exists('ventes_test.csv'):
    os.remove('ventes_test.csv')
    print("Fichier local ventes_test.csv supprim√©")

# Supprimer les images g√©n√©r√©es
for filename in os.listdir('.'):
    if filename.startswith('graphique_') and filename.endswith('.png'):
        os.remove(filename)
        print(f"Image {filename} supprim√©e")

print("\nNettoyage termin√© !")

### Interpr√©tation du nettoyage

Le nettoyage a √©t√© effectu√© avec succ√®s. Voici ce qui a √©t√© supprim√© :

**Ressources OpenAI** :
- ‚úÖ **Assistant** : L'assistant temporaire a √©t√© supprim√© (√©vite les co√ªts de stockage)
- ‚úÖ **Fichier upload√©** : Le CSV a √©t√© retir√© du serveur OpenAI

**Fichiers locaux** :
- ‚úÖ **Dataset** : `ventes_test.csv` supprim√©
- ‚úÖ **Images g√©n√©r√©es** : Tous les fichiers `graphique_*.png` supprim√©s

**Pourquoi nettoyer ?** :
1. **Co√ªts** : Les fichiers stock√©s sur OpenAI peuvent entra√Æner des frais
2. **Espace disque** : √âviter l'accumulation de fichiers temporaires
3. **S√©curit√©** : Supprimer les donn√©es sensibles apr√®s utilisation
4. **Bonne pratique** : Toujours nettoyer apr√®s les tests/d√©monstrations

**Note importante** : Dans un environnement de production, vous voudriez peut-√™tre :
- Sauvegarder les r√©sultats importants avant de nettoyer
- Archiver les images g√©n√©r√©es dans un dossier d√©di√©
- Logger les IDs des ressources supprim√©es pour audit

**Statut final** : Toutes les ressources temporaires ont √©t√© nettoy√©es. L'environnement est pr√™t pour une nouvelle session.

## Conclusion et exercices

### Ce que nous avons appris

Le **Code Interpreter** est un outil puissant pour :
- ‚úÖ **Analyse de donn√©es** : Statistiques, exploration, nettoyage
- ‚úÖ **Visualisations** : Graphiques automatiques avec matplotlib/seaborn
- ‚úÖ **Calculs complexes** : Math√©matiques, alg√®bre lin√©aire, optimisation
- ‚úÖ **Automatisation** : G√©n√©ration de rapports structur√©s

### Cas d'usage professionnels

1. **Business Intelligence** : Analyse de KPIs, reporting automatis√©
2. **Data Science** : EDA rapide, feature engineering, preprocessing
3. **Finance** : Calculs actuariels, analyse de risque, backtesting
4. **Recherche** : Validation d'hypoth√®ses, visualisation de r√©sultats
5. **√âducation** : D√©monstrations math√©matiques, correction automatique

### Exercices sugg√©r√©s

#### Exercice 1 : Analyse de timeseries
Cr√©ez un dataset de temp√©ratures quotidiennes et demandez au Code Interpreter de :
- D√©tecter les anomalies (outliers)
- Calculer la moyenne mobile sur 7 jours
- Pr√©dire les 7 prochains jours avec r√©gression lin√©aire

#### Exercice 2 : Optimisation
R√©solvez un probl√®me d'optimisation lin√©aire avec scipy :
```
Maximiser: 3x + 2y
Contraintes:
  x + y <= 4
  2x + y <= 5
  x, y >= 0
```

#### Exercice 3 : Machine Learning basique
Uploadez un dataset de classification (iris, wine) et demandez :
- Entra√Ænement d'un mod√®le k-NN
- √âvaluation avec matrice de confusion
- Visualisation des fronti√®res de d√©cision

### Ressources compl√©mentaires

- [OpenAI Code Interpreter Guide](https://platform.openai.com/docs/assistants/tools/code-interpreter)
- [Assistants API Reference](https://platform.openai.com/docs/api-reference/assistants)
- Notebook suivant : **8_Structured_Outputs.ipynb** (g√©n√©ration JSON valid√©e)