In [2]:
# Partie 0
## Partie O.1 faite sur Powershell
## Partie 0.2 faite sur Powershell
# Partie 0.3 : Configuration de LiteLLM avec Claude API
# Utilisation de Claude Sonnet 4.5, le dernier mod√®le disponible

import os
from dotenv import load_dotenv
from litellm import completion

# Chargement du fichier .env
load_dotenv()

# R√©cup√©ration de la cl√© API Claude
anthropic_api_key = os.getenv('ANTHROPIC_API_KEY')

# V√©rification que la cl√© est bien charg√©e
if anthropic_api_key:
    print("Cl√© Claude configur√©e avec succ√®s.")
else:
    print("Erreur : cl√© Claude non trouv√©e dans .env")

# Test rapide de connexion avec Claude Sonnet 4.5
print("Test de connexion √† Claude Sonnet 4.5...")

response = completion(
    model="claude-sonnet-4-5-20250929",
    messages=[{"role": "user", "content": "R√©ponds juste 'OK'"}],
    api_key=anthropic_api_key
)

print(f"R√©ponse : {response.choices[0].message.content}")
print("Claude Sonnet 4.5 est op√©rationnel !")

Cl√© Claude configur√©e avec succ√®s.
Test de connexion √† Claude Sonnet 4.5...
R√©ponse : OK
Claude Sonnet 4.5 est op√©rationnel !


In [4]:
# Partie 0.4 : V√©rification compl√®te du setup
# Contr√¥le que tous les composants sont op√©rationnels

import pandas as pd
import duckdb
import plotly.express as px

print("V√©rification du setup compl√®te :")
print("-" * 50)

# V√©rifier que les modules importent correctement
libraries = ["pandas", "duckdb", "plotly", "litellm"]
for lib in libraries:
    try:
        __import__(lib)
        print(f"{lib}: OK")
    except ImportError:
        print(f"{lib}: ERREUR")

print("-" * 50)
print("Setup termin√© ! Pr√™t pour l'exploration.\n")

V√©rification du setup compl√®te :
--------------------------------------------------
pandas: OK
duckdb: OK
plotly: OK
litellm: OK
--------------------------------------------------
Setup termin√© ! Pr√™t pour l'exploration.



In [7]:
# Partie 1.2 : Chargement du dataset
# Chargement avec les bons param√®tres de s√©paration

import pandas as pd

print("Chargement du dataset accidents corporels...")

# Chargement avec virgule comme s√©parateur et encodage latin-1
# on_bad_lines='skip' : ignore les lignes mal format√©es s'il y en a
df = pd.read_csv('accidents.csv', encoding='latin-1', sep=',', on_bad_lines='skip')

print(f"Dataset charg√© avec succ√®s !")
print(f"Dimensions : {df.shape[0]} lignes, {df.shape[1]} colonnes")
print()

# Aper√ßu des premi√®res lignes
print("Premi√®res lignes du dataset :")
print(df.head())

print()
print("Noms des colonnes :")
print(df.columns.tolist())

Chargement du dataset accidents corporels...


  df = pd.read_csv('accidents.csv', encoding='latin-1', sep=',', on_bad_lines='skip')


Dataset charg√© avec succ√®s !
Dimensions : 439332 lignes, 36 colonnes

Premi√®res lignes du dataset :
   org  lum  agg  int  atm  col  com  dep  catr  infra  ...  numero  \
0    5    2    6    1  8.0  3.0   53   10   4.0    0.0  ...     NaN   
1    5    1    1    1  1.0  2.0   53   10   3.0    0.0  ...     NaN   
2    3    3    1    1  5.0  5.0  248   10   1.0    0.0  ...     NaN   
3    1    3    1    1  1.0  7.0  366   10   3.0    0.0  ...     NaN   
4    1    1    5    1  1.0  2.0    4   10   4.0    5.0  ...     NaN   

   distancemetre           libellevoie  coderivoli  grav  gps  lat  long  adr  \
0            0.0  23EME R.I. ( RUE DU)         NaN  0.43  NaN  NaN   NaN  NaN   
1            NaN                   NaN         NaN  0.43  NaN  NaN   NaN  NaN   
2            0.0                  A46N         NaN  0.43  NaN  NaN   NaN  NaN   
3            NaN                   NaN         NaN  0.43  NaN  0.0   0.0  NaN   
4            NaN                   NaN         NaN  0.43  NaN  0.

In [8]:
# Partie 2.1 : Cr√©ation de la fonction d'assistance IA
# Fonction r√©utilisable pour poser des questions sur le dataset

from litellm import completion
import os

def ask_data_assistant(question: str, context: str = "") -> str:
    """
    Fonction pour poser une question √† l'assistant IA sur les donn√©es
    
    Param√®tres :
        question : la question √† poser sur le dataset
        context : contexte du dataset (colonnes, statistiques, etc.)
    
    Retour :
        La r√©ponse de l'assistant en tant que string
    """
    
    # Instruction syst√®me pour configurer le comportement de Claude
    system_prompt = """Tu es un expert en analyse de donn√©es.
    Aide √† explorer et comprendre des datasets Open Data.
    Sois concis et pratique dans les r√©ponses.
    Propose du code Python avec pandas ou plotly quand c'est pertinent."""
    
    # Construction du message pour Claude
    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": f"{context}\n\nQuestion: {question}"}
    ]
    
    # Appel √† Claude Sonnet 4.5
    response = completion(
        model="claude-sonnet-4-5-20250929",
        messages=messages,
        api_key=os.getenv('ANTHROPIC_API_KEY')
    )
    
    # Retour de la r√©ponse
    return response.choices[0].message.content

print("Fonction d'assistance IA cr√©√©e avec succ√®s.")

Fonction d'assistance IA cr√©√©e avec succ√®s.


In [9]:
# Partie 2.2 : G√©n√©ration du contexte du dataset
# Cr√©ation d'un r√©sum√© structur√© des donn√©es pour l'IA

def generate_dataset_context(df) -> str:
    """
    Fonction qui g√©n√®re un r√©sum√© complet du dataset pour l'IA
    
    Param√®tres :
        df : le DataFrame pandas contenant les donn√©es
    
    Retour :
        Un string avec toutes les informations du dataset
    """
    
    # Cr√©ation du r√©sum√© structur√©
    context = f"""
INFORMATIONS G√âN√âRALES :
- Nombre de lignes : {len(df)}
- Nombre de colonnes : {len(df.columns)}

COLONNES ET TYPES :
{df.dtypes.to_string()}

STATISTIQUES NUM√âRIQUES :
{df.describe().to_string()}

VALEURS MANQUANTES PAR COLONNE :
{df.isnull().sum().to_string()}

PREMI√àRES LIGNES :
{df.head(3).to_string()}
"""
    return context

# G√©n√©ration du contexte
dataset_context = generate_dataset_context(df)

# V√©rification
print("Contexte du dataset g√©n√©r√© avec succ√®s.")
print("Extrait (premi√®res 500 caract√®res) :")
print(dataset_context[:500])

  sqr = _ensure_numeric((avg - values) ** 2)


Contexte du dataset g√©n√©r√© avec succ√®s.
Extrait (premi√®res 500 caract√®res) :

INFORMATIONS G√âN√âRALES :
- Nombre de lignes : 439332
- Nombre de colonnes : 36

COLONNES ET TYPES :
org                int64
lum                int64
agg                int64
int                int64
atm              float64
col              float64
com                int64
dep                int64
catr             float64
infra            float64
voie             float64
v1               float64
v2                object
circ             float64
nbv              float64
pr                object


In [10]:
# Partie 2.3 : Exploration assist√©e par IA
# Posage des 5 questions principales sur le dataset

print("="*70)
print("QUESTION 1 : Description du dataset")
print("="*70)

q1 = ask_data_assistant(
    "D√©cris ce dataset en 3 phrases. Quel est son sujet principal ?",
    dataset_context
)
print(q1)

print("\n" + "="*70)
print("QUESTION 2 : Probl√®mes de qualit√© de donn√©es")
print("="*70)

q2 = ask_data_assistant(
    "Quels sont les 5 principaux probl√®mes de qualit√© de donn√©es que tu vois ?",
    dataset_context
)
print(q2)

print("\n" + "="*70)
print("QUESTION 3 : Proposer des analyses")
print("="*70)

q3 = ask_data_assistant(
    "Propose 3 analyses int√©ressantes qu'on pourrait faire avec ces donn√©es sur les accidents.",
    dataset_context
)
print(q3)

print("\n" + "="*70)
print("QUESTION 4 : Code de nettoyage")
print("="*70)

q4 = ask_data_assistant(
    "G√©n√®re le code Python pour nettoyer les valeurs manquantes de mani√®re appropri√©e.",
    dataset_context
)
print(q4)

print("\n" + "="*70)
print("QUESTION 5 : Visualisation")
print("="*70)

q5 = ask_data_assistant(
    "G√©n√®re le code Plotly pour cr√©er une visualisation pertinente des donn√©es.",
    dataset_context
)
print(q5)

QUESTION 1 : Description du dataset
# Dataset d'Accidents de la Route en France üöó

Ce dataset contient **439 332 accidents de la route** recens√©s en France, avec 36 variables d√©crivant les circonstances de chaque accident (luminosit√©, conditions atmosph√©riques, type de route, localisation, etc.).

Les donn√©es couvrent la **gravit√© des accidents** (variable `grav`), le **nombre de victimes** (tu√©s, bless√©s graves/l√©gers via `ttue`, `tbg`, `tbl`), et les **caract√©ristiques g√©ographiques et routi√®res** (d√©partement, commune, cat√©gorie de route, intersection, etc.).

Il s'agit manifestement de la **base BAAC (Bulletin d'Analyse des Accidents Corporels)** g√©r√©e par l'Observatoire National Interminist√©riel de la S√©curit√© Routi√®re, utilis√©e pour analyser la s√©curit√© routi√®re et identifier les facteurs d'accidents en France.

**üìä Points cl√©s:**
- Pr√®s de 280k accidents n'ont pas de coordonn√©es GPS compl√®tes
- Moyenne de 0.06 tu√© et 1.25 bless√©s par accident


In [11]:
# Partie 2.4 : Exercice libre - Questions suppl√©mentaires
# Exploration cr√©ative du dataset avec 3 questions personnalis√©es

print("="*70)
print("QUESTION 6 : Question libre 1")
print("="*70)

q6 = ask_data_assistant(
    "Quels sont les d√©partements (dep) avec le plus d'accidents et comment pourrait-on les identifier ?",
    dataset_context
)
print(q6)

print("\n" + "="*70)
print("QUESTION 7 : Question libre 2")
print("="*70)

q7 = ask_data_assistant(
    "Comment pourrait-on analyser la relation entre la gravit√© des accidents et les conditions m√©t√©orologiques (colonne atm) ?",
    dataset_context
)
print(q7)

print("\n" + "="*70)
print("QUESTION 8 : Question libre 3")
print("="*70)

q8 = ask_data_assistant(
    "Quels insights int√©ressants pourraient aider √† pr√©venir les accidents graves dans ce dataset ?",
    dataset_context
)
print(q8)

QUESTION 6 : Question libre 1
# Analyse des d√©partements avec le plus d'accidents

Je vais t'aider √† identifier les d√©partements les plus accidentog√®nes. Voici comment proc√©der :

## 1. Code pour identifier les top d√©partements

```python
import pandas as pd
import plotly.express as px

# Compter les accidents par d√©partement
accidents_par_dep = df['dep'].value_counts().reset_index()
accidents_par_dep.columns = ['departement', 'nb_accidents']

# Top 10 d√©partements
top10 = accidents_par_dep.head(10)
print(top10)

# Visualisation
fig = px.bar(top10, 
             x='departement', 
             y='nb_accidents',
             title='Top 10 des d√©partements avec le plus d\'accidents',
             labels={'departement': 'D√©partement', 'nb_accidents': 'Nombre d\'accidents'})
fig.show()
```

## 2. Analyse enrichie avec taux d'accidents

```python
# Si tu as les populations d√©partementales
populations = {
    # Exemple: '75': 2_165_000, '13': 2_044_000, etc.
}

# Calcul du taux pou

In [12]:
# Partie 3.1 : G√©n√©ration de la fiche technique
# Demande √† Claude de g√©n√©rer une documentation compl√®te du dataset

print("G√©n√©ration de la fiche technique...")
print()

# Prompt pour g√©n√©rer la fiche technique au format Markdown
fiche_prompt = f"""
G√©n√®re une fiche technique compl√®te pour ce dataset au format Markdown.

Structure attendue :
# Nom du dataset

## Informations g√©n√©rales
- Source : data.gouv.fr
- Licence : 
- Nombre de lignes : {len(df)}
- Nombre de colonnes : {len(df.columns)}

## Description
[Description en 2-3 paragraphes du contenu]

## Structure des donn√©es
[Tableau avec colonnes, types et descriptions]

## Qualit√© des donn√©es
### Points forts
- ...

### Points d'attention
- ...

## Cas d'usage potentiels
1. ...
2. ...
3. ...

## Analyse recommand√©e
[Recommandations pour exploiter le dataset]

Voici le contexte du dataset :
{dataset_context}
"""

# Appel √† Claude pour g√©n√©rer la fiche
fiche_technique = ask_data_assistant(fiche_prompt)

print(fiche_technique)

G√©n√©ration de la fiche technique...

# Accidents corporels de la circulation routi√®re en France

## Informations g√©n√©rales
- **Source** : data.gouv.fr
- **Licence** : Licence Ouverte (√† v√©rifier sur le portail)
- **Nombre de lignes** : 439 332
- **Nombre de colonnes** : 36
- **P√©riode couverte** : Plusieurs ann√©es (√† d√©terminer selon les donn√©es `org`)

## Description

Ce dataset recense les **accidents corporels de la circulation routi√®re** survenus en France m√©tropolitaine et dans les d√©partements d'outre-mer. Chaque ligne correspond √† un accident ayant fait au moins une victime (d√©c√©d√©, bless√© hospitalis√© ou bless√© l√©ger). Les donn√©es sont collect√©es par les forces de l'ordre √† partir des proc√®s-verbaux d'accidents.

Le fichier contient des informations d√©taill√©es sur les **circonstances des accidents** (conditions m√©t√©orologiques, luminosit√©, type de collision), la **localisation g√©ographique** (d√©partement, commune, adresse, coordonn√©es GPS) et l

In [13]:
# Partie 3.2 : Sauvegarde de la fiche technique
# Enregistrement de la documentation g√©n√©r√©e en fichier Markdown

# Sauvegarde de la fiche technique en fichier .md
with open('FICHE_TECHNIQUE.md', 'w', encoding='utf-8') as fichier:
    fichier.write(fiche_technique)

print("Fiche technique sauvegard√©e dans FICHE_TECHNIQUE.md !")
print()
print("Fichier cr√©√© avec succ√®s dans le dossier du projet.")

Fiche technique sauvegard√©e dans FICHE_TECHNIQUE.md !

Fichier cr√©√© avec succ√®s dans le dossier du projet.


In [15]:
# Partie 3.3 : Cr√©ation du README.md
# Documentation pour expliquer comment reproduire le TP

readme_content = """# TP1 - Exploration augment√©e d'un dataset Open Data

## Dataset choisi
Accidents corporels de la circulation routi√®re (data.gouv.fr)
- Source : https://www.data.gouv.fr/fr/datasets/bases-de-donnees-annuelles-des-accidents-corporels-de-la-circulation-routiere-annees-de-2005-a-2024/
- Nombre de lignes : 439 332
- Nombre de colonnes : 36

## Description
Ce TP explore un dataset Open Data contenant les informations sur les accidents corporels survenus sur les routes fran√ßaises. L'exploration est assist√©e par Claude Sonnet 4.5 pour identifier les caract√©ristiques, probl√®mes de qualit√© et analyses potentielles.

## Installation
```bash
cd tp1-exploration
uv sync
```

## Configuration
1. Cr√©er un fichier `.env` √† la racine du projet
2. Ajouter la cl√© API Anthropic :
```env
ANTHROPIC_API_KEY=cl√©_ici
```

## Utilisation
```bash
uv run jupyter notebook
```
Ouvrez le fichier `exploration.ipynb`

## Fichiers du projet
- `exploration.ipynb` : Notebook principal avec l'exploration du dataset
- `FICHE_TECHNIQUE.md` : Documentation d√©taill√©e du dataset
- `accidents.csv` : Fichier de donn√©es (√† t√©l√©charger depuis data.gouv.fr)

## Contenu du TP
- Partie 0 : Setup de l'environnement
- Partie 1 : Chargement du dataset
- Partie 2 : Exploration assist√©e par IA (8 questions)
- Partie 3 : G√©n√©ration de la fiche technique

## Outils utilis√©s
- Python 3.14
- pandas : manipulation de donn√©es
- duckdb : requ√™tes SQL
- plotly : visualisations
- litellm : acc√®s √† Claude API
- Claude Sonnet 4.5 : analyse assist√©e par IA

## Auteur
Hassan HOUSSEIN HOUMED

## Licence
Data : CC-BY
Notebook : Libre d'utilisation
"""

# Sauvegarde du README
with open('README.md', 'w', encoding='utf-8') as fichier:
    fichier.write(readme_content)

print("README.md cr√©√© avec succ√®s !")

README.md cr√©√© avec succ√®s !
