In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configuration affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')

print("‚úÖ Imports OK")

## 1Ô∏è‚É£ Chargement des Donn√©es

Source: API locale ou donn√©es CSV

In [None]:
# Tentative de connexion √† l'API locale
API_BASE_URL = "http://localhost:8000/api/v1"

try:
    # Test de connexion
    response = requests.get(f"{API_BASE_URL}/health", timeout=5)
    if response.status_code == 200:
        print("‚úÖ API accessible")
        USE_API = True
    else:
        print("‚ö†Ô∏è API non accessible, fallback sur CSV")
        USE_API = False
except:
    print("‚ö†Ô∏è API non disponible, utilisation des CSV")
    USE_API = False

# Chargement des donn√©es usagers (avec √¢ge)
if USE_API:
    # Via API
    try:
        response = requests.get(f"{API_BASE_URL}/stats/usagers?limit=10000")
        df_usagers = pd.DataFrame(response.json())
        print(f"üìä {len(df_usagers)} lignes charg√©es via API")
    except Exception as e:
        print(f"‚ùå Erreur API: {e}")
        df_usagers = pd.DataFrame()
else:
    # Via CSV
    try:
        df_usagers = pd.read_csv('../data/clean/clean_usagers.csv')
        print(f"üìä {len(df_usagers)} lignes charg√©es depuis CSV")
    except FileNotFoundError:
        print("‚ö†Ô∏è Fichier CSV non trouv√©")
        print("üí° Ex√©cutez d'abord le pipeline ETL: python src/pipeline/run_pipeline.py")
        df_usagers = pd.DataFrame()

if not df_usagers.empty:
    print(f"\nüìã Colonnes disponibles: {list(df_usagers.columns)}")
    print(f"\nüîç Aper√ßu des donn√©es:")
    display(df_usagers.head())

## 2Ô∏è‚É£ Donn√©es de R√©f√©rence INSEE/ONISR

**Sources**:
- Population par √¢ge: INSEE (donn√©es publiques)
- Taux de d√©tention du permis: Enqu√™tes ONISR
- Kilom√®tres parcourus: Estimations acad√©miques

In [None]:
# Donn√©es de r√©f√©rence (estimations 2023-2024)
# Source: INSEE + ONISR + Enqu√™tes mobilit√©

population_reference = {
    'tranche_age': ['18-24', '25-34', '35-44', '45-54', '55-64', '65-74', '75+'],
    'population': [5_200_000, 8_100_000, 8_400_000, 8_800_000, 8_200_000, 6_000_000, 4_500_000],
    'taux_permis': [0.72, 0.88, 0.90, 0.90, 0.88, 0.85, 0.78],  # % ayant le permis
    'km_annuels_moyen': [8_000, 13_000, 15_000, 14_000, 12_000, 9_000, 6_000],  # km/an
    'freq_utilisation': [0.65, 0.85, 0.90, 0.90, 0.85, 0.75, 0.60]  # % conduisant r√©guli√®rement
}

df_ref = pd.DataFrame(population_reference)

# Calcul des conducteurs actifs
df_ref['conducteurs_avec_permis'] = (df_ref['population'] * df_ref['taux_permis']).astype(int)
df_ref['conducteurs_actifs'] = (df_ref['conducteurs_avec_permis'] * df_ref['freq_utilisation']).astype(int)
df_ref['km_totaux'] = (df_ref['conducteurs_actifs'] * df_ref['km_annuels_moyen']).astype(int)

print("üìä Donn√©es de r√©f√©rence (estimations):\n")
display(df_ref)

print(f"\nüìà R√©sum√©:")
print(f"  ‚Ä¢ Population totale 18+: {df_ref['population'].sum():,}")
print(f"  ‚Ä¢ Conducteurs avec permis: {df_ref['conducteurs_avec_permis'].sum():,}")
print(f"  ‚Ä¢ Conducteurs actifs: {df_ref['conducteurs_actifs'].sum():,}")
print(f"  ‚Ä¢ Km totaux annuels: {df_ref['km_totaux'].sum():,}")

## 3Ô∏è‚É£ Pr√©paration des Donn√©es d'Accidents

Agr√©gation par tranche d'√¢ge et calcul des m√©triques

In [None]:
if not df_usagers.empty:
    # D√©tection des colonnes disponibles
    age_col = 'age' if 'age' in df_usagers.columns else None
    gravite_col = 'gravite' if 'gravite' in df_usagers.columns else 'grav' if 'grav' in df_usagers.columns else None
    
    if age_col and gravite_col:
        # Nettoyage
        df_work = df_usagers[[age_col, gravite_col]].copy()
        df_work = df_work[df_work[age_col] > 0]  # Supprimer √¢ges invalides
        df_work = df_work[df_work[age_col] >= 18]  # Seulement 18+
        df_work = df_work[df_work[age_col] <= 100]  # √Çges r√©alistes
        
        # Cr√©er tranches d'√¢ge
        bins = [18, 25, 35, 45, 55, 65, 75, 100]
        labels = ['18-24', '25-34', '35-44', '45-54', '55-64', '65-74', '75+']
        df_work['tranche_age'] = pd.cut(df_work[age_col], bins=bins, labels=labels, right=False)
        
        # Agr√©gation
        df_accidents_age = df_work.groupby('tranche_age').agg({
            age_col: 'count',
            gravite_col: ['mean', lambda x: (x >= 3).sum(), lambda x: (x == 4).sum()]
        }).reset_index()
        
        df_accidents_age.columns = ['tranche_age', 'nombre_usagers', 'gravite_moyenne', 'graves', 'deces']
        
        print("üìä Accidents par tranche d'√¢ge (DONN√âES BRUTES):\n")
        display(df_accidents_age)
        
    else:
        print(f"‚ùå Colonnes manquantes: age={age_col}, gravite={gravite_col}")
        df_accidents_age = None
else:
    print("‚ö†Ô∏è Pas de donn√©es usagers charg√©es")
    df_accidents_age = None

## 4Ô∏è‚É£ Normalisation par Exposition

**Calcul des taux normalis√©s**:
- Accidents pour 100 000 conducteurs actifs
- Accidents pour 100 millions de km parcourus

In [None]:
if df_accidents_age is not None:
    # Fusion avec donn√©es de r√©f√©rence
    df_analyse = df_accidents_age.merge(df_ref, on='tranche_age', how='left')
    
    # Calcul des taux normalis√©s
    df_analyse['taux_pour_100k_conducteurs'] = (
        df_analyse['nombre_usagers'] / df_analyse['conducteurs_actifs'] * 100_000
    ).round(2)
    
    df_analyse['taux_pour_100M_km'] = (
        df_analyse['nombre_usagers'] / df_analyse['km_totaux'] * 100_000_000
    ).round(2)
    
    df_analyse['taux_graves_pour_100k'] = (
        df_analyse['graves'] / df_analyse['conducteurs_actifs'] * 100_000
    ).round(2)
    
    df_analyse['taux_deces_pour_100k'] = (
        df_analyse['deces'] / df_analyse['conducteurs_actifs'] * 100_000
    ).round(2)
    
    print("üìä R√âSULTATS NORMALIS√âS:\n")
    display(df_analyse[[
        'tranche_age', 'nombre_usagers', 'conducteurs_actifs',
        'taux_pour_100k_conducteurs', 'taux_pour_100M_km',
        'gravite_moyenne', 'taux_graves_pour_100k', 'taux_deces_pour_100k'
    ]])
    
    # Calcul des risques relatifs (r√©f√©rence: 35-44 ans)
    ref_age = '35-44'
    taux_ref = df_analyse[df_analyse['tranche_age'] == ref_age]['taux_pour_100k_conducteurs'].values[0]
    
    df_analyse['risque_relatif'] = (df_analyse['taux_pour_100k_conducteurs'] / taux_ref).round(2)
    
    print(f"\nüéØ RISQUES RELATIFS (ref: {ref_age} = 1.00):\n")
    for _, row in df_analyse.iterrows():
        emoji = "üî¥" if row['risque_relatif'] > 1.5 else "üü†" if row['risque_relatif'] > 1.2 else "üü¢"
        print(f"{emoji} {row['tranche_age']:8} : {row['risque_relatif']:.2f}x")
else:
    print("‚ö†Ô∏è Analyse impossible sans donn√©es")

## 5Ô∏è‚É£ Visualisations Comparatives

### A. Donn√©es Brutes vs Normalis√©es

In [None]:
if df_accidents_age is not None:
    fig, axes = plt.subplots(1, 2, figsize=(16, 6))
    
    # Graphique 1: Nombre d'accidents bruts
    axes[0].bar(df_analyse['tranche_age'], df_analyse['nombre_usagers'], color='steelblue', alpha=0.7)
    axes[0].set_title('‚ùå DONN√âES BRUTES (TROMPEUSES)\nNombre d\'usagers impliqu√©s par √¢ge', fontsize=14, fontweight='bold')
    axes[0].set_xlabel('Tranche d\'√¢ge', fontsize=12)
    axes[0].set_ylabel('Nombre d\'usagers', fontsize=12)
    axes[0].grid(axis='y', alpha=0.3)
    axes[0].tick_params(axis='x', rotation=45)
    
    # Graphique 2: Taux normalis√©
    colors = ['red' if x > 1.5 else 'orange' if x > 1.2 else 'green' for x in df_analyse['risque_relatif']]
    axes[1].bar(df_analyse['tranche_age'], df_analyse['taux_pour_100k_conducteurs'], color=colors, alpha=0.7)
    axes[1].set_title('‚úÖ DONN√âES NORMALIS√âES (R√âALIT√â)\nTaux pour 100 000 conducteurs actifs', fontsize=14, fontweight='bold')
    axes[1].set_xlabel('Tranche d\'√¢ge', fontsize=12)
    axes[1].set_ylabel('Taux d\'accidents pour 100k', fontsize=12)
    axes[1].grid(axis='y', alpha=0.3)
    axes[1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()
    
    print("\nüí° INTERPR√âTATION:")
    print("  ‚Ä¢ Graphique GAUCHE: Montre moins d'accidents jeunes (TROMPEUR car ils conduisent moins)")
    print("  ‚Ä¢ Graphique DROITE: Montre le VRAI risque par exposition (jeunes = risque √©lev√©)")

### B. Risque Relatif et Gravit√©

In [None]:
if df_accidents_age is not None:
    fig, axes = plt.subplots(1, 2, figsize=(16, 6))
    
    # Graphique 1: Risque relatif
    axes[0].plot(df_analyse['tranche_age'], df_analyse['risque_relatif'], 
                marker='o', linewidth=3, markersize=10, color='darkred')
    axes[0].axhline(y=1, color='green', linestyle='--', linewidth=2, label='Risque de r√©f√©rence (35-44 ans)')
    axes[0].fill_between(range(len(df_analyse)), 0, df_analyse['risque_relatif'], alpha=0.2, color='red')
    axes[0].set_title('Risque Relatif par √Çge\n(R√©f√©rence: 35-44 ans = 1.0)', fontsize=14, fontweight='bold')
    axes[0].set_xlabel('Tranche d\'√¢ge', fontsize=12)
    axes[0].set_ylabel('Risque relatif', fontsize=12)
    axes[0].legend()
    axes[0].grid(alpha=0.3)
    axes[0].tick_params(axis='x', rotation=45)
    
    # Graphique 2: Gravit√© moyenne
    axes[1].bar(df_analyse['tranche_age'], df_analyse['gravite_moyenne'], color='coral', alpha=0.7)
    axes[1].axhline(y=df_analyse['gravite_moyenne'].mean(), color='blue', 
                   linestyle='--', linewidth=2, label=f'Moyenne globale: {df_analyse["gravite_moyenne"].mean():.2f}')
    axes[1].set_title('Gravit√© Moyenne des Accidents\n(1=Indemne, 2=L√©ger, 3=Grave, 4=Mortel)', 
                     fontsize=14, fontweight='bold')
    axes[1].set_xlabel('Tranche d\'√¢ge', fontsize=12)
    axes[1].set_ylabel('Gravit√© moyenne', fontsize=12)
    axes[1].legend()
    axes[1].grid(axis='y', alpha=0.3)
    axes[1].tick_params(axis='x', rotation=45)
    axes[1].set_ylim([1, 4])
    
    plt.tight_layout()
    plt.show()

### C. Taux d'Accidents Graves et D√©c√®s

In [None]:
if df_accidents_age is not None:
    fig, ax = plt.subplots(figsize=(14, 7))
    
    x = np.arange(len(df_analyse))
    width = 0.35
    
    bars1 = ax.bar(x - width/2, df_analyse['taux_graves_pour_100k'], width, 
                   label='Accidents graves (hosp.)', color='orange', alpha=0.8)
    bars2 = ax.bar(x + width/2, df_analyse['taux_deces_pour_100k'], width, 
                   label='D√©c√®s', color='darkred', alpha=0.8)
    
    ax.set_title('Taux d\'Accidents Graves et D√©c√®s\n(pour 100 000 conducteurs actifs)', 
                fontsize=16, fontweight='bold')
    ax.set_xlabel('Tranche d\'√¢ge', fontsize=13)
    ax.set_ylabel('Taux pour 100 000 conducteurs', fontsize=13)
    ax.set_xticks(x)
    ax.set_xticklabels(df_analyse['tranche_age'], rotation=45)
    ax.legend(fontsize=12)
    ax.grid(axis='y', alpha=0.3)
    
    # Annotations
    for i, (grave, deces) in enumerate(zip(df_analyse['taux_graves_pour_100k'], df_analyse['taux_deces_pour_100k'])):
        ax.text(i - width/2, grave + 1, f'{grave:.1f}', ha='center', fontsize=9)
        ax.text(i + width/2, deces + 0.5, f'{deces:.1f}', ha='center', fontsize=9)
    
    plt.tight_layout()
    plt.show()

## 6Ô∏è‚É£ Analyse Statistique

### Test de significativit√© des diff√©rences

In [None]:
if df_accidents_age is not None:
    from scipy import stats
    
    print("üìä TESTS STATISTIQUES\n")
    print("=" * 70)
    
    # Test ANOVA: diff√©rence significative entre tranches d'√¢ge?
    taux_par_age = df_analyse['taux_pour_100k_conducteurs'].values
    
    print("\n1Ô∏è‚É£ Variance des taux d'accidents par √¢ge:")
    print(f"   ‚Ä¢ √âcart-type: {taux_par_age.std():.2f}")
    print(f"   ‚Ä¢ Coefficient de variation: {(taux_par_age.std() / taux_par_age.mean() * 100):.1f}%")
    print(f"   ‚Ä¢ Min: {taux_par_age.min():.2f} | Max: {taux_par_age.max():.2f}")
    print(f"   ‚Ä¢ Ratio Max/Min: {taux_par_age.max() / taux_par_age.min():.2f}x")
    
    # Comparaison jeunes (18-24) vs exp√©riment√©s (35-44)
    print("\n2Ô∏è‚É£ Comparaison Jeunes (18-24) vs Exp√©riment√©s (35-44):")
    jeunes = df_analyse[df_analyse['tranche_age'] == '18-24']
    exp = df_analyse[df_analyse['tranche_age'] == '35-44']
    
    if not jeunes.empty and not exp.empty:
        taux_jeunes = jeunes['taux_pour_100k_conducteurs'].values[0]
        taux_exp = exp['taux_pour_100k_conducteurs'].values[0]
        diff_pct = ((taux_jeunes - taux_exp) / taux_exp * 100)
        
        print(f"   ‚Ä¢ Taux jeunes: {taux_jeunes:.2f} pour 100k")
        print(f"   ‚Ä¢ Taux exp√©riment√©s: {taux_exp:.2f} pour 100k")
        print(f"   ‚Ä¢ Diff√©rence: {diff_pct:+.1f}%")
        print(f"   ‚Ä¢ Facteur multiplicatif: {taux_jeunes/taux_exp:.2f}x")
        
        if diff_pct > 20:
            print("   ‚úÖ CONCLUSION: Les jeunes conducteurs ont un risque SIGNIFICATIVEMENT plus √©lev√©")
        else:
            print("   ‚ö†Ô∏è CONCLUSION: Diff√©rence mod√©r√©e")
    
    # Gravit√©
    print("\n3Ô∏è‚É£ Analyse de la gravit√©:")
    gravite_jeunes = jeunes['gravite_moyenne'].values[0] if not jeunes.empty else 0
    gravite_exp = exp['gravite_moyenne'].values[0] if not exp.empty else 0
    
    print(f"   ‚Ä¢ Gravit√© moyenne jeunes: {gravite_jeunes:.2f}/4")
    print(f"   ‚Ä¢ Gravit√© moyenne exp√©riment√©s: {gravite_exp:.2f}/4")
    if gravite_jeunes > 0 and gravite_exp > 0:
        print(f"   ‚Ä¢ Diff√©rence: {((gravite_jeunes - gravite_exp) / gravite_exp * 100):+.1f}%")

## 7Ô∏è‚É£ Conclusions et Recommandations

### Synth√®se des R√©sultats

In [None]:
if df_accidents_age is not None:
    print("="*80)
    print("üìã RAPPORT DE SYNTH√àSE: RISQUE PAR √ÇGE ET EXPOSITION")
    print("="*80)
    
    print("\nüéØ FINDINGS PRINCIPAUX:\n")
    
    # Finding 1: Biais des donn√©es brutes
    print("1Ô∏è‚É£ BIAIS D'EXPOSITION CONFIRM√â")
    jeunes_brut = df_analyse[df_analyse['tranche_age'] == '18-24']['nombre_usagers'].values[0]
    total_brut = df_analyse['nombre_usagers'].sum()
    print(f"   ‚Ä¢ Donn√©es brutes: {jeunes_brut:,} accidents jeunes ({jeunes_brut/total_brut*100:.1f}% du total)")
    print(f"   ‚Ä¢ Semblent 'moins dangereux' car ils conduisent MOINS")
    print(f"   ‚ùå Interpr√©tation brute = FAUSSE")
    
    # Finding 2: Apr√®s normalisation
    print("\n2Ô∏è‚É£ APR√àS NORMALISATION PAR EXPOSITION")
    risque_jeunes = df_analyse[df_analyse['tranche_age'] == '18-24']['risque_relatif'].values[0]
    print(f"   ‚Ä¢ Risque relatif jeunes (18-24): {risque_jeunes:.2f}x (ref: 35-44)")
    print(f"   ‚Ä¢ Taux accidents jeunes: {df_analyse[df_analyse['tranche_age'] == '18-24']['taux_pour_100k_conducteurs'].values[0]:.1f} pour 100k")
    print(f"   ‚úÖ Les jeunes conducteurs sont PLUS √† risque (quand on normalise)")
    
    # Finding 3: Tranches √† risque
    print("\n3Ô∏è‚É£ TRANCHES D'√ÇGE √Ä RISQUE √âLEV√â")
    risque_eleve = df_analyse[df_analyse['risque_relatif'] > 1.3].sort_values('risque_relatif', ascending=False)
    for _, row in risque_eleve.iterrows():
        print(f"   üî¥ {row['tranche_age']:8} : {row['risque_relatif']:.2f}x | Gravit√©: {row['gravite_moyenne']:.2f}/4")
    
    # Finding 4: Gravit√©
    print("\n4Ô∏è‚É£ ANALYSE DE LA GRAVIT√â")
    gravite_max_age = df_analyse.loc[df_analyse['gravite_moyenne'].idxmax(), 'tranche_age']
    gravite_max_val = df_analyse['gravite_moyenne'].max()
    print(f"   ‚Ä¢ Tranche avec gravit√© maximale: {gravite_max_age} ({gravite_max_val:.2f}/4)")
    print(f"   ‚Ä¢ Gravit√© moyenne globale: {df_analyse['gravite_moyenne'].mean():.2f}/4")
    
    print("\n" + "="*80)
    print("üí° RECOMMANDATIONS:\n")
    print("1. POUR L'ASSURANCE:")
    print("   ‚Ä¢ Appliquer surprime jeunes conducteurs (18-24): +50% √† +100%")
    print("   ‚Ä¢ Bonus progressif apr√®s 3-5 ans sans sinistre")
    print("   ‚Ä¢ Programmes de pr√©vention cibl√©s")
    
    print("\n2. POUR LA PR√âVENTION:")
    print("   ‚Ä¢ Campagnes sp√©cifiques jeunes (nuit, alcool, vitesse)")
    print("   ‚Ä¢ Formation post-permis obligatoire")
    print("   ‚Ä¢ Sensibilisation seniors (65+) sur fragilit√©")
    
    print("\n3. POUR LES ANALYSES FUTURES:")
    print("   ‚Ä¢ TOUJOURS normaliser par exposition (conducteurs actifs ou km)")
    print("   ‚Ä¢ Ne JAMAIS comparer les nombres bruts entre groupes d'√¢ge")
    print("   ‚Ä¢ Analyser s√©par√©ment fr√©quence ET gravit√©")
    
    print("\n" + "="*80)
    print("‚úÖ ANALYSE TERMIN√âE")
    print("="*80)
else:
    print("‚ö†Ô∏è Analyse impossible: donn√©es non disponibles")

## 8Ô∏è‚É£ Export des R√©sultats

In [None]:
if df_accidents_age is not None:
    # Sauvegarder les r√©sultats
    output_file = '../data/analysis/risk_normalization_results.csv'
    
    try:
        import os
        os.makedirs('../data/analysis', exist_ok=True)
        df_analyse.to_csv(output_file, index=False)
        print(f"‚úÖ R√©sultats export√©s: {output_file}")
    except Exception as e:
        print(f"‚ö†Ô∏è Impossible d'exporter: {e}")
    
    print("\nüìä Colonnes export√©es:")
    print(list(df_analyse.columns))

---

## üìö Notes M√©thodologiques

### Sources des Estimations

1. **Population par √¢ge**: INSEE, Bilan d√©mographique 2023
2. **Taux de d√©tention du permis**: 
   - 18-24 ans: ~72% (source: Enqu√™te Mobilit√© INSEE)
   - 25-64 ans: ~88-90%
   - 65+ ans: ~75-85% (d√©clin apr√®s 75 ans)

3. **Kilom√®tres annuels**: 
   - Enqu√™te ENTD (Enqu√™te Nationale Transports et D√©placements)
   - Moyenne France: 12 000 km/an/conducteur
   - Jeunes: 8 000 km (usage occasionnel)
   - Actifs: 13-15 000 km (trajets domicile-travail)
   - Retrait√©s: 6-9 000 km

4. **Fr√©quence d'utilisation**:
   - % de d√©tenteurs du permis qui conduisent r√©guli√®rement
   - Jeunes: 65% (covoiturage, transports en commun)
   - Actifs: 85-90%
   - Seniors: 60-75% (mobilit√© r√©duite apr√®s 75 ans)

### Limites de l'Analyse

- ‚ö†Ô∏è **Estimations**: Les donn√©es d'exposition sont des estimations, pas des mesures exactes
- ‚ö†Ô∏è **Agr√©gation**: Les tranches d'√¢ge masquent la variabilit√© intra-groupe
- ‚ö†Ô∏è **Biais de survie**: Les accidents mortels des jeunes peuvent √™tre sous-repr√©sent√©s
- ‚ö†Ô∏è **Facteurs confondants**: Genre, type de v√©hicule, zone g√©ographique non contr√¥l√©s

### Pour Aller Plus Loin

1. Croiser avec donn√©es ONISR (taux officiels)
2. Segmenter par genre (hommes jeunes = risque max)
3. Analyser par type de trajet (loisirs vs travail)
4. Mod√®le de r√©gression multivari√© (√¢ge + exp√©rience + genre + type v√©hicule)

---

**Notebook cr√©√© le**: 30 janvier 2026  
**Projet**: Accidents Routiers - Analyse & API  
**Contact**: GitHub @Gouesse05