## 1. Configuration et Imports

In [None]:
import requests
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Configuration graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

# Configuration API
API_BASE_URL = "http://localhost:8000"  # Modifier si API distante

## 2. Connexion √† l'API

In [None]:
# Test de connexion
response = requests.get(f"{API_BASE_URL}/")
print(f"Status API: {response.json()}")

# Statistiques globales
stats = requests.get(f"{API_BASE_URL}/statistics").json()
print(f"\nStatistiques globales:")
print(f"  - Total accidents: {stats.get('total_accidents', 'N/A')}")
print(f"  - P√©riode: {stats.get('date_range', 'N/A')}")

## 3. Chargement des Donn√©es

In [None]:
def load_accidents_data(limit=1000, offset=0):
    """Charge les donn√©es d'accidents via API"""
    url = f"{API_BASE_URL}/accidents?limit={limit}&offset={offset}"
    response = requests.get(url)
    if response.status_code == 200:
        return pd.DataFrame(response.json())
    else:
        print(f"Erreur: {response.status_code}")
        return None

# Charger les donn√©es
df = load_accidents_data(limit=5000)
print(f"Donn√©es charg√©es: {len(df)} lignes, {len(df.columns)} colonnes")
df.head()

## 4. Analyse Descriptive

In [None]:
# Informations g√©n√©rales
print("=" * 50)
print("INFORMATIONS SUR LE DATASET")
print("=" * 50)
df.info()

print("\n" + "=" * 50)
print("STATISTIQUES DESCRIPTIVES")
print("=" * 50)
df.describe()

## 5. Valeurs Manquantes

In [None]:
# Analyse des valeurs manquantes
missing = df.isnull().sum()
missing_pct = (missing / len(df) * 100).round(2)
missing_df = pd.DataFrame({
    'Valeurs Manquantes': missing,
    'Pourcentage': missing_pct
}).sort_values('Pourcentage', ascending=False)

print(missing_df[missing_df['Pourcentage'] > 0])

# Visualisation
plt.figure(figsize=(12, 6))
missing_data = missing_df[missing_df['Pourcentage'] > 0]
if not missing_data.empty:
    plt.barh(missing_data.index, missing_data['Pourcentage'])
    plt.xlabel('Pourcentage de valeurs manquantes')
    plt.title('Valeurs Manquantes par Colonne')
    plt.tight_layout()
    plt.show()
else:
    print("\n‚úÖ Aucune valeur manquante d√©tect√©e")

## 6. Distributions des Variables Cl√©s

In [None]:
# Distribution de la gravit√©
if 'grav' in df.columns:
    plt.figure(figsize=(10, 5))
    df['grav'].value_counts().sort_index().plot(kind='bar')
    plt.title('Distribution de la Gravit√© des Accidents')
    plt.xlabel('Gravit√©')
    plt.ylabel('Nombre d\'accidents')
    plt.xticks(rotation=0)
    plt.tight_layout()
    plt.show()

In [None]:
# Distribution temporelle
if 'an' in df.columns:
    plt.figure(figsize=(12, 5))
    df['an'].value_counts().sort_index().plot(kind='line', marker='o')
    plt.title('√âvolution du Nombre d\'Accidents par Ann√©e')
    plt.xlabel('Ann√©e')
    plt.ylabel('Nombre d\'accidents')
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()

## 7. Corr√©lations

In [None]:
# Matrice de corr√©lation pour les variables num√©riques
numeric_cols = df.select_dtypes(include=[np.number]).columns
if len(numeric_cols) > 1:
    corr_matrix = df[numeric_cols].corr()
    
    plt.figure(figsize=(12, 10))
    sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
                center=0, square=True, linewidths=1)
    plt.title('Matrice de Corr√©lation')
    plt.tight_layout()
    plt.show()
else:
    print("Pas assez de variables num√©riques pour calculer les corr√©lations")

## 8. R√©sum√© de l'Exploration

In [None]:
print("=" * 60)
print("R√âSUM√â DE L'EXPLORATION")
print("=" * 60)
print(f"Nombre de lignes: {len(df)}")
print(f"Nombre de colonnes: {len(df.columns)}")
print(f"M√©moire utilis√©e: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"\nTypes de donn√©es:")
print(df.dtypes.value_counts())
print("\n‚úÖ Exploration termin√©e!")

## üìù Notes

**Prochaines √©tapes** :
1. Passer au notebook `02_statistical_analysis.ipynb` pour analyses statistiques
2. Identifier les features importantes pour le ML
3. Nettoyer les donn√©es si n√©cessaire

**Documentation API** : Voir `/docs` sur l'API REST