In [1]:
# ============================================================================
# IMPORTS - TOUTES LES BIBLIOTHÈQUES NÉCESSAIRES
# ============================================================================

# Manipulation de données
import pandas as pd
import numpy as np
import os
from datetime import datetime, timedelta

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Preprocessing
import sklearn
from sklearn.model_selection import train_test_split, TimeSeriesSplit, GridSearchCV, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler, LabelEncoder
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error

# Modèles de Machine Learning - Classiques
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor
from sklearn.ensemble import ExtraTreesRegressor, BaggingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR

# XGBoost et LightGBM
import xgboost as xgb
from xgboost import XGBRegressor
try:
    import lightgbm as lgb
    from lightgbm import LGBMRegressor
except ImportError:
    print("⚠️ LightGBM non installé. Pour l'installer: pip install lightgbm")

# CatBoost
try:
    from catboost import CatBoostRegressor
except ImportError:
    print("⚠️ CatBoost non installé. Pour l'installer: pip install catboost")

# Réseaux de neurones - TensorFlow/Keras
try:
    import tensorflow as tf
    from tensorflow import keras
    from tensorflow.keras.models import Sequential, Model
    from tensorflow.keras.layers import Dense, Dropout, LSTM, GRU, Conv1D, MaxPooling1D, Flatten
    from tensorflow.keras.layers import BatchNormalization, Activation, Input, Concatenate
    from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau, ModelCheckpoint
    from tensorflow.keras.optimizers import Adam, RMSprop, SGD
except ImportError:
    print("⚠️ TensorFlow non installé. Pour l'installer: pip install tensorflow")

# Réseaux de neurones - PyTorch (alternative)
try:
    import torch
    import torch.nn as nn
    import torch.optim as optim
    from torch.utils.data import Dataset, DataLoader, TensorDataset
except ImportError:
    print("⚠️ PyTorch non installé. Pour l'installer: pip install torch")

# Modèles de séries temporelles
try:
    from statsmodels.tsa.arima.model import ARIMA
    from statsmodels.tsa.statespace.sarimax import SARIMAX
    from statsmodels.tsa.holtwinters import ExponentialSmoothing
    from statsmodels.tsa.seasonal import seasonal_decompose
    from statsmodels.tsa.stattools import adfuller, acf, pacf
except ImportError:
    print("⚠️ Statsmodels non installé. Pour l'installer: pip install statsmodels")

# pmdarima (peut avoir des problèmes de compatibilité avec certaines versions de numpy)
try:
    from pmdarima import auto_arima
except (ImportError, ValueError) as e:
    print(f"⚠️ pmdarima non disponible: {type(e).__name__}")
    print("   → Si besoin, réinstaller: pip uninstall pmdarima -y && pip install pmdarima")

# Prophet (Facebook)
try:
    from prophet import Prophet
except ImportError:
    print("⚠️ Prophet non installé. Pour l'installer: pip install prophet")

# Suppression des warnings
import warnings
warnings.filterwarnings('ignore')

# Configuration de l'affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("=" * 80)
print("✅ BIBLIOTHÈQUES CHARGÉES")
print("=" * 80)
print(f"📊 Pandas version: {pd.__version__}")
print(f"🔢 NumPy version: {np.__version__}")
print(f"🤖 Scikit-learn version: {sklearn.__version__}")
print(f"🚀 XGBoost version: {xgb.__version__}")
try:
    print(f"💡 LightGBM version: {lgb.__version__}")
except:
    pass
try:
    print(f"🧠 TensorFlow version: {tf.__version__}")
except:
    pass
try:
    print(f"🔥 PyTorch version: {torch.__version__}")
except:
    pass
print("=" * 80)

⚠️ pmdarima non disponible: ValueError
   → Si besoin, réinstaller: pip uninstall pmdarima -y && pip install pmdarima
✅ BIBLIOTHÈQUES CHARGÉES
📊 Pandas version: 2.2.3
🔢 NumPy version: 2.1.3
🤖 Scikit-learn version: 1.6.1
🚀 XGBoost version: 3.1.1
💡 LightGBM version: 4.6.0
🧠 TensorFlow version: 2.19.0
🔥 PyTorch version: 2.6.0


In [2]:
# ============================================================================
# CHARGEMENT DES DONNÉES
# ============================================================================

print("📂 Chargement des fichiers...")

# Charger les données de trafic principales
df_model = pd.read_csv('dataset_brut/champs_elysees.csv', sep=';')
print(f"✅ Données de trafic chargées: {df_model.shape}")

# Afficher les premières lignes
print("\n📋 Aperçu des données:")
print(df_model.head())

print("\n📊 Info sur les colonnes:")
print(df_model.info())

📂 Chargement des fichiers...
✅ Données de trafic chargées: (9266, 15)

📋 Aperçu des données:
   Identifiant arc            Libelle  Date et heure de comptage  \
0             4264  AV_Champs_Elysees  2024-12-09T05:00:00+01:00   
1             4264  AV_Champs_Elysees  2024-12-09T06:00:00+01:00   
2             4264  AV_Champs_Elysees  2024-12-09T09:00:00+01:00   
3             4264  AV_Champs_Elysees  2025-09-02T09:00:00+02:00   
4             4264  AV_Champs_Elysees  2024-09-04T20:00:00+02:00   

   Débit horaire  Taux d'occupation Etat trafic  Identifiant noeud amont  \
0          199.0            2.20945      Fluide                     2294   
1          235.0            2.28778      Fluide                     2294   
2         1041.0           11.63222      Fluide                     2294   
3         1139.0           28.39222  Pré-saturé                     2294   
4          686.0           13.21611      Fluide                     2294   

            Libelle noeud amont  Identifi

In [3]:
# ============================================================================
# RENOMMAGE DES COLONNES - Nettoyage et standardisation
# ============================================================================

print("🔧 Renommage des colonnes...")

# Fonction de nettoyage des noms de colonnes
def nettoyer_nom_colonne(nom):
    """Nettoie le nom de colonne: supprime espaces, accents, apostrophes"""
    import unicodedata
    # Supprimer les accents
    nom = unicodedata.normalize('NFD', nom)
    nom = nom.encode('ascii', 'ignore').decode('utf-8')
    # Remplacer espaces par underscore, supprimer apostrophes
    nom = nom.replace(' ', '_').replace("'", '').replace('-', '_')
    # Mettre en minuscules
    nom = nom.lower()
    return nom

# Afficher les colonnes AVANT renommage
print("\n📋 Colonnes AVANT renommage:")
for i, col in enumerate(df_model.columns[:10], 1):
    print(f"  {i}. {col}")
if len(df_model.columns) > 10:
    print(f"  ... ({len(df_model.columns)} colonnes au total)")

# Renommer toutes les colonnes
df_model.columns = [nettoyer_nom_colonne(col) for col in df_model.columns]

print("\n✅ Colonnes APRÈS renommage:")
for i, col in enumerate(df_model.columns[:15], 1):
    print(f"  {i}. {col}")
if len(df_model.columns) > 15:
    print(f"  ... ({len(df_model.columns)} colonnes au total)")

# Afficher les types de données
print(f"\n📊 Shape: {df_model.shape}")
print(f"📊 Types de données:")
print(df_model.dtypes)

🔧 Renommage des colonnes...

📋 Colonnes AVANT renommage:
  1. Identifiant arc
  2. Libelle
  3. Date et heure de comptage
  4. Débit horaire
  5. Taux d'occupation
  6. Etat trafic
  7. Identifiant noeud amont
  8. Libelle noeud amont
  9. Identifiant noeud aval
  10. Libelle noeud aval
  ... (15 colonnes au total)

✅ Colonnes APRÈS renommage:
  1. identifiant_arc
  2. libelle
  3. date_et_heure_de_comptage
  4. debit_horaire
  5. taux_doccupation
  6. etat_trafic
  7. identifiant_noeud_amont
  8. libelle_noeud_amont
  9. identifiant_noeud_aval
  10. libelle_noeud_aval
  11. etat_arc
  12. date_debut_dispo_data
  13. date_fin_dispo_data
  14. geo_point_2d
  15. geo_shape

📊 Shape: (9266, 15)
📊 Types de données:
identifiant_arc                int64
libelle                       object
date_et_heure_de_comptage     object
debit_horaire                float64
taux_doccupation             float64
etat_trafic                   object
identifiant_noeud_amont        int64
libelle_noeud_amont 

In [4]:
# ============================================================================
# SUPPRESSION DES COLONNES INUTILES & ANALYSE DES VALEURS MANQUANTES
# ============================================================================

print("🗑️  Suppression des colonnes inutiles...")

# Colonnes à supprimer (non pertinentes pour l'entraînement)
colonnes_a_supprimer = [
    'etat_trafic',              # Data leakage (corrélé avec la cible)
    'identifiant_noeud_amont',  # Identifiant technique
    'libelle_noeud_amont',      # Label technique
    'identifiant_noeud_aval',   # Identifiant technique
    'libelle_noeud_aval',       # Label technique
    'etat_arc',                 # Métadonnée technique
    'date_debut_dispo_data',    # Métadonnée
    'date_fin_dispo_data',      # Métadonnée
    'geo_point_2d',             # Géolocalisation
    'geo_shape',                # Géométrie
]

# Supprimer les colonnes
colonnes_supprimees = []
for col in colonnes_a_supprimer:
    if col in df_model.columns:
        df_model = df_model.drop(columns=[col])
        colonnes_supprimees.append(col)
        print(f"  ❌ {col}")

print(f"\n✅ {len(colonnes_supprimees)} colonnes supprimées")
print(f"📊 Shape après nettoyage: {df_model.shape}")

# Analyse des valeurs manquantes
print("\n" + "=" * 80)
print("VALEURS MANQUANTES PAR COLONNE")
print("=" * 80)
na_summary = pd.DataFrame({
    'colonne': df_model.columns,
    'nb_na': df_model.isna().sum().values,
    'pct_na': (df_model.isna().sum() / len(df_model) * 100).values
})
na_summary = na_summary[na_summary['nb_na'] > 0].sort_values('pct_na', ascending=False)

if len(na_summary) > 0:
    print(na_summary.to_string(index=False))
else:
    print("✅ Aucune valeur manquante!")

print(f"\n📋 Colonnes conservées ({len(df_model.columns)}):")
for col in df_model.columns:
    print(f"  ✓ {col}")

🗑️  Suppression des colonnes inutiles...
  ❌ etat_trafic
  ❌ identifiant_noeud_amont
  ❌ libelle_noeud_amont
  ❌ identifiant_noeud_aval
  ❌ libelle_noeud_aval
  ❌ etat_arc
  ❌ date_debut_dispo_data
  ❌ date_fin_dispo_data
  ❌ geo_point_2d
  ❌ geo_shape

✅ 10 colonnes supprimées
📊 Shape après nettoyage: (9266, 5)

VALEURS MANQUANTES PAR COLONNE
         colonne  nb_na   pct_na
taux_doccupation    622 6.712713
   debit_horaire    563 6.075977

📋 Colonnes conservées (5):
  ✓ identifiant_arc
  ✓ libelle
  ✓ date_et_heure_de_comptage
  ✓ debit_horaire
  ✓ taux_doccupation


In [5]:
# ============================================================================
# CONVERSION DATETIME & EXTRACTION DES FEATURES TEMPORELLES
# ============================================================================

print("📅 Conversion de la colonne date_et_heure_de_comptage...")

# Conversion en datetime (gestion du timezone)
df_model['date_et_heure_de_comptage'] = pd.to_datetime(df_model['date_et_heure_de_comptage'], utc=True, errors='coerce')

# Supprimer le timezone pour faciliter les manipulations
if df_model['date_et_heure_de_comptage'].dt.tz is not None:
    df_model['date_et_heure_de_comptage'] = df_model['date_et_heure_de_comptage'].dt.tz_localize(None)

# Supprimer les lignes avec des dates invalides
nb_avant = len(df_model)
df_model = df_model.dropna(subset=['date_et_heure_de_comptage'])
nb_apres = len(df_model)
if nb_avant > nb_apres:
    print(f"  ℹ️  {nb_avant - nb_apres} lignes supprimées (dates invalides)")

# Renommer en 'date_heure_comptage' pour simplifier
df_model = df_model.rename(columns={'date_et_heure_de_comptage': 'date_heure_comptage'})
print(f"  ✓ Colonne renommée: 'date_et_heure_de_comptage' → 'date_heure_comptage'")

# Extraction des features temporelles
print("\n🔧 Extraction des features temporelles...")
df_model['heure'] = df_model['date_heure_comptage'].dt.hour
df_model['jour_semaine'] = df_model['date_heure_comptage'].dt.dayofweek  # 0=Lundi, 6=Dimanche
df_model['jour_mois'] = df_model['date_heure_comptage'].dt.day
df_model['mois'] = df_model['date_heure_comptage'].dt.month
df_model['annee'] = df_model['date_heure_comptage'].dt.year
df_model['semaine_annee'] = df_model['date_heure_comptage'].dt.isocalendar().week
df_model['est_weekend'] = (df_model['jour_semaine'] >= 5).astype(int)  # Samedi=5, Dimanche=6

# Features cycliques (pour capturer la nature cyclique du temps)
df_model['heure_sin'] = np.sin(2 * np.pi * df_model['heure'] / 24)
df_model['heure_cos'] = np.cos(2 * np.pi * df_model['heure'] / 24)
df_model['jour_semaine_sin'] = np.sin(2 * np.pi * df_model['jour_semaine'] / 7)
df_model['jour_semaine_cos'] = np.cos(2 * np.pi * df_model['jour_semaine'] / 7)
df_model['mois_sin'] = np.sin(2 * np.pi * df_model['mois'] / 12)
df_model['mois_cos'] = np.cos(2 * np.pi * df_model['mois'] / 12)

print("✅ Features temporelles créées:")
features_temps = ['heure', 'jour_semaine', 'jour_mois', 'mois', 'annee', 'semaine_annee', 
                  'est_weekend', 'heure_sin', 'heure_cos', 'jour_semaine_sin', 
                  'jour_semaine_cos', 'mois_sin', 'mois_cos']
for f in features_temps:
    print(f"  ✓ {f}")

print(f"\n📊 Shape: {df_model.shape}")
print(f"📅 Période des données: {df_model['date_heure_comptage'].min()} → {df_model['date_heure_comptage'].max()}")

📅 Conversion de la colonne date_et_heure_de_comptage...
  ✓ Colonne renommée: 'date_et_heure_de_comptage' → 'date_heure_comptage'

🔧 Extraction des features temporelles...
✅ Features temporelles créées:
  ✓ heure
  ✓ jour_semaine
  ✓ jour_mois
  ✓ mois
  ✓ annee
  ✓ semaine_annee
  ✓ est_weekend
  ✓ heure_sin
  ✓ heure_cos
  ✓ jour_semaine_sin
  ✓ jour_semaine_cos
  ✓ mois_sin
  ✓ mois_cos

📊 Shape: (9266, 18)
📅 Période des données: 2024-09-01 03:00:00 → 2025-10-29 23:00:00


In [7]:
import sys
print(sys.executable)
print(sys.path)

/usr/local/bin/python3
['/Library/Frameworks/Python.framework/Versions/3.11/lib/python311.zip', '/Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11', '/Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/lib-dynload', '', '/Users/macbookair/Library/Python/3.11/lib/python/site-packages', '/Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages']


In [6]:
# ============================================================================
# JOINTURE AVEC DONNÉES EXTERNES (Vacances, Jours Fériés, Météo)
# ============================================================================

print("=" * 80)
print("INTÉGRATION DES DONNÉES EXTERNES")
print("=" * 80)

# -------------------------
# 1. VACANCES SCOLAIRES
# -------------------------
print("\n📚 Chargement des vacances scolaires...")
vacances_df = pd.read_csv('dataset_brut/fr-en-calendrier-scolaire.csv', sep=';')

# Convertir les dates
vacances_df['Date de début'] = pd.to_datetime(vacances_df['Date de début'], format='%Y-%m-%d', errors='coerce')
vacances_df['Date de fin'] = pd.to_datetime(vacances_df['Date de fin'], format='%Y-%m-%d', errors='coerce')

print(f"✅ {len(vacances_df)} périodes de vacances chargées")
print("\n📋 Aperçu des vacances:")
print(vacances_df[['Description', 'Date de début', 'Date de fin']].head())

# Fonction pour vérifier si une date est en vacances
def est_en_vacances(date):
    if pd.isna(date):
        return 0
    for _, row in vacances_df.iterrows():
        if row['Date de début'] <= date <= row['Date de fin']:
            return 1
    return 0

# Appliquer la fonction
print("\n🔄 Application de la détection des vacances...")
df_model['est_vacances'] = df_model['date_heure_comptage'].apply(est_en_vacances)
print(f"✅ Vacances détectées: {df_model['est_vacances'].sum()} observations ({df_model['est_vacances'].mean()*100:.1f}%)")

# -------------------------
# 2. JOURS FÉRIÉS
# -------------------------
print("\n🎉 Création de la liste des jours fériés 2024-2025...")

jours_feries = [
    '2024-01-01',  # Jour de l'an
    '2024-04-01',  # Lundi de Pâques
    '2024-05-01',  # Fête du travail
    '2024-05-08',  # Victoire 1945
    '2024-05-09',  # Ascension
    '2024-05-20',  # Lundi de Pentecôte
    '2024-07-14',  # Fête nationale
    '2024-08-15',  # Assomption
    '2024-11-01',  # Toussaint
    '2024-11-11',  # Armistice 1918
    '2024-12-25',  # Noël
    '2025-01-01',  # Jour de l'an
    '2025-04-21',  # Lundi de Pâques
    '2025-05-01',  # Fête du travail
    '2025-05-08',  # Victoire 1945
    '2025-05-29',  # Ascension
    '2025-06-09',  # Lundi de Pentecôte
    '2025-07-14',  # Fête nationale
    '2025-08-15',  # Assomption
    '2025-11-01',  # Toussaint
    '2025-11-11',  # Armistice 1918
    '2025-12-25',  # Noël
]

jours_feries = pd.to_datetime(jours_feries)
print(f"✅ {len(jours_feries)} jours fériés définis")

# Vérifier si la date est un jour férié
df_model['est_jour_ferie'] = df_model['date_heure_comptage'].dt.date.astype('datetime64[ns]').isin(jours_feries).astype(int)
print(f"✅ Jours fériés détectés: {df_model['est_jour_ferie'].sum()} observations ({df_model['est_jour_ferie'].mean()*100:.1f}%)")

# -------------------------
# 3. MÉTÉO
# -------------------------
print("\n🌤️  Chargement des données météo...")

try:
    meteo_df = pd.read_csv('dataset_brut/H_75_latest-2024-2025.csv', sep=';')
    
    # Convertir la date
    meteo_df['AAAAMMJJHH'] = pd.to_datetime(meteo_df['AAAAMMJJHH'], format='%Y%m%d%H', errors='coerce')
    
    # Sélectionner et renommer les colonnes pertinentes
    # Note: le fichier a "Prcipitation" au lieu de "Précipitation" (erreur d'encodage)
    colonnes_meteo = {
        'AAAAMMJJHH': 'date_heure',
        'T': 'temperature',
        'U': 'humidite',
        'Prcipitation en 1h': 'precipitation'
    }
    
    meteo_df = meteo_df[list(colonnes_meteo.keys())].rename(columns=colonnes_meteo)
    
    # Convertir en numérique
    meteo_df['temperature'] = pd.to_numeric(meteo_df['temperature'], errors='coerce')
    meteo_df['humidite'] = pd.to_numeric(meteo_df['humidite'], errors='coerce')
    meteo_df['precipitation'] = pd.to_numeric(meteo_df['precipitation'], errors='coerce')
    
    print(f"✅ Données météo chargées: {meteo_df.shape}")
    print(f"📅 Période météo: {meteo_df['date_heure'].min()} → {meteo_df['date_heure'].max()}")
    
    # Supprimer les doublons de date
    meteo_df = meteo_df.drop_duplicates(subset=['date_heure'], keep='first')
    
    # Jointure avec les données de trafic
    print("\n🔗 Jointure avec les données de trafic...")
    df_model = df_model.merge(
        meteo_df,
        left_on='date_heure_comptage',
        right_on='date_heure',
        how='left'
    )
    
    # Supprimer la colonne date_heure en double
    df_model = df_model.drop(columns=['date_heure'], errors='ignore')
    
    # Afficher les statistiques de couverture
    for col in ['temperature', 'humidite', 'precipitation']:
        pct_valeurs = df_model[col].notna().sum() / len(df_model) * 100
        print(f"  ✓ {col}: {pct_valeurs:.1f}% de couverture")
    
    print("\n✅ Jointure météo réussie!")
    
except Exception as e:
    print(f"⚠️  Erreur lors du chargement de la météo: {e}")
    print("  → Les features météo ne seront pas disponibles")

# -------------------------
# RÉSUMÉ FINAL
# -------------------------
print("\n" + "=" * 80)
print("RÉSUMÉ DES DONNÉES ENRICHIES")
print("=" * 80)
print(f"📊 Shape finale: {df_model.shape}")
print(f"📅 Période: {df_model['date_heure_comptage'].min()} → {df_model['date_heure_comptage'].max()}")
print(f"\n📋 Nouvelles features créées:")
print(f"  ✓ est_vacances")
print(f"  ✓ est_jour_ferie")
if 'temperature' in df_model.columns:
    print(f"  ✓ temperature")
    print(f"  ✓ humidite")
    print(f"  ✓ precipitation")

print(f"\n📊 Aperçu des données finales:")
print(df_model.head())

INTÉGRATION DES DONNÉES EXTERNES

📚 Chargement des vacances scolaires...
✅ 2306 périodes de vacances chargées

📋 Aperçu des vacances:
                Description Date de début Date de fin
0  Vacances de la Toussaint           NaT         NaT
1  Vacances de la Toussaint           NaT         NaT
2          Vacances de Noël           NaT         NaT
3          Vacances d'Hiver           NaT         NaT
4     Vacances de Printemps           NaT         NaT

🔄 Application de la détection des vacances...


KeyboardInterrupt: 

In [None]:
# ============================================================================
# VISUALISATION - DÉBIT HORAIRE ET TAUX D'OCCUPATION
# ============================================================================

print("📊 Création des visualisations...")

# Créer une copie pour la visualisation (sans valeurs manquantes)
df_viz = df_model.dropna(subset=['debit_horaire', 'taux_occupation']).copy()

# Trier par date
df_viz = df_viz.sort_values('date_heure_comptage')

print(f"✅ Données pour visualisation: {len(df_viz)} observations")
print(f"📅 Période: {df_viz['date_heure_comptage'].min()} → {df_viz['date_heure_comptage'].max()}")

# -------------------------
# GRAPHIQUE 1: Évolution temporelle
# -------------------------
fig, axes = plt.subplots(2, 1, figsize=(16, 10))

# Subplot 1: Débit horaire
axes[0].plot(df_viz['date_heure_comptage'], df_viz['debit_horaire'], 
            color='steelblue', linewidth=0.8, alpha=0.7)
axes[0].set_title('Évolution du Débit Horaire (véhicules/heure)', 
                 fontsize=14, fontweight='bold', pad=15)
axes[0].set_xlabel('Date', fontsize=11)
axes[0].set_ylabel('Débit horaire (véh/h)', fontsize=11)
axes[0].grid(True, alpha=0.3, linestyle='--')
axes[0].tick_params(axis='x', rotation=45)

# Statistiques sur le graphique
mean_debit = df_viz['debit_horaire'].mean()
axes[0].axhline(y=mean_debit, color='red', linestyle='--', linewidth=1.5, 
               label=f'Moyenne: {mean_debit:.0f} véh/h', alpha=0.7)
axes[0].legend(loc='upper right')

# Subplot 2: Taux d'occupation
axes[1].plot(df_viz['date_heure_comptage'], df_viz['taux_occupation'], 
            color='darkorange', linewidth=0.8, alpha=0.7)
axes[1].set_title('Évolution du Taux d\'Occupation (%)', 
                 fontsize=14, fontweight='bold', pad=15)
axes[1].set_xlabel('Date', fontsize=11)
axes[1].set_ylabel('Taux d\'occupation (%)', fontsize=11)
axes[1].grid(True, alpha=0.3, linestyle='--')
axes[1].tick_params(axis='x', rotation=45)

# Statistiques sur le graphique
mean_taux = df_viz['taux_occupation'].mean()
axes[1].axhline(y=mean_taux, color='red', linestyle='--', linewidth=1.5, 
               label=f'Moyenne: {mean_taux:.1f}%', alpha=0.7)
axes[1].legend(loc='upper right')

plt.tight_layout()
plt.show()

# -------------------------
# GRAPHIQUE 2: Patterns par heure de la journée
# -------------------------
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Débit horaire moyen par heure
debit_par_heure = df_viz.groupby('heure')['debit_horaire'].agg(['mean', 'std'])
axes[0].bar(debit_par_heure.index, debit_par_heure['mean'], 
           color='steelblue', alpha=0.7, edgecolor='black', linewidth=0.5)
axes[0].errorbar(debit_par_heure.index, debit_par_heure['mean'], 
                yerr=debit_par_heure['std'], fmt='none', 
                ecolor='black', capsize=3, alpha=0.5)
axes[0].set_title('Débit Horaire Moyen par Heure de la Journée', 
                 fontsize=13, fontweight='bold')
axes[0].set_xlabel('Heure de la journée', fontsize=11)
axes[0].set_ylabel('Débit horaire moyen (véh/h)', fontsize=11)
axes[0].grid(True, alpha=0.3, axis='y')
axes[0].set_xticks(range(24))

# Taux d'occupation moyen par heure
taux_par_heure = df_viz.groupby('heure')['taux_occupation'].agg(['mean', 'std'])
axes[1].bar(taux_par_heure.index, taux_par_heure['mean'], 
           color='darkorange', alpha=0.7, edgecolor='black', linewidth=0.5)
axes[1].errorbar(taux_par_heure.index, taux_par_heure['mean'], 
                yerr=taux_par_heure['std'], fmt='none', 
                ecolor='black', capsize=3, alpha=0.5)
axes[1].set_title('Taux d\'Occupation Moyen par Heure de la Journée', 
                 fontsize=13, fontweight='bold')
axes[1].set_xlabel('Heure de la journée', fontsize=11)
axes[1].set_ylabel('Taux d\'occupation moyen (%)', fontsize=11)
axes[1].grid(True, alpha=0.3, axis='y')
axes[1].set_xticks(range(24))

plt.tight_layout()
plt.show()

# -------------------------
# GRAPHIQUE 3: Comparaison Weekend vs Semaine
# -------------------------
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Débit horaire - Weekend vs Semaine
for weekend, label, color in [(0, 'Semaine', 'steelblue'), (1, 'Weekend', 'coral')]:
    data_subset = df_viz[df_viz['est_weekend'] == weekend]
    debit_heure = data_subset.groupby('heure')['debit_horaire'].mean()
    axes[0].plot(debit_heure.index, debit_heure.values, 
                marker='o', label=label, color=color, linewidth=2, markersize=6)

axes[0].set_title('Débit Horaire - Semaine vs Weekend', 
                 fontsize=13, fontweight='bold')
axes[0].set_xlabel('Heure de la journée', fontsize=11)
axes[0].set_ylabel('Débit horaire moyen (véh/h)', fontsize=11)
axes[0].legend(fontsize=11)
axes[0].grid(True, alpha=0.3)
axes[0].set_xticks(range(24))

# Taux d'occupation - Weekend vs Semaine
for weekend, label, color in [(0, 'Semaine', 'steelblue'), (1, 'Weekend', 'coral')]:
    data_subset = df_viz[df_viz['est_weekend'] == weekend]
    taux_heure = data_subset.groupby('heure')['taux_occupation'].mean()
    axes[1].plot(taux_heure.index, taux_heure.values, 
                marker='o', label=label, color=color, linewidth=2, markersize=6)

axes[1].set_title('Taux d\'Occupation - Semaine vs Weekend', 
                 fontsize=13, fontweight='bold')
axes[1].set_xlabel('Heure de la journée', fontsize=11)
axes[1].set_ylabel('Taux d\'occupation moyen (%)', fontsize=11)
axes[1].legend(fontsize=11)
axes[1].grid(True, alpha=0.3)
axes[1].set_xticks(range(24))

plt.tight_layout()
plt.show()

# -------------------------
# STATISTIQUES DESCRIPTIVES
# -------------------------
print("\n" + "=" * 80)
print("STATISTIQUES DESCRIPTIVES")
print("=" * 80)

print("\n📊 DÉBIT HORAIRE:")
print(df_viz['debit_horaire'].describe())

print("\n📊 TAUX D'OCCUPATION:")
print(df_viz['taux_occupation'].describe())

print("\n📊 CORRÉLATION DÉBIT HORAIRE <-> TAUX D'OCCUPATION:")
correlation = df_viz['debit_horaire'].corr(df_viz['taux_occupation'])
print(f"Coefficient de corrélation de Pearson: {correlation:.4f}")

# Heatmap de corrélation
fig, ax = plt.subplots(1, 1, figsize=(8, 6))
correlation_matrix = df_viz[['debit_horaire', 'taux_occupation']].corr()
sns.heatmap(correlation_matrix, annot=True, fmt='.3f', cmap='coolwarm', 
           center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8}, ax=ax)
ax.set_title('Corrélation entre Débit Horaire et Taux d\'Occupation', 
            fontsize=13, fontweight='bold', pad=15)
plt.tight_layout()
plt.show()

print("\n✅ Visualisations terminées!")