# Prévisions de la demande de vélos en libre-service
##### Projet MLDL - Roland, Lina, Maéva

### Sommaire du Projet

1. [Explication du problème de machine learning](#1-problem)
2. [Présentation du jeu de données](#2-data-presentation)
3. [Exploration du jeu de données (EDA)](#3-eda)
4. [Data cleaning et imputation](#4-cleaning)
5. [Feature Engineering](#5-feature-engineering)
6. [Préparation des données pour les modèles ML/DL](#6-preprocessing)
7. [Sélection de différents modèles](#7-model-selection)
8. [Évaluation de la performance des modèles](#8-evaluation)
9. [Discussion autour de la performance](#9-discussion)
10. [Synthèse et conclusions](#10-conclusion)

<a id="0-libs"></a>
### 0. Import des librairies nécéssaires

In [135]:
import sys
import pandas as pd
import numpy as np
import math
from datetime import datetime

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Configuration du style des graphiques
%matplotlib inline
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)

# Preprocessing et Séparation
from sklearn.model_selection import train_test_split, TimeSeriesSplit, GridSearchCV
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
from statsmodels.tsa.stattools import adfuller
from sklearn.preprocessing import PowerTransformer
# Métriques d'évaluation
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Modèles classiques
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from statsmodels.tsa.seasonal import DecomposeResult, seasonal_decompose
import xgboost as xgb
import tensorflow as tf
#from tensorflow.keras.models import Sequential
#from tensorflow.keras.layers import Dense, LSTM, GRU, Dropout
#from tensorflow.keras.callbacks import EarlyStopping

import warnings
import joblib  # Pour sauvegarder les modèles en .pkl
import os
import sys
warnings.filterwarnings('ignore')

sys.path.append(os.path.abspath('..'))
from src.utils import plot_seasonal_decompose

<a id="1-problem"></a>
### 1. Explication du problème de machine learning

Les systèmes de vélos en libre-service, déployés aujourd'hui dans plus de 500 villes, agissent comme de véritables capteurs virtuels de la mobilité urbaine grâce à l'enregistrement précis des trajets.

C'est dans ce contexte que nous avons choisi d'analyser le **Bike Sharing Dataset**, issu du *UCI Machine Learning Repository*. Ce jeu de données regroupe l'historique des locations de vélos à Washington D.C., enrichi de **données contextuelles exogènes** essentielles telles que les conditions météorologiques (température, humidité) et les informations calendaires (jours fériés, vacances).

Dans ce projet, nous abordons une problématique de **régression supervisée sur série temporelle** visant à anticiper les flux de déplacements.

L'objectif principal est de prédire la demande horaire de vélos (variable cible `cnt`) à un horizon de **7 jours (1 semaine)**. Pour y parvenir, nous mettrons en œuvre et comparerons des algorithmes de **Machine Learning** (ex: XGBoost) et de **Deep Learning** (ex: LSTM). Cette démarche nous permettra de démontrer l'apport prédictif spécifique des variables contextuelles sur la performance globale des modèles.

<a id="2-data-presentation"></a>
### 2. Présentation du jeu de données

Le **Bike Sharing Dataset**, produit par le LIAAD (Université de Porto), compile l'historique complet du système *Capital Bikeshare* à Washington D.C. sur la période 2011-2012. Ce jeu de données se concentre sur le fichier `hour.csv` qui contient **17 379 observations horaires**, reliant le volume total de locations (`cnt`) à des indicateurs temporels précis (heure, jour férié, saison). Chaque enregistrement est enrichi de **données météorologiques normalisées** (température, humidité, vitesse du vent) et de conditions climatiques catégorielles (`weathersit`). 

In [113]:
df = pd.read_csv('../data/raw/hour.csv')

In [None]:
print(df.shape)
display(df.head(5))
display(df.tail(5))

(17379, 17)


Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
17374,17375,2012-12-31,1,1,12,19,0,1,1,2,0.26,0.2576,0.6,0.1642,11,108,119
17375,17376,2012-12-31,1,1,12,20,0,1,1,2,0.26,0.2576,0.6,0.1642,8,81,89
17376,17377,2012-12-31,1,1,12,21,0,1,1,1,0.26,0.2576,0.6,0.1642,7,83,90
17377,17378,2012-12-31,1,1,12,22,0,1,1,1,0.26,0.2727,0.56,0.1343,13,48,61
17378,17379,2012-12-31,1,1,12,23,0,1,1,1,0.26,0.2727,0.65,0.1343,12,37,49


: 

In [None]:
# Quelles sont les variables, leurs types et leurs significations ?
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     17379 non-null  int64  
 1   dteday      17379 non-null  object 
 2   season      17379 non-null  int64  
 3   yr          17379 non-null  int64  
 4   mnth        17379 non-null  int64  
 5   hr          17379 non-null  int64  
 6   holiday     17379 non-null  int64  
 7   weekday     17379 non-null  int64  
 8   workingday  17379 non-null  int64  
 9   weathersit  17379 non-null  int64  
 10  temp        17379 non-null  float64
 11  atemp       17379 non-null  float64
 12  hum         17379 non-null  float64
 13  windspeed   17379 non-null  float64
 14  casual      17379 non-null  int64  
 15  registered  17379 non-null  int64  
 16  cnt         17379 non-null  int64  
dtypes: float64(4), int64(12), object(1)
memory usage: 2.3+ MB


: 

<img src="../img/2_presentation_data/dico_vars.png" width="600" align="center">

<a id="3-eda"></a>
### 3. Exploration du jeu de données

#### Visualisation sommaires

In [114]:
# Conversion de la colonne 'dteday' en format datetime
df['dteday'] = pd.to_datetime(df['dteday'])
# Création de la variable 'time' (Date + Heure)
df['time'] = df['dteday'] + pd.to_timedelta(df['hr'], unit='h')
df = df.set_index('time')  # 'time' comme l'index du DataFrame
# Exploitation du timestamp
df['day_name'] = df['dteday'].dt.day_name()   # Nom du jour 
df['month_name'] = df['dteday'].dt.month_name() 
df['year_name'] = df['dteday'].dt.year             
print(df.index)

DatetimeIndex(['2011-01-01 00:00:00', '2011-01-01 01:00:00',
               '2011-01-01 02:00:00', '2011-01-01 03:00:00',
               '2011-01-01 04:00:00', '2011-01-01 05:00:00',
               '2011-01-01 06:00:00', '2011-01-01 07:00:00',
               '2011-01-01 08:00:00', '2011-01-01 09:00:00',
               ...
               '2012-12-31 14:00:00', '2012-12-31 15:00:00',
               '2012-12-31 16:00:00', '2012-12-31 17:00:00',
               '2012-12-31 18:00:00', '2012-12-31 19:00:00',
               '2012-12-31 20:00:00', '2012-12-31 21:00:00',
               '2012-12-31 22:00:00', '2012-12-31 23:00:00'],
              dtype='datetime64[ns]', name='time', length=17379, freq=None)


In [None]:
# A quoi ressemble notre série temporelle target ?
df['Année_str'] = df.index.year.astype(str)

fig = px.line(df, 
              x=df.index, 
              y='cnt', 
              color='Année_str',  # Séparation des couleurs par année
              title='Évolution de la demande horaire de vélos (cnt)')
fig.update_traces(line_width=0.5)
fig.update_layout(legend_title_text='Année')

fig.show()

: 

: 

- La série temporelle principale montre sur l'ensemble de la période une tendance croissante. On a des pics saisonniers généralement pendant les périodes hors-hiver (pics de demande pendant les mois plus chauds et des creux pendant les mois plus froids). On va analyser la série plus en détail par la suite. 
- L'année 2012 semble avoir plus de volume de demande que l'année 2011.
- En regardant, sur une semaine et donc les jours, on voit des pics hauts généralement en matinée (entre 5h et 8h problablement pour aller au travail les jours ouvrés et entre 17h et 19h pour rentrer ). Le traffic est un peu moindre les week-ends.

In [None]:
# Les 2 années en comparaison directe sont différentes ?
df['day_of_year'] = df.index.dayofyear + (df.index.hour / 24.0) 
df['Année'] = df.index.year.astype(str)

# Calcul des totaux 
total_2011 = df[df['Année'] == '2011']['cnt'].sum()
total_2012 = df[df['Année'] == '2012']['cnt'].sum()
# Graphique avec les 2 années et les tendances
fig = px.scatter(df, 
                 x='day_of_year', 
                 y='cnt', 
                 color='Année',
                 title="Comparaison Horaire 2011 vs 2012 (Données brutes + Tendance horaire moyenne)",
                 trendline="lowess", 
                 trendline_options=dict(frac=0.1), 
                 opacity=0.15)

fig.update_traces(marker=dict(size=3))
fig.update_layout(
    xaxis_title="Jour de l'année", 
    yaxis_title="Nombre de locations (par heure)"
)
# Affichage des totaux sur le graphique
# Annotation pour 2011
fig.add_annotation(
    x=0.02, y=0.98, xref="paper", yref="paper", # Position relative (Haut Gauche)
    text=f"<b>Total 2011 :</b> {total_2011:,.0f}".replace(',', ' '), # Formatage 1 234 567
    showarrow=False
)
# Annotation pour 2012
fig.add_annotation(
    x=0.02, y=0.93, xref="paper", yref="paper", # Juste en dessous
    text=f"<b>Total 2012 :</b> {total_2012:,.0f}".replace(',', ' '),
    showarrow=False
)

fig.show()

: 

: 

In [None]:
# Qu'est ce qui différencie les 3 séries (cnt, registered, casual) ?
cols = ['cnt', 'registered', 'casual']
df_long = df[cols].reset_index().melt(id_vars='time', var_name='Série', value_name='Nombre')
couleurs = {
    "cnt": "#333333",        # Gris foncé / Noir pour le total
    "registered": "#CC00B1", # Vert pour les abonnés (stabilité)
    "casual": "#19C606"      # Rouge/Orange pour les occasionnels (volatilité)
}
# Création du subplot
fig = px.scatter(
    df_long, 
    x='time', 
    y='Nombre', 
    facet_row='Série',  
    color='Série', 
    color_discrete_map=couleurs,
    opacity=0.4,  
    title="Comparaison des volumes de location : Total vs Abonnés vs Occasionnels"
)
fig.update_traces(marker=dict(size=2)) # Taille des points 
fig.update_yaxes()  #  matches=None pour des échelles indépendantes

fig.show()

: 

: 

L'essentiel de la demande se fait par des utilisateurs enregistrés.

In [None]:
# Ya-t-il des différences significatives entre les mois des deux années ?
# Création d'une colonne combinée "Année-Mois" 
df['Year_Month'] = df.index.strftime('%Y-%m')
# Création du Boxplot
fig = px.box(df, 
             x='Year_Month', 
             y='cnt', 
             color='Année', # Colore les boîtes selon l'année pour bien distinguer les deux périodes
             title="Distribution mensuelle de la demande (Boxplots sur 24 mois)",
             labels={'Year_Month': 'Mois', 'cnt': 'Nombre de locations'})
fig.update_layout(
    xaxis_tickangle=-45, # Pivote les dates pour qu'elles ne se chevauchent pas
    showlegend=True
)
fig.show()

: 

: 

On constate des outliers sur certains mois en rapports avec des pics sur certains jours problablement.
A mois égaux, la demande mensuelle de 2012 est plus élévée que celle de 2011. 
Les mois "chauds et doux" sont ceux avec le plus de demande compraemment aux mois "froids".

In [None]:
# Qu'en est-il des jours de la semaine et des heures ?
day_map = {0: 'Dim', 1: 'Lun', 2: 'Mar', 3: 'Mer', 4: 'Jeu', 5: 'Ven', 6: 'Sam'}
df['weekday_name'] = df['weekday'].map(day_map)

# Création de la structure des Subplots (1 ligne, 2 colonnes)
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=("Total Demande par Jour (Semaine)", "Distribution par Heure"),
    horizontal_spacing=0.15
)

# Création des graphiques
# On crée 3 jeux de graphiques (Tout, 2011, 2012) que l'on cachera/affichera ensuite

# Toutes les données (Visible par défaut)
# Graphique Gauche : Histogramme (Somme des cnt par jour)
fig.add_trace(go.Histogram(x=df['weekday_name'], y=df['cnt'], histfunc='sum', 
                           name='Total (Tout)', marker_color="#000000"), row=1, col=1)
# Graphique Droite : Boxplot (Distribution par heure)
fig.add_trace(go.Box(x=df['hr'], y=df['cnt'], 
                     name='Dist. (Tout)', marker_color="#000000"), row=1, col=2)

# Année 2011 (Caché au début -> visible=False)
df_11 = df[df['yr'] == 0]
fig.add_trace(go.Histogram(x=df_11['weekday_name'], y=df_11['cnt'], histfunc='sum', 
                           name='Total (2011)', marker_color="#0829E4", visible=False), row=1, col=1)
fig.add_trace(go.Box(x=df_11['hr'], y=df_11['cnt'], 
                     name='Dist. (2011)', marker_color="#0829E4", visible=False), row=1, col=2)

# Année 2012 (Caché au début -> visible=False)
df_12 = df[df['yr'] == 1]
fig.add_trace(go.Histogram(x=df_12['weekday_name'], y=df_12['cnt'], histfunc='sum', 
                           name='Total (2012)', marker_color="#ED5412", visible=False), row=1, col=1)
fig.add_trace(go.Box(x=df_12['hr'], y=df_12['cnt'], 
                     name='Dist. (2012)', marker_color="#ED5412", visible=False), row=1, col=2)

# Menu déroulant
fig.update_layout(
    updatemenus=[dict(
        active=0, # Le premier bouton est actif par défaut
        buttons=list([
            # Bouton 1 : Tout afficher
            dict(label="Les 2 années",
                 method="update",
                 # On rend visible les traces 0 et 1 (indices Python), et on cache les autres
                 args=[{"visible": [True, True, False, False, False, False]},
                       {"title": "Analyse Globale (2011-2012)"}]),
            
            # Bouton 2 : 2011
            dict(label="2011 Uniquement",
                 method="update",
                 # On rend visible les traces 2 et 3
                 args=[{"visible": [False, False, True, True, False, False]},
                       {"title": "Analyse Année 2011"}]),
            
            # Bouton 3 : 2012
            dict(label="2012 Uniquement",
                 method="update",
                 # On rend visible les traces 4 et 5
                 args=[{"visible": [False, False, False, False, True, True]},
                       {"title": "Analyse Année 2012"}]),
        ]),
        x=0.0, y=1.15, # Position du menu (en haut à gauche)
        showactive=True
    )],
    title="Analyse Globale (2011-2012)",
    showlegend=False # On enlève la légende car redondante avec les titres
)

# Ordre des jours (sinon c'est alphabétique)
order_days = ['Lun', 'Mar', 'Mer', 'Jeu', 'Ven', 'Sam', 'Dim']
fig.update_xaxes(categoryorder='array', categoryarray=order_days, row=1, col=1)

fig.show()

: 

: 

- Nos observations précédentes restent valables. On va maintenant observer la décomposition de la série principale, avant de passer aux analyses statistiques.

In [119]:
# On somme les locations horaires pour avoir un total par jour (car par heure c'est pas facile à visualiser)
df_daily = df['cnt'].resample('D').sum()

# Calcul et plot de la décomposition
# model='multiplicative' : Car l'amplitude des variations saisonnières semble augmenter
# period=7 : Car on regarde des données journalières et on cherche le pattern hebdomadaire
decomposition = seasonal_decompose(df_daily, model='multiplicative', period=28)
fig = plot_seasonal_decompose(decomposition, title="Décomposition de la demande (Données Journalières)")
fig.show()

A commenter s'il y a pattern hebdomadaire/mensuel/horaire ?

In [None]:
# Quelle forme prend la distribution de la demande horaire ?
# Création de l'histogramme pour la variable 'cnt'
fig = px.histogram(
    df, 
    x="cnt", 
    nbins=100,         
    title="Intensité de la distribution du nombre total de vélos (cnt)",
    labels={'cnt': 'Demande (Nombre de vélos)', 'count': 'Fréquence'},
    color_discrete_sequence=["#000000"], # Une belle couleur bleue
    opacity=0.7
)
# Amélioration de la mise en forme
fig.update_layout(
    xaxis_title="Demande (Nombre de vélos loués)",
    yaxis_title="Intensité (Fréquence d'apparition)",
    bargap=0.05
)

fig.show()

: 

: 

On a une  distribution à longue queue. Une transformation log pourrait recentrer les données 
et rendre la tâche de prévision plus facile...

#### Analyse univariée

On va regarder et se poser des questions sur les variables explicatives pour mieux les comprendre.

##### Variables quantitatives

In [None]:
# Comment diviser nos variables par leurs types ?
# Liste des variables quantitatives continues
quanti_cols = ['temp', 'atemp', 'hum', 'windspeed', 'casual', 'registered']

: 

In [None]:
# A quoi ressemblent les distributions des variables quantitatives ?
fig = make_subplots(
    rows=2, cols=3, 
    subplot_titles=quanti_cols,
    vertical_spacing=0.15
)
# Histogrammes
for i, col in enumerate(quanti_cols):
    row = i // 3 + 1
    col_idx = i % 3 + 1
    fig.add_trace(
        go.Histogram(x=df[col], name=col, nbinsx=30, marker_color="#000000"),
        row=row, col=col_idx
    )
# Mise à jour du design
fig.update_layout(
    height=700, 
    width=1000, 
    title_text="Distribution des variables numériques",
    showlegend=False,
    template="plotly_white"
)
fig.show()

: 

: 

In [None]:
df[quanti_cols].describe()

Unnamed: 0,temp,atemp,hum,windspeed,casual,registered
count,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0
mean,0.496987,0.475775,0.627229,0.190098,35.676218,153.786869
std,0.192556,0.17185,0.19293,0.12234,49.30503,151.357286
min,0.02,0.0,0.0,0.0,0.0,0.0
25%,0.34,0.3333,0.48,0.1045,4.0,34.0
50%,0.5,0.4848,0.63,0.194,17.0,115.0
75%,0.66,0.6212,0.78,0.2537,48.0,220.0
max,1.0,1.0,1.0,0.8507,367.0,886.0


: 

: 

- Les variables météorologiques sont normalisées entre 0 et 1. `windspeed` est right-skewed (peu de vents forts)
- Il faut faire attention aux variables `casual` et `registered` car ce sont des proxy de notre target. 

In [None]:
# Comment évoluent les variables météo au cours de la journée ?
# Calcul de la moyenne horaire pour les variables météo
weather_hourly = df.groupby('hr')[['temp', 'atemp', 'hum', 'windspeed']].mean().reset_index()

fig = go.Figure()
fig.add_trace(go.Scatter(x=weather_hourly['hr'], y=weather_hourly['temp'], name="Température", line=dict(color='red', width=3)))
fig.add_trace(go.Scatter(x=weather_hourly['hr'], y=weather_hourly['atemp'], name="Temp. Ressentie", line=dict(color='red', dash='dash')))
fig.add_trace(go.Scatter(x=weather_hourly['hr'], y=weather_hourly['hum'], name="Humidité", line=dict(color='brown')))
fig.add_trace(go.Scatter(x=weather_hourly['hr'], y=weather_hourly['windspeed'], name="Vent", line=dict(color='gray')))

fig.update_layout(
    title="Évolution moyenne des variables météo par heure (Normalisées)",
    xaxis=dict(title="Heure de la journée", tickmode='linear', tick0=0, dtick=1),
    yaxis=dict(title="Valeur normalisée (0 à 1)"),
    hovermode="x unified",
    template="plotly_white",
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1)
)
fig.show()

: 

: 

- On a des tendances cycliques horaires pour ces variables.
- Toutes ces variables semblent visuellement très correlées entre elles avec en particulier `temp` et `atemp`(logique).

In [None]:
# Qu'en est-il des utilisateurs enregistrés vs non-enregistrés ?
hour_detailed = df.groupby('hr').agg({'casual': 'mean', 'registered': 'mean'})

fig_user_type = go.Figure()
fig_user_type.add_trace(go.Scatter(x=hour_detailed.index, y=hour_detailed['registered'],
                                  mode='lines+markers', name='Enregistrés',
                                  line=dict(color="#CC00B1", width=3),
                                  marker=dict(size=8)))
fig_user_type.add_trace(go.Scatter(x=hour_detailed.index, y=hour_detailed['casual'],
                                  mode='lines+markers', name='Non-enregistrés',
                                  line=dict(color="#19C606", width=3),
                                  marker=dict(size=8)))
fig_user_type.update_layout(
    title="Pattern Horaire: Utilisateurs Enregistrés vs Non-enregistrés",
    xaxis_title="Heure du jour",
    yaxis_title="Nombre moyen d'utilisateurs",
    hovermode='x unified',
    height=400
)
fig_user_type.show()

: 

: 


- Les utilisateurs enregistrés dominent les heures de pointe (navette domicile-travail)")
- Les non-enregistrés utilisent les vélos davantage les après-midi et week-ends")

##### Variables qualitatives

In [None]:
# Conversion des labels de weathersit en descriptifs
df['weathersit_str']= df['weathersit'].map({1: 'Clair', 2: 'Nuageux', 3: 'Pluie', 4: 'Tempête'})
# Liste des variables qualitatives nominales / cycliques / ordinales
quali_cols = ['workingday','holiday','season', 'hr','day_name', 'month_name', 'year_name', 'weathersit_str']

: 

: 

In [None]:
# A quoi ressemblent les distributions des variables catégorielles ?
fig = make_subplots(
    rows=3, cols=3, 
    subplot_titles=quali_cols,
    vertical_spacing=0.1,
    horizontal_spacing=0.08
)
for i, col in enumerate(quali_cols):
    row = i // 3 + 1
    col_idx = i % 3 + 1
    counts = df[col].value_counts().sort_index()
    
    fig.add_trace(
        go.Bar(x=counts.index, y=counts.values, name=col, marker_color="#000000"),
        row=row, col=col_idx
    )
fig.update_layout(
    height=900, 
    width=1000, 
    title_text="Fréquence d'apparition des catégories (Nombre d'heures)",
    showlegend=False,
    template="plotly_white"
)
fig.show()

: 

: 

In [None]:
#### A commenter

: 

: 

#### Analyse multivariée

In [None]:
# Quelles sont les relations monotones entre les variables ?
cols_to_corr = quanti_cols + ['season', 'yr', 'mnth', 'hr', 'holiday', 'workingday', 'weathersit','cnt']
#Calcul de la matrice de Spearman
corr_spearman = df[cols_to_corr].corr(method='spearman')

fig = go.Figure(data=go.Heatmap(
    z=corr_spearman.values,
    x=corr_spearman.columns,
    y=corr_spearman.index,
    colorscale='RdBu',    
    zmin=-1, zmax=1,        
    text=corr_spearman.values.round(2), 
    texttemplate="%{text}",
    showscale=True
))
fig.update_layout(
    title='Matrice de Corrélation de Spearman (Relations Monotones)',
    height=700,
    width=800,
    template="plotly_white",
    xaxis_tickangle=-45
)
fig.show()

: 

- Les variables météo (sauf `windspeed`) sont fortement corrélées à la demande `cnt` et correlées entre elles; L'humidité affecte négativement la demande".
- Les variables périodiques régulières `season`, `year`, `month` et surtout `hr` influencent la target. Elles sont à considérer !
- `registered` et `casual` sont des sous-composantes de cnt (corrélation parfaite attendue est donc bien observée)"
- Les variables périodiques occasionnelles (sauf `workingday`) comme `season`, `year`, `month` et surtout `hr` influencent la target. Elles sont à considérer !

In [None]:
df['is_weekend'] = df['weekday'].isin([5, 6]).astype(int)

weekday_pattern = df[df['is_weekend'] == 0].groupby('hr')['cnt'].mean()
weekend_pattern = df[df['is_weekend'] == 1].groupby('hr')['cnt'].mean()

fig = go.Figure()

fig.add_trace(go.Scatter(
    x=weekday_pattern.index, y=weekday_pattern.values,
    name='Semaine', line=dict(color="#000000", width=3)
))

fig.add_trace(go.Scatter(
    x=weekend_pattern.index, y=weekend_pattern.values,
    name='Week-end', line=dict(color='#ff7f0e', width=3, dash='dash')
))

fig.update_layout(
    title='Semaine vs Week-end',
    xaxis_title='Heure',
    yaxis_title='Locations moyennes',
    height=500, hovermode='x unified'
)
fig

: 

: 

In [None]:
# A commenter

: 

: 

In [None]:
# Heatmap Interaction: Température × Humidité
df['temp_bin'] = pd.cut(df['temp'], bins=5, labels=['Très froid', 'Froid', 'Tempéré', 'Chaud', 'Très chaud'])
df['hum_bin'] = pd.cut(df['hum'], bins=3, labels=['Basse', 'Moyenne', 'Haute'])

pivot_temp_hum = df.pivot_table(values='cnt', index='hum_bin', columns='temp_bin', aggfunc='mean')

fig_interaction = go.Figure(data=go.Heatmap(
    z=pivot_temp_hum.values,
    x=pivot_temp_hum.columns,
    y=pivot_temp_hum.index,
    colorscale='Viridis',
    text=np.round(pivot_temp_hum.values, 0),
    texttemplate='%{text}',
    textfont={"size": 11}
))
fig_interaction.update_layout(
    title="Interaction Température × Humidité → Demande",
    xaxis_title="Catégorie de Température",
    yaxis_title="Catégorie d'Humidité",
    height=400
)
fig_interaction.show()

print("\n→ La meilleure demande: température modérée-élevée + humidité basse")
print("→ La pire demande: haute humidité + très froid")


→ La meilleure demande: température modérée-élevée + humidité basse
→ La pire demande: haute humidité + très froid


: 

: 

In [None]:
# Récapitulatif des insights clés

insights = """
1. SAISONNALITÉ FORTE:
   • Pattern hebdomadaire très marqué (+30% semaine vs week-end)
   • Pattern horaire distinct (pics matin/soir)
   • Pattern saisonnier clair (min hiver, max été)

2. FACTEURS MÉTÉOROLOGIQUES MAJEURS:
   • Température: relation non-linéaire (optimum ~25°C)
   • Humidité: impact négatif significatif (r = -0.3)
   • Type de temps: impact fort (dégagé > pluie)

3. SEGMENTS D'UTILISATEURS:
   • Utilisateurs enregistrés (70%): trajets réguliers aux heures de pointe
   • Utilisateurs occasionnels (30%): plus dispersés temporellement

4. DISTRIBUTION NON-NORMALE:
   • Asymétrie positive (queue de droite)
   • Présence d'outliers liés aux pics temporels

5. DONNÉES MANQUANTES:
   • Aucun outlier "pathologique" à traiter
   • Volatilité variable selon la saison
   
→ Recommandations pour la modélisation:
  - Intégrer explicitement les variables saisonnières
  - Utiliser des modèles capables de capturer les interactions
  - Appliquer une normalisation robuste (présence d'outliers)
"""

print(insights)


1. SAISONNALITÉ FORTE:
   • Pattern hebdomadaire très marqué (+30% semaine vs week-end)
   • Pattern horaire distinct (pics matin/soir)
   • Pattern saisonnier clair (min hiver, max été)

2. FACTEURS MÉTÉOROLOGIQUES MAJEURS:
   • Température: relation non-linéaire (optimum ~25°C)
   • Humidité: impact négatif significatif (r = -0.3)
   • Type de temps: impact fort (dégagé > pluie)

3. SEGMENTS D'UTILISATEURS:
   • Utilisateurs enregistrés (70%): trajets réguliers aux heures de pointe
   • Utilisateurs occasionnels (30%): plus dispersés temporellement

4. DISTRIBUTION NON-NORMALE:
   • Asymétrie positive (queue de droite)
   • Présence d'outliers liés aux pics temporels

5. DONNÉES MANQUANTES:
   • Aucun outlier "pathologique" à traiter
   • Volatilité variable selon la saison

→ Recommandations pour la modélisation:
  - Intégrer explicitement les variables saisonnières
  - Utiliser des modèles capables de capturer les interactions
  - Appliquer une normalisation robuste (présence d'ou

: 

<a id="4-cleaning"></a>
### 4. Data cleaning et imputation de données manquantes

Notre données sont déjà propres et complètes.
On va donc juste se contenter de selectionner les "bonnes" variables du dataset (exclure les variables intermédiaires utilisées pour les visualisations)

In [115]:
df.columns

Index(['instant', 'dteday', 'season', 'yr', 'mnth', 'hr', 'holiday', 'weekday',
       'workingday', 'weathersit', 'temp', 'atemp', 'hum', 'windspeed',
       'casual', 'registered', 'cnt', 'day_name', 'month_name', 'year_name'],
      dtype='object')

In [None]:
df = df[['cnt', 'registered', 'casual', 'yr', 'mnth', 'hr', 
         'holiday', 'weekday', 'workingday', 'season', 'holiday',  'weathersit',
         'temp', 'atemp', 'hum', 'windspeed']].copy()
df.shape

(17379, 16)

In [133]:
# A commmenter

<a id="5-feature-engineering"></a>
### 5. Feature Engineering

L'EDA nous a apporté des éclairages précieux sur les variables
utiles statistiquement et d’un point de vue métier.
On va donc s'intéresser à la selection de variables et feature engineering.

#### Target engineering

Notre target est elle exploitable directement en l'état ? 

In [139]:
# Calcul d'une moyenne mobile longue (7 jours = 168 heures) pour voir la tendance
df['cnt_moving_avg'] = df['cnt'].rolling(window=168).mean()

fig = make_subplots(rows=2, cols=1, 
                    subplot_titles=("Évolution temporelle et Moyenne Mobile", 
                                    "Comparaison des niveaux : 2011 vs 2012"),
                    vertical_spacing=0.15)
# Graphique 1 : Série brute + Moyenne mobile
fig.add_trace(go.Scatter(x=df.index, y=df['cnt'], name="Demande Horaire",
                         line=dict(color='lightgrey', width=1), opacity=0.5), row=1, col=1)
fig.add_trace(go.Scatter(x=df.index, y=df['cnt_moving_avg'], name="Moyenne Mobile (7j)",
                         line=dict(color='black', width=2)), row=1, col=1)
# Graphique 2 : Boxplot par année (yr : 0=2011, 1=2012)
fig.add_trace(go.Box(y=df[df['yr']==0]['cnt'], name="2011", marker_color='blue'), row=2, col=1)
fig.add_trace(go.Box(y=df[df['yr']==1]['cnt'], name="2012", marker_color='orange'), row=2, col=1)

fig.update_layout(height=800, title_text="Diagnostic du DGP pour le test de Dickey-Fuller", showlegend=False)
fig.show()
df.drop(columns=['cnt_moving_avg'], inplace=True)

Le test ADF vérifie si le coefficient $\gamma$ est significativement différent de zéro. 
$$\Delta y_t = \alpha + \beta t + \gamma y_{t-1} + \sum_{i=1}^{p} \delta_i \Delta y_{t-i} + \epsilon_t$$

Hypothèse Nulle ($H_0$) :$$\gamma = 0$$La série possède une racine unitaire : elle est non-stationnaire.
Hypothèse Alternative ($H_1$) :$$\gamma < 0$$La série ne possède pas de racine unitaire : elle est stationnaire.

In [130]:
# Les types de DGP à tester
# 'n' : sans constante ni tendance
# 'c' : constante uniquement (par défaut)
# 'ct': constante + tendance linéaire
dgp_types = ['n', 'c', 'ct','ctt']

print(f"{'DGP Type':<10} | {'ADF Stat':<10} | {'1%':<10} | {'5%':<10} | {'10%':<10} | {'Stationnaire?'}")
print("-" * 80)
for dgp in dgp_types:
    result = adfuller(df['cnt'], regression=dgp)
    
    adf_stat = result[0]
    p_value = result[1]
    crit_1 = result[4]['1%']
    crit_5 = result[4]['5%']
    crit_10 = result[4]['10%']
    # Conclusion à 5%
    is_stationary = "OUI" if p_value <= 0.05 else "NON"

    print(f"{dgp:<10} | {adf_stat:<10.4f} | {crit_1:<10.4f} | {crit_5:<10.4f} | {crit_10:<10.4f} | {is_stationary}")

DGP Type   | ADF Stat   | 1%         | 5%         | 10%        | Stationnaire?
--------------------------------------------------------------------------------
n          | -2.4521    | -2.5659    | -1.9410    | -1.6168    | OUI
c          | -6.8229    | -3.4307    | -2.8617    | -2.5669    | OUI
ct         | -8.7642    | -3.9593    | -3.4107    | -3.1272    | OUI
ctt        | -9.0255    | -4.3718    | -3.8327    | -3.5535    | OUI


Notre série est stationnaire eest un DGP(3) ( Marche aléatoire avec constante et dérive). Par conséquent, aucune transformation de différenciation n'est requise avant la phase de modélisation, et nous pouvons exploiter les variables exogènes sur les niveaux bruts.
Cependant, l'EDA a revelé la présence d'outliers (pics de demande excpetionnels). On va appliquer une transformation de Yeo-Johnson sur notre série. Elle est définie par :
$$\psi(x, \lambda) = 
\begin{cases} 
\frac{(x+1)^\lambda - 1}{\lambda} & \text{si } x \geq 0, \lambda \neq 0 \\
\ln(x+1) & \text{si } x \geq 0, \lambda = 0 \\
-\frac{(-x+1)^{2-\lambda} - 1}{2-\lambda} & \text{si } x < 0, \lambda \neq 2 \\
-\ln(-x+1) & \text{si } x < 0, \lambda = 2 
\end{cases}$$

Pourquoi faire ça ? :
- Compression de la queue : La distribution est étirée right-skewed, Yeo-Johnson avec un $\lambda < 1$ va "écraser" les valeurs les plus hautes. De plus, elle permet de gérer les valeurs nulles (contrairement à Box-Cox).
- Réduction de l'influence : Cela empêche les modèles (surtout de Deep Learning) d'être trop déstabilisés par ces valeurs extrêmes.
- Yeo-Johnson vs Stationnarité : Appliquer Yeo-Johnson ne cassera pas la stationnarité et va stabiliser la variance (homoscédasticité). C'est-à-dire que l'amplitude des fluctuations sera plus constante sur toute l'année.
- Yeo-Johnson vs Gaussianité : Elle rendra les résidus plus "propres" (Gaussiens) après l'entraînement.



In [137]:
# Application de la transformation
pt = PowerTransformer(method='yeo-johnson')
cnt_transformed = pt.fit_transform(df[['cnt']]).flatten()
# Visualisation des effets de la transformation
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=(
        "Distribution Originale (Asymétrique)", "Distribution Transformée (Gausienne)",
        "Série Temporelle Originale", "Série Temporelle Transformée"
    ),
    vertical_spacing=0.12
)

# --- Histogrammes ---
fig.add_trace(go.Histogram(x=df['cnt'], name="Original", marker_color="#757575"), row=1, col=1)
fig.add_trace(go.Histogram(x=cnt_transformed, name="Transformé", marker_color="#000000"), row=1, col=2)
# --- Séries Temporelles ---
fig.add_trace(go.Scatter(y=df['cnt'], mode='lines', name="Original", line=dict(color="#757575")), row=2, col=1)
fig.add_trace(go.Scatter(y=cnt_transformed, mode='lines', name="Transformé", line=dict(color="#000000")), row=2, col=2)

fig.update_layout(
    height=800, 
    title_text=f"Impact de Yeo-Johnson (Lambda estimé : {pt.lambdas_[0]:.3f})",
    showlegend=False,
    template="plotly_white"
)
fig.show()

#### Explicative features engeneering

In [140]:
df.head()

Unnamed: 0_level_0,cnt,registered,casual,yr,mnth,hr,holiday,weekday,workingday,season,holiday,weathersit,temp,atemp,hum,windspeed
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2011-01-01 00:00:00,16,13,3,0,1,0,0,6,0,1,0,1,0.24,0.2879,0.81,0.0
2011-01-01 01:00:00,40,32,8,0,1,1,0,6,0,1,0,1,0.22,0.2727,0.8,0.0
2011-01-01 02:00:00,32,27,5,0,1,2,0,6,0,1,0,1,0.22,0.2727,0.8,0.0
2011-01-01 03:00:00,13,10,3,0,1,3,0,6,0,1,0,1,0.24,0.2879,0.75,0.0
2011-01-01 04:00:00,1,1,0,0,1,4,0,6,0,1,0,1,0.24,0.2879,0.75,0.0


<a id="6-preprocessing"></a>
### 6. Préparation des données pour être fournies à un modèle ML/DL
> *Normalisation, Split Train/Test/Val, formatage des séquences.*

<a id="7-model-selection"></a>
### 7. Sélection de différents modèles
> *Critères de sélection, métriques choisies (RMSE, MAE...), baselines.*

<a id="8-evaluation"></a>
### 8. Évaluation de la performance des modèles
> *Recherche d'hyperparamètres, contrôle de l’overfitting, comparaison sur différents horizons.*

<a id="9-discussion"></a>
### 9. Discussion autour de la performance des modèles
> *Analyse critique des résultats.*

<a id="10-conclusion"></a>
### 10. Synthèse et conclusions
> *Résumé et pistes d’améliorations envisagées.*