# Prédiction de l’achalandage des stations Bixi

Ce projet vise à prédire le taux d’entrées et de sorties par tranche horaire dans les stations Bixi à l’aide de plusieurs modèles :

- **STGNN (Spatio-Temporal Graph Neural Network)** : réseau neuronal à graphes spatio-temporels, stations comme nœuds, arêtes basées sur la distance ou le temps de déplacement.
- **LSTM (Long Short-Term Memory)** : réseau neuronal récurrent adapté aux séries temporelles.
- **Modèle statistique** : régression ou analyse classique pour servir de baseline.

Nous comparerons la performance de ces modèles sur les données d’achalandage.

---

## 1. Importation des librairies et des données

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# import seaborn as sns
# Pour apprentissage
#import torch
#import torch.nn as nn
#from torch.utils.data import DataLoader, Dataset
# Pour LSTM
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
# Pour le modèle statistique
# import statsmodels.api as sm
# Pour le graphe
# import networkx as nx

## 2. Exploration et préparation des données

- Nettoyage et visualisation

- Construction du graphe des stations

In [3]:
df = pd.read_csv("data/merged2018_reduced_dataset.csv", parse_dates=['start_date', 'end_date'])
df['start_date'] = pd.to_datetime(df['start_date'])
# print(df.get(0))
df_grouped = df.groupby([ pd.Grouper(key="start_date", freq="15min"),
                 pd.Grouper('start_station_code')
                 ]).count()

print(df_grouped.sort_values(by=['end_date'], ascending=False))

                                        end_date  end_station_code  \
start_date          start_station_code                               
2018-08-23 21:00:00 6184                      14                14   
2018-09-04 17:00:00 6184                      12                12   
2018-08-03 11:00:00 6131                      12                12   
2018-07-19 23:15:00 6155                      12                12   
2018-06-27 17:30:00 6184                      11                11   
...                                          ...               ...   
2018-11-15 23:45:00 6155                       1                 1   
                    6158                       1                 1   
                    6164                       1                 1   
                    6169                       1                 1   
2018-04-10 12:30:00 6237                       1                 1   

                                        duration_sec  
start_date          start_station_

## 3. Modélisation

### 3.1 Modèle statistique (baseline) 

In [4]:
df = pd.read_csv("data/merged2018_reduced_dataset.csv") 
df['start_date'] = pd.to_datetime(df['start_date'])
df['end_date'] = pd.to_datetime(df['end_date'])
df['slot_15'] = df['end_date'].dt.floor('15T') # Tronquer à l'intervalle de 15 minutes le plus proche

# Calcul des arrivées par station et par intervalle de 15 minutes
arrivals = (
    df
    .groupby(['end_station_code', 'slot_15'])
    .size()
    .reset_index(name='arrivals')
)

# Calcul de la moyenne historique des arrivées par station, jour de la semaine, heure et minute
arrivals['dow'] = arrivals['slot_15'].dt.dayofweek   # 0=lundi
arrivals['hour'] = arrivals['slot_15'].dt.hour     # 0-23
arrivals['minute'] = arrivals['slot_15'].dt.minute   # 0,15,30,45

# Calcul de la moyenne historique des arrivées
historical_mean = (
    arrivals
    .groupby(['end_station_code', 'dow', 'hour', 'minute'])['arrivals']
    .mean()
    .reset_index()
    .rename(columns={'arrivals': 'mean_arrivals'})
)
# Fusion des données réelles avec les moyennes historiques
pred = arrivals.merge(
    historical_mean,
    on=['end_station_code', 'dow', 'hour', 'minute'],
    how='left'
)

from sklearn.metrics import mean_absolute_error, mean_squared_error
# Calcul des métriques MAE et RMSE
mae = mean_absolute_error(pred['arrivals'], pred['mean_arrivals'])
rmse = np.sqrt(mean_squared_error(pred['arrivals'], pred['mean_arrivals']))
print("MAE:", mae)
print("RMSE:", rmse)

  df['slot_15'] = df['end_date'].dt.floor('15T') # Tronquer à l'intervalle de 15 minutes le plus proche


MAE: 0.4473305597783349
RMSE: 0.6870355561229784


### 3.2 Modèle LSTM

In [None]:
# Modèle LSTM pour la prédiction des arrivées par station

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from sklearn.preprocessing import MinMaxScaler
import torch
import tensorflow as tf

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')



# Exemple : prédire pour une station donnée (ex : 6169)
station_id = 6169
df_station = arrivals[arrivals['end_station_code'] == station_id].sort_values('slot_15')

# Série temporelle des arrivées
series = df_station['arrivals'].values.reshape(-1, 1)

# Normalisation
scaler = MinMaxScaler()
series_scaled = scaler.fit_transform(series)

# Création des séquences pour LSTM
def create_sequences(data, seq_length):
    X, y = [], []
    for i in range(len(data) - seq_length):
        X.append(data[i:i+seq_length])
        y.append(data[i+seq_length])
    return np.array(X), np.array(y)

seq_length = 96  # 24h si 15min pas step
X, y = create_sequences(series_scaled, seq_length)

# Split train/test
split = int(0.8 * len(X))
X_train, X_test = X[:split], X[split:]
y_train, y_test = y[:split], y[split:]

# Modèle LSTM
model = Sequential([
    LSTM(32, input_shape=(seq_length, 1)),
    Dense(1)
])
model.compile(optimizer='adam', loss='mse')

# Entraînement
history = model.fit(X_train, y_train, epochs=20, batch_size=32, validation_data=(X_test, y_test), verbose=1)

# Prédiction et inverse transform
y_pred = model.predict(X_test)
y_pred_inv = scaler.inverse_transform(y_pred)
y_test_inv = scaler.inverse_transform(y_test)

# Évaluation
from sklearn.metrics import mean_absolute_error, mean_squared_error
mae = mean_absolute_error(y_test_inv, y_pred_inv)
rmse = np.sqrt(mean_squared_error(y_test_inv, y_pred_inv))
print('MAE LSTM:', mae)
print('RMSE LSTM:', rmse)

Num GPUs Available: 0
TensorFlow version: 2.20.0
Num GPUs Available: 0
cpu
Epoch 1/20


  super().__init__(**kwargs)


[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 18ms/step - loss: 0.0096 - val_loss: 0.0053
Epoch 2/20
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 18ms/step - loss: 0.0096 - val_loss: 0.0053
Epoch 2/20
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 16ms/step - loss: 0.0093 - val_loss: 0.0052
Epoch 3/20
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 16ms/step - loss: 0.0093 - val_loss: 0.0052
Epoch 3/20
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 16ms/step - loss: 0.0093 - val_loss: 0.0052
Epoch 4/20
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 16ms/step - loss: 0.0093 - val_loss: 0.0052
Epoch 4/20
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 16ms/step - loss: 0.0093 - val_loss: 0.0053
Epoch 5/20
[1m172/172[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 16ms/step - loss: 0.0093 - val_loss: 0.0053
Epoch 5/20
[1m172/172[0m [32m━━━━━━━━━━━

### 3.3 Modèle STGNN (Spatio-Temporal Graph Neural Network)

## 4. Comparaison des performances

- Métriques : RMSE, MAE, etc.
- Visualisation des résultats