# Analyse des données Vélib'

Ce notebook contient l'analyse exploratoire des données Vélib' pour développer le modèle de prédiction LSTM.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import sys
sys.path.append('../')

from src.utils.data_loader import data_loader
from src.utils.preprocessing import preprocess_velib_data, create_lstm_sequences

## 1. Chargement des données

In [None]:
# Charger les stations Vélib'
stations_df = await data_loader.load_velib_stations()
print(f"Nombre de stations: {len(stations_df)}")
stations_df.head()

In [None]:
# Charger l'historique de disponibilité
history_df = await data_loader.load_velib_availability_history(days_back=30)
print(f"Nombre d'enregistrements: {len(history_df)}")
history_df.head()

## 2. Analyse exploratoire

In [None]:
# Distribution des vélos disponibles
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.hist(history_df['numbikesavailable'], bins=50, alpha=0.7)
plt.title('Distribution des vélos disponibles')
plt.xlabel('Nombre de vélos')
plt.ylabel('Fréquence')

plt.subplot(1, 2, 2)
plt.hist(history_df['numdocksavailable'], bins=50, alpha=0.7, color='orange')
plt.title('Distribution des places disponibles')
plt.xlabel('Nombre de places')
plt.ylabel('Fréquence')

plt.tight_layout()
plt.show()

## 3. Patterns temporels

In [None]:
# Analyse par heure de la journée
history_df['hour'] = history_df['timestamp'].dt.hour
hourly_stats = history_df.groupby('hour')['numbikesavailable'].mean()

plt.figure(figsize=(10, 6))
hourly_stats.plot(kind='line', marker='o')
plt.title('Disponibilité moyenne par heure')
plt.xlabel('Heure de la journée')
plt.ylabel('Vélos disponibles (moyenne)')
plt.grid(True)
plt.show()

## 4. Préprocessing des données

In [None]:
# Préprocessing pour le modèle LSTM
X, y = preprocess_velib_data(history_df)
print(f"Shape des features: {X.shape}")
print(f"Shape des targets: {y.shape}")

# Création des séquences LSTM
X_seq, y_seq = create_lstm_sequences(X, y, sequence_length=24)
print(f"Shape des séquences: {X_seq.shape}")
print(f"Shape des targets séquences: {y_seq.shape}")