In [None]:
import pandas as pd
import numpy as np
import smartcheck.dataframe_common as dfc
import smartcheck.dataframe_project_specific as dps

### Machine Learning

# transformation
from sklearn.preprocessing import MinMaxScaler, RobustScaler, StandardScaler, OneHotEncoder

# models
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans

# metrics and evaluation
from scipy.stats import probplot

### Data Viz

# graphical
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
%matplotlib inline
import seaborn as sns
import folium as folium
import squarify as sq

In [None]:
df_raw = dfc.load_dataset_from_config('velo_comptage_pcd_data', sep=',', index_col=0)

if df_raw is not None and isinstance(df_raw, pd.DataFrame):
    df = df_raw.copy()

In [None]:
# Il faudrait également lui préférer l'usage de nos routines partagées dans dataframe_project_specific (methode de gestion des colonnes dates), 
# enrichie des données numéro de semaine (les partie textuelle jour et mois également même si je ne pense pas qu'on doivent vraiment les avoir 
# d'un point de vue modelisation et probablement a dropper à ce moment là) voici la fonction specifique pour notre projet :
df = dps.extract_datetime_features(df, timestamp_col='date_et_heure_de_comptage')

# # Extraire les composantes temporelles textuelles

# df['date_et_heure_de_comptage'] = pd.to_datetime(df['date_et_heure_de_comptage'], utc=True).dt.tz_convert('Europe/Paris')
# df['Jour'] = df['date_et_heure_de_comptage'].dt.day_name()
# df['Mois'] = df['date_et_heure_de_comptage'].dt.month_name()
# df['Heure'] = df['date_et_heure_de_comptage'].dt.hour

In [None]:
# Ce bloc suivant devient inutile sur données preprocessées

# # Corriger et uniformiser la colonne 'date_et_heure_de_comptage' si elle contient des objets ou chaînes
# df['date_et_heure_de_comptage'] = pd.to_datetime(df['date_et_heure_de_comptage'], errors='coerce', utc=True).dt.tz_convert('Europe/Paris')

# # Supprimer le fuseau horaire de la colonne pour afficher l'heure locale sans le "+01:00"
# df['date_et_heure_de_comptage'] = df['date_et_heure_de_comptage'].dt.tz_localize(None)

# # Vérification
# df[['date_et_heure_de_comptage']].head()

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
# Ce bloc suivant devient inutile sur données preprocessées

# # Nettoyage des noms de colonnes (suppression des espaces, remplacement par des underscores)
# df.columns = df.columns.str.strip().str.lower().str.replace(" ", "_").str.replace("'", "")

# # Conversion de la date et heure de comptage en datetime sans fuseau horaire visible
# df['date_et_heure_de_comptage'] = pd.to_datetime(df['date_et_heure_de_comptage'])
# df['date_et_heure_de_comptage'] = df['date_et_heure_de_comptage'].dt.tz_localize(None)

In [None]:
# Ce bloc devient inutile sur données preprocessées

# # Création des colonnes temporelles

# df['année'] = df['date_et_heure_de_comptage'].dt.year
# df['mois'] = df['date_et_heure_de_comptage'].dt.month_name()
# df['jour'] = df['date_et_heure_de_comptage'].dt.day_name()
# df['heure'] = df['date_et_heure_de_comptage'].dt.hour
# df['semaine'] = df['date_et_heure_de_comptage'].dt.isocalendar().week

In [None]:
# Ce bloc suivant devient inutile sur données preprocessées

# # Conversion des coordonnées en float
# if 'coordonnées' in df.columns:
#     df[['latitude', 'longitude']] = df['coordonnées'].str.split(',', expand=True).astype(float)

# # Vérification des valeurs manquantes
# print("--- Valeurs manquantes ---")
# print(df.isnull().sum())

In [None]:
# 1. Distribution du comptage horaire
plt.figure(figsize=(10,6))
sns.histplot(df['comptage_horaire'], bins=30, kde=True)
plt.title("Distribution du comptage horaire")
plt.xlabel("Comptage horaire")
plt.ylabel("Fréquence")
plt.show()

In [None]:
# 4. Heatmap heure vs jour
plt.figure(figsize=(12,8))
pivot = df.pivot_table(index='date_et_heure_de_comptage_hour', columns='date_et_heure_de_comptage_day', aggfunc='size', fill_value=0)
sns.heatmap(pivot, cmap='YlGnBu', annot=True, fmt=".0f")
plt.title("Nombre d'enregistrements par heure et jour")
plt.xlabel("Jour")
plt.ylabel("Heure")
plt.show()

In [None]:
# 5. Boxplot du comptage horaire par jour
plt.figure(figsize=(12,6))
sns.boxplot(x='date_et_heure_de_comptage_dayname', y='comptage_horaire', data=df)
plt.title("Distribution du comptage horaire par jour")
plt.xlabel("Jour")
plt.ylabel("Comptage horaire")
plt.show()

# La partie box plot par heure est redondante avec la cellule juste après (mis en commentaire avant suppression)

# plt.figure(figsize=(14,6))
# sns.boxplot(x='date_et_heure_de_comptage_hour', y='comptage_horaire', data=df)
# plt.title("Comptage horaire par heure")
# plt.show()

In [None]:
# 6. Boxplot du comptage horaire par heure
plt.figure(figsize=(14,6))
sns.boxplot(x='date_et_heure_de_comptage_hour', y='comptage_horaire', data=df)
plt.title("Distribution du comptage horaire par heure")
plt.xlabel("Heure")
plt.ylabel("Comptage horaire")
plt.show()

In [None]:
# 6. Enregistrements par mois
plt.figure(figsize=(12,6))
mois_ordre = ["January", "February", "March", "April", "May", "June", "July", "August", "September", "October", "November", "December"]
df['date_et_heure_de_comptage_monthname'] = pd.Categorical(df['date_et_heure_de_comptage_monthname'], categories=mois_ordre, ordered=True)
df['date_et_heure_de_comptage_monthname'].value_counts().sort_index().plot(kind='bar')
plt.title("Enregistrements par mois")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# 11. Nuage de points comptage horaire vs heure
plt.figure(figsize=(12,6))
sns.stripplot(x='date_et_heure_de_comptage_hour', y='comptage_horaire', data=df, jitter=0.2, alpha=0.4)
plt.title("Comptage horaire selon l'heure")
plt.show()

In [None]:
# je pense qu'un swarmplot avec deux axes : heure et semaine aurait eu plus de signification (dans ce pair plot mettre en relation les 
# occurences heure et semaine donne une grosse grille a laquelle on pouvait s'attendre quand a la diagonale ca donne juste la distribution 
# du nombre d'entrée moyenne par valeur : uniforme pour les heure (logique on a des journées pleines), pas pour les semaines - on a un recouvrement 
# sur les semaine de début d'année en mars/avril) et pour le comptage horaire on a déjà la distribution plus haut.

# 15. Pairplot des variables temporelles et du comptage
sns.pairplot(df[['date_et_heure_de_comptage_hour', 'date_et_heure_de_comptage_week', 'comptage_horaire']])
plt.suptitle("Relation entre heure, semaine et comptage", y=1.02)
plt.show() 

In [None]:
# 16. Répartition des valeurs par compteur (si disponible)
top_sites = df['nom_du_compteur'].value_counts().nlargest(10).index
plt.figure(figsize=(12,6))
sns.boxplot(x='nom_du_compteur', y='comptage_horaire', data=df[df['nom_du_compteur'].isin(top_sites)])
plt.title("Comptage horaire par compteur (Top 10)")
plt.xticks(rotation=45)
plt.show()

In [None]:
# La cellule est un doublon avec plus haut (mis en commentaire : a supprimer)

# # 15. Pairplot des variables temporelles et du comptage
# sns.pairplot(df[['date_et_heure_de_comptage_hour', 'date_et_heure_de_comptage_week', 'comptage_horaire']])
# plt.suptitle("Relation entre heure, semaine et comptage", y=1.02)
# plt.show()

In [None]:
# 19. Histogramme des enregistrements par semaine de l'année
plt.figure(figsize=(12,6))
df['date_et_heure_de_comptage_week'].value_counts().sort_index().plot(kind='bar', color='skyblue')
plt.title("Nombre d'enregistrements par semaine")
plt.xlabel("Semaine")
plt.ylabel("Nombre d'enregistrements")
plt.show()

In [None]:
# 20. Évolution du comptage horaire moyen par mois
plt.figure(figsize=(12,6))
mois_order = ["January", "February", "March", "April", "May", "June", "July", "August", "September", "October", "November", "December"]
df['date_et_heure_de_comptage_monthname'] = pd.Categorical(df['date_et_heure_de_comptage_monthname'], categories=mois_order, ordered=True)
df.groupby('date_et_heure_de_comptage_monthname')['comptage_horaire'].mean().plot(marker='o')
plt.title("Comptage horaire moyen par mois")
plt.xlabel("Mois")
plt.ylabel("Comptage horaire moyen")
plt.grid(True)
plt.show()

In [None]:
# Graphique à réextraire dans le rapport, avec toutes les valeurs explicitées sur toutes les barres

# Ordre des jours
jours_ordre = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
df['date_et_heure_de_comptage_dayname'] = pd.Categorical(df['date_et_heure_de_comptage_dayname'], categories=jours_ordre, ordered=True)

# Moyenne du comptage par jour
moyennes = df.groupby('date_et_heure_de_comptage_dayname', observed=True)['comptage_horaire'].mean()

# Affichage du graphique
plt.figure(figsize=(10,6))
bars = plt.bar(moyennes.index, moyennes.values, color='coral')
plt.title("Comptage horaire moyen par jour de la semaine")
plt.xlabel("Jour")
plt.ylabel("Comptage horaire moyen")
plt.ylim(0, moyennes.max() * 1.15)

# Affichage des valeurs exactes pour mardi et jeudi
for bar, jour, val in zip(bars, moyennes.index, moyennes.values):
    if jour in jours_ordre:
        plt.text(bar.get_x() + bar.get_width()/2, val + 1, f"{val:.1f}", ha='center', va='bottom', fontsize=9, fontweight='bold')

plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# 23. Densité du comptage horaire
plt.figure(figsize=(10,6))
sns.kdeplot(df['comptage_horaire'], fill=True)
plt.title("Densité du comptage horaire")
plt.xlabel("Comptage horaire")
plt.ylabel("Densité")
plt.show()

In [None]:
# Redondant avec la cellule identifiée 6. donc mis en commentaire (ou à supprimer)

# # 24. Diagramme en boîte du comptage horaire par heure
# plt.figure(figsize=(14,6))
# sns.boxplot(x='date_et_heure_de_comptage_hour', y='comptage_horaire', data=df)
# plt.title("Distribution du comptage horaire par heure")
# plt.xlabel("Heure")
# plt.ylabel("Comptage horaire")
# plt.show()

In [None]:
# La cellule suivante plus que du dataviz est de la modélisation (KMeans) et le regroupement 5 clusters géographiques (pourquoi laisser 
# les 5 par défaut? pas 2? 3? 4?...) sans prise en compte des valeurs des compteurs donne du coup juste l'observation des 5 zones 
# centroides géographiques qu'on ne sait pas forcément expliciter

# 25. Clustering (KMeans) sur latitude et longitude
if 'latitude' in df.columns and 'longitude' in df.columns:
    scaler = StandardScaler()
    coords_scaled = scaler.fit_transform(df[['latitude','longitude']])
    kmeans = KMeans(n_clusters=5, random_state=42).fit(coords_scaled)
    df['cluster'] = kmeans.labels_
    plt.figure(figsize=(10,6))
    sns.scatterplot(x='longitude', y='latitude', hue='cluster', data=df, palette='tab10')
    plt.title("Clustering géographique des sites de comptage")
    plt.xlabel("Longitude")
    plt.ylabel("Latitude")
    plt.legend(title='Cluster')
    plt.show()

In [None]:
# Comptage total par heure
heure_total = df.groupby('date_et_heure_de_comptage_hour')['comptage_horaire'].sum().sort_values(ascending=False).head(10)

# Affichage du graphique
plt.figure(figsize=(10,6))
bars = plt.bar(heure_total.index.astype(str), heure_total.values, color='orange')

# Titre et axes
plt.title("Top 10 des heures avec le plus fort comptage total")
plt.xlabel("Heure")
plt.ylabel("Comptage total")

# ✅ Retirer notation scientifique
ax = plt.gca()
ax.yaxis.set_major_formatter(ticker.FuncFormatter(lambda x, _: f'{int(x):,}'.replace(',', ' ')))

# ✅ Ajuster l'échelle manuellement
plt.ylim(0, heure_total.max() * 1.15)
plt.yticks(rotation=0)
plt.grid(axis='y', linestyle='--', alpha=0.6)

plt.tight_layout()
plt.show()

In [None]:
# 28. Variation horaire par station (Top 5 pour lisibilité)
top5_stations = df['nom_du_compteur'].value_counts().nlargest(5).index
plt.figure(figsize=(14,6))
sns.lineplot(data=df[df['nom_du_compteur'].isin(top5_stations)], x='date_et_heure_de_comptage_hour', y='comptage_horaire', hue='nom_du_compteur', estimator='mean')
plt.title("Évolution horaire du comptage par station (Top 5)")
plt.xlabel("Heure")
plt.ylabel("Comptage horaire moyen")
plt.legend(title='Station')
plt.show()

In [None]:
# 17. Répartition cumulée du comptage horaire par heure
hourly_sum = df.groupby('date_et_heure_de_comptage_hour')['comptage_horaire'].sum().sort_index()
hourly_cumsum = hourly_sum.cumsum()
plt.figure(figsize=(12,6))
plt.plot(hourly_cumsum, marker='o')
plt.title("Comptage horaire cumulé par heure")
plt.xlabel("Heure")
plt.ylabel("Cumul du comptage horaire")
plt.grid(True)
plt.show()

In [None]:
# Doublon avec la cellule au dessus (mise en commentaire pour suppression)

# # 17. Répartition cumulée du comptage horaire par heure
# hourly_sum = df.groupby('date_et_heure_de_comptage_hour')['comptage_horaire'].sum().sort_index()
# hourly_cumsum = hourly_sum.cumsum()
# plt.figure(figsize=(12,6))
# plt.plot(hourly_cumsum, marker='o')
# plt.title("Comptage horaire cumulé par heure")
# plt.xlabel("Heure")
# plt.ylabel("Cumul du comptage horaire")
# plt.grid(True)
# plt.show()

In [None]:
# 18. Heatmap comptage horaire par heure et jour
pivot_table = df.pivot_table(index='date_et_heure_de_comptage_hour', columns='date_et_heure_de_comptage_dayname', values='comptage_horaire', aggfunc='mean', observed=True)
plt.figure(figsize=(12,8))
sns.heatmap(pivot_table, annot=True, fmt=".1f", cmap="viridis")
plt.title("Moyenne du comptage horaire par heure et jour")
plt.xlabel("Jour de la semaine")
plt.ylabel("Heure")
plt.show()


In [None]:
# 31. Heatmap moyenne du comptage horaire par heure et station (Top 5)
top5 = df['nom_du_compteur'].value_counts().nlargest(5).index
pivot = df[df['nom_du_compteur'].isin(top5)].pivot_table(index='date_et_heure_de_comptage_hour', columns='nom_du_compteur', values='comptage_horaire', aggfunc='mean')
plt.figure(figsize=(10,6))
sns.heatmap(pivot, cmap='coolwarm', annot=True, fmt=".0f")
plt.title("Moyenne horaire du comptage par station (Top 5)")
plt.ylabel("Heure")
plt.xlabel("Station")
plt.tight_layout()
plt.show()

In [None]:
# Données
top_stations = df.groupby('nom_du_compteur')['comptage_horaire'].sum().nlargest(10).sort_values()

# Affichage
plt.figure(figsize=(12, 6))
sns.barplot(x=top_stations.values, y=top_stations.index, hue=top_stations.index, palette='magma_r')  # couleurs inversées
plt.title("Top 10 des stations les plus fréquentées (comptage total)")
plt.xlabel("Comptage horaire total")
plt.ylabel("Nom de la station")

# Axe x lisible (espaces entre milliers)
plt.gca().xaxis.set_major_formatter(ticker.FuncFormatter(lambda x, _: f"{int(x):,}".replace(',', ' ')))

plt.tight_layout()
plt.show()

In [None]:
# cette cellule = strict doublon de celle plus haut ou 31. est déjà présent

# # 31. Heatmap moyenne du comptage horaire par heure et station (Top 5)
# if 'nom_du_compteur' in df.columns:
#     top5 = df['nom_du_compteur'].value_counts().nlargest(5).index
#     pivot = df[df['nom_du_compteur'].isin(top5)].pivot_table(index='date_et_heure_de_comptage_hour', columns='nom_du_compteur', values='comptage_horaire', aggfunc='mean')
#     plt.figure(figsize=(10,6))
#     sns.heatmap(pivot, cmap='coolwarm', annot=True, fmt=".0f")
#     plt.title("Moyenne horaire du comptage par station (Top 5)")
#     plt.ylabel("Heure")
#     plt.xlabel("Station")
#     plt.tight_layout()
#     plt.show()

In [None]:
# Cellule en doublon : le 1. existe déjà au tout début, a supprimer (mis en commentaire pour le moment)

# # 1. Histogramme comptage horaire
# plt.figure(figsize=(10,6))
# sns.histplot(df['comptage_horaire'], bins=30, kde=True)
# plt.title("Distribution du comptage horaire")
# plt.xlabel("Comptage horaire")
# plt.ylabel("Fréquence")
# plt.show()

In [None]:
plt.figure(figsize=(14, 6))
df_indexed = df.set_index('date_et_heure_de_comptage_local').resample('W')['comptage_horaire'].mean()
df_indexed.plot()
plt.title("Évolution hebdomadaire du comptage horaire moyen")
plt.xlabel("Date")
plt.ylabel("Comptage horaire moyen")
plt.grid(True)
plt.show()

In [None]:
site_total = df.groupby('nom_du_compteur')['comptage_horaire'].sum().sort_values(ascending=False).head(30)
plt.figure(figsize=(14, 8))
sq.plot(sizes=site_total.values, label=site_total.index, alpha=.8)
plt.title("Treemap des compteurs les plus fréquentés")
plt.axis('off')
plt.show()
# Voir si l'on peut rajouter des aggrégations (pour identifier les zones les plus fréquentées , ça peut etre un arrondissement 

In [None]:
pivot = df.pivot_table(index='nom_du_site_de_comptage', columns='date_et_heure_de_comptage_hour', values='comptage_horaire', aggfunc='mean').fillna(0)

plt.figure(figsize=(14, 8))
sns.heatmap(pivot, cmap='magma', linewidths=0.5)
plt.title("Trafic moyen par site et heure")
plt.xlabel("Heure")
plt.ylabel("Site")
plt.show()

In [None]:
hourly_max = df.groupby('date_et_heure_de_comptage_hour')['comptage_horaire'].max()
plt.figure(figsize=(12, 5))
sns.lineplot(x=hourly_max.index, y=hourly_max.values)
plt.title("Pic de fréquentation par heure de la journée")
plt.xlabel("Heure")
plt.ylabel("Comptage horaire max")
plt.grid(True)
plt.show()

In [None]:
df['saison'] = df['date_et_heure_de_comptage_month'] % 12 // 3 + 1
df['saison'] = df['saison'].map({1: 'Hiver', 2: 'Printemps', 3: 'Été', 4: 'Automne'})
profile = df.groupby(['saison', 'date_et_heure_de_comptage_hour'])['comptage_horaire'].mean().unstack(0)

profile.plot(figsize=(14, 6))
plt.title("Profil horaire moyen selon la saison")
plt.xlabel("Heure")
plt.ylabel("Comptage moyen")
plt.grid(True)
plt.show()
#Voir les décalages entre les heures d'été et d'hiver

In [None]:
site_perf = df.groupby(['nom_du_compteur', 'latitude', 'longitude'])['comptage_horaire'].mean().reset_index()
quantiles = site_perf['comptage_horaire'].quantile([0.33, 0.66]).values

def get_color(val):
    if val <= quantiles[0]: return 'green'
    elif val <= quantiles[1]: return 'orange'
    return 'red'

m = folium.Map(location=[df['latitude'].mean(), df['longitude'].mean()], zoom_start=12)
for _, row in site_perf.iterrows():
    folium.CircleMarker(
        location=[row['latitude'], row['longitude']],
        radius=7,
        color=get_color(row['comptage_horaire']),
        fill=True,
        fill_opacity=0.7,
        tooltip=f"{row['nom_du_compteur']} : {row['comptage_horaire']:.1f}"
    ).add_to(m)
m.save("carte_perf_sites.html")

In [None]:
df['jour_type'] = df['date_et_heure_de_comptage_dayname'].apply(lambda x: 'Week-end' if x in ['Saturday', 'Sunday'] else 'Semaine')
sns.boxplot(x='jour_type', y='comptage_horaire', data=df)
plt.title("Comparaison semaine vs week-end")
plt.show()

In [None]:
df_ts = df.set_index('date_et_heure_de_comptage_local').resample('D')['comptage_horaire'].sum().dropna()
df_ts.plot(figsize=(14, 6), title="Évolution journalière du trafic cycliste")

In [None]:
mean = df_ts.mean()
std = df_ts.std()
anomalies = df_ts[(df_ts < mean - 2 * std) | (df_ts > mean + 2 * std)]

plt.figure(figsize=(14, 6))
df_ts.plot(label="Trafic")
anomalies.plot(style='ro', label="Anomalies")
plt.axhline(mean, color='green', linestyle='--', label='Moyenne')
plt.title("Anomalies du trafic cycliste")
plt.legend()
plt.show()

print("Jours détectés comme anomalies :")
print(anomalies)

In [None]:
print("\n--- Statistiques descriptives du 'Comptage horaire' (si numérique) ---")
print(df['comptage_horaire'].describe())

print("\n--- Nombre d'enregistrements par site de comptage ---")
print(df['nom_du_compteur'].value_counts())

print("\n--- Nombre d'enregistrements par identifiant de compteur ---")
print(df['identifiant_du_compteur'].value_counts())

print("\n--- Nombre de sites de comptage uniques ---")
print(f"Nombre de Nom de compteur uniques: {df['nom_du_compteur'].nunique()}")
print(f"Nombre d'Identifiant de compteur uniques: {df['identifiant_du_compteur'].nunique()}")

In [None]:
# Cellule en doublon avec le 1. qui existe déjà au tout début, a supprimer (mis en commentaire pour le moment)

# # 4.1. Distribution du nombre d'enregistrements ('Comptage horaire' si numérique)
# plt.figure(figsize=(10, 6))
# sns.histplot(df['comptage_horaire'], bins=50, kde=True)
# plt.title('Distribution des valeurs de "Comptage horaire"')
# plt.xlabel('Valeur de "Comptage horaire"')
# plt.ylabel('Fréquence')
# plt.show()

In [None]:
# A supprimer (donnée date d'installation du site de comptage abandonnée dans la version preprocessed (jugée non pertinente avec 
# les autres données spécifiques aux compteurs))

# plt.figure(figsize=(12, 6))
# df['Date d\'installation du site de comptage'].dt.year.value_counts().sort_index().plot(kind='bar')
# plt.title('Nombre d\'installations de sites par année')
# plt.xlabel('Année d\'installation')
# plt.ylabel('Nombre de sites installés')
# plt.xticks(rotation=45)
# plt.show()