In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import yaml
import os

from src.data_processing import load_config, load_data, preprocess_data, sample_data

# Configuration visuelle
sns.set(style="whitegrid", context="talk")
%matplotlib inline

# Charger la configuration
config = load_config("config/config.yaml")
print("Configuration charg√©e avec succ√®s.")


üíæ Cellule 2 ‚Äî Chargement du dataset complet depuis BigQuery
python
Copier
Modifier


In [None]:
from pandas_gbq import read_gbq

# R√©cup√©ration du project_id depuis la configuration
project_id = config.get("project_id", "avisia-certification-ml-yde")

# Requ√™te SQL pour charger TOUT le dataset (attention : tr√®s volumineux >187M lignes)
query = """
SELECT
  trip_start_timestamp,
  pickup_community_area
FROM `bigquery-public-data.chicago_taxi_trips.taxi_trips`
WHERE pickup_community_area IS NOT NULL
"""

print("Chargement des donn√©es depuis BigQuery... (peut prendre plusieurs minutes)")

# Chargement via pandas-gbq
df_raw = read_gbq(query, project_id=project_id)

print(f"‚úÖ Dataset charg√© avec succ√®s. Nombre de lignes : {len(df_raw):,}")
df_raw.head()


‚è∞ Cellule 3 ‚Äî Agr√©gation par heure et zone (trip_count par timestamp_hour √ó pickup_community_area)

# Convertir les timestamps au format horaire (arrondi √† l'heure)
df_raw["timestamp_hour"] = pd.to_datetime(df_raw["trip_start_timestamp"]).dt.floor("H")

# Agr√©gation : nombre de courses par heure et par pickup_community_area
df_demand = (
    df_raw
    .groupby(["timestamp_hour", "pickup_community_area"])
    .size()
    .reset_index(name="trip_count")
    .sort_values(["timestamp_hour", "pickup_community_area"])
)

print(f"‚úÖ Donn√©es agr√©g√©es : {len(df_demand):,} lignes.")
df_demand.head()


üß© Cellule 4 ‚Äî Compl√©tion des s√©ries temporelles (remplir les heures sans donn√©es)

In [None]:
# %% [code]
# Cr√©er l'ensemble des heures disponibles dans le dataset (par pas de 1 heure)
min_time = df_demand["timestamp_hour"].min()
max_time = df_demand["timestamp_hour"].max()
all_hours = pd.date_range(start=min_time, end=max_time, freq="H")

# Identifier toutes les zones uniques
all_zones = df_demand["pickup_community_area"].dropna().unique()
all_zones = sorted(all_zones)

# Cr√©er le produit cart√©sien : toutes les combinaisons heure √ó zone
complete_index = pd.MultiIndex.from_product(
    [all_hours, all_zones],
    names=["timestamp_hour", "pickup_community_area"]
)

# Cr√©er un DataFrame complet
df_complete = pd.DataFrame(index=complete_index).reset_index()

# Fusionner avec les donn√©es observ√©es
df_demand_complete = pd.merge(
    df_complete,
    df_demand,
    on=["timestamp_hour", "pickup_community_area"],
    how="left"
)

# Remplacer les valeurs manquantes (heures sans courses) par 0
df_demand_complete["trip_count"] = df_demand_complete["trip_count"].fillna(0).astype(int)

print(f"‚úÖ S√©ries temporelles compl√©t√©es : {len(df_demand_complete):,} lignes.")
df_demand_complete.head()


üß† Cellule 5 ‚Äî Ajout des features temporelles (hour, day, month, etc.)


In [None]:
# %% [code]
# Extraire les features temporelles classiques
df_demand_complete["hour"] = df_demand_complete["timestamp_hour"].dt.hour
df_demand_complete["day_of_week"] = df_demand_complete["timestamp_hour"].dt.dayofweek  # Lundi = 0
df_demand_complete["month"] = df_demand_complete["timestamp_hour"].dt.month
df_demand_complete["day_of_year"] = df_demand_complete["timestamp_hour"].dt.dayofyear
df_demand_complete["week_of_year"] = df_demand_complete["timestamp_hour"].dt.isocalendar().week.astype(int)
df_demand_complete["year"] = df_demand_complete["timestamp_hour"].dt.year
df_demand_complete["is_weekend"] = df_demand_complete["day_of_week"].isin([5, 6]).astype(int)

# Optionnel : encodage cyclique (utile pour XGBoost, moins pour AutoML Forecasting qui encode en interne)
df_demand_complete["hour_sin"] = np.sin(2 * np.pi * df_demand_complete["hour"] / 24)
df_demand_complete["hour_cos"] = np.cos(2 * np.pi * df_demand_complete["hour"] / 24)

print("‚úÖ Features temporelles ajout√©es.")
df_demand_complete[["timestamp_hour", "hour", "day_of_week", "month", "is_weekend"]].head()


üíæ Cellule 6 ‚Äî Export des donn√©es finales vers BigQuery


In [None]:
# %% [code]
from google.cloud import bigquery

# Initialisation du client BigQuery
client = bigquery.Client(project="avisia-certification-ml-yde")

# D√©finir la destination
table_id = "avisia-certification-ml-yde.chicago_taxis.demand_by_hour"

# Option : supprimer les colonnes inutiles ou sp√©cifiques √† XGBoost
columns_to_keep = [
    "timestamp_hour", "pickup_community_area", "trip_count",
    "hour", "day_of_week", "month", "year", "day_of_year", "week_of_year", "is_weekend"
]

# On s√©lectionne uniquement les colonnes utiles pour Vertex AI Forecast
df_to_export = df_demand_complete[columns_to_keep]

# √âcriture dans BigQuery
job_config = bigquery.LoadJobConfig(
    write_disposition=bigquery.WriteDisposition.WRITE_TRUNCATE,
)

job = client.load_table_from_dataframe(
    df_to_export, table_id, job_config=job_config
)

job.result()  # Attendre la fin du job

print(f"‚úÖ Table export√©e vers BigQuery : {table_id}")
