# Séance 1 — Rappel : Analyse de données avec Pandas (Scraping & préprocessing)

## Objectif

Fournir une méthode pratique et reproductible pour passer d’un **jeu de fichiers mensuels bruts** (NYC Yellow Taxi) à un **jeu de données tabulaire propre, enrichi et prêt pour de l’analyse ou du machine learning**. À l’issue de la séance, vous saurez : charger et concaténer des fichiers parquet/CSV, nettoyer les valeurs aberrantes, parser et exploiter des timestamps, créer des features temporelles et géographiques, agréger par zone/heure, et exporter des livrables réutilisables.

## Description des données

Nous utilisons les **fichiers mensuels Yellow Taxi (NYC)** au format Parquet : `yellow_tripdata_{YYYY}-{MM}.parquet`. Le script fourni permet d’itérer sur une plage temporelle (par défaut `2009-01` → `2025-12`) et de récupérer en plus le fichier de référence des zones `taxi_zone_lookup.csv`.
Colonnes courantes (exemples) :

* `tpep_pickup_datetime`, `tpep_dropoff_datetime` (horodatages)
* `PULocationID`, `DOLocationID` (identifiants de zone)
* `trip_distance`, `passenger_count` (mesures)
* `fare_amount`, `tip_amount`, `total_amount`, `payment_type` (tarification)
  Chaque fichier mensuel contient un grand nombre d’enregistrements : pour une session en salle, privilégier un **échantillon** ou un **mois réduit** plutôt que de charger l’intégralité de la plage en mémoire.

## Récupération des fichiers

Le script de téléchargement utilise les URLs publiques du dataset (`yellow_tripdata_{YYYY}-{MM}.parquet`) et télécharge également `taxi_zone_lookup.csv`. Pour la séance, les options recommandées :

* utiliser un **échantillon** (ex. `yellow_tripdata_sample.csv` ou un seul mois), ou
* télécharger 1–3 mois représentatifs (p. ex. janvier / juillet / décembre d’une année).
  Le script crée les dossiers nécessaires et convertit le lookup CSV en parquet pour accélérer les lectures ultérieures.

## Tâches & transformations avec Pandas

Les opérations couvertes et démontrées dans le TP :

1. **Chargement & inspection**

   * `pd.read_parquet` / `pd.read_csv` ; `head()`, `shape`, `dtypes`, comptage NaN.

2. **Concaténation incrémentale**

   * lire fichier par fichier et concaténer (ou streamer / échantillonner) pour éviter d’épuiser la mémoire.

3. **Nettoyage basique**

   * suppression des lignes impossibles ou aberrantes : `trip_distance <= 0`, `fare_amount <= 0`, `trip_duration <= 0`.
   * normalisation des textes/IDs si nécessaire, gestion des valeurs manquantes (`fillna` / `dropna`).

4. **Parsing et gestion des dates**

   * conversion en `datetime` (`pd.to_datetime`), calcul de la durée (`dropoff - pickup`), détection d’erreurs de parsing.
   * extraction de composantes temporelles : `pickup_hour`, `pickup_day`, `pickup_weekday`, `pickup_month`, `is_night`.

5. **Feature engineering tabulaire**

   * `fare_per_km = fare_amount / trip_distance` (avec gestion des divisions par zéro).
   * `tip_ratio = tip_amount / fare_amount`.
   * indicateurs (ex. `is_long_trip`, `is_shared_zone`) et colonnes dérivées (`n_words` style analogies si texte présent).

6. **Jointures / merges**

   * joindre `taxi_zone_lookup` sur `PULocationID`/`DOLocationID` pour obtenir `pickup_borough`, `pickup_zone` et enrichir l’analyse géographique.

7. **Aggregations & groupby**

   * agrégations par zone / heure / jour : `count`, `mean(trip_distance)`, `median(fare_amount)`, `mean(tip_ratio)`, `max(trip_duration)`.
   * création de tables résumées utiles pour visualisations et features d’agrégation.

8. **Opérations ligne-à-ligne**

   * usage ponctuel de `apply` pour transformations personnalisées (avec mise en garde sur la performance : préférer les opérations vectorisées quand c’est possible).

9. **Export**

   * export final en CSV/Parquet (`cleaned_trips.csv` / `cleaned_trips.parquet`) prêt pour modélisation ou ingestion dans un pipeline ML.

## Livrables attendus

* `s1_pandas.ipynb` : notebook bien commenté (Markdown + cellules de code) avec étapes reproductibles.
* `cleaned_trips.csv` ou `cleaned_trips.parquet` : dataset nettoyé et réduit aux colonnes pertinentes pour ML.
* `summary_by_zone.csv` : table résumé par zone (nombre de trajets, distance moyenne, tarif moyen, ratio pourboire).
* Optional : notebook ou script d’échantillonnage si traitement complet trop lourd.

## Bonnes pratiques et remarques opérationnelles

* **Échantillonnage** : pour la classe, limiter le volume (100k–500k lignes) afin de conserver interactivité.
* **Mémoire** : lire fichier par fichier, utiliser `dtype` explicites et `usecols` pour réduire la charge mémoire.
* **Robustesse** : toujours vérifier `dtypes` après lecture et utiliser `indicator=True` lors des merges pour diagnostiquer les clés non appariées.
* **Chunking des textes** : si vous ajoutez des colonnes textuelles volumineuses (ex. notes), découper avant export pour embeddings.
* **Reproductibilité** : versionner le script de téléchargement et enregistrer la liste des fichiers sources (hashs ou timestamps).

# 1 -  Script de téléchargement des données

In [8]:
import requests
import pandas as pd 
import os
NYC_TRIPS_URL = "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_{}-{}.parquet"
DATSET_FOLDER = 'yellow_tripdata'
TAXI_ZONE_URL = "https://d37ci6vzurychx.cloudfront.net/misc/taxi_zone_lookup.csv"

def verify_if_file_already_downloaded(file_path: str) -> bool:
    """
        Verify if file already downloaded
        Args:
            file_path (str): File path
        Returns:
            bool: True if file already downloaded, False otherwise
    """
    return os.path.exists(file_path)

def format_url(year: str, month: str) -> str:
    """
        Format URL
        Args:
            year (str): Year
            month (str): Month
        Returns:
            str: Formatted URL
    """
    return NYC_TRIPS_URL.format(year, month)

def generate_month_range(start_month : str = '2009-01', 
                         end_month : str = '2025-12'
                        ) -> list:
    """
        Generate month range
        Args:
            start_month (str): Start month
            end_month (str): End month
        Returns:
            list: Month range
    """
    start_year, start_month = int(start_month[:4]), int(start_month[5:])
    end_year, end_month = int(end_month[:4]), int(end_month[5:])  # Correction ici: end_month[5:] au lieu de end_month[4:]
    month_range = []
    for year in range(start_year, end_year + 1):
        for month in range(start_month if year == start_year else 1, end_month + 1 if year == end_year else 13):
            month_range.append(f"{year}-{month:02d}")
    return month_range
def download_data(url: str, file_path: str) -> None:
    """
        Download data from URL
        Args:
            url (str): URL
            file_path (str): File path
        Returns:
            None
    """
    print(f"Downloading data from {url} to {file_path}")
    response = requests.get(url)
    # Check if request was successful
    if response.status_code == 200:
        print(f"Data downloaded from {url} with status code {response.status_code}")
    elif response.status_code == 403 : 
        print(f"File {url} not found, status code {response.status_code}")
        raise Exception(f"File {url} not found, status code {response.status_code}")
    else:
        print(f"Failed to download data from {url} with status code {response.status_code}")
        raise Exception(f"Failed to download data from {url} with status code {response.status_code}")
    os.makedirs(os.path.dirname(file_path), exist_ok=True)
    with open(file_path, "wb") as f:
        f.write(response.content)
    print(f"Data downloaded from {url} to {file_path}")
    return file_path

def download_data_for_month(year: str, month: str, download_dir: str = f"./data/{DATSET_FOLDER}") -> str:
    """
        Download data for month
        Args:
            year (str): Year
            month (str): Month
            download_dir (str): Download directory
        Returns:
            str: File path
    """
    url = format_url(year, month)
    file_path = os.path.join(download_dir, f"{year}-{month}.parquet")
    if verify_if_file_already_downloaded(file_path):
        print(f"File {file_path} already downloaded, skipping download")
        return file_path
    return download_data(url, file_path)

def download_data_month_to_month(
                                start_month : str = '2009-01', 
                                end_month : str = '2025-12', 
                                download_dir: str = f"./data/{DATSET_FOLDER}"
) -> None:
    """
        Download data month to month
        Args:
            start_month (str): Start month
            end_month (str): End month
            download_dir (str): Download directory
        Returns:
            None
    """
    print(f"Downloading data from {start_month} to {end_month} to {download_dir}")
    month_range = generate_month_range(start_month, end_month)
    for month in month_range:
        year, month_num = month.split('-')
        try:
            download_data_for_month(year, month_num, download_dir)
            print(f"Successfully downloaded data for {year}-{month_num} to {download_dir}")
        except Exception as e:
            print(f"Failed to download data for {year}-{month_num}, error: {e}")
    print(f"Downloaded data from {start_month} to {end_month} to {download_dir}")
    
def download_taxi_zones() -> None:
    """
    Télécharge le fichier des zones de taxi, le convertit en parquet et supprime le CSV.
    """
    url = TAXI_ZONE_URL
    csv_path = "./data/cleaned/taxi_zones.csv"
    parquet_path = "./data/cleaned/taxi_zones.parquet"
    
    # Création du dossier si nécessaire
    os.makedirs("./data/cleaned", exist_ok=True)
    
    # Téléchargement du fichier
    print(f"Téléchargement des zones de taxi depuis {url}")
    response = requests.get(url)
    
    if response.status_code != 200:
        print(f"Échec du téléchargement des zones de taxi. Code: {response.status_code}")
        return
        
    # Sauvegarde du CSV
    with open(csv_path, "wb") as f:
        f.write(response.content)
    print(f"Fichier CSV sauvegardé: {csv_path}")
    
    # Conversion en parquet
    try:
        df = pd.read_csv(csv_path)
        df.to_parquet(parquet_path)
        print(f"Fichier converti en parquet: {parquet_path}")
        
        # Suppression du CSV
        os.remove(csv_path)
        print("Fichier CSV supprimé")
    except Exception as e:
        print(f"Erreur lors de la conversion: {str(e)}")

In [None]:
download_data_month_to_month(start_month='2024-01', end_month='2026-01')

## Concaténer tous les fichiers mensuels en un seul DataFrame Pandas

In [3]:
import pandas as pd
import os
DATASET_FOLDER = 'yellow_tripdata'
df_list = []
for file in sorted(os.listdir(f'./data/{DATASET_FOLDER}')):
    if file.endswith('.parquet'):
        df = pd.read_parquet(os.path.join(f'./data/{DATASET_FOLDER}', file))
        df_list.append(df)
        print(f"{file}: {df.shape}")
df = pd.concat(df_list, ignore_index=True)
print(f"Combined DataFrame shape: {df.shape}")

2024-01.parquet: (2964624, 19)
2024-02.parquet: (3007526, 19)
2024-03.parquet: (3582628, 19)
2024-04.parquet: (3514289, 19)
2024-05.parquet: (3723833, 19)
2024-06.parquet: (3539193, 19)
2024-07.parquet: (3076903, 19)
2024-08.parquet: (2979183, 19)
2024-09.parquet: (3633030, 19)
2024-10.parquet: (3833771, 19)
2024-11.parquet: (3646369, 19)
2024-12.parquet: (3668371, 19)
2025-01.parquet: (3475226, 20)
2025-02.parquet: (3577543, 20)
2025-03.parquet: (4145257, 20)
2025-04.parquet: (3970553, 20)
2025-05.parquet: (4591845, 20)
2025-06.parquet: (4322960, 20)
2025-07.parquet: (3898963, 20)
2025-08.parquet: (3574091, 20)
2025-09.parquet: (4251015, 20)
2025-10.parquet: (4428699, 20)
2025-11.parquet: (4181444, 20)
Combined DataFrame shape: (85587316, 20)


In [4]:
df.to_parquet('./data/cleaned/combined_yellow_tripdata_2024_2026.parquet')

In [5]:
df

Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,Airport_fee,cbd_congestion_fee
0,2,2024-01-01 00:57:55,2024-01-01 01:17:43,1.0,1.72,1.0,N,186,79,2,17.70,1.0,0.5,0.00,0.00,1.0,22.70,2.5,0.0,
1,1,2024-01-01 00:03:00,2024-01-01 00:09:36,1.0,1.80,1.0,N,140,236,1,10.00,3.5,0.5,3.75,0.00,1.0,18.75,2.5,0.0,
2,1,2024-01-01 00:17:06,2024-01-01 00:35:01,1.0,4.70,1.0,N,236,79,1,23.30,3.5,0.5,3.00,0.00,1.0,31.30,2.5,0.0,
3,1,2024-01-01 00:36:38,2024-01-01 00:44:56,1.0,1.40,1.0,N,79,211,1,10.00,3.5,0.5,2.00,0.00,1.0,17.00,2.5,0.0,
4,1,2024-01-01 00:46:51,2024-01-01 00:52:57,1.0,0.80,1.0,N,211,148,1,7.90,3.5,0.5,3.20,0.00,1.0,16.10,2.5,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85587311,2,2025-11-30 23:12:44,2025-11-30 23:43:26,,10.62,,,68,169,0,33.16,0.0,0.5,0.00,6.94,1.0,44.85,,,0.75
85587312,1,2025-11-30 23:10:35,2025-11-30 23:28:24,,6.50,,,48,116,0,22.17,0.0,0.5,0.00,0.00,1.0,26.92,,,0.75
85587313,2,2025-11-30 23:09:43,2025-11-30 23:36:08,,8.10,,,145,152,0,-4.75,0.0,0.5,0.00,0.00,1.0,4.06,,,0.75
85587314,1,2025-11-30 23:29:41,2025-11-30 23:47:09,,5.60,,,116,48,0,21.42,0.0,0.5,0.00,0.00,1.0,26.17,,,0.75


In [6]:
print("Chargé — lignes :", len(df), "colonnes :", df.shape[1])

Chargé — lignes : 85587316 colonnes : 20


In [9]:
download_taxi_zones()

Téléchargement des zones de taxi depuis https://d37ci6vzurychx.cloudfront.net/misc/taxi_zone_lookup.csv
Fichier CSV sauvegardé: ./data/cleaned/taxi_zones.csv
Fichier converti en parquet: ./data/cleaned/taxi_zones.parquet
Fichier CSV supprimé


In [10]:
taxi_zones_df = pd.read_parquet('./data/cleaned/taxi_zones.parquet')
taxi_zones_df

Unnamed: 0,LocationID,Borough,Zone,service_zone
0,1,EWR,Newark Airport,EWR
1,2,Queens,Jamaica Bay,Boro Zone
2,3,Bronx,Allerton/Pelham Gardens,Boro Zone
3,4,Manhattan,Alphabet City,Yellow Zone
4,5,Staten Island,Arden Heights,Boro Zone
...,...,...,...,...
260,261,Manhattan,World Trade Center,Yellow Zone
261,262,Manhattan,Yorkville East,Yellow Zone
262,263,Manhattan,Yorkville West,Yellow Zone
263,264,Unknown,,


In [None]:
# Inspection du DataFrame combiné
print("=" * 80)
print("INSPECTION GÉNÉRALE DU DATASET")
print("=" * 80)
print(f"Dimensions: {df.shape[0]} lignes × {df.shape[1]} colonnes")
print(f"\nTypes de données:\n{df.dtypes}")
print(f"\n{'Colonne':<30} {'Non-Null':<12} {'Null':<12} {'% Manquant':<12}")
print("-" * 80)
for col in df.columns:
    null_count = df[col].isna().sum()
    non_null_count = len(df) - null_count
    pct_missing = (null_count / len(df)) * 100
    print(f"{col:<30} {non_null_count:<12} {null_count:<12} {pct_missing:>10.2f}%")

print(f"\nStatistiques descriptives:\n{df.describe()}")
print(f"\nMémoire utilisée: {df.memory_usage(deep=True).sum() / 1e9:.2f} GB")

INSPECTION GÉNÉRALE DU DATASET
Dimensions: 85587316 lignes × 20 colonnes

Types de données:
VendorID                          int32
tpep_pickup_datetime     datetime64[us]
tpep_dropoff_datetime    datetime64[us]
passenger_count                 float64
trip_distance                   float64
RatecodeID                      float64
store_and_fwd_flag               object
PULocationID                      int32
DOLocationID                      int32
payment_type                      int64
fare_amount                     float64
extra                           float64
mta_tax                         float64
tip_amount                      float64
tolls_amount                    float64
improvement_surcharge           float64
total_amount                    float64
congestion_surcharge            float64
Airport_fee                     float64
cbd_congestion_fee              float64
dtype: object

Colonne                        Non-Null     Null         % Manquant  
-----------------------