# Mini-Projet : Analyse de Trafic Urbain (NYC Taxi Like)

Ce notebook est un projet complet qui simule une analyse Big Data de A à Z. Comptez environ 2 à 3 heures pour bien comprendre et explorer.

## Scénario
Vous êtes Data Engineer pour une startup de mobilité. On vous fournit des logs bruts de trajets de taxi. Votre mission :
1. Nettoyer les données (gestion des dates, des prix aberrants).
2. Enrichir les données (calculer la vitesse moyenne).
3. Produire des agrégats pour l'équipe BI (Revenu par heure, Zones les plus fréquentées).
4. Exporter les données propres.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
import random
import datetime

spark = SparkSession.builder.appName("NYC Taxi Mini Project").master("local[*]").getOrCreate()

## 1. Génération de Données Synthétiques (Massives)
Pour simuler le Big Data, nous allons générer un DataFrame de 10 000 lignes (imaginons 10 millions).

In [None]:
# Code de génération (ne pas modifier)
# Simule : id, pickup_time, dropoff_time, distance_km, fare_amount, zone

def generate_fake_data(num_rows=10000):
    data = []
    zones = ["Manhattan", "Brooklyn", "Queens", "Bronx", "Staten Island"]
    base_time = datetime.datetime(2023, 1, 1, 0, 0, 0)
    
    for i in range(num_rows):
        pickup = base_time + datetime.timedelta(minutes=random.randint(0, 10000))
        duration = random.randint(5, 120) # minutes
        dropoff = pickup + datetime.timedelta(minutes=duration)
        dist = round(random.uniform(1.0, 50.0), 2)
        fare = round(dist * 2.5 + 5 + random.uniform(0, 10), 2)
        if random.random() < 0.05: fare = -10.0 # Anomalie !
        zone = random.choice(zones)
        
        data.append((i, pickup, dropoff, dist, fare, zone))
    return data

schema = StructType([
    StructField("trip_id", IntegerType(), False),
    StructField("pickup_datetime", TimestampType(), True),
    StructField("dropoff_datetime", TimestampType(), True),
    StructField("distance_km", DoubleType(), True),
    StructField("fare_amount", DoubleType(), True),
    StructField("zone", StringType(), True)
])

raw_data = generate_fake_data()
df_raw = spark.createDataFrame(raw_data, schema)
df_raw.show(5)

## 2. Nettoyage (Data Cleaning)
TACHE : Supprimez les courses avec un montant négatif et les distances nulles.

In [None]:
# A COMPLETER
# df_clean = ...

## 3. Feature Engineering
TACHE : Créez une colonne `duration_minutes` (différence entre dropoff et pickup) et une colonne `speed_kmh`.

In [None]:
# A COMPLETER
# Hint : Utilisez unix_timestamp pour la différence de temps

## 4. Analyse Business (Aggregations)
TACHE : Calculez le revenu moyen par Zone et par Heure de la journée (Extraire l'heure de pickup).

In [None]:
# A COMPLETER

## 5. Export
Sauvegardez le résultat final nettoyé en Parquet partitionné par 'Zone'.

In [None]:
# df_final.write.partitionBy("zone").parquet("taxi_data_clean")