# DE1 ‚Äî Final Project Notebook
> Author : Couzinet Lorenzo & Rabahi Enzo 

**Academic year:** 2025‚Äì2026  
**Program:** Data & Applications - Engineering - (FD)   
**Course:** Data Engineering I  

---

DataSet utilis√©: https://www.kaggle.com/datasets/sobhanmoosavi/us-accidents

## 0. Load config

In [31]:
import yaml, pathlib, datetime
from pyspark.sql import SparkSession, functions as F, types as T
import os

# Force Spark √† utiliser l'adresse locale (localhost) pour √©viter les erreurs r√©seaux
os.environ["SPARK_LOCAL_IP"] = "127.0.0.1"
os.environ["OBJC_DISABLE_INITIALIZE_FORK_SAFETY"] = "YES"

with open("de1_project_config.yml") as f:
    CFG = yaml.safe_load(f)

spark = SparkSession.builder \
    .appName("DE1-Project-Lakehouse") \
    .config("spark.driver.host", "127.0.0.1") \
    .config("spark.sql.sources.partitionOverwriteMode", "dynamic") \
    .getOrCreate()

CFG 

proof = CFG["paths"]["proof"]
# Fonction pour sauvegarder le Plan Physique (La preuve technique)
def save_execution_plan(df, filename):
    # On r√©cup√®re le plan "Expliqu√©" complet
    # mode="extended" donne le Parsed, Analyzed, Optimized et Physical plan
    plan = df._jdf.queryExecution().toString() 
    
    filepath = f"{proof}/{filename}.txt"
    with open(filepath, "w") as f:
        f.write(plan)
    print(f"Plan d'ex√©cution sauvegard√© dans : {filepath}")

print(f"Config loaded")

Config loaded


## 1. Bronze ‚Äî landing raw data

In [32]:
print("--- D√©marrage Bronze ---")

raw_glob = CFG["paths"]["raw_csv_glob"]
bronze = CFG["paths"]["bronze"]

df_raw = (spark.read.option("header","true").csv(raw_glob))
df_raw.write.mode("overwrite").csv(bronze)  # keep raw as CSV copy
print("Bronze written:", bronze)

# 1. Enrichissement : Ajout des colonnes d'audit (Timestamp + Source)
# On r√©utilise 'df_raw' qui est d√©j√† en m√©moire
df_bronze_enhanced = df_raw \
    .withColumn("_ingested_at", F.current_timestamp()) \
    .withColumn("_source_file", F.input_file_name())

# --- PREUVE ---
# Cela prouve que Spark effectue un "FileScan csv"
save_execution_plan(df_bronze_enhanced, "bronze_ingestion_plan")

# 2. Sauvegarde en Parquet (Plus rapide pour l'√©tape Silver)
# On d√©finit un nouveau chemin pour ne pas m√©langer avec le CSV
bronze_parquet = f"{bronze}_parquet"

df_bronze_enhanced.write.mode("overwrite").parquet(bronze_parquet)

print(f"Version enrichie (Parquet) √©crite dans : {bronze_parquet}")
print(f"Nombre de lignes ing√©r√©es : {df_bronze_enhanced.count()}")

--- D√©marrage Bronze ---


                                                                                

Bronze written: outputs/bronze
Plan d'ex√©cution sauvegard√© dans : proof/bronze_ingestion_plan.txt


26/01/04 12:39:58 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:40:05 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:40:05 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:40:06 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:40:06 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:40:13 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:40:14 WARN MemoryManag

Version enrichie (Parquet) √©crite dans : outputs/bronze_parquet




Nombre de lignes ing√©r√©es : 7728394


                                                                                

## 2. Silver ‚Äî cleaning and typing

In [33]:
from pyspark.sql import functions as F, types as T

print("--- D√©marrage Silver ---")

# 1. Configuration des chemins
# On lit le Bronze (version Parquet optimis√©e de l'√©tape pr√©c√©dente)
bronze_path = f"{CFG['paths']['bronze']}_parquet"
silver = CFG["paths"]["silver"]

# 2. Lecture
df_bronze = spark.read.parquet(bronze_path)

# 3. Transformation & Typage 
# On convertit les String en types r√©els (Timestamp, Int, Double)
df_silver = (df_bronze
    .select(
        F.col("ID").alias("accident_id"),
        F.col("Severity").cast("int"),
        F.col("Start_Time").cast("timestamp").alias("event_time"),
        F.col("State"),
        F.col("City"),
        F.col("Temperature(F)").cast("double").alias("temp_f"),
        F.col("Weather_Condition"),
        F.col("_ingested_at"), # On garde la tra√ßabilit√©
        F.col("_source_file")
    )
    # 4. Nettoyage : On supprime les lignes sans date ou sans √©tat
    .dropna(subset=["event_time", "State", "accident_id"])
)

# --- PREUVE ---
# Sauvegarde le plan d'ex√©cution avant l'√©criture
save_execution_plan(df_silver, "silver_transformation_plan")

# 4. √âcriture avec Partitionnement
# On r√©cup√®re la colonne de partition depuis la config (ex: ["State"])
partition_cols = CFG['layout']['partition_by']

print(f"√âcriture dans {silver} (Partitionn√© par {partition_cols})...")
df_silver.write.mode("overwrite").parquet(silver)
print("Silver written:", silver)

print(f"Nombre de lignes ing√©r√©es : {df_silver.count()}")

--- D√©marrage Silver ---
Plan d'ex√©cution sauvegard√© dans : proof/silver_transformation_plan.txt
√âcriture dans outputs/silver (Partitionn√© par ['State'])...


26/01/04 12:40:54 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:40:57 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
                                                                                

Silver written: outputs/silver
Nombre de lignes ing√©r√©es : 7728394


                                                                                

## 3. Gold ‚Äî analytics tables

In [34]:
print("--- D√©marrage Gold ---")

silver_path = CFG["paths"]["silver"]
gold_path = CFG["paths"]["gold"]

# 1. Lecture de la couche Silver
df_silver = spark.read.parquet(silver_path)

# --- KPI 1 : Statistiques par √âtat (Gravit√© moyenne & Total) ---
df_gold_state = (df_silver
    .groupBy("State")
    .agg(
        F.count("accident_id").alias("total_accidents"),
        F.round(F.avg("Severity"), 2).alias("avg_severity")
    )
    .orderBy(F.col("total_accidents").desc())
)

# --- KPI 2 : Analyse Temporelle (Par mois) ---
# On extrait le mois depuis event_time
df_gold_monthly = (df_silver
    .withColumn("Month", F.date_format("event_time", "yyyy-MM"))
    .groupBy("Month")
    .count()
    .orderBy("Month")
)

# --- PREUVE ---
# R√©f√©rence avant optimisation
save_execution_plan(df_gold_state, "gold_q1_baseline_plan")

# 3. √âcriture des r√©sultats
print("√âcriture des tables Gold...")
df_gold_state.write.mode("overwrite").parquet(f"{gold_path}/accidents_by_state")
df_gold_monthly.write.mode("overwrite").parquet(f"{gold_path}/accidents_by_month")

print(f"R√©sultats dans : {gold_path}")
print(f"Nombre de lignes de statistiques par Etat ing√©r√©es : {df_gold_state.count()}")
print(f"Nombre de lignes temporelle ing√©r√©es : {df_gold_monthly.count()}")

--- D√©marrage Gold ---
Plan d'ex√©cution sauvegard√© dans : proof/gold_q1_baseline_plan.txt
√âcriture des tables Gold...


                                                                                

R√©sultats dans : outputs/gold
Nombre de lignes de statistiques par Etat ing√©r√©es : 49
Nombre de lignes temporelle ing√©r√©es : 87


                                                                                

## 4. Baseline plans and metrics

In [None]:
print("--- D√©marrage Baseline Metrics ---")

# 1. Configuration
silver_path = CFG["paths"]["silver"]
gold_path = CFG["paths"]["gold"]

# Lecture de la table Silver (non-optimis√©e pour cette requ√™te)
df_silver = spark.read.parquet(silver_path)

# 2. D√©finition de la Requ√™te Q1 (Baseline)
# "Quels sont les √©tats avec le plus d'accidents graves ?"
# C'est une requ√™te lourde car elle doit scanner toute la table et grouper.
df_gold_q1_baseline = (df_silver
    .groupBy("State")
    .agg(
        F.count("accident_id").alias("total_accidents"),
        F.avg("Severity").alias("avg_severity")
    )
    .orderBy(F.col("total_accidents").desc())
)

# 3. PREUVE 1 : Sauvegarde du Plan Baseline
# Ce fichier montrera que Spark fait un gros scan (Scan Parquet)
save_execution_plan(df_gold_q1_baseline, "q1_baseline_plan")

# 4. Ex√©cution pour Mesure (Baseline Time)
print("Lancement de l'ex√©cution Baseline (Q1)...")

# On √©crit le r√©sultat dans un dossier sp√©cifique "baseline"
# Le mode "overwrite" assure qu'on refait le calcul √† chaque fois
(df_gold_q1_baseline
    .write
    .mode("overwrite")
    .parquet(f"{gold_path}/q1_baseline_results")
)

print("Baseline termin√©e.")
print("ACTION REQUISE :")
print("1. Il faut aller sur http://localhost:4040 -> Onglet 'SQL'")
print("2. Rep√®rer la derni√®re requ√™te (Duration) puis noter ce temps.")


--- D√©marrage Baseline Metrics ---
Plan d'ex√©cution sauvegard√© dans : proof/q1_baseline_plan.txt
Lancement de l'ex√©cution Baseline (Q1)...
Baseline termin√©e.
ACTION REQUISE :
1. Il faut aller sur http://localhost:4040 -> Onglet 'SQL'
2. Rep√®rer la derni√®re requ√™te (Duration) puis noter ce temps (ex: 4s).


## 5. Optimization ‚Äî layout and joins

In [None]:
print("--- D√©marrage Optimization ---")

silver_path = CFG["paths"]["silver"]
# Chemin pour la table optimis√©e
optimized_path = f"{CFG['paths']['silver']}_optimized_by_year"

# 1. Lecture de la table Silver existante (Partitionn√©e par State)
df_silver = spark.read.parquet(silver_path)

# --- PR√âPARATION DE L'OPTIMISATION ---
# On cr√©e une nouvelle structure physique partitionn√©e par ANN√âE
# Cela prend un peu de temps √† √©crire, mais rendra la lecture future instantan√©e.
print("Cr√©ation de la table optimis√©e (Partitionn√©e par Ann√©e)...")

df_optimized = df_silver.withColumn("year_part", F.year("event_time"))

(df_optimized
    .write
    .mode("overwrite")
    .partitionBy("year_part") # <--- L'optimisation est ici
    .parquet(optimized_path)
)

# --- LE DUEL : SC√âNARIO A vs SC√âNARIO B ---
# Requ√™te : "Compter les accidents survenus en 2021"

# CAS A : Sur la table rang√©e par √âTAT (Silver standard)
print("\n--- TEST A : Table Standard (Partition=State) ---")
print("Spark doit scanner tous les dossiers d'√©tats pour trouver 2021.")

# On vide le cache pour √™tre √©quitable
spark.catalog.clearCache()

# On lance la requ√™te
df_silver.filter(F.year("event_time") == 2021).count()
print("ACTION REQUISE :")
print("1. Il faut aller sur http://localhost:4040 -> Onglet 'SQL'")
print("2. Rep√®rer la derni√®re requ√™te (Duration) puis noter ce temps.")


# CAS B : Sur la table rang√©e par ANN√âE (Optimis√©e)
print("\n--- TEST B : Table Optimis√©e (Partition=Year) ---")
print("Spark doit lire UNIQUEMENT le dossier year_part=2021.")

spark.catalog.clearCache()
df_opt_read = spark.read.parquet(optimized_path)

# On lance la m√™me requ√™te
df_opt_read.filter(F.col("year_part") == 2021).count()
print("Optimisation termin√©e.")
print("ACTION REQUISE :")
print("1. Il faut aller sur http://localhost:4040 -> Onglet 'SQL'")
print("2. Rep√®rer la derni√®re requ√™te (Duration) puis noter ce temps.")

--- D√©marrage Optimization ---
Cr√©ation de la table optimis√©e (Partitionn√©e par Ann√©e)...


26/01/04 12:56:13 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:56:13 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:56:13 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:56:14 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:56:14 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:56:14 WARN MemoryManager: Total allocation exceeds 95,00% (1‚ÄØ020‚ÄØ054‚ÄØ720 bytes) of heap memory
Scaling row group sizes to 95,00% for 8 writers
26/01/04 12:56:14 WARN MemoryManag


--- TEST A : Table Standard (Partition=State) ---
Spark doit scanner tous les dossiers d'√©tats pour trouver 2021.
üëâ Action : Notez 'Files Read' dans le Stage correspondant sur Spark UI.

--- TEST B : Table Optimis√©e (Partition=Year) ---
Spark doit lire UNIQUEMENT le dossier year_part=2021.
Optimisation termin√©e.
ACTION REQUISE :
1. Il faut aller sur http://localhost:4040 -> Onglet 'SQL'
2. Rep√®rer la derni√®re requ√™te (Duration) puis noter ce temps.


## 6. Cleanup

In [37]:
spark.stop()
print("Spark session stopped.")


Spark session stopped.
