## âœ¨ 1. Connexion PySpark â†” MinIO

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
  .master("local[*]") \
  .appName("TP Bronze Silver Gold") \
  .config("spark.jars.packages", "org.apache.hadoop:hadoop-aws:3.3.4") \
  .config("spark.hadoop.fs.s3a.endpoint", "http://minio:9000") \
  .config("spark.hadoop.fs.s3a.access.key", "minioadmin") \
  .config("spark.hadoop.fs.s3a.secret.key", "minioadmin") \
  .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
  .config("spark.hadoop.fs.s3a.path.style.access", "true") \
  .getOrCreate()

print(f"âœ… SparkSession crÃ©Ã©e : {spark.version}")
print(f"ðŸ“Š Spark UI disponible sur : http://localhost:4040")

## ðŸ¥‰ 2. Layer Bronze : Ingestion brute

Lecture du CSV depuis MinIO et sauvegarde en format Parquet.

In [None]:
# Lecture du CSV depuis MinIO
df_bronze = spark.read.csv(
    "s3a://datalake/bronze/ventes/ventes.csv",
    header=True,
    inferSchema=True
)

print("ðŸ¥‰ Layer BRONZE - DonnÃ©es brutes :")
df_bronze.show()
df_bronze.printSchema()

In [None]:
# Sauvegarde en Parquet dans Bronze
df_bronze.write.mode("overwrite").parquet("s3a://datalake/bronze/ventes/parquet/")

print("âœ… DonnÃ©es Bronze sauvegardÃ©es en Parquet dans s3a://datalake/bronze/ventes/parquet/")

## ðŸ¥ˆ 3. Layer Silver : Nettoyage + typage

Transformations :
- Suppression des lignes nulles
- Typage correct des colonnes
- CrÃ©ation d'une colonne `montant_total`

In [None]:
from pyspark.sql.functions import col, expr

df_silver = (
    df_bronze
    .dropna()  # Suppression des lignes nulles
    .withColumn("prix", col("prix").cast("double"))  # Typage prix
    .withColumn("quantite", col("quantite").cast("int"))  # Typage quantitÃ©
    .withColumn("montant_total", expr("prix * quantite"))  # Calcul montant total
)

print("ðŸ¥ˆ Layer SILVER - DonnÃ©es nettoyÃ©es et typÃ©es :")
df_silver.show()
df_silver.printSchema()

In [None]:
# Sauvegarde en Parquet dans Silver
df_silver.write.mode("overwrite").parquet("s3a://datalake/silver/ventes/")

print("âœ… DonnÃ©es Silver sauvegardÃ©es en Parquet dans s3a://datalake/silver/ventes/")

## ðŸ¥‡ 4. Layer Gold : Vue analytique - CA par produit

AgrÃ©gation pour calculer le chiffre d'affaires total par produit.

In [None]:
from pyspark.sql.functions import sum as _sum, count, round as _round

df_gold = (
    df_silver
    .groupBy("produit")
    .agg(
        _sum("montant_total").alias("chiffre_affaires"),
        _sum("quantite").alias("quantite_totale"),
        count("id").alias("nombre_ventes")
    )
    .withColumn("chiffre_affaires", _round(col("chiffre_affaires"), 2))
    .orderBy(col("chiffre_affaires").desc())
)

print("ðŸ¥‡ Layer GOLD - Chiffre d'affaires par produit :")
df_gold.show()

In [None]:
# Sauvegarde en Parquet dans Gold
df_gold.write.mode("overwrite").parquet("s3a://datalake/gold/ca_par_produit/")

print("âœ… DonnÃ©es Gold sauvegardÃ©es en Parquet dans s3a://datalake/gold/ca_par_produit/")

## ðŸŽ‰ RÃ©capitulatif

Vous avez crÃ©Ã© un pipeline ETL complet !

### Architecture des donnÃ©es dans MinIO :

```
datalake/
â”œâ”€â”€ bronze/
â”‚   â””â”€â”€ ventes/
â”‚       â”œâ”€â”€ ventes.csv (source)
â”‚       â””â”€â”€ parquet/ (format parquet)
â”œâ”€â”€ silver/
â”‚   â””â”€â”€ ventes/ (donnÃ©es nettoyÃ©es)
â””â”€â”€ gold/
    â””â”€â”€ ca_par_produit/ (agrÃ©gations)
```

### VÃ©rification dans MinIO :

Allez sur http://localhost:9001 et explorez le bucket `datalake` pour voir tous les fichiers Parquet crÃ©Ã©s !

### ArrÃªter Spark :

In [None]:
# ArrÃªter la session Spark
spark.stop()
print("âœ… SparkSession arrÃªtÃ©e")