In [0]:
# V√©rification de l'environnement (compatible serverless)
print("=" * 50)
print("ENVIRONNEMENT DATABRICKS")
print("=" * 50)
print(f"Version Spark : {spark.version}")
import sys
print(f"Langage : Python {sys.version.split()[0]}")
print(f"Type de cluster : Serverless")
print(f"Pr√™t pour la formation !")
print("=" * 50)

ENVIRONNEMENT DATABRICKS
‚úÖ Version Spark : 4.0.0
‚úÖ Langage : Python 3.12.3
‚úÖ Type de cluster : Serverless
‚úÖ Pr√™t pour la formation !


In [0]:
# Cr√©er un dataset d'exemple : ventes d'un e-commerce
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType, TimestampType
from datetime import datetime

# Donn√©es brutes (simulation de fichier CSV)
data_ventes = [
    (1, "2025-10-01 10:30:00", "Alice", "Laptop", 1200.00, "Paris", "Confirm√©e"),
    (2, "2025-10-01 11:15:00", "Bob", "Souris", 25.50, "Lyon", "Confirm√©e"),
    (3, "2025-10-02 09:20:00", "Claire", "Clavier", 75.00, "Paris", "Annul√©e"),
    (4, "2025-10-02 14:45:00", "David", "√âcran", 350.00, "Marseille", "Confirm√©e"),
    (5, "2025-10-03 16:00:00", "Emma", "Laptop", 1200.00, "Lyon", "Confirm√©e"),
    (6, "2025-10-03 17:30:00", "Alice", "Souris", 25.50, "Paris", "Confirm√©e"),
    (7, "2025-10-04 10:00:00", None, "Clavier", 75.00, None, "En attente"),
    (8, "2025-10-04 12:00:00", "Bob", "√âcran", -50.00, "Lyon", "Confirm√©e"),
]

# Sch√©ma du DataFrame
schema = StructType([
    StructField("id_commande", IntegerType(), True),
    StructField("date_commande", StringType(), True),
    StructField("client", StringType(), True),
    StructField("produit", StringType(), True),
    StructField("montant", DoubleType(), True),
    StructField("ville", StringType(), True),
    StructField("statut", StringType(), True)
])

# Cr√©er le DataFrame (couche BRONZE - donn√©es brutes)
df_bronze = spark.createDataFrame(data_ventes, schema)

print("COUCHE BRONZE - Donn√©es brutes charg√©es")
print(f"Nombre de lignes : {df_bronze.count()}")
df_bronze.show()

COUCHE BRONZE - Donn√©es brutes charg√©es
Nombre de lignes : 8
+-----------+-------------------+------+-------+-------+---------+----------+
|id_commande|      date_commande|client|produit|montant|    ville|    statut|
+-----------+-------------------+------+-------+-------+---------+----------+
|          1|2025-10-01 10:30:00| Alice| Laptop| 1200.0|    Paris| Confirm√©e|
|          2|2025-10-01 11:15:00|   Bob| Souris|   25.5|     Lyon| Confirm√©e|
|          3|2025-10-02 09:20:00|Claire|Clavier|   75.0|    Paris|   Annul√©e|
|          4|2025-10-02 14:45:00| David|  √âcran|  350.0|Marseille| Confirm√©e|
|          5|2025-10-03 16:00:00|  Emma| Laptop| 1200.0|     Lyon| Confirm√©e|
|          6|2025-10-03 17:30:00| Alice| Souris|   25.5|    Paris| Confirm√©e|
|          7|2025-10-04 10:00:00|  NULL|Clavier|   75.0|     NULL|En attente|
|          8|2025-10-04 12:00:00|   Bob|  √âcran|  -50.0|     Lyon| Confirm√©e|
+-----------+-------------------+------+-------+-------+---------+----

In [0]:
from pyspark.sql.functions import col, to_timestamp, when, trim

print("TRANSFORMATION : BRONZE ‚Üí SILVER")
print("=" * 50)

# 1. Convertir la date en format Timestamp
df_silver = df_bronze.withColumn(
    "date_commande", 
    to_timestamp(col("date_commande"), "yyyy-MM-dd HH:mm:ss")
)

# 2. Filtrer les lignes avec des valeurs NULL dans les colonnes critiques
df_silver = df_silver.filter(
    col("client").isNotNull() & 
    col("ville").isNotNull()
)

# 3. Filtrer les montants invalides (n√©gatifs ou nuls)
df_silver = df_silver.filter(
    (col("montant") > 0)
)

# 4. Nettoyer les espaces dans les textes
df_silver = df_silver.withColumn("client", trim(col("client")))
df_silver = df_silver.withColumn("ville", trim(col("ville")))
df_silver = df_silver.withColumn("produit", trim(col("produit")))

# 5. Ajouter une colonne calcul√©e : cat√©gorie de prix
df_silver = df_silver.withColumn(
    "categorie_prix",
    when(col("montant") < 50, "√âconomique")
    .when((col("montant") >= 50) & (col("montant") < 500), "Standard")
    .otherwise("Premium")
)

print(f"Lignes avant nettoyage : {df_bronze.count()}")
print(f"Lignes apr√®s nettoyage : {df_silver.count()}")
print(f"Lignes supprim√©es : {df_bronze.count() - df_silver.count()}")
print("\n COUCHE SILVER - Donn√©es nettoy√©es :")
df_silver.show()

TRANSFORMATION : BRONZE ‚Üí SILVER
Lignes avant nettoyage : 8
Lignes apr√®s nettoyage : 6
Lignes supprim√©es : 2

 COUCHE SILVER - Donn√©es nettoy√©es :
+-----------+-------------------+------+-------+-------+---------+---------+--------------+
|id_commande|      date_commande|client|produit|montant|    ville|   statut|categorie_prix|
+-----------+-------------------+------+-------+-------+---------+---------+--------------+
|          1|2025-10-01 10:30:00| Alice| Laptop| 1200.0|    Paris|Confirm√©e|       Premium|
|          2|2025-10-01 11:15:00|   Bob| Souris|   25.5|     Lyon|Confirm√©e|    √âconomique|
|          3|2025-10-02 09:20:00|Claire|Clavier|   75.0|    Paris|  Annul√©e|      Standard|
|          4|2025-10-02 14:45:00| David|  √âcran|  350.0|Marseille|Confirm√©e|      Standard|
|          5|2025-10-03 16:00:00|  Emma| Laptop| 1200.0|     Lyon|Confirm√©e|       Premium|
|          6|2025-10-03 17:30:00| Alice| Souris|   25.5|    Paris|Confirm√©e|    √âconomique|
+---------

In [0]:
from pyspark.sql.functions import sum, count, avg, max, min

print("AGR√âGATION : SILVER ‚Üí GOLD")
print("=" * 50)

# M√©triques par ville
df_gold_ville = df_silver.groupBy("ville").agg(
    count("id_commande").alias("nombre_commandes"),
    sum("montant").alias("chiffre_affaires"),
    avg("montant").alias("panier_moyen"),
    count("client").alias("nombre_clients")
).orderBy(col("chiffre_affaires").desc())

print("\n COUCHE GOLD - M√©triques par ville :")
df_gold_ville.show()

# M√©triques par produit
df_gold_produit = df_silver.groupBy("produit").agg(
    count("id_commande").alias("quantite_vendue"),
    sum("montant").alias("revenu_total"),
    avg("montant").alias("prix_moyen")
).orderBy(col("revenu_total").desc())

print("\n COUCHE GOLD - M√©triques par produit :")
df_gold_produit.show()

# Vue d'ensemble
print("\n R√âSUM√â GLOBAL :")
print(f"Chiffre d'affaires total : {df_silver.agg(sum('montant')).collect()[0][0]:.2f} ‚Ç¨")
print(f"Nombre total de commandes : {df_silver.count()}")
print(f"Nombre de villes : {df_silver.select('ville').distinct().count()}")
print(f"Nombre de produits : {df_silver.select('produit').distinct().count()}")

AGR√âGATION : SILVER ‚Üí GOLD

 COUCHE GOLD - M√©triques par ville :
+---------+----------------+----------------+------------+--------------+
|    ville|nombre_commandes|chiffre_affaires|panier_moyen|nombre_clients|
+---------+----------------+----------------+------------+--------------+
|    Paris|               3|          1300.5|       433.5|             3|
|     Lyon|               2|          1225.5|      612.75|             2|
|Marseille|               1|           350.0|       350.0|             1|
+---------+----------------+----------------+------------+--------------+


 COUCHE GOLD - M√©triques par produit :
+-------+---------------+------------+----------+
|produit|quantite_vendue|revenu_total|prix_moyen|
+-------+---------------+------------+----------+
| Laptop|              2|      2400.0|    1200.0|
|  √âcran|              1|       350.0|     350.0|
|Clavier|              1|        75.0|      75.0|
| Souris|              2|        51.0|      25.5|
+-------+-----------

In [0]:
print("SAUVEGARDE DANS DELTA LAKE")
print("=" * 50)

# D√©finir le chemin de stockage (DBFS = Databricks File System)
path_bronze = "/tmp/formation/bronze/ventes"
path_silver = "/tmp/formation/silver/ventes"
path_gold_ville = "/tmp/formation/gold/ventes_par_ville"
path_gold_produit = "/tmp/formation/gold/ventes_par_produit"

# Sauvegarder Bronze
df_bronze.write.format("delta").mode("overwrite").save(path_bronze)
print(f"Couche BRONZE sauvegard√©e : {path_bronze}")

# Sauvegarder Silver
df_silver.write.format("delta").mode("overwrite").save(path_silver)
print(f"Couche SILVER sauvegard√©e : {path_silver}")

# Sauvegarder Gold
df_gold_ville.write.format("delta").mode("overwrite").save(path_gold_ville)
print(f"Couche GOLD (ville) sauvegard√©e : {path_gold_ville}")

df_gold_produit.write.format("delta").mode("overwrite").save(path_gold_produit)
print(f"Couche GOLD (produit) sauvegard√©e : {path_gold_produit}")

print("\n Pipeline termin√©e avec succ√®s !")

SAUVEGARDE DANS DELTA LAKE
Couche BRONZE sauvegard√©e : /tmp/formation/bronze/ventes
Couche SILVER sauvegard√©e : /tmp/formation/silver/ventes
Couche GOLD (ville) sauvegard√©e : /tmp/formation/gold/ventes_par_ville
Couche GOLD (produit) sauvegard√©e : /tmp/formation/gold/ventes_par_produit

 Pipeline termin√©e avec succ√®s !


In [0]:
print("CR√âATION DES TABLES MANAG√âES")
print("=" * 70)

# Cr√©er le schema
spark.sql("CREATE SCHEMA IF NOT EXISTS formation")
print("Schema 'formation' cr√©√©")

# V√©rifier que les DataFrames existent
print("\nüîç V√©rification des DataFrames...")
try:
    print(f"  df_bronze : {df_bronze.count()} lignes")
    print(f"  df_silver : {df_silver.count()} lignes")
    print(f"  df_gold_ville : {df_gold_ville.count()} lignes")
    print(f"  df_gold_produit : {df_gold_produit.count()} lignes")
except:
    print("Les DataFrames n'existent pas. Ex√©cutez d'abord les cellules 2, 3 et 4 !")
    raise

print("\nCr√©ation des tables...")

# Bronze
df_bronze.write.format("delta").mode("overwrite").saveAsTable("formation.ventes_bronze")
print("Table formation.ventes_bronze cr√©√©e")

# Silver
df_silver.write.format("delta").mode("overwrite").saveAsTable("formation.ventes_silver")
print("Table formation.ventes_silver cr√©√©e")

# Gold - Ville
df_gold_ville.write.format("delta").mode("overwrite").saveAsTable("formation.ventes_gold_ville")
print("Table formation.ventes_gold_ville cr√©√©e")

# Gold - Produit
df_gold_produit.write.format("delta").mode("overwrite").saveAsTable("formation.ventes_gold_produit")
print("Table formation.ventes_gold_produit cr√©√©e")

print("\n Toutes les tables sont pr√™tes !")
print("Les donn√©es sont g√©r√©es automatiquement par Databricks")

CR√âATION DES TABLES MANAG√âES
Schema 'formation' cr√©√©

üîç V√©rification des DataFrames...
  df_bronze : 8 lignes
  df_silver : 6 lignes
  df_gold_ville : 3 lignes
  df_gold_produit : 4 lignes

Cr√©ation des tables...
Table formation.ventes_bronze cr√©√©e
Table formation.ventes_silver cr√©√©e
Table formation.ventes_gold_ville cr√©√©e
Table formation.ventes_gold_produit cr√©√©e

 Toutes les tables sont pr√™tes !
Les donn√©es sont g√©r√©es automatiquement par Databricks


In [0]:
print("V√âRIFICATION DES TABLES")
print("=" * 70)

tables = spark.sql("SHOW TABLES IN formation").collect()

for table in tables:
    table_name = table.tableName
    count = spark.sql(f"SELECT COUNT(*) as cnt FROM formation.{table_name}").collect()[0]['cnt']
    print(f"{table_name:30} : {count} lignes")

print("\nTout est pr√™t pour les requ√™tes SQL !")

V√âRIFICATION DES TABLES
ventes_bronze                  : 8 lignes
ventes_gold_produit            : 4 lignes
ventes_gold_ville              : 3 lignes
ventes_silver                  : 6 lignes

Tout est pr√™t pour les requ√™tes SQL !


In [0]:
%sql
SELECT 
    id_commande,
    date_commande,
    client,
    produit,
    montant,
    ville,
    statut,
    categorie_prix
FROM formation.ventes_silver
ORDER BY montant DESC

id_commande,date_commande,client,produit,montant,ville,statut,categorie_prix
1,2025-10-01T10:30:00.000Z,Alice,Laptop,1200.0,Paris,Confirm√©e,Premium
5,2025-10-03T16:00:00.000Z,Emma,Laptop,1200.0,Lyon,Confirm√©e,Premium
4,2025-10-02T14:45:00.000Z,David,√âcran,350.0,Marseille,Confirm√©e,Standard
3,2025-10-02T09:20:00.000Z,Claire,Clavier,75.0,Paris,Annul√©e,Standard
2,2025-10-01T11:15:00.000Z,Bob,Souris,25.5,Lyon,Confirm√©e,√âconomique
6,2025-10-03T17:30:00.000Z,Alice,Souris,25.5,Paris,Confirm√©e,√âconomique


In [0]:
%sql
-- Classement des villes
SELECT 
    ville,
    chiffre_affaires,
    nombre_commandes,
    ROUND(panier_moyen, 2) as panier_moyen
FROM formation.ventes_gold_ville
ORDER BY chiffre_affaires DESC

ville,chiffre_affaires,nombre_commandes,panier_moyen
Paris,1300.5,3,433.5
Lyon,1225.5,2,612.75
Marseille,350.0,1,350.0


In [0]:
%sql
-- Produits les plus vendus
SELECT 
    produit,
    quantite_vendue,
    ROUND(revenu_total, 2) as revenu_total,
    ROUND(prix_moyen, 2) as prix_moyen
FROM formation.ventes_gold_produit
ORDER BY quantite_vendue DESC

produit,quantite_vendue,revenu_total,prix_moyen
Souris,2,51.0,25.5
Laptop,2,2400.0,1200.0
√âcran,1,350.0,350.0
Clavier,1,75.0,75.0


In [0]:
%sql
-- Produits les plus vendus
SELECT 
    produit,
    quantite_vendue,
    ROUND(revenu_total, 2) as revenu_total,
    ROUND(prix_moyen, 2) as prix_moyen
FROM formation.ventes_gold_produit
ORDER BY quantite_vendue DESC

produit,quantite_vendue,revenu_total,prix_moyen
Souris,2,51.0,25.5
Laptop,2,2400.0,1200.0
√âcran,1,350.0,350.0
Clavier,1,75.0,75.0


In [0]:
%sql
-- Quel client a d√©pens√© le plus ?
SELECT 
    client,
    ville,
    COUNT(*) as nombre_achats,
    SUM(montant) as total_depense,
    ROUND(AVG(montant), 2) as panier_moyen
FROM formation.ventes_silver
GROUP BY client, ville
ORDER BY total_depense DESC

client,ville,nombre_achats,total_depense,panier_moyen
Alice,Paris,2,1225.5,612.75
Emma,Lyon,1,1200.0,1200.0
David,Marseille,1,350.0,350.0
Claire,Paris,1,75.0,75.0
Bob,Lyon,1,25.5,25.5
