In [2]:
# Importation des modules Spark nécessaires
from pyspark.context import SparkContext
from pyspark.sql import SparkSession

In [None]:
# Création d'une session Spark avec des configurations spécifiques
spark = SparkSession.builder \
    .appName("Examen") \
    .config("spark.jars", "mysql-connector-java-8.0.28.jar") \
    .config("spark.driver.extraClassPath", "mysql-connector-java-8.0.28.jar") \
    .getOrCreate()


In [9]:
# Définition des paramètres de connexion à la base de données MySQL
jdbcUrl = "jdbc:mysql://localhost:3306/db_commerce"
username = "root"
password = ""

# Lecture des données de la table "clients" depuis MySQL dans un DataFrame Spark
clients = spark.read \
    .format("jdbc") \
    .option("url", jdbcUrl) \
    .option("user", username) \
    .option("password", password) \
    .option("dbtable", "clients") \
    .option("inferSchema", "true") \
    .load()

# Affichage des données
clients.show()


+---------+--------+------+--------------------+----------------+
|ID_CLIENT|     NOM|PRENOM|               EMAIL|         ADRESSE|
+---------+--------+------+--------------------+----------------+
|        1|   Smith|  John|john.smith@exampl...| 123 Main Street|
|        2| Johnson|  Jane|jane.johnson@exam...|  456 Elm Street|
|        3|Williams|   Bob|bob.williams@exam...|  789 Oak Street|
|        4|   Brown| Susan|susan.brown@examp...| 100 Park Avenue|
|        5|   Jones| David|david.jones@examp...|555 Maple Street|
|        6|   Smith|  John|john.smith@exampl...| 123 Main Street|
|        7| Johnson|  Jane|jane.johnson@exam...|  456 Elm Street|
|        8|Williams|   Bob|bob.williams@exam...|  789 Oak Street|
|        9|   Brown| Susan|susan.brown@examp...| 100 Park Avenue|
|       10|   Jones| David|david.jones@examp...|555 Maple Street|
+---------+--------+------+--------------------+----------------+



In [12]:
# Lecture des données de la table "commandes" depuis MySQL dans un DataFrame Spark
commandes = spark.read \
    .format("jdbc") \
    .option("url", jdbcUrl) \
    .option("user", username) \
    .option("password", password) \
    .option("dbtable", "commandes") \
    .option("inferSchema", "true") \
    .load()

# Affichage des données
commandes.show()


+-----------+-------------+-------------+---------+
|ID_COMMANDE|DATE_COMMANDE|MONTANT_TOTAL|ID_CLIENT|
+-----------+-------------+-------------+---------+
|          1|   2023-12-25|        59.99|        1|
|          2|   2024-01-05|       125.45|        2|
|          3|   2024-01-08|        89.75|        1|
|          4|   2024-01-10|        250.0|        1|
|          5|   2024-01-12|        39.95|        2|
+-----------+-------------+-------------+---------+



In [20]:
# Création de vues temporaires pour les DataFrames "clients" et "commandes"
clients.createOrReplaceTempView("clients")
commandes.createOrReplaceTempView("commandes")


In [29]:
# Exécution de la requête SQL pour afficher le nombre total de commandes passées par tous les clients
resultat_nombre_commandes = spark.sql("""
    SELECT cl.ID_CLIENT, COUNT(*)
    FROM clients cl
    commandes cm where cl.ID_CLIENT==cm.ID_CLIENT
    GROUP BY cl.ID_CLIENT
""")
resultat_nombre_commandes.show()



+---------+--------+
|ID_CLIENT|count(1)|
+---------+--------+
|        1|       3|
|        2|       2|
+---------+--------+



In [38]:
# Exécution de la requête SQL pour afficher le client qui a dépensé le plus en termes de montant total
resultat_client_depense_max = spark.sql("""
    SELECT cl.ID_CLIENT, SUM(cm.MONTANT_TOTAL) AS MONTANT_TOTAL
    FROM clients cl
    JOIN commandes cm ON cl.ID_CLIENT = cm.ID_CLIENT
    GROUP BY cl.ID_CLIENT
    ORDER BY MONTANT_TOTAL DESC
    LIMIT 1
""")

# Afficher le résultat
resultat_client_depense_max.show()


+---------+-------------+
|ID_CLIENT|MONTANT_TOTAL|
+---------+-------------+
|        1|       399.74|
+---------+-------------+



In [43]:
# Exécution de la requête SQL pour afficher la moyenne des montants totaux dépensés par client
resultat_moyenne_depenses_par_client = spark.sql("""
    SELECT
        clients.id_client,
        AVG(commandes.MONTANT_TOTAL) AS AVG
    FROM
        clients
        INNER JOIN commandes ON clients.ID_CLIENT = commandes.ID_CLIENT
    GROUP BY
        clients.ID_CLIENT
""")

# Afficher le résultat
resultat_moyenne_depenses_par_client.show()


+---------+------------------+
|id_client|               AVG|
+---------+------------------+
|        1|133.24666666666667|
|        2|              82.7|
+---------+------------------+

