# Étape 4 — Jointures (Merge) et enrichissement des ventes

L’objectif de cette étape est d’enrichir les données de ventes (`order_lines`)
avec les informations issues des fichiers clients (`customers`) et produits
(`products`) afin de produire une table d’analyse unique.

Cette étape inclut la vérification des clés de jointure, le contrôle de la
qualité des merges, le recalcul de certaines variables business et une
mini-analyse après enrichissement.

**Import des librairies**

In [None]:
# Import des librairies nécessaires aux jointures et contrôles de qualité

import pandas as pd
import numpy as np

# Options d'affichage pour une meilleure lisibilité des DataFrames
pd.set_option("display.max_columns", None)
pd.set_option("display.float_format", "{:,.2f}".format)

**Chargement des données nettoyées**

In [None]:
# Chargement des données nettoyées depuis le dossier data/processed

order_lines = pd.read_csv("../data/processed/order_lines_clean.csv")
customers = pd.read_csv("../data/processed/customers_clean.csv")
products = pd.read_csv("../data/processed/products_clean.csv")

# Vérification rapide des dimensions des jeux de données
print("order_lines :", order_lines.shape)
print("customers   :", customers.shape)
print("products    :", products.shape)

**Vérification des clés clients (customer_id)**

In [None]:
# Vérification de la présence des clés customer_id dans les ventes et les clients

# Nombre de customer_id distincts dans chaque fichier
nb_customers_orders = order_lines["customer_id"].nunique()
nb_customers_customers = customers["customer_id"].nunique()

print(f"Nombre de clients distincts dans order_lines : {nb_customers_orders}")
print(f"Nombre de clients distincts dans customers   : {nb_customers_customers}")

# Identification des customer_id présents dans les ventes mais absents des clients
customers_manquants = set(order_lines["customer_id"]) - set(customers["customer_id"])

print(f"Nombre de customer_id présents dans les ventes mais absents des clients : {len(customers_manquants)}")

**Vérification des clés produits (product_id)**

In [None]:
# Vérification de la présence des clés product_id dans les ventes et les produits

# Nombre de product_id distincts dans chaque fichier
nb_products_orders = order_lines["product_id"].nunique()
nb_products_products = products["product_id"].nunique()

print(f"Nombre de produits distincts dans order_lines : {nb_products_orders}")
print(f"Nombre de produits distincts dans products    : {nb_products_products}")

# Identification des product_id présents dans les ventes mais absents du catalogue produits
products_manquants = set(order_lines["product_id"]) - set(products["product_id"])

print(f"Nombre de product_id présents dans les ventes mais absents des produits : {len(products_manquants)}")