In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from utils.etoile_ventes_avis import graphe_etoile_ventes_avis
import seaborn as sns
DATA_PATH = "../donnees/ecommerce/"

In [None]:
dot_ventes = graphe_etoile_ventes_avis()
dot_ventes

In [None]:
orders    = pd.read_parquet(DATA_PATH + "orders.parquet")
payments  = pd.read_parquet(DATA_PATH + "payments.parquet")
reviews   = pd.read_parquet(DATA_PATH + "reviews.parquet")
customers = pd.read_parquet(DATA_PATH + "customers.parquet")
geo       = pd.read_parquet(DATA_PATH + "geolocation.parquet")

In [None]:
print("Shapes brutes :")
print("orders   :", orders.shape)
print("payments :", payments.shape)
print("reviews  :", reviews.shape)
print("customers:", customers.shape)
print("geo      :", geo.shape)

In [None]:
# 1) Préparation des paiements (pivot par type de paiement)
pay = payments.rename(columns=lambda c: c.replace("payment_", ""))

pay_pivot = (
    pay
    .pivot_table(
        index="order_id",
        columns="type",
        values=["installments", "value"],
        aggfunc={"installments": "max", "value": "sum"}
    )
)

pay_pivot.columns = [f"{k}_{t}" for (k, t) in pay_pivot.columns]
pay_pivot = pay_pivot.rename(columns=lambda c: c.replace("installments_", "int_"))

value_cols = [c for c in pay_pivot.columns if c.startswith("value_")]
pay_pivot["value"] = pay_pivot[value_cols].sum(axis=1)

pay_pivot = pay_pivot.reset_index()


# 2) Préparation des avis (colonnes score, délais, longueur commentaire)
rev = reviews.copy()

base_cols = ["order_id"]
for c in ["score", "creation", "answer", "comment"]:
    if c in rev.columns:
        base_cols.append(c)

detail_cols = [
    c for c in rev.columns
    if (
        c.startswith("score_")
        or c.startswith("creation_")
        or c.startswith("answer_")
        or (c.startswith("comment_") and c != "comment")
    )
]

cols_reviews = list(dict.fromkeys(base_cols + detail_cols))

reviews_dim = rev[cols_reviews].copy()
if "comment" in reviews_dim.columns:
    reviews_dim = reviews_dim.rename(columns={"comment": "comment_length"})


# 3) Préparation des infos client (clé client + zip_code)
cust_fact = customers[["customer_id", "zip_code"]].copy()


# 3bis) Correction des durées dans orders (en mémoire)
orders = orders.copy()

delta_approuvee = orders["approved_at"] - orders["purchase_timestamp"]
delta_envoyee   = orders["delivered_carrier"] - orders["purchase_timestamp"]
delta_livree    = orders["delivered_customer"] - orders["purchase_timestamp"]
delta_estimee   = orders["estimated_delivery"] - orders["purchase_timestamp"]

orders["approuvee"] = delta_approuvee.dt.total_seconds() / 3600
orders["envoyee"]   = delta_envoyee.dt.total_seconds() / 3600
orders["livree"]    = delta_livree.dt.total_seconds() / 3600
orders["estimee"]   = delta_estimee.dt.total_seconds() / 3600


# 4) Construction de la table de faits F_VENTES_AVIS (jointures)
fact_orders_cols = [
    "order_id",
    "customer_id",
    "purchase_timestamp",
    "order_status",
    "approuvee",
    "envoyee",
    "livree",
    "estimee",
]
fact_orders_cols = [c for c in fact_orders_cols if c in orders.columns]

fact_orders = orders[fact_orders_cols].copy()

F_VENTES_AVIS = (
    fact_orders
    .merge(cust_fact,   on="customer_id", how="left")
    .merge(pay_pivot,   on="order_id",   how="left")
    .merge(reviews_dim, on="order_id",   how="left")
)

cols_schema = [
    "order_id",
    "customer_id",
    "zip_code",
    "purchase_timestamp",
    "order_status",
    "value",
    "approuvee",
    "envoyee",
    "livree",
    "estimee",
    "score",
    "creation",
    "answer",
    "comment_length",
]

extra_cols = [
    c for c in F_VENTES_AVIS.columns
    if c.startswith("value_")
    or c.startswith("int_")
    or c.startswith("score_")
    or c.startswith("creation_")
    or c.startswith("answer_")
    or (c.startswith("comment_") and c != "comment_length")
]

final_cols = [c for c in cols_schema + extra_cols if c in F_VENTES_AVIS.columns]
F_VENTES_AVIS = F_VENTES_AVIS[final_cols]


# 5) Contrôle rapide du résultat
print("F_VENTES_AVIS shape :", F_VENTES_AVIS.shape)
print("Colonnes (", len(F_VENTES_AVIS.columns), "):")
print(list(F_VENTES_AVIS.columns))

display(F_VENTES_AVIS.head(5))


# 6) Sauvegarde en Parquet pour les autres analyses
OUTPUT_PATH = "f_ventes_avis.parquet"

F_VENTES_AVIS.to_parquet(OUTPUT_PATH, index=False)
print(f"F_VENTES_AVIS sauvegardé dans : {OUTPUT_PATH}")


In [None]:
# Analyse 1 : Performance commerciale & saisonnalité vs satisfaction
# Dans cette première analyse, je veux comprendre la dynamique globale du business :
# comment évoluent les ventes dans le temps (année, trimestre, mois) et comment cela
# se connecte à la satisfaction client (score moyen des avis). C’est la vue d’ensemble
# indispensable avant d’entrer dans le détail opérationnel : je pars du CA total et du
# volume de commandes, puis je descends dans les hiérarchies de temps et de géographie
# pour identifier les saisons fortes, les périodes faibles et les zones clés.

In [None]:
# Préparation
fva = F_VENTES_AVIS.copy()
fva["year"] = fva["purchase_timestamp"].dt.year
fva["month"] = fva["purchase_timestamp"].dt.month
fva["year_month"] = fva["purchase_timestamp"].dt.to_period("M").dt.to_timestamp()


In [None]:
# 1) Évolution mensuelle des ventes et du volume de commandes

# Préparation
monthly = (
    fva
    .groupby("year_month", as_index=False)
    .agg(
        orders_count=("order_id", "nunique"),
        revenue=("value", "sum"),
        avg_score=("score", "mean")
    )
)

# Affichage
print("== 1) Synthèse mensuelle : volume, CA et score moyen ==")
print(monthly.head())

print("\nTop 5 mois par chiffre d'affaires :")
print(monthly.sort_values("revenue", ascending=False).head(5))

print("\nScore moyen global (tous mois confondus) :")
print(monthly["avg_score"].mean())

fig, ax1 = plt.subplots(figsize=(14, 6))

ax1.bar(monthly["year_month"], monthly["revenue"])
ax1.set_xlabel("Mois")
ax1.set_ylabel("Chiffre d'affaires")

ax2 = ax1.twinx()
ax2.plot(monthly["year_month"], monthly["orders_count"], marker="o")
ax2.set_ylabel("Nombre de commandes")

plt.title("Évolution mensuelle du CA et du volume de commandes")
plt.tight_layout()
plt.show()


In [None]:
# 2) Évolution mensuelle du score moyen des avis

# Préparation
monthly_score = (
    fva
    .groupby("year_month", as_index=False)
    .agg(
        avg_score=("score", "mean"),
        orders_count=("order_id", "nunique")
    )
)

# Affichage
print("== 2) Score moyen par mois ==")
print(monthly_score.head())

print("\nMois avec les scores moyens les plus faibles :")
print(monthly_score.sort_values("avg_score").head(5))

print("\nMois avec les scores moyens les plus élevés :")
print(monthly_score.sort_values("avg_score", ascending=False).head(5))

plt.figure(figsize=(14, 5))
plt.plot(monthly_score["year_month"], monthly_score["avg_score"], marker="o")
plt.xlabel("Mois")
plt.ylabel("Score moyen des avis")
plt.title("Évolution mensuelle du score moyen des avis")
plt.grid(True)
plt.tight_layout()
plt.show()


In [None]:
# 3) Heatmaps année x mois : chiffre d'affaires et score moyen

# Préparation
monthly2 = (
    fva
    .groupby(["year", "month"], as_index=False)
    .agg(
        revenue=("value", "sum"),
        avg_score=("score", "mean")
    )
)

pivot_rev = monthly2.pivot(index="year", columns="month", values="revenue")
pivot_score = monthly2.pivot(index="year", columns="month", values="avg_score")

# Affichage
print("== 3) Pivot CA (année x mois) ==")
print(pivot_rev)

print("\n== Pivot score moyen (année x mois) ==")
print(pivot_score)

plt.figure(figsize=(10, 5))
sns.heatmap(pivot_rev, annot=False)
plt.title("Heatmap du CA par année et mois")
plt.xlabel("Mois")
plt.ylabel("Année")
plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 5))
sns.heatmap(pivot_score, annot=False)
plt.title("Heatmap du score moyen par année et mois")
plt.xlabel("Mois")
plt.ylabel("Année")
plt.tight_layout()
plt.show()


In [None]:
# 4) Distribution globale des scores d'avis

# Préparation
score_dist = (
    fva
    .groupby("score", as_index=False)
    .agg(
        orders_count=("order_id", "nunique"),
        revenue=("value", "sum")
    )
)

# Affichage
print("== 4) Distribution des scores d'avis ==")
print(score_dist)

print("\nScore moyen global (toutes commandes) :")
print(fva["score"].mean())

plt.figure(figsize=(8, 5))
plt.bar(score_dist["score"], score_dist["orders_count"])
plt.xlabel("Score")
plt.ylabel("Nombre de commandes")
plt.title("Distribution des scores d'avis")
plt.xticks([1, 2, 3, 4, 5])
plt.tight_layout()
plt.show()

plt.figure(figsize=(8, 5))
plt.bar(score_dist["score"], score_dist["revenue"])
plt.xlabel("Score")
plt.ylabel("Chiffre d'affaires total")
plt.title("Chiffre d'affaires par score d'avis")
plt.xticks([1, 2, 3, 4, 5])
plt.tight_layout()
plt.show()


In [None]:
# 5) Score moyen en fonction du délai de livraison (classes de délai)

# Préparation
import numpy as np

tmp = fva.copy()
tmp = tmp[tmp["livree"].notna() & (tmp["livree"] > 0)]

# Bornes fixes en heures : 0-24, 24-72, 72-168, 168-336, >336
bins = [0, 24, 72, 168, 336, np.inf]  # dernière borne infinie pour éviter le problème
labels = ["<=1j", "1-3j", "3-7j", "7-14j", ">14j"]

tmp["delivery_bucket"] = pd.cut(
    tmp["livree"],
    bins=bins,
    labels=labels,
    include_lowest=True,
    right=True
)

delivery_score = (
    tmp
    .groupby("delivery_bucket", as_index=False, observed=False)  # ← ajout pour supprimer le FutureWarning
    .agg(
        orders_count=("order_id", "nunique"),
        revenue=("value", "sum"),
        avg_score=("score", "mean")
    )
)

# Affichage
print("== 5) Score moyen par classe de délai de livraison ==")
print(delivery_score.sort_values("delivery_bucket"))

plt.figure(figsize=(8, 5))
plt.bar(delivery_score["delivery_bucket"], delivery_score["avg_score"])
plt.xlabel("Délai de livraison (classes)")
plt.ylabel("Score moyen des avis")
plt.title("Score moyen en fonction du délai de livraison")
plt.tight_layout()
plt.show()

plt.figure(figsize=(8, 5))
plt.bar(delivery_score["delivery_bucket"], delivery_score["orders_count"])
plt.xlabel("Délai de livraison (classes)")
plt.ylabel("Nombre de commandes")
plt.title("Volume de commandes par classe de délai de livraison")
plt.tight_layout()
plt.show()


In [None]:
# 6) CA et score moyen par mode de paiement principal

# Préparation
pay_value_cols = [c for c in fva.columns if c.startswith("value_") and c != "value"]

def main_payment_type(row):
    sub = row[pay_value_cols]
    if sub.isna().all() or sub.max() == 0:
        return "unknown"
    return sub.idxmax().replace("value_", "")

fva["main_payment_type"] = fva[pay_value_cols].apply(main_payment_type, axis=1)

pay_agg = (
    fva
    .groupby("main_payment_type", as_index=False)
    .agg(
        orders_count=("order_id", "nunique"),
        revenue=("value", "sum"),
        avg_score=("score", "mean")
    )
)

# Affichage
print("== 6) Synthèse par mode de paiement principal ==")
print(pay_agg.sort_values("revenue", ascending=False))

plt.figure(figsize=(10, 5))
plt.bar(pay_agg["main_payment_type"], pay_agg["revenue"])
plt.xlabel("Mode de paiement principal")
plt.ylabel("Chiffre d'affaires total")
plt.title("CA par mode de paiement principal")
plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 5))
plt.bar(pay_agg["main_payment_type"], pay_agg["avg_score"])
plt.xlabel("Mode de paiement principal")
plt.ylabel("Score moyen des avis")
plt.title("Score moyen par mode de paiement principal")
plt.tight_layout()
plt.show()


In [None]:
# 8) CA et volume de commandes par jour de la semaine

# 0 = lundi, 6 = dimanche
fva["weekday"] = fva["purchase_timestamp"].dt.dayofweek
weekday_labels = {
    0: "Lundi",
    1: "Mardi",
    2: "Mercredi",
    3: "Jeudi",
    4: "Vendredi",
    5: "Samedi",
    6: "Dimanche"
}
fva["weekday_name"] = fva["weekday"].map(weekday_labels)

weekly = (
    fva
    .groupby("weekday", as_index=False)
    .agg(
        orders_count=("order_id", "nunique"),
        revenue=("value", "sum"),
        avg_score=("score", "mean")
    )
)

weekly["weekday_name"] = weekly["weekday"].map(weekday_labels)

print("== 8) Synthèse par jour de la semaine ==")
print(weekly)

fig, ax1 = plt.subplots(figsize=(12, 6))

ax1.bar(weekly["weekday_name"], weekly["revenue"])
ax1.set_xlabel("Jour de la semaine")
ax1.set_ylabel("Chiffre d'affaires", color="C0")

ax2 = ax1.twinx()
ax2.plot(weekly["weekday_name"], weekly["orders_count"], marker="o", color="C1")
ax2.set_ylabel("Nombre de commandes", color="C1")

plt.title("CA et volume de commandes par jour de la semaine")
plt.tight_layout()
plt.show()


In [None]:
# 9) Valeur moyenne de commande en fonction du score d'avis

score_value = (
    fva
    .groupby("score", as_index=False)
    .agg(
        orders_count=("order_id", "nunique"),
        avg_value=("value", "mean"),
        total_revenue=("value", "sum")
    )
)

print("== 9) Valeur moyenne et volume par score d'avis ==")
print(score_value)

plt.figure(figsize=(8, 5))
plt.bar(score_value["score"], score_value["avg_value"])
plt.xlabel("Score d'avis")
plt.ylabel("Valeur moyenne de commande")
plt.title("Valeur moyenne de commande en fonction du score d'avis")
plt.xticks([1, 2, 3, 4, 5])
plt.tight_layout()
plt.show()
