In [2]:
import random
import pandas as pd
import duckdb
from datetime import datetime, timedelta

# Création de la donnée

In [5]:
univers = ["Électronique", "Mode", "Maison"]

categories_par_univers = {
    "Électronique": ["Téléphones", "Ordinateurs"],
    "Mode": ["Vêtements", "Accessoires"],
    "Maison": ["Meubles", "Décoration"]
}

noms_produits = {
    "Téléphones": ["iPhone 13", "Samsung Galaxy S21", "Google Pixel 6", "OnePlus 9", "Xiaomi Mi 11", "Sony Xperia 5 III", "Huawei P40 Pro", "LG Velvet", "Motorola Edge", "Nokia 8.3"],
    "Ordinateurs": ["MacBook Pro", "Dell XPS 15", "HP Spectre x360", "Lenovo ThinkPad", "Asus ROG Zephyrus", "Microsoft Surface Laptop", "Acer Predator Helios", "Razer Blade", "MSI Prestige", "LG Gram"],
    "Vêtements": ["Chemise en lin", "Robe d'été", "Jeans slim", "Veste en cuir", "Pull en laine", "Pantalon chino", "T-shirt graphique", "Blouse à volants", "Blazer ajusté", "Short en denim"],
    "Accessoires": ["Montre élégante", "Sac à dos moderne", "Lunettes de soleil", "Ceinture en cuir", "Écharpe en soie", "Boucles d'oreilles", "Chapeau en feutre", "Bracelet en métal", "Cravate en soie", "Portefeuille en cuir"],
    "Meubles": ["Canapé modulaire", "Table à manger en bois", "Lit king-size", "Chaise ergonomique", "Bureau en verre", "Étagère murale", "Buffet en bois", "Fauteuil inclinable", "Table basse moderne", "Commode à tiroirs"],
    "Décoration": ["Vase en céramique", "Tableau abstrait", "Bougie parfumée", "Coussins décoratifs", "Horloge murale", "Plante d'intérieur", "Suspension lumineuse", "Miroir encadré", "Tapis tissé", "Statuette en bronze"]
}

donnees = []
produit_id_counter = 1
categorie_id = 0

for univers_id, univers_name in enumerate(univers):
    for categorie in categories_par_univers[univers_name]:
        categorie_id += 1
        for _ in range(15):  # Créer 15 exemples de produits par catégorie
            produit = {
                "produit_id": produit_id_counter,
                "univers_id": univers_id,
                "univers_name": univers_name,
                "categorie_name": categorie,
                "categorie_id": categorie_id,
                "nom": random.choice(noms_produits[categorie]),
                "prix_unitaire": round(random.uniform(10, 1000), 2)
            }
            donnees.append(produit)
            produit_id_counter += 1

df = pd.DataFrame(donnees)
products = df[["produit_id", "prix_unitaire", "nom"]]
categorie_produit = df[["categorie_id", "categorie_name", "produit_id"]]
univers_categorie = df[["univers_id", "univers_name", "categorie_id"]].drop_duplicates()


# Un mois de ventes:

date_debut = datetime(2023, 7, 1)
date_fin = datetime(2023, 7, 31)
jours_dans_le_mois = (date_fin - date_debut).days + 1

ventes = []

for jour in range(jours_dans_le_mois):
    date_vente = date_debut + timedelta(days=jour)
    n_sales_that_day = range(1, random.randint(10, 300))
    for vente in n_sales_that_day:
        products_in_that_sale = products.sample(random.randint(1, 36))
        for _, row in products_in_that_sale.iterrows():
            quantite_vendue = random.randint(1, 10)
            montant_total = row["prix_unitaire"] * quantite_vendue
            ventes.append({
                "date": date_vente,
                "produit_id": row["produit_id"],
                "quantite_vendue": quantite_vendue,
                "prix_unitaire": row["prix_unitaire"],
                "montant_total": montant_total
            })
del(df)
# Créer une DataFrame Pandas pour les ventes
ventes_df = pd.DataFrame(ventes)
ventes_df.shape

(81733, 5)

# Présentation de la donnée

Vous avez à votre disposition une table de ventes:

Une table produits:

In [3]:
ventes_df

Unnamed: 0,date,produit_id,quantite_vendue,prix_unitaire,montant_total
0,2023-07-01,88,3,944.84,2834.52
1,2023-07-01,82,8,66.92,535.36
2,2023-07-01,18,10,777.42,7774.20
3,2023-07-01,27,3,718.35,2155.05
4,2023-07-01,80,7,238.99,1672.93
...,...,...,...,...,...
82399,2023-07-31,18,1,777.42,777.42
82400,2023-07-31,21,8,81.01,648.08
82401,2023-07-31,83,10,416.18,4161.80
82402,2023-07-31,48,7,42.60,298.20


In [4]:
products

Unnamed: 0,produit_id,prix_unitaire,nom
0,1,254.18,iPhone 13
1,2,764.00,LG Velvet
2,3,253.54,OnePlus 9
3,4,536.09,OnePlus 9
4,5,848.36,LG Velvet
...,...,...,...
85,86,82.84,Suspension lumineuse
86,87,366.36,Miroir encadré
87,88,944.84,Statuette en bronze
88,89,805.86,Horloge murale


---

Une table avec les catégories:

Une table avec les univers

In [5]:
categorie_produit

Unnamed: 0,categorie_id,categorie_name,produit_id
0,1,Téléphones,1
1,1,Téléphones,2
2,1,Téléphones,3
3,1,Téléphones,4
4,1,Téléphones,5
...,...,...,...
85,6,Décoration,86
86,6,Décoration,87
87,6,Décoration,88
88,6,Décoration,89


In [6]:
univers_categorie

Unnamed: 0,univers_id,univers_name,categorie_id
0,0,Électronique,1
15,0,Électronique,2
30,1,Mode,3
45,1,Mode,4
60,2,Maison,5
75,2,Maison,6


<br />
<br />
<br />
<br /><br />

<img src="images/our_whole_universe_was_in_a_hot_dense_state.gif" />

<br /><br /><br /><br /><br /><br />

## Exercice: savoir à quel univers correspond chaque vente
(plus tard, cette jointure servira à savoir quels sont les univers qui rapportent le plus...)

In [2]:
# %load solutions/exercice_retail.py
(
    ventes_df
    .merge(categorie_produit, on="produit_id", how="inner")
    .merge(univers_categorie, on="categorie_id", how="inner")
)


NameError: name 'ventes_df' is not defined