In [69]:
import random

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import psycopg2 #install psycopg2-binary if linux
import sqlalchemy

import faker
from tqdm import tqdm
from datetime import datetime

### Générer les données des produits

In [70]:
nom_produit = ['Bridel lait instant', 'lait tino en boite', 'Bridel lait uth', 'Ndolo', 
               'Tampico citrus', 'Tampico island', 'Cafe pele', 'Cafe coa energy',
               'Cremica butter', 'Cuetara', 'Lays Saled', 'Pringles BBQ', 'cornichons 700g',
               'cornichons 300 g', 'Extra abricot', 'Extra fraise']

cat_produits = {
    "produits frais":{
        "produits laitiers" : ["lait en poudre", "lait liquide"],
        "boissons": ["jus", "boissons chaudes"]
    },
    "produit secs":{
        "biscuits": ["cookies", "croustillants"],
        "produits conserve": ["Cornichons", "confiture"]
    }
}

data = []
produitID = 100

for category, sub_level1 in cat_produits.items():
    for sub_cat1, sub_level2 in sub_level1.items():
        for sub_cat2 in sub_level2:
            for i in range(2):
                produit = nom_produit.pop(0)
                data.append(
                    {
                        "productID": f"pr{produitID}",
                        "category": category,
                        "subCategory1": sub_cat1,
                        "subCategory2": sub_cat2, 
                        "productName": produit,
                        "unitPrice": random.randint(100, 5000)
                    }
                )

                produitID+=1

df_produit = pd.DataFrame(data)
df_produit

Unnamed: 0,productID,category,subCategory1,subCategory2,productName,unitPrice
0,pr100,produits frais,produits laitiers,lait en poudre,Bridel lait instant,4429
1,pr101,produits frais,produits laitiers,lait en poudre,lait tino en boite,1401
2,pr102,produits frais,produits laitiers,lait liquide,Bridel lait uth,1666
3,pr103,produits frais,produits laitiers,lait liquide,Ndolo,3825
4,pr104,produits frais,boissons,jus,Tampico citrus,4738
5,pr105,produits frais,boissons,jus,Tampico island,1566
6,pr106,produits frais,boissons,boissons chaudes,Cafe pele,2276
7,pr107,produits frais,boissons,boissons chaudes,Cafe coa energy,4550
8,pr108,produit secs,biscuits,cookies,Cremica butter,1817
9,pr109,produit secs,biscuits,cookies,Cuetara,4354


In [71]:
df_produit.to_parquet("../Data/produit.parquet")

### Localisation

In [72]:
location_data = []

location = {
    "littoral": {
        "Douala" : ["Bonapriso", "Akwa", "Bonanjo", "Deïdo", "Bali", "Bépanda", "Makepe", "Ndogbong", "Bonamoussadi", "New-Bell"],
    },
    "Ouest":{
        "Bafoussam": "bafoussam",
        "Bafang": "bafang",
        "Foumban": "foumban",
        "Dschang": "dschang",
        "Bamenda": "bamenda",
        "Bansoa": "bansoa",
        "MB'DA": "mb'da",
    },
    "Centre":{
        "Yaoundé": ["Bastos", "Etoudi", "Ngousso", "Mvog-Mbi", "Emana", "Essos", "Melen", "Nlongkak", "Ngoa-Ekelle","Mokolo"],
        "Makenene": "makenene",
    },
} 

locationID = 100

for region, elm1 in location.items():
    for ville, elm2 in elm1.items():
        for quartier in elm2:
            location_data.append({
                "locationID": f"lc{locationID}",
                "region": region,
                "ville": ville,
                "quartier": quartier
            })
            locationID+=1

df_location = pd.DataFrame(location_data)
df_location.head()

df_location.to_parquet("../Data/location.parquet")

In [73]:
fake = faker.Faker()

### Génération clients

In [74]:
client_data = []
location_id = list(df_location.locationID)

cat_client = ["DEPOT", "Prestige", "porte à porte", "Ecole", "Grossiste", "Divers"]
id=100

for i in tqdm(range(500)):
    clientID = f"cl{id}"
    client_name = fake.company()
    category = random.choices(cat_client, weights=[0.25, 0.35, 0.025, 0.1, 0.175, 0.1])[0]
    client_location = random.choice(location_id)

    id+=1
    client_data.append({
        "clientID": clientID,
        "clientName": client_name,
        "category": category,
        "location": client_location
    })

df_client = pd.DataFrame(client_data)
df_client.head()

df_client.to_parquet("../Data/client.parquet")

  0%|          | 0/500 [00:00<?, ?it/s]

100%|██████████| 500/500 [00:00<00:00, 1415.20it/s]


### temps

In [75]:
temps_data = []
tempsID=100
start_date="2022-01-01"
end_date="2024-12-31"
date_range = pd.date_range(start=start_date, end=end_date, freq="D")

for date in date_range:
    month = date.month
    year = date.year

    temps_data.append({
        "DateID": f"tt{tempsID}",
        "date": date,
        "month": month,
        "year": year
    })

    tempsID+=1

df_temps = pd.DataFrame(temps_data)
df_temps.head()


Unnamed: 0,DateID,date,month,year
0,tt100,2022-01-01,1,2022
1,tt101,2022-01-02,1,2022
2,tt102,2022-01-03,1,2022
3,tt103,2022-01-04,1,2022
4,tt104,2022-01-05,1,2022


In [76]:
df_temps.to_parquet("../Data/temps.parquet")

### Usine

In [87]:
usine = {
    "usineID": ["us100", "us101"],
    "usineName": ["usine_deido", "usine_logbessou"],
    "location": ["Douala, deido", "Douala, logbessou"]
}

df_usine = pd.DataFrame(usine)
df_usine.to_parquet("../Data/usine.parquet")

### consommation matière prémière

In [84]:
MP_data = []

MPID = 100
MPNames = ["ACIDE ASCORBIQUE", "BASE CITRUS PUNCH", "BASE ISLAND PUNCH", "BASE KIWI GUAVA", 
        "BASE MANGO PUNCH", "BASE POMME PUNCH", "BASE TROPICAL BERRY / FRUIT ROUGE",
        "XANTHAN GUM", "POTASSIUM BENZOATE", "POTASSIUM SORBATE", "SUCRE", "SACS DE LAIT SANS CORPS"]

for MPName in MPNames:
    MP_data.append({
        "MPID": f"MP{MPID}",
        "MPName": MPName
    })
    MPID += 1
df_MP = pd.DataFrame(MP_data)
df_MP.head()

Unnamed: 0,MPID,MPName
0,MP100,ACIDE ASCORBIQUE
1,MP101,BASE CITRUS PUNCH
2,MP102,BASE ISLAND PUNCH
3,MP103,BASE KIWI GUAVA
4,MP104,BASE MANGO PUNCH


In [85]:
df_MP.to_csv("../Data/MP.csv")

### ventes

In [78]:
vente_data = []

venteID = 100
produit_id = list(df_produit.productID)
client_id = list(df_client.clientID)
dates = list(df_temps.date)

for i in tqdm(range(1000000)):
    date = random.choice(dates)
    salesVolume = random.randint(100, 20000)
    produitID = random.choice(produit_id)
    clientID = random.choice(client_id)
    salesDate = random.choice(dates)
    salesAmount = df_produit[df_produit["productID"] == produitID].unitPrice.iloc[0] * salesVolume

    vente_data.append({
        "venteID": f"vt{venteID}",
        "productID": produitID,
        "clientID": clientID,
        "salesDate": salesDate,
        "salesVolume": salesVolume,
        "salesAmount": salesAmount
    })
    venteID+=1

df_ventes = pd.DataFrame(vente_data)
df_ventes.head()

100%|██████████| 1000000/1000000 [15:27<00:00, 1078.14it/s]


Unnamed: 0,venteID,productID,clientID,salesDate,salesVolume,salesAmount
0,vt100,pr101,cl248,2024-02-09,13966,19566366
1,vt101,pr101,cl232,2024-10-16,5643,7905843
2,vt102,pr110,cl380,2023-03-02,6245,8611855
3,vt103,pr107,cl415,2023-06-23,13977,63595350
4,vt104,pr110,cl104,2023-03-08,12487,17219573


In [79]:
df_ventes.to_parquet("../Data/ventes.parquet")

### distribution

In [83]:
distribution_data = []

distributionID = 100

for i in tqdm(range(10000)):
    date = random.choice(dates)
    productID = random.choice(produit_id)
    clientID = random.choice(client_id)
    quantity = random.randint(1, 500)

    distribution_data.append({
        "distributionID" : f"dd{distributionID}",
        "productID": productID,
        "clientID": clientID,
        "distributionDate": date,
        "quantity": quantity
    })
    distributionID += 1

df_distribution = pd.DataFrame(distribution_data)
df_distribution.head()

100%|██████████| 10000/10000 [00:00<00:00, 94155.85it/s]


Unnamed: 0,distributionID,productID,clientID,distributionDate,quantity
0,dd100,pr113,cl348,2024-08-03,288
1,dd101,pr111,cl179,2024-04-11,279
2,dd102,pr105,cl359,2023-01-22,276
3,dd103,pr115,cl227,2022-10-03,393
4,dd104,pr106,cl194,2022-07-26,141


In [82]:
df_distribution.to_parquet("../Data/distribution.parquet")

### Fabrication

In [89]:
# Initialisation des listes de base
fabrication_data = []

fabricationID = 100
produit_id = list(df_produit.productID)
usine_id = list(df_usine.usineID)  # Exemple d'ID pour les usines
mp_id = list(df_MP.MPID) # Exemple d'ID pour les matières premières
dates = list(df_temps.date)

# Génération des données de fabrication
for i in tqdm(range(100000)):
    productID = random.choice(produit_id)
    usineID = random.choice(usine_id)
    MPID = random.choice(mp_id)
    date_production = random.choice(dates)
    
    # Quantité produite et conditionnée avec écarts de production et de conditionnement
    quantite_produite = random.randint(1000, 20000)
    quantite_conditionnee = random.randint(quantite_produite - 500, quantite_produite)  # Ex: conditionnement legèrement inferieur ou egal
    ecart_fabrication = quantite_produite - quantite_conditionnee  # Difference entre production et conditionnement
    ecart_conditionnement = random.randint(0, 100)  # ecart possible de conditionnement
    quantite_mp = random.randint(500, 15000)  # Quantite de matière première utilisee

    fabrication_data.append({
        "FabricationID": f"fb{fabricationID}",
        "ProductID": productID,
        "UsineID": usineID,
        "MPID": MPID,
        "DateProduction": date_production,
        "QuantiteProduite": quantite_produite,
        "QuantiteConditionnee": quantite_conditionnee,
        "EcartFabrication": ecart_fabrication,
        "EcartConditionnement": ecart_conditionnement,
        "QuantiteMP": quantite_mp
    })
    fabricationID += 1

# Création du DataFrame final
df_fabrication = pd.DataFrame(fabrication_data)
df_fabrication.head()


  0%|          | 0/100000 [00:00<?, ?it/s]

100%|██████████| 100000/100000 [00:01<00:00, 87849.65it/s]


Unnamed: 0,FabricationID,ProductID,UsineID,MPID,DateProduction,QuantiteProduite,QuantiteConditionnee,EcartFabrication,EcartConditionnement,QuantiteMP
0,fb100,pr104,us101,MP101,2023-08-28,10007,9729,278,32,7599
1,fb101,pr108,us100,MP106,2023-10-05,3382,3050,332,73,7913
2,fb102,pr110,us100,MP110,2024-05-08,13287,13167,120,27,2050
3,fb103,pr112,us100,MP105,2023-10-31,19247,19101,146,56,820
4,fb104,pr113,us101,MP100,2023-05-16,10583,10532,51,49,1255


In [90]:
df_fabrication.to_parquet("../Data/fabrication.parquet")

In [91]:
retour_data = []

retourID = 100
client_ids = list(df_client.clientID)  # Exemples de localisations
dates = list(df_temps.date)  # Assure que `df_temps` contient un DataFrame avec une colonne 'date'

# Génération des données de retour
for i in tqdm(range(50000)):
    produitID = random.choice(produit_id)
    usineID = random.choice(usine_id)
    clientID = random.choice(client_ids)
    date_retour = random.choice(dates)
    quantite_retournee = random.randint(1, 1000)  # Quantite de produit retournee

    retour_data.append({
        "RetourID": f"ret{retourID}",
        "ProduitID": produitID,
        "UsineID": usineID,
        "DateRetour": date_retour,
        "QuantiteRetourne": quantite_retournee,
        "clientID": clientID
    })
    retourID += 1

# Creation du DataFrame final
df_retours = pd.DataFrame(retour_data)
df_retours.head()

100%|██████████| 50000/50000 [00:00<00:00, 124642.47it/s]


Unnamed: 0,RetourID,ProduitID,UsineID,DateRetour,QuantiteRetourne,clientID
0,ret100,pr106,us101,2022-07-02,117,cl284
1,ret101,pr101,us100,2022-05-11,765,cl226
2,ret102,pr102,us101,2022-01-20,813,cl210
3,ret103,pr110,us101,2024-02-29,150,cl224
4,ret104,pr115,us101,2024-12-16,893,cl317


In [92]:
df_retours.to_parquet("../Data/retours.parquet")