In [77]:
import random

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import psycopg2 #install psycopg2-binary if linux
from sqlalchemy import create_engine

import faker
from tqdm import tqdm
from datetime import datetime

In [78]:
db_url = "postgresql+psycopg2://hermann:1234@156.67.29.207:5432/promodis_row_data"
engine = create_engine(db_url)

### Générer les données des produits

In [79]:
name_product = ['Bridel lait instant', 'lait tino en boite', 'Bridel lait uth', 'Ndolo', 
               'Tampico citrus', 'Tampico island', 'Cafe pele', 'Cafe coa energy',
               'Cremica butter', 'Cuetara', 'Lays Saled', 'Pringles BBQ', 'cornichons 700g',
               'cornichons 300 g', 'Extra abricot', 'Extra fraise']

cat_products = {
    "produits frais":{
        "produits laitiers" : ["lait en poudre", "lait liquide"],
        "boissons": ["jus", "boissons chaudes"]
    },
    "produit secs":{
        "biscuits": ["cookies", "croustillants"],
        "produits conserve": ["Cornichons", "confiture"]
    }
}

data = []
productID = 100

for category, sub_level1 in cat_products.items():
    for sub_cat1, sub_level2 in sub_level1.items():
        for sub_cat2 in sub_level2:
            for i in range(2):
                product = name_product.pop(0)
                data.append(
                    {
                        "productID": f"pr{productID}",
                        "category": category,
                        "subCategory1": sub_cat1,
                        "subCategory2": sub_cat2, 
                        "productName": product,
                        "unitPrice": random.randint(100, 5000)
                    }
                )

                productID+=1

df_product = pd.DataFrame(data)
df_product

Unnamed: 0,productID,category,subCategory1,subCategory2,productName,unitPrice
0,pr100,produits frais,produits laitiers,lait en poudre,Bridel lait instant,4031
1,pr101,produits frais,produits laitiers,lait en poudre,lait tino en boite,861
2,pr102,produits frais,produits laitiers,lait liquide,Bridel lait uth,287
3,pr103,produits frais,produits laitiers,lait liquide,Ndolo,1654
4,pr104,produits frais,boissons,jus,Tampico citrus,1668
5,pr105,produits frais,boissons,jus,Tampico island,957
6,pr106,produits frais,boissons,boissons chaudes,Cafe pele,4778
7,pr107,produits frais,boissons,boissons chaudes,Cafe coa energy,4260
8,pr108,produit secs,biscuits,cookies,Cremica butter,1502
9,pr109,produit secs,biscuits,cookies,Cuetara,3254


In [80]:
df_product.to_csv("../Data/product.csv", index=False)

### Localisation

In [81]:
location_data = []

location = {
    "littoral": {
        "Douala" : ["Bonapriso", "Akwa", "Bonanjo", "Deïdo", "Bali", "Bépanda", "Makepe", "Ndogbong", "Bonamoussadi", "New-Bell"],
    },
    "Ouest":{
        "Bafoussam": ["bafoussam"],
        "Bafang": ["bafang"],
        "Foumban": ["foumban"],
        "Dschang": ["dschang"],
        "Bamenda": ["bamenda"],
        "Bansoa": ["bansoa"],
        "MB'DA": ["mb'da"],
    },
    "Centre":{
        "Yaoundé": ["Bastos", "Etoudi", "Ngousso", "Mvog-Mbi", "Emana", "Essos", "Melen", "Nlongkak", "Ngoa-Ekelle","Mokolo"],
        "Makenene": ["makenene"],
    },
} 

locationID = 100

for region, elm1 in location.items():
    for city, elm2 in elm1.items():
        for district in elm2:
            location_data.append({
                "locationID": f"lc{locationID}",
                "region": region,
                "city": city,
                "district": district
            })
            locationID+=1

df_location = pd.DataFrame(location_data)

df_location.to_csv("../Data/location.csv", index=False)

In [82]:
df_location.head()

Unnamed: 0,locationID,region,city,district
0,lc100,littoral,Douala,Bonapriso
1,lc101,littoral,Douala,Akwa
2,lc102,littoral,Douala,Bonanjo
3,lc103,littoral,Douala,Deïdo
4,lc104,littoral,Douala,Bali


In [83]:
fake = faker.Faker()

### Génération clients

In [84]:
client_data = []
location_id = list(df_location.locationID)

cat_client = ["DEPOT", "Prestige", "porte à porte", "Ecole", "Grossiste", "Divers"]
id=100

for i in tqdm(range(500)):
    clientID = f"cl{id}"
    client_name = fake.company()
    category = random.choices(cat_client, weights=[0.25, 0.35, 0.025, 0.1, 0.175, 0.1])[0]
    client_location = random.choice(location_id)

    id+=1
    client_data.append({
        "clientID": clientID,
        "clientName": client_name,
        "category": category,
        "location": client_location
    })

df_client = pd.DataFrame(client_data)
df_client.head()

df_client.to_csv("../Data/client.csv", index=False)

100%|██████████| 500/500 [00:00<00:00, 574.42it/s]


### time

In [85]:
time_data = []
timeID=100
start_date="2022-01-01"
end_date="2024-12-31"
date_range = pd.date_range(start=start_date, end=end_date, freq="D")

for date in date_range:
    month = date.month
    year = date.year

    time_data.append({
        "DateID": f"tt{timeID}",
        "date": date,
        "month": month,
        "year": year
    })

    timeID+=1

df_time = pd.DataFrame(time_data)
df_time.head()


Unnamed: 0,DateID,date,month,year
0,tt100,2022-01-01,1,2022
1,tt101,2022-01-02,1,2022
2,tt102,2022-01-03,1,2022
3,tt103,2022-01-04,1,2022
4,tt104,2022-01-05,1,2022


In [86]:
df_time.to_csv("../Data/time.csv", index=False)

### Usine

In [87]:
usine = {
    "usineID": ["us100", "us101"],
    "usineName": ["usine_deido", "usine_logbessou"],
    "location": ["Douala, deido", "Douala, logbessou"]
}

df_usine = pd.DataFrame(usine)
df_usine.to_csv("../Data/usine.csv", index=False)

### consommation matière prémière

In [88]:
MP_data = []

MPID = 100
MPNames = ["ACIDE ASCORBIQUE", "BASE CITRUS PUNCH", "BASE ISLAND PUNCH", "BASE KIWI GUAVA", 
        "BASE MANGO PUNCH", "BASE POMME PUNCH", "BASE TROPICAL BERRY / FRUIT ROUGE",
        "XANTHAN GUM", "POTASSIUM BENZOATE", "POTASSIUM SORBATE", "SUCRE", "SACS DE LAIT SANS CORPS"]

for MPName in MPNames:
    MP_data.append({
        "MPID": f"MP{MPID}",
        "MPName": MPName
    })
    MPID += 1
df_MP = pd.DataFrame(MP_data)
df_MP.head()

Unnamed: 0,MPID,MPName
0,MP100,ACIDE ASCORBIQUE
1,MP101,BASE CITRUS PUNCH
2,MP102,BASE ISLAND PUNCH
3,MP103,BASE KIWI GUAVA
4,MP104,BASE MANGO PUNCH


In [89]:
df_MP.to_csv("../Data/MP.csv", index=False)

### ventes

In [91]:
import pandas as pd
import numpy as np
import random
from tqdm import tqdm

vente_data = []
venteID = 100
product_id = list(df_product.productID)
client_id = list(df_client.clientID)
dates = list(df_time.date)

# Paramètres de tendance et saisonnalité
base_sales_volume = 50
trend_rate = 1.002  # Croissance de 0.2% par jour
seasonality_factor = {
    "high": 1.5,  # Facteur pour les mois de haute saison
    "medium": 1.2,  # Facteur pour les mois de moyenne saison
    "low": 0.8  # Facteur pour les mois de basse saison
}
high_season_months = [6, 7, 8]  # Été
medium_season_months = [11, 12]  # Fin d'année

# Limite supérieure pour éviter les valeurs extrêmes
max_sales_volume = 1000  # Ajuster selon les besoins

for i in tqdm(range(1000000)):
    # Sélection aléatoire d'une date
    salesDate = random.choice(dates)
    month = salesDate.month

    # Appliquer le facteur saisonnier en fonction du mois
    if month in high_season_months:
        seasonality = seasonality_factor["high"]
    elif month in medium_season_months:
        seasonality = seasonality_factor["medium"]
    else:
        seasonality = seasonality_factor["low"]

    # Appliquer une tendance logarithmique pour éviter l'overflow
    trend = base_sales_volume * (1 + (i / 1000000))  # Croissance linéaire limitée

    # Volume de ventes ajusté par tendance et saisonnalité, avec bruit aléatoire et limite
    salesVolume = int(min(trend * seasonality + np.random.normal(scale=10), max_sales_volume))

    # Détails du produit et client
    productID = random.choice(product_id)
    clientID = random.choice(client_id)
    
    # Calcul sécurisé de salesAmount en utilisant des floats
    unit_price = float(df_product[df_product["productID"] == productID].unitPrice.iloc[0])
    salesAmount = unit_price * float(salesVolume)
    locationID = df_client[df_client["clientID"] == clientID].location.iloc[0]

    # Ajout de l'enregistrement de vente
    vente_data.append({
        "venteID": venteID,
        "productID": productID,
        "clientID": clientID,
        "salesDate": salesDate,
        "salesVolume": salesVolume,
        "salesAmount": salesAmount,
        "locationID": locationID
    })
    venteID += 1

# Conversion en DataFrame
df_ventes = pd.DataFrame(vente_data)
df_ventes.head()

100%|██████████| 1000000/1000000 [24:46<00:00, 672.82it/s] 


Unnamed: 0,venteID,productID,clientID,salesDate,salesVolume,salesAmount,locationID
0,100,pr111,cl584,2022-08-17,73,343465.0,lc119
1,101,pr101,cl164,2023-03-06,34,29274.0,lc103
2,102,pr107,cl228,2022-10-14,43,183180.0,lc112
3,103,pr107,cl251,2024-02-14,57,242820.0,lc127
4,104,pr105,cl342,2022-05-14,36,34452.0,lc107


In [92]:
df_ventes.to_csv("../Data/ventes.csv", index=False)

### distribution

In [93]:
import pandas as pd
import numpy as np
import random
from tqdm import tqdm

distribution_data = []
distributionID = 100
product_id = list(df_product.productID)
client_id = list(df_client.clientID)
dates = list(df_time.date)

# Paramètres de tendance et saisonnalité
base_quantity = 50
trend_rate = 1.001  # Croissance de 0.1% par jour
seasonality_factor = {
    "high": 1.4,  # Facteur pour les mois de haute saison
    "medium": 1.2,  # Facteur pour les mois de moyenne saison
    "low": 0.9  # Facteur pour les mois de basse saison
}
high_season_months = [6, 7, 8]  # Été
medium_season_months = [11, 12]  # Fin d'année

for i in tqdm(range(10000)):
    # Sélection aléatoire d'une date
    distributionDate = random.choice(dates)
    month = distributionDate.month

    # Appliquer le facteur saisonnier en fonction du mois
    if month in high_season_months:
        seasonality = seasonality_factor["high"]
    elif month in medium_season_months:
        seasonality = seasonality_factor["medium"]
    else:
        seasonality = seasonality_factor["low"]

    # Appliquer la tendance de croissance jour par jour
    trend = base_quantity * (trend_rate ** i)

    # Quantité distribuée ajustée par tendance et saisonnalité, avec bruit aléatoire
    quantity = int(max(trend * seasonality + np.random.normal(scale=5), 1))

    # Sélection des détails du produit et client
    productID = random.choice(product_id)
    clientID = random.choice(client_id)
    locationID = df_client[df_client["clientID"] == clientID].location.iloc[0]

    # Ajout de l'enregistrement de distribution
    distribution_data.append({
        "distributionID": distributionID,
        "productID": productID,
        "clientID": clientID,
        "distributionDate": distributionDate,
        "quantity": quantity,
        "locationID": locationID,
    })
    distributionID += 1

# Conversion en DataFrame
df_distribution = pd.DataFrame(distribution_data)
df_distribution.head()

  0%|          | 0/10000 [00:00<?, ?it/s]

100%|██████████| 10000/10000 [00:13<00:00, 730.24it/s]


Unnamed: 0,distributionID,productID,clientID,distributionDate,quantity,locationID
0,100,pr110,cl448,2024-06-15,72,lc126
1,101,pr107,cl419,2022-04-28,54,lc110
2,102,pr108,cl236,2022-01-04,39,lc121
3,103,pr110,cl267,2024-08-13,63,lc111
4,104,pr104,cl577,2024-07-23,66,lc116


In [94]:
df_distribution.to_csv("../Data/distribution.csv", index=False)

### Fabrication

In [107]:
# Initialisation des listes de base
fabrication_data = []

fabricationID = 100
produit_id = list(df_product.productID)
usine_id = list(df_usine.usineID)  # Exemple d'ID pour les usines
mp_id = list(df_MP.MPID)  # Exemple d'ID pour les matières premières
dates = list(df_time.date)

# Génération des données de fabrication
for i in tqdm(range(100000)):
    productID = random.choice(produit_id)
    usineID = random.choice(usine_id)
    MPID = random.choice(mp_id)
    date_production = random.choice(dates)
    
    # Quantité produite et conditionnée avec écarts de production et de conditionnement
    quantite_produite = random.randint(500, 10000)  # Limite la quantité produite à 10 000
    quantite_conditionnee = random.randint(quantite_produite - 500, quantite_produite)  # Conditionnement légèrement inférieur ou égal
    ecart_fabrication = quantite_produite - quantite_conditionnee  # Différence entre production et conditionnement
    ecart_conditionnement = random.randint(0, 100)  # Écart possible de conditionnement
    quantite_mp = random.randint(500, 5000)  # Quantité de matière première utilisée

    fabrication_data.append({
        "fabricationID": fabricationID,
        "productID": productID,
        "usineID": usineID,
        "MPID": MPID,
        "dateProduction": date_production,
        "quantiteProduite": quantite_produite,
        "quantiteConditionnee": quantite_conditionnee,
        "ecartFabrication": ecart_fabrication,
        "ecartConditionnement": ecart_conditionnement,
        "quantiteMP": quantite_mp
    })
    fabricationID += 1

# Création du DataFrame final
df_fabrication = pd.DataFrame(fabrication_data)
df_fabrication.head()


100%|██████████| 100000/100000 [00:02<00:00, 45621.67it/s]


Unnamed: 0,fabricationID,productID,usineID,MPID,dateProduction,quantiteProduite,quantiteConditionnee,ecartFabrication,ecartConditionnement,quantiteMP
0,100,pr106,us101,MP111,2024-02-19,5120,4670,450,32,4862
1,101,pr109,us101,MP108,2022-02-09,4576,4193,383,15,3855
2,102,pr101,us100,MP102,2022-11-23,9767,9430,337,38,884
3,103,pr100,us101,MP111,2022-02-22,1210,1159,51,92,4382
4,104,pr114,us101,MP103,2024-11-18,849,605,244,42,1372


In [108]:
df_fabrication.to_csv("../Data/fabrication.csv", index=False)

In [109]:
print(df_fabrication[['quantiteProduite', 'quantiteConditionnee', 'quantiteMP']].max())
print(df_fabrication[['quantiteProduite', 'quantiteConditionnee', 'quantiteMP']].min())

quantiteProduite        10000
quantiteConditionnee     9994
quantiteMP               5000
dtype: int64
quantiteProduite        500
quantiteConditionnee      6
quantiteMP              500
dtype: int64


In [110]:
retour_data = []
retourID = 100
product_id = list(df_product.productID)
usine_id = list(df_usine.usineID)
client_ids = list(df_client.clientID)
dates = list(df_time.date)

# Paramètres de tendance et de saisonnalité
base_quantity_returned = 50
trend_rate = 1.0003  # Croissance de 0,03 % par jour
seasonality_factor = {
    "high": 1.3,  # Facteur pour les mois de haute saison
    "medium": 1.1,  # Facteur pour les mois de moyenne saison
    "low": 0.8  # Facteur pour les mois de basse saison
}
high_season_months = [1, 2]  # Mois de retour élevés après les fêtes
medium_season_months = [7, 8]  # Période de retour modéré pendant l'été

# Génération des données de retour
for i in tqdm(range(50000)):
    productID = random.choice(product_id)
    usineID = random.choice(usine_id)
    clientID = random.choice(client_ids)
    date_retour = random.choice(dates)
    month = date_retour.month

    # Déterminer le facteur saisonnier en fonction du mois
    if month in high_season_months:
        seasonality = seasonality_factor["high"]
    elif month in medium_season_months:
        seasonality = seasonality_factor["medium"]
    else:
        seasonality = seasonality_factor["low"]

    # Appliquer la tendance et saisonnalité à la quantité de produits retournés
    trend = base_quantity_returned * (trend_rate ** i)
    quantite_retournee = int(max(trend * seasonality + np.random.normal(scale=5), 1))

    retour_data.append({
        "retourID": retourID,
        "productID": productID,
        "usineID": usineID,
        "dateRetour": date_retour,
        "quantiteRetournee": quantite_retournee,
    })
    retourID += 1

# Création du DataFrame final
df_retours = pd.DataFrame(retour_data)
df_retours.head()


100%|██████████| 50000/50000 [00:01<00:00, 31381.38it/s]


Unnamed: 0,retourID,productID,usineID,dateRetour,quantiteRetournee
0,100,pr100,us101,2024-10-30,37
1,101,pr113,us101,2022-11-02,41
2,102,pr111,us100,2022-10-14,33
3,103,pr106,us100,2024-05-05,41
4,104,pr110,us101,2023-09-09,37


In [111]:
df_retours.to_csv("../Data/retours.csv", index=False)

In [99]:
df_ventes.isna().sum()

venteID        0
productID      0
clientID       0
salesDate      0
salesVolume    0
salesAmount    0
locationID     0
dtype: int64

In [100]:
df_ventes.head()

Unnamed: 0,venteID,productID,clientID,salesDate,salesVolume,salesAmount,locationID
0,100,pr111,cl584,2022-08-17,73,343465.0,lc119
1,101,pr101,cl164,2023-03-06,34,29274.0,lc103
2,102,pr107,cl228,2022-10-14,43,183180.0,lc112
3,103,pr107,cl251,2024-02-14,57,242820.0,lc127
4,104,pr105,cl342,2022-05-14,36,34452.0,lc107


In [101]:
df_MP.head()

Unnamed: 0,MPID,MPName
0,MP100,ACIDE ASCORBIQUE
1,MP101,BASE CITRUS PUNCH
2,MP102,BASE ISLAND PUNCH
3,MP103,BASE KIWI GUAVA
4,MP104,BASE MANGO PUNCH


In [102]:
df_fabrication.head()

Unnamed: 0,fabricationID,productID,usineID,MPID,dateProduction,quantiteProduite,quantiteConditionnee,ecartFabrication,ecartConditionnement,quantiteMP
0,100,pr108,us100,MP100,2022-07-25,6003,5511,492,39,3229
1,101,pr106,us100,MP105,2023-08-04,7189,7150,39,15,3906
2,102,pr112,us100,MP104,2022-03-29,4090,4006,84,27,3020
3,103,pr100,us100,MP101,2024-12-06,4998,4631,367,22,4464
4,104,pr107,us101,MP108,2024-07-20,6534,6084,450,42,5617


In [103]:
df_retours.tail()

Unnamed: 0,retourID,productID,usineID,dateRetour,quantiteRetourne e,clientID
49995,50095,pr114,us100,2024-04-03,130271346,cl332
49996,50096,pr108,us101,2024-06-13,130310434,cl578
49997,50097,pr100,us100,2022-03-24,130349520,cl154
49998,50098,pr113,us101,2022-06-06,130388629,cl205
49999,50099,pr107,us101,2024-10-26,130427739,cl332
