In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
!pip install faker

Collecting faker
  Downloading Faker-35.0.0-py3-none-any.whl.metadata (15 kB)
Downloading Faker-35.0.0-py3-none-any.whl (1.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m16.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faker
Successfully installed faker-35.0.0


In [3]:
import pandas as pd
import numpy as np
from faker import Faker
import random

1) Initialisations des fonctions de generation des donnees bruts


In [4]:
# Fonction generation des donnees de ventes
def generate_sales_data(stores, products, fake, cities, num_sales = 21619):
  sales_data = []
  for num in range(num_sales):
    store = random.choice(stores)
    product = random.choice(products)
    date = fake.date_between(start_date='-2y', end_date='today')
    quantity_sold = random.randint(105, 379)

    #Introduction des valeurs manquantes aleatoires
    if random.random() < 0.20: # 20% de chances d'avoir une valeur manquante
      quantity_sold = np.nan

    # Introduire des outliers aléatoires
    if random.random() < 0.15:  # 15% de chances d'avoir un outlier
      quantity_sold +=random.randint(220, 500) #outlier


    sales_data.append({
        "ID vente" : fake.uuid4(),
        "Date" : date,
        "Magasin" : store,
        "Articles" : product,
        "Quantité vendue" : quantity_sold,
        "Prix unitaire" : round(random.uniform(12.86, 187.47), 2),
        "Ville": random.choice(cities)

    })


  # Création du DataFrame des ventes
  return pd.DataFrame(sales_data)




# Fonction de génération des informations sur les stocks
def generate_stores_data( stores, products, cities):
  stock_data= []
  for store in stores:
    for product in products:
      seuil = random.randint(78, 108)
      stock = random.randint(135, 489)

      if random.random() < 0.05: #5% de chances d'avoir une valeur manquante
        seuil = np.nan
      if random.random() < 0.06:
        stock = np.nan

      stock_data.append({
          "Magasin" : store,
          "Articles" : product,
          "Stock actuel" : stock,
          "Seuil de réapprovisionnement" : seuil,
          "Ville": random.choice(cities)
      })


  return pd.DataFrame(stock_data)


# Fonction de génération des promotions
def generate_promotions_data(stores, products, fake, cities):
  promotion_data = []
  for store in stores:
    for product in products:
      if random.random() < 0.3:  # 30% de chance d'avoir une promotion
        reduction = random.randint(5, 50)
        id = fake.uuid4()
        if random.random() < 0.02: #2% de chances d'avoir une valeur manquante
          reduction = np.nan
        if random.random() < 0.03:
          id = np.nan
        promotion_data.append({
                "ID promotion": id,
                "Magasin": store,
                "Produit": product,
                "Date de début": fake.date_between(start_date='-1y', end_date='today'),
                "Date de fin": fake.date_between(start_date='today', end_date='+30d'),
                "Réduction (%)": reduction,
                "Ville": random.choice(cities)
            })


  return pd.DataFrame(promotion_data)


#Function de generation de la meteo
def generate_meteo_conditions(cities):
  weather_data = []
  for date in pd.date_range(start='2024-01-01', end='2024-12-31'):
    for city in cities:
      tempature = round(random.uniform(-10, 35), 1)
      precipitation = round(random.uniform(0, 100), 1)
      if random.random() < 0.23: #23% de chances d'avoir une valeur manquante
        tempature = np.nan
      if random.random() < 0.25: #25% de chances d'avoir une valeur manquante
        precipitation = np.nan

      weather_data.append({
            "Date": date,
            "Ville": city,
            "Température (°C)": tempature,
            "Précipitations (mm)": precipitation
        })


  return pd.DataFrame(weather_data)

print("With succes !!")

With succes !!


# 2) Initialisation des paramettres

In [5]:
#initialisation de Faker
fake = Faker()

# Listes de villes des emplacements des magasins
cities = ['Toronto', 'Vancouver', 'Montreal', 'Calgary',
          'Ottawa', 'Edmonton', 'Quebec City', 'Winnipeg',
          'Halifax', 'Victoria']


# Listes des produits des magasins
products = ['Milk', 'Bread', 'Eggs', 'Chicken Breast', 'Apples', 'Bananas',
            'Rice', 'Pasta', 'Cheese', 'Yogurt', 'Orange Juice', 'Ground Beef',
            'Potatoes', 'Tomatoes', 'Cereal', 'Frozen Pizza', 'Ice Cream',
            'Coffee', 'Tea', 'Peanut Butter']


# Listes des produits des magasins
stores = ['Supermarché A1', 'Épicerie B2', 'Marché C3', 'Alimentation D4',
          'Centre E5', 'Magasin F6', 'Boutique G7', 'Marché H8', 'Épicerie I9',
          'Supermarché J0']

3) Affichage des resultats

In [6]:
sales_df = generate_sales_data(stores, products, fake, cities)
stock_df = generate_stores_data(stores, products, cities)
promotion_df = generate_promotions_data(stores, products, fake, cities)
weather_df = generate_meteo_conditions(cities)


# Affichage des DataFrames générés (pour vérification)
print("Ventes:")
print(sales_df.head())
print("\nStocks:")
print(stock_df.head())
print("\nPromotions:")
print(promotion_df.head())
print("\nMétéo:")
print(weather_df.head())

Ventes:
                               ID vente        Date          Magasin  \
0  dfd273bb-7136-41dc-b36d-3d87b7429237  2023-10-09        Marché H8   
1  3976b685-213a-4e82-9d1f-10a3c213e56e  2024-12-11  Alimentation D4   
2  95d8490e-ecb7-4c73-9a2a-9c546f0ed924  2024-11-28   Supermarché A1   
3  49b74561-9302-4599-9deb-805eb1376089  2024-01-11        Centre E5   
4  5e1f5526-0ea4-465a-bc77-64b8fb1c369f  2024-08-25      Boutique G7   

         Articles  Quantité vendue  Prix unitaire      Ville  
0          Cheese            332.0         149.83   Winnipeg  
1  Chicken Breast            257.0          27.21   Montreal  
2        Potatoes              NaN         163.04   Victoria  
3            Eggs              NaN          96.62    Calgary  
4     Ground Beef            131.0          72.86  Vancouver  

Stocks:
          Magasin        Articles  Stock actuel  Seuil de réapprovisionnement  \
0  Supermarché A1            Milk         457.0                          85.0   
1  Superma

4) Sauvegarde des resultats

In [7]:
# Sauvegarde dans un fichier CSV
sales_df.to_csv("/content/drive/MyDrive/Mes projets/Projet Prediction de la demande des articles dans un magasin/Datasets/Donnees bruts/ventes.csv", index=False)
stock_df.to_csv("/content/drive/MyDrive/Mes projets/Projet Prediction de la demande des articles dans un magasin/Datasets/Donnees bruts/stocks.csv", index=False)
promotion_df.to_csv("/content/drive/MyDrive/Mes projets/Projet Prediction de la demande des articles dans un magasin/Datasets/Donnees bruts/promotions.csv", index=False)
weather_df.to_csv("/content/drive/MyDrive/Mes projets/Projet Prediction de la demande des articles dans un magasin/Datasets/Donnees bruts/meteo.csv", index=False)