In [3]:
import pandas as pd
import random
from faker import Faker
from datetime import datetime, timedelta

# Creating Invoice and Order Datasets

This notebook generates two related datasets:
1. Invoice dataset with FAC-XXXX IDs
2. Order dataset with COM-XXXX IDs that correspond to invoice IDs

In [2]:
fake = Faker('fr_FR')
nombre_factures = 1000

# Invoice data lists
numeros_facture = []
dates_facture = []
dates_echeance = []
noms_client = []
ids_client = []
adresses_facturation = []
adresses_livraison = []
descriptions_article = []
quantites = []
prix_unitaires = []
montants_total_article = []
sous_totaux = []
tauxs_tva = []
montants_tva = []
tauxs_remise = []
montants_remise = []
totals_general = []
statuts_paiement = []
dates_paiement = []
modes_paiement = []
noms_fournisseur = []
adresses_fournisseur = []
devises = []
numeros_commande = []

# Order data lists
order_ids = []
order_dates = []
order_client_names = []
order_client_ids = []
order_descriptions = []
order_quantities = []
order_statuses = []
order_delivery_dates = []
order_shipping_methods = []
order_invoice_ids = []

articles_possibles = [
    "Licence Logiciel - Abonnement Annuel",
    "Services de Conseil - Projet A",
    "Matériel Informatique - Ordinateur Portable",
    "Services Marketing - Campagne Réseaux Sociaux",
    "Atelier de Formation - Analyse de Données",
    "Stockage Cloud - Abonnement Mensuel",
    "Fournitures de Bureau - Paquet de Stylos",
    "Développement Web - Maintenance de Site Web",
    "Design Graphique - Création de Logo",
    "Support Technique - Assistance à Distance"
]
statuts_paiement_possibles = ["Payé", "Non Payé", "En Retard", "Partiellement Payé"]
modes_paiement_possibles = ["Carte de Crédit", "Virement Bancaire", "Chèque", "Espèces", "PayPal"]
nom_fournisseur = "Acme Solutions Logicielles Inc."
adresse_fournisseur = "456 Rue de l'Innovation, Tech Ville, CA 90210"

# Order status options
order_status_options = ["Livré", "En cours", "En attente", "Annulé"]
shipping_method_options = ["Standard", "Express", "Premium", "Économique"]

nombre_clients_uniques = 10
donnees_clients = {}
for i in range(nombre_clients_uniques):
    nom_client = fake.company()
    id_client = f"CLI-{i+1:03d}"
    adresse_facturation = fake.address().replace('\n', ', ')
    adresse_livraison = fake.address().replace('\n', ', ') if random.random() < 0.8 else adresse_facturation
    donnees_clients[nom_client] = {
        'id': id_client,
        'adresse_facturation': adresse_facturation,
        'adresse_livraison': adresse_livraison
    }

noms_clients_liste = list(donnees_clients.keys())

for i in range(nombre_factures):
    # Generate data for both invoice and order with the same index
    numero_facture = f"FAC-{i+1:04d}"
    numero_commande = f"COM-{i+1:04d}"  # Ensure 1-to-1 relationship with invoice
    
    # Generate order data first (orders come before invoices)
    order_date = fake.date_between(start_date='-1y', end_date='-15d')
    
    # Select client
    nom_client = random.choice(noms_clients_liste)
    info_client = donnees_clients[nom_client]
    id_client = info_client['id']
    
    # Generate order details
    description_article = random.choice(articles_possibles)
    quantite = random.randint(1, 10)
    order_status = random.choice(order_status_options)
    shipping_method = random.choice(shipping_method_options)
    
    # Delivery date based on order date
    delivery_date = order_date + timedelta(days=random.randint(3, 15)) if order_status != "Annulé" else None
    
    # Store order data
    order_ids.append(numero_commande)
    order_dates.append(order_date)
    order_client_names.append(nom_client)
    order_client_ids.append(id_client)
    order_descriptions.append(description_article)
    order_quantities.append(quantite)
    order_statuses.append(order_status)
    order_delivery_dates.append(delivery_date)
    order_shipping_methods.append(shipping_method)
    order_invoice_ids.append(numero_facture)
    
    # Now generate the invoice (which follows the order)
    date_facture = order_date + timedelta(days=random.randint(1, 10))
    date_echeance = date_facture + timedelta(days=random.randint(15, 60))

    adresse_facturation = info_client['adresse_facturation']
    adresse_livraison = info_client['adresse_livraison']

    prix_unitaire = round(random.uniform(10, 500), 2)
    montant_total_article = round(quantite * prix_unitaire, 2)
    sous_total = montant_total_article
    taux_tva = round(random.uniform(0.05, 0.10), 2)
    montant_tva = round(sous_total * taux_tva, 2)
    taux_remise = round(random.uniform(0, 0.20), 2) if random.random() < 0.3 else 0.00
    montant_remise = round(sous_total * taux_remise, 2)
    total_general = round(sous_total + montant_tva - montant_remise, 2)
    statut_paiement = random.choice(statuts_paiement_possibles)
    date_paiement = fake.date_between(start_date=date_facture, end_date='today') if statut_paiement == "Payé" else None
    mode_paiement = random.choice(modes_paiement_possibles) if statut_paiement == "Payé" else None
    devise = random.choice(["USD", "EUR", "GBP"])

    # Store invoice data
    numeros_facture.append(numero_facture)
    dates_facture.append(date_facture)
    dates_echeance.append(date_echeance)
    noms_client.append(nom_client)
    ids_client.append(id_client)
    adresses_facturation.append(adresse_facturation)
    adresses_livraison.append(adresse_livraison)
    descriptions_article.append(description_article)
    quantites.append(quantite)
    prix_unitaires.append(prix_unitaire)
    montants_total_article.append(montant_total_article)
    sous_totaux.append(sous_total)
    tauxs_tva.append(taux_tva)
    montants_tva.append(montant_tva)
    tauxs_remise.append(taux_remise)
    montants_remise.append(montant_remise)
    totals_general.append(total_general)
    statuts_paiement.append(statut_paiement)
    dates_paiement.append(date_paiement)
    modes_paiement.append(mode_paiement)
    noms_fournisseur.append(nom_fournisseur)
    adresses_fournisseur.append(adresse_fournisseur)
    devises.append(devise)
    numeros_commande.append(numero_commande)

# Create Invoice DataFrame
donnees_factures = pd.DataFrame({
    'Numéro de Facture': numeros_facture,
    'Date de Facture': dates_facture,
    'Date d\'Échéance': dates_echeance,
    'Nom du Client': noms_client,
    'ID Client': ids_client,
    'Adresse de Facturation': adresses_facturation,
    'Adresse de Livraison': adresses_livraison,
    'Description': descriptions_article,
    'Quantité': quantites,
    'Prix Unitaire': prix_unitaires,
    'Montant Total': montants_total_article,
    'Sous-Total': sous_totaux,
    'Taux de TVA': tauxs_tva,
    'Montant de TVA': montants_tva,
    'Taux de Remise': tauxs_remise,
    'Montant de la Remise': montants_remise,
    'Total Général': totals_general,
    'Statut du Paiement': statuts_paiement,
    'Date de Paiement': dates_paiement,
    'Mode de Paiement': modes_paiement,
    'Nom du Fournisseur': noms_fournisseur,
    'Adresse du Fournisseur': adresses_fournisseur,
    'Devise': devises,
    'Numéro de Commande': numeros_commande
})

# Create Order DataFrame
donnees_commandes = pd.DataFrame({
    'Numéro de Commande': order_ids,
    'Date de Commande': order_dates,
    'Nom du Client': order_client_names,
    'ID Client': order_client_ids,
    'Description': order_descriptions,
    'Quantité': order_quantities,
    'Statut de Commande': order_statuses,
    'Date de Livraison': order_delivery_dates,
    'Mode d\'Expédition': order_shipping_methods,
    'Numéro de Facture': order_invoice_ids
})

# Save both DataFrames to CSV files
fichier_factures_path = '../data/invoice_dataset.csv'
fichier_commandes_path = '../data/order_dataset.csv'

donnees_factures.to_csv(fichier_factures_path, index=False)
donnees_commandes.to_csv(fichier_commandes_path, index=False)

print(f"Les données de factures simulées ont été enregistrées dans le fichier : {fichier_factures_path}")
print(f"Les données de commandes simulées ont été enregistrées dans le fichier : {fichier_commandes_path}")

Les données de factures simulées ont été enregistrées dans le fichier : ../data/invoice_dataset.csv
Les données de commandes simulées ont été enregistrées dans le fichier : ../data/order_dataset.csv


In [9]:
fichier_factures_path = '../data/invoice_dataset.csv'
fichier_commandes_path = '../data/order_dataset.csv'
factures = pd.read_csv(fichier_factures_path)
commandes = pd.read_csv(fichier_commandes_path)

print("\nInformations de la première facture :")
for col, val in factures.head(1).iloc[0].items():
    print(f"    {col}: {val}")

print("\nInformations de la première commande :")
for col, val in commandes.head(1).iloc[0].items():
    print(f"    {col}: {val}")


Informations de la première facture :
    Numéro de Facture: FAC-0001
    Date de Facture: 2024-08-30
    Date d'Échéance: 2024-10-09
    Nom du Client: Pineau Regnier et Fils
    ID Client: CLI-007
    Adresse de Facturation: 17, rue Robert Arnaud, 97649 Chevalier
    Adresse de Livraison: rue William Olivier, 72643 Richarddan
    Description: Développement Web - Maintenance de Site Web
    Quantité: 8
    Prix Unitaire: 327.26
    Montant Total: 2618.08
    Sous-Total: 2618.08
    Taux de TVA: 0.07
    Montant de TVA: 183.27
    Taux de Remise: 0.0
    Montant de la Remise: 0.0
    Total Général: 2801.35
    Statut du Paiement: Partiellement Payé
    Date de Paiement: nan
    Mode de Paiement: nan
    Nom du Fournisseur: Acme Solutions Logicielles Inc.
    Adresse du Fournisseur: 456 Rue de l'Innovation, Tech Ville, CA 90210
    Devise: EUR
    Numéro de Commande: COM-0001

Informations de la première commande :
    Numéro de Commande: COM-0001
    Date de Commande: 2024-08-24
    N