In [2]:
import pandas as pd
import numpy as np
import random

# Configuration pour la reproductibilité
np.random.seed(42)

# 1. Création de données de base
n_rows = 10000
categories = ['Electronique', 'Vêtements', 'Maison', 'Sport', 'Jouets']
produits = {
    'Electronique': ['Smartphone', 'Ordinateur', 'Casque', 'Montre Connectée'],
    'Vêtements': ['T-shirt', 'Jean', 'Robe', 'Veste'],
    'Maison': ['Lampe', 'Chaise', 'Table', 'Coussin'],
    'Sport': ['Ballon', 'Raquette', 'Tapis de yoga', 'Haltères'],
    'Jouets': ['Poupée', 'Lego', 'Puzzle', 'Voiture RC']
}

data = []
for _ in range(n_rows):
    cat = random.choice(categories)
    prod = random.choice(produits[cat])
    # Dates mélangées (certaines au format US, d'autres ISO)
    date = f"{random.randint(2023, 2024)}-{random.randint(1, 12):02d}-{random.randint(1, 28):02d}"
    # Ventes avec des types mixtes (certains sont des strings avec des virgules)
    vente = round(random.uniform(10.0, 500.0), 2)

    data.append([vente, prod, date, cat])

df = pd.DataFrame(data, columns=['Ventes', 'Produits', 'Dates', 'Catégories'])

# --- INTRODUCTION D'ANOMALIES ---

# 1. Ajout de valeurs manquantes (NaN)
for col in df.columns:
    df.loc[df.sample(frac=0.05).index, col] = np.nan

# 2. Ajout de doublons (environ 200 lignes répétées)
df_doublons = df.sample(n=200)
df = pd.concat([df, df_doublons], ignore_index=True)

# 3. Erreurs de types et de formats
# Convertir certaines ventes en chaînes de caractères avec des '€' ou des virgules
df.loc[0:100, 'Ventes'] = df.loc[0:100, 'Ventes'].apply(lambda x: str(x).replace('.', ',') + '€' if pd.notnull(x) else x)

# 4. Incohérence de casse dans les catégories
df.loc[df.sample(frac=0.02).index, 'Catégories'] = 'sport' # minuscule au lieu de majuscule

# Sauvegarde
df.to_csv('ventes_produits_sales.csv', index=False)
print("Dataset 'ventes_produits_sales.csv' généré avec succès !")

Dataset 'ventes_produits_sales.csv' généré avec succès !


 '355,16€' '322,74€' '281,49€' '246,67€' '102,79€' '440,61€' nan '119,12€'
 '234,84€' '318,69€' '101,27€' '328,48€' '93,84€' '59,48€' '353,1€'
 '319,37€' '133,21€' '119,58€' '320,01€' '122,39€' '352,82€' nan '315,14€'
 nan '388,5€' nan '140,41€' nan '25,92€' '271,13€' '362,32€' nan '110,41€'
 '369,78€' '67,98€' '98,4€' '266,77€' '472,75€' '454,5€' '40,62€'
 '155,53€' '36,61€' '201,81€' '354,38€' '115,57€' '361,97€' '497,36€'
 '213,14€' '77,99€' '43,27€' '134,61€' '462,68€' '110,12€' '420,87€'
 '57,67€' '97,7€' '45,67€' '104,63€' '444,3€' '95,88€' '429,73€' '368,6€'
 '88,12€' '457,4€' '455,22€' '131,4€' '324,35€' '24,36€' nan '55,54€'
 '366,17€' '389,78€' nan '363,3€' '488,31€' '230,56€' '152,11€' '95,97€'
 '288,58€' '53,22€' nan '160,21€' '113,16€' '60,18€' nan '291,25€'
 '345,27€' '92,14€' nan '233,12€' '429,94€' '259,4€' '395,54€']' has dtype incompatible with float64, please explicitly cast to a compatible dtype first.
  df.loc[0:100, 'Ventes'] = df.loc[0:100, 'Ventes'].apply(lambda