## Phase 2 : Prétraitement des données

In [4]:
import os, yaml
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

config_path = os.path.join("..", "configs", "config.yaml")

# Charger les configurations
with open(config_path, "r") as file:
    config = yaml.safe_load(file)

FILE_DATA = os.path.join("..", config["paths"]["raw_data"], config["files"]["data_raw"])
FILE_CLEAN_DATA = os.path.join("..", config["paths"]["processed_data"], config["files"]["data_clean"])

### Chargement des données

In [5]:
df = pd.read_excel(FILE_DATA, header=0)

# Affichage des premières lignes
print("Aperçu des données:")
display(df.head())

Aperçu des données:


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


### Nettoyage des données


#### 1. Suppression des lignes avec des valeurs manquantes





In [6]:
df_clean = df.dropna()

#### 2. Suppression des quantités négatives ou nulles


In [7]:
df_clean = df_clean[df_clean['Quantity'] > 0]

#### 3. Suppression des prix unitaires négatifs ou nuls

In [8]:
df_clean = df_clean[df_clean['UnitPrice'] > 0]


#### 4. Conversion de la colonne InvoiceDate en datetime


In [9]:
df_clean['InvoiceDate'] = pd.to_datetime(df_clean['InvoiceDate'])

#### 5. Suppression des doublons


In [10]:
df_clean = df_clean.drop_duplicates()

### Vérification des résultats après nettoyage

In [11]:
print("\nTaille du dataset original:", df.shape)
print("Taille du dataset après nettoyage:", df_clean.shape)


Taille du dataset original: (541909, 8)
Taille du dataset après nettoyage: (392692, 8)


### Sauvegarde du dataset nettoyé

In [12]:
df_clean.to_csv(FILE_CLEAN_DATA, index=False)
print(f"\nDataset nettoyé sauvegardé dans {FILE_CLEAN_DATA}")


Dataset nettoyé sauvegardé dans ..\data/processed/Online Retail Clean.csv


### Résumé du prétraitement
 
Dans cette étape de prétraitement, nous avons effectué plusieurs opérations de nettoyage sur le dataset :

1. Suppression des valeurs manquantes (CustomerID)
2. Suppression des lignes avec des quantités négatives ou nulles
3. Suppression des lignes avec des prix unitaires négatifs ou nuls
4. Conversion de la colonne InvoiceDate en format datetime
5. Suppression des doublons
 
Ces opérations nous ont permis d'obtenir un jeu de données plus propre et plus cohérent pour la suite de l'analyse.

La comparaison des tailles des datasets avant/après nettoyage nous montre l'impact de ce prétraitement.
