# Étape 2 — Nettoyage et préparation des données

Cette étape vise à corriger les problèmes de qualité identifiés lors de l’audit
notamment :
- les types de variables incorrects.
- les valeurs manquantes.
- la cohérence minimale des données.

Les données nettoyées seront sauvegardées dans le dossier `data/processed/`
afin d’être utilisées lors des analyses et des jointures ultérieures.


In [17]:
# Import des libraries
import pandas as pd
import numpy as np


# Chargement des données brutes

In [18]:
customers = pd.read_csv("../data/raw/customers.csv")
order_lines = pd.read_csv("../data/raw/order_lines.csv")
products = pd.read_csv("../data/raw/products.csv")


# Rappel des structures

In [19]:
customers.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   customer_id  500 non-null    object
 1   age          500 non-null    object
 2   gender       490 non-null    object
 3   city         485 non-null    object
 4   segment      500 non-null    object
 5   signup_date  500 non-null    object
dtypes: object(6)
memory usage: 23.6+ KB


In [20]:
order_lines.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2225 entries, 0 to 2224
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   order_id          2225 non-null   object 
 1   customer_id       2225 non-null   object 
 2   product_id        2225 non-null   object 
 3   order_date        2225 non-null   object 
 4   quantity          2225 non-null   int64  
 5   unit_price        2225 non-null   float64
 6   discount_pct      2225 non-null   float64
 7   gross_amount      2225 non-null   float64
 8   net_amount        2225 non-null   float64
 9   payment_method    2225 non-null   object 
 10  channel           2225 non-null   object 
 11  marketing_source  2225 non-null   object 
 12  delivery_days     2181 non-null   float64
 13  returned          2225 non-null   int64  
 14  review_score      2115 non-null   float64
 15  segment           2225 non-null   object 
 16  city              2155 non-null   object 


In [21]:
products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   product_id    60 non-null     object 
 1   category      60 non-null     object 
 2   brand         60 non-null     object 
 3   product_name  60 non-null     object 
 4   unit_price    60 non-null     float64
dtypes: float64(1), object(4)
memory usage: 2.5+ KB


## Nettoyage du fichier customers

Les principales actions réalisées sont :
- conversion de la variable `age` en numérique,
- conversion de `signup_date` en date,
- traitement des valeurs manquantes pour `gender` et `city`.


In [22]:
# Types
customers["age"] = pd.to_numeric(customers["age"], errors="coerce")
customers["signup_date"] = pd.to_datetime(customers["signup_date"], errors="coerce")

# Valeurs manquantes
customers["gender"] = customers["gender"].fillna("Unknown")
customers["city"] = customers["city"].fillna("Unknown")

# Doublons
customers = customers.drop_duplicates(subset="customer_id")


In [23]:
customers

Unnamed: 0,customer_id,age,gender,city,segment,signup_date
0,C0001,28.0,M,Gonaïves,Entreprise,2025-09-26
1,C0002,16.0,M,Gonaïves,Professionnel,2024-01-19
2,C0003,,M,Saint-Marc,Indépendant,2024-05-05
3,C0004,46.0,F,Port-au-Prince,Professionnel,2024-11-16
4,C0005,19.0,M,Cap-Haïtien,Professionnel,2024-11-21
...,...,...,...,...,...,...
495,C0496,35.0,F,Kinshasa,Entreprise,2024-12-09
496,C0497,35.0,Autre,Port-au-Prince,Professionnel,2025-08-30
497,C0498,16.0,M,Port-au-Prince,Entreprise,2025-01-13
498,C0499,16.0,M,Paris,Indépendant,2023-09-04


In [24]:
#customers.info()
customers.isna().sum()


customer_id    0
age            8
gender         0
city           0
segment        0
signup_date    0
dtype: int64

## Nettoyage du fichier order_lines

Les actions principales incluent :
- conversion de la variable `order_date` en format date,
- traitement des valeurs manquantes,
- préparation des données pour les contrôles de cohérence ultérieurs.
