# Mini-projet Pandas – Étape 1 : Audit des données

**Objectif :** Charger les jeux de données EduMart et évaluer leur qualité
(types, valeurs manquantes, incohérences et anomalies potentielles).


In [162]:
# Import des bibliothèques
import pandas as pd
import numpy as np


In [163]:
# Import des données
customers = pd.read_csv("../data/raw/customers.csv")
order_lines = pd.read_csv("../data/raw/order_lines.csv")
products = pd.read_csv("../data/raw/products.csv")


In [164]:
# Inspection des données
# Un apercu des lignes
customers.head()
order_lines.head()
products.head()



Unnamed: 0,product_id,category,brand,product_name,unit_price
0,P001,Laptop,HP,Ultrabook 14,1681.08
1,P002,Laptop,ASUS,Notebook 15,1058.14
2,P003,Livre,Manning,Data Engineering,40.16
3,P004,Accessoire,Anker,SSD externe,91.27
4,P005,Laptop,HP,Gaming 16,1123.49


# Dimention des datasets

In [165]:
customers.shape

(500, 6)

In [166]:
order_lines.shape

(2225, 18)

In [167]:
products.shape

(60, 5)

# Informations générales

In [168]:
print(products.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   product_id    60 non-null     object 
 1   category      60 non-null     object 
 2   brand         60 non-null     object 
 3   product_name  60 non-null     object 
 4   unit_price    60 non-null     float64
dtypes: float64(1), object(4)
memory usage: 2.5+ KB
None


In [169]:
print(customers.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   customer_id  500 non-null    object
 1   age          500 non-null    object
 2   gender       490 non-null    object
 3   city         485 non-null    object
 4   segment      500 non-null    object
 5   signup_date  500 non-null    object
dtypes: object(6)
memory usage: 23.6+ KB
None


In [170]:
print(order_lines.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2225 entries, 0 to 2224
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   order_id          2225 non-null   object 
 1   customer_id       2225 non-null   object 
 2   product_id        2225 non-null   object 
 3   order_date        2225 non-null   object 
 4   quantity          2225 non-null   int64  
 5   unit_price        2225 non-null   float64
 6   discount_pct      2225 non-null   float64
 7   gross_amount      2225 non-null   float64
 8   net_amount        2225 non-null   float64
 9   payment_method    2225 non-null   object 
 10  channel           2225 non-null   object 
 11  marketing_source  2225 non-null   object 
 12  delivery_days     2181 non-null   float64
 13  returned          2225 non-null   int64  
 14  review_score      2115 non-null   float64
 15  segment           2225 non-null   object 
 16  city              2155 non-null   object 


# Les statistiques descriptives

In [171]:
customers.describe(include="all")


Unnamed: 0,customer_id,age,gender,city,segment,signup_date
count,500,500,490,485,500,500
unique,500,36,3,16,4,386
top,C0001,16,F,Port-au-Prince,Étudiant,2024-07-25
freq,1,40,235,135,182,3


In [172]:
products.describe(include = "all")

Unnamed: 0,product_id,category,brand,product_name,unit_price
count,60,60,60,60,60.0
unique,60,6,23,28,
top,P001,Cours,HP,NLP,
freq,1,18,6,5,
mean,,,,,354.351
std,,,,,514.712694
min,,,,,24.97
25%,,,,,72.845
50%,,,,,124.245
75%,,,,,308.5025


In [173]:
order_lines.describe(include = "all")

Unnamed: 0,order_id,customer_id,product_id,order_date,quantity,unit_price,discount_pct,gross_amount,net_amount,payment_method,channel,marketing_source,delivery_days,returned,review_score,segment,city,category
count,2225,2225,2225,2225,2225.0,2225.0,2225.0,2225.0,2225.0,2225,2225,2225,2181.0,2225.0,2115.0,2225,2155,2225
unique,2200,492,60,683,,,,,,4,3,6,,,,4,16,6
top,O01648,C0363,P060,2025-01-12,,,,,,Carte,Web,Organique,,,,Étudiant,Port-au-Prince,Cours
freq,2,12,52,10,,,,,,895,1218,646,,,,805,600,705
mean,,,,,2.966292,354.163991,0.115097,1049.257438,926.902701,,,,4.112334,0.042247,4.357447,,,
std,,,,,1.426634,506.596786,0.068481,1711.115156,1510.243744,,,,4.584551,0.201198,0.595541,,,
min,,,,,-1.0,24.97,0.0,24.97,20.11,,,,0.0,0.0,2.0,,,
25%,,,,,2.0,74.3,0.06,158.91,143.73,,,,1.0,0.0,4.0,,,
50%,,,,,3.0,125.59,0.11,362.58,314.53,,,,3.0,0.0,4.0,,,
75%,,,,,4.0,308.72,0.16,898.3,796.5,,,,6.0,0.0,5.0,,,


## Problèmes de qualité identifiés

- Présence de valeurs manquantes dans certaines variables sociodémographiques
  (ex : genre(gender), ville(city)).
- La variable `age` contient des valeurs non numériques (ex : "unknown").
- La variable `discount_pct` semble contenir des valeurs stockées sous forme de texte.
- Des quantités négatives ou nulles sont observées dans `quantity`, ce qui constitue
  une anomalie.
- Les délais de livraison présentent des valeurs manquantes et potentiellement extrêmes.


# Mini-rapport d’audit des données

Les trois jeux de données ont été chargés et inspectés à l’aide de la méthode
DataFrame.info().

Le fichier products.csv (60 observations, 5 variables) présente une structure
propre, sans valeurs manquantes et avec des types cohérents. Il est directement
exploitable pour l’analyse.

Le fichier customers.csv (500 observations, 6 variables) contient des anomalies
de qualité : les variables age et signup_date sont stockées sous forme de texte
et devront être converties en types numériques et date. Des valeurs manquantes sont
également observées pour gender (10 cas) et city (15 cas).

Le fichier order_lines.csv (2 225 lignes, 18 variables) constitue la table
transactionnelle principale. Certaines variables nécessitent un traitement
ultérieur, notamment order_date (conversion en date) et la gestion de valeurs
manquantes pour delivery_days, review_score et city. Les montants financiers
sont déjà numériques, ce qui permettra un contrôle de cohérence après jointure.

Globalement, les données sont exploitables mais requièrent un nettoyage et des
conversions de types avant les analyses avancées.