# **Analyse Exploratoire des Données (EDA)**
## **Cas d’étude – Stage Data Engineering chez Artefact CI**

### Nom & Prénoms : **BALOGUN John Oluwasegun**  
**Objectif :** Analyse exploratoire et compréhension métier du jeu de données  
**Contexte :** Préparation à la modélisation relationnelle (3FN)

## Initialisation 

In [30]:
import pandas as pd
import numpy as np
import warnings

warnings.filterwarnings("ignore") # Masque les warnings pour une lecture plus fluide

pd.set_option("display.max_columns", None) # Affiche toutes les colonnes des DataFrames


## 1. EXAMEN DE LA STRUCTURE DU FICHIER

### 1.1 Chargement du dataset

In [31]:
file_path = r"C:\Users\VICTUS\Downloads\ARTEFACT\fashion_store_sales.csv"
df = pd.read_csv(file_path)

print("Dimensions du dataset")
print(f"Lignes   : {df.shape[0]:,}")
print(f"Colonnes : {df.shape[1]}")

Dimensions du dataset
Lignes   : 2,253
Colonnes : 29


In [32]:
df.head()

Unnamed: 0,sale_date,item_id,sale_id,product_id,quantity,original_price,unit_price,discount_applied,discount_percent,discounted,item_total,channel,channel_campaigns,total_amount,product_name,category,brand,color,size,catalog_price,cost_price,customer_id,gender,age_range,signup_date,first_name,last_name,email,country
0,2025-06-16,2270,658,403,1,81.8,81.8,0.0,0.00%,0,81.8,App Mobile,App Mobile,374.25,Elegant Satin Dress,Dresses,Tiva,Red,L,81.8,45.12,835,Female,46-55,2025-04-26,Dusty,Comerford,dcomerfordn6@google.nl,Portugal
1,2025-06-17,1170,336,284,1,81.79,81.79,0.0,0.00%,0,81.79,E-commerce,Website Banner,536.47,Essential Cotton Shoes,Shoes,Tiva,White,35,81.79,35.02,790,Female,16-25,2025-04-26,Beale,Seeds,bseedslx@phpbb.com,France
2,2025-04-16,2496,1255,71,1,80.76,80.76,0.0,0.00%,0,80.76,App Mobile,App Mobile,104.81,Modern Ribbed Trousers,Pants,Tiva,Red,XL,80.76,51.01,464,Female,36-45,2025-04-14,Juan,Blacklock,jblacklockcv@discuz.net,Germany
3,2025-05-06,1273,331,98,1,78.52,78.52,0.0,0.00%,0,78.52,App Mobile,App Mobile,263.87,Modern Boxy Shoes,Shoes,Tiva,Black,38,78.52,41.48,100,Female,26-35,2025-01-30,Godfry,Cockerill,gcockerill2r@vimeo.com,Italy
4,2025-06-15,1829,1079,98,1,78.52,78.52,0.0,0.00%,0,78.52,App Mobile,App Mobile,173.84,Modern Boxy Shoes,Shoes,Tiva,Black,38,78.52,41.48,837,Female,46-55,2025-03-02,,Kilby,lkilbyn8@wordpress.com,Germany


### 1.2 Liste et typologie des colonnes

In [33]:
colonnes = pd.DataFrame({
    "colonne": df.columns,
    "type": df.dtypes.values
})

colonnes

Unnamed: 0,colonne,type
0,sale_date,object
1,item_id,int64
2,sale_id,int64
3,product_id,int64
4,quantity,int64
5,original_price,float64
6,unit_price,float64
7,discount_applied,float64
8,discount_percent,object
9,discounted,int64


### 1.3 Analyse des types et conversions attendues

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2253 entries, 0 to 2252
Data columns (total 29 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sale_date          2253 non-null   object 
 1   item_id            2253 non-null   int64  
 2   sale_id            2253 non-null   int64  
 3   product_id         2253 non-null   int64  
 4   quantity           2253 non-null   int64  
 5   original_price     2253 non-null   float64
 6   unit_price         2253 non-null   float64
 7   discount_applied   2253 non-null   float64
 8   discount_percent   2253 non-null   object 
 9   discounted         2253 non-null   int64  
 10  item_total         2253 non-null   float64
 11  channel            2253 non-null   object 
 12  channel_campaigns  2253 non-null   object 
 13  total_amount       2028 non-null   float64
 14  product_name       2253 non-null   object 
 15  category           2253 non-null   object 
 16  brand              2253 

### 1.4 Cardinalité par colonne (fondamental pour la modélisation)

In [35]:
cardinalite = pd.DataFrame({
    "colonne": df.columns,
    "valeurs_uniques": df.nunique(),
    "pourcentage": (df.nunique() / len(df)) * 100
}).sort_values("valeurs_uniques", ascending=False)

cardinalite

Unnamed: 0,colonne,valeurs_uniques,pourcentage
item_id,item_id,2253,100.0
item_total,item_total,1555,69.02
sale_id,sale_id,905,40.17
total_amount,total_amount,896,39.77
unit_price,unit_price,638,28.32
customer_id,customer_id,580,25.74
last_name,last_name,564,25.03
first_name,first_name,535,23.75
email,email,523,23.21
product_name,product_name,499,22.15


### 1.5 Interprétation métier de la cardinalité

In [36]:
haute_card = cardinalite[cardinalite["pourcentage"] > 90]
basse_card = cardinalite[cardinalite["pourcentage"] < 10]

print("Colonnes à très forte cardinalité")
haute_card

Colonnes à très forte cardinalité


Unnamed: 0,colonne,valeurs_uniques,pourcentage
item_id,item_id,2253,100.0


#### Interprétation de la colonne `item_id`

La colonne `item_id` présente une cardinalité de 100 %, ce qui indique
qu’elle est unique pour chaque ligne du dataset.

Cette colonne correspond à un identifiant technique de ligne et ne représente aucune entité métier.

`item_id` ne doit pas être utilisée comme clé primaire fonctionnelle
dans le modèle de données cible.

## 2. IDENTIFICATION DES ENTITÉS MÉTIER

### 2.1 Entité VENTES (table de faits)

In [37]:
df["sale_id"].nunique(), len(df)

(905, 2253)

#### Granularité des ventes

L’analyse montre que le nombre de `sale_id` uniques (905) est inférieur
au nombre total de lignes (2 253).

Cela indique qu’une vente peut contenir plusieurs lignes,
correspondant à plusieurs produits dans un même panier.

La granularité du dataset est donc **la ligne de vente**.

Ce point est structurant pour la modélisation relationnelle :
- `sale_id` ne peut pas être une clé primaire seule
- une clé composite ou une clé technique sera nécessaire


### 2.2 Entité PRODUITS

In [38]:
df["product_id"].nunique()

499

#### Vérification des dépendances fonctionnelles

In [39]:
df.groupby("product_id").agg({
    "product_name": "nunique",
    "category": "nunique",
    "brand": "nunique",
    "color": "nunique",
    "size": "nunique"
}).query("product_name > 1 or category > 1")

Unnamed: 0_level_0,product_name,category,brand,color,size
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1


Résultat vide, prouve que : product_id → product_name, category, brand, color, size donc Produit est une entité stable, parfait pour une table PRODUITS en 3FN

### 2.3 Entité CLIENTS

In [40]:
df["customer_id"].nunique()

580

In [41]:
df.groupby("customer_id").agg({
    "email": "nunique",
    "country": "nunique",
    "age_range": "nunique"
}).query("email > 1 or country > 1")


Unnamed: 0_level_0,email,country,age_range
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1


Résultat vide également, conclusion : customer_id → email, country, age_range donc aucun conflit métier et une Table CLIENTS propre

### 2.4 Entités CANAUX & CAMPAGNES

In [42]:
df[["channel", "channel_campaigns"]].drop_duplicates().sort_values("channel")

Unnamed: 0,channel,channel_campaigns
0,App Mobile,App Mobile
163,App Mobile,Social Media
1,E-commerce,Website Banner
233,E-commerce,Email


## 3. REDONDANCES & ANOMALIES

### 3.1 Valeurs manquantes

In [43]:
missing = pd.DataFrame({
    "colonne": df.columns,
    "nb_manquants": df.isnull().sum(),
    "pourcentage": (df.isnull().sum() / len(df)) * 100
}).query("nb_manquants > 0").sort_values("nb_manquants", ascending=False)

missing

Unnamed: 0,colonne,nb_manquants,pourcentage
total_amount,total_amount,225,9.99
email,email,224,9.94
first_name,first_name,116,5.15
last_name,last_name,64,2.84


### 3.2 Colonnes constantes (non informatives)

In [44]:
[col for col in df.columns if df[col].nunique() == 1]

['brand', 'gender']

Ces colonnes ne portent aucune information discriminante et peuvent être supprimées

### 3.3 Redondance des prix

In [49]:
print(f"{(df['original_price'] == df['catalog_price']).mean() * 100:.0f} %")

100 %


Une seule colonne à conserver

### 3.4 Cohérence des montants

In [46]:
df["item_total_calc"] = df["quantity"] * df["unit_price"]

df[np.abs(df["item_total"] - df["item_total_calc"]) > 0.01].shape[0]


77

77 lignes présentent une incohérence entre le champ item_total et le
montant recalculé (quantity × unit_price).

Le champ item_total ne peut donc pas être considéré comme fiable et
devra être recalculé lors de l’ingestion des données.

### 3.5 Cohérence des remises

In [47]:
df["discount_percent_num"] = (
    df["discount_percent"]
    .str.replace("%", "", regex=False)
    .astype(float)
)

In [48]:
df[
    ((df["discount_percent_num"] > 0) & (df["discounted"] == 0)) |
    ((df["discount_percent_num"] == 0) & (df["discounted"] == 1))
]

Unnamed: 0,sale_date,item_id,sale_id,product_id,quantity,original_price,unit_price,discount_applied,discount_percent,discounted,item_total,channel,channel_campaigns,total_amount,product_name,category,brand,color,size,catalog_price,cost_price,customer_id,gender,age_range,signup_date,first_name,last_name,email,country,item_total_calc,discount_percent_num


discounted et discount_percent sont cohérents donc la logique métier est respectée

### CONCLUSION – ANALYSE EXPLORATOIRE

Le jeu de données correspond à un dataset e-commerce transactionnel
fortement dénormalisé, avec une granularité au niveau ligne de vente.

L’analyse met en évidence :
- des ventes multi-lignes (panier),
- des dépendances fonctionnelles claires pour les entités Clients et Produits,
- des redondances importantes (informations clients, produits, prix),
- des colonnes non informatives (brand, gender),
- des anomalies de calcul sur le champ item_total.

Ces constats justifient pleinement une normalisation du modèle de données
jusqu’à la troisième forme normale (3FN), qui sera abordée dans la section suivante.
