In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('data/fashion_store_sales.csv')

In [3]:
df.shape

(2253, 29)

In [8]:
df.describe()

Unnamed: 0,item_id,sale_id,product_id,quantity,original_price,unit_price,discount_applied,discounted,item_total,total_amount,catalog_price,cost_price,customer_id
count,2253.0,2253.0,2253.0,2253.0,2253.0,2253.0,2253.0,2253.0,2253.0,2028.0,2253.0,2253.0,2253.0
mean,1696.373724,613.966711,254.117621,2.98047,49.321185,48.141074,1.180129,0.098535,143.913298,372.860449,49.321185,27.153964,503.59787
std,964.499872,383.218568,145.214862,1.420658,13.077055,13.373302,3.996179,0.298103,82.153406,152.768703,13.077055,8.639542,290.481602
min,2.0,2.0,1.0,1.0,13.51,11.68,0.0,0.0,13.51,45.5,13.51,6.85,1.0
25%,877.0,288.0,127.0,2.0,39.34,38.49,0.0,0.0,74.7,257.31,39.34,20.73,235.0
50%,1679.0,559.0,253.0,3.0,49.76,47.73,0.0,0.0,130.5,365.085,49.76,26.38,505.0
75%,2515.0,942.0,383.0,4.0,58.34,57.35,0.0,0.0,198.75,472.8,58.34,32.74,759.0
max,3367.0,1352.0,500.0,5.0,85.9,85.9,24.51,1.0,403.8,859.38,85.9,53.76,999.0


In [4]:
df.columns

Index(['sale_date', 'item_id', 'sale_id', 'product_id', 'quantity',
       'original_price', 'unit_price', 'discount_applied', 'discount_percent',
       'discounted', 'item_total', 'channel', 'channel_campaigns',
       'total_amount', 'product_name', 'category', 'brand', 'color', 'size',
       'catalog_price', 'cost_price', 'customer_id', 'gender', 'age_range',
       'signup_date', 'first_name', 'last_name', 'email', 'country'],
      dtype='str')

In [5]:
df.sale_id.unique().shape

(905,)

In [12]:
df.duplicated().sum()

np.int64(0)

In [6]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 2253 entries, 0 to 2252
Data columns (total 29 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sale_date          2253 non-null   str    
 1   item_id            2253 non-null   int64  
 2   sale_id            2253 non-null   int64  
 3   product_id         2253 non-null   int64  
 4   quantity           2253 non-null   int64  
 5   original_price     2253 non-null   float64
 6   unit_price         2253 non-null   float64
 7   discount_applied   2253 non-null   float64
 8   discount_percent   2253 non-null   str    
 9   discounted         2253 non-null   int64  
 10  item_total         2253 non-null   float64
 11  channel            2253 non-null   str    
 12  channel_campaigns  2253 non-null   str    
 13  total_amount       2028 non-null   float64
 14  product_name       2253 non-null   str    
 15  category           2253 non-null   str    
 16  brand              2253 non-null   

In [7]:
# Get columns with missing values
cols_with_na = df.columns[df.isna().any() ]
print("Colonne avec des valeurs manquantes :", cols_with_na.tolist())
print(df[cols_with_na].isna().sum() / len(df) * 100)  # Pourcentage de valeurs manquantes par colonne

Colonne avec des valeurs manquantes : ['total_amount', 'first_name', 'last_name', 'email']
total_amount    9.986684
first_name      5.148691
last_name       2.840657
email           9.942299
dtype: float64


In [20]:
for col in ['channel','category','brand', 'gender', 'age_range', 'country', 'size'] : 
  print(df[col].value_counts(), end='\n\n\n')
  

channel
E-commerce    1170
App Mobile    1083
Name: count, dtype: int64


category
T-Shirts     492
Dresses      482
Shoes        472
Sleepwear    455
Pants        352
Name: count, dtype: int64


brand
Tiva    2253
Name: count, dtype: int64


gender
Female    2253
Name: count, dtype: int64


age_range
36-45    477
26-35    463
16-25    455
46-55    433
56-65    425
Name: count, dtype: int64


country
Germany        537
France         498
Italy          415
Netherlands    326
Spain          276
Portugal       201
Name: count, dtype: int64


size
XS    493
S     358
XL    354
L     350
M     322
36    109
38     93
35     92
40     82
Name: count, dtype: int64




In [21]:
df.sale_date = pd.to_datetime(df.sale_date)

In [24]:
df.sale_date.agg(['min', 'max'])

min   2025-04-04
max   2025-06-17
Name: sale_date, dtype: datetime64[us]

```text
Le dataset regroupe plusieurs entités métier dans une seule table, ce qui induit des redondances importantes.
Par exemple pour les produits, les informations sont répétées pour chaque ligne de vente contenant le même produit. Il en est de même pour les informations du client.
```

# Modélisation et normalisation

## Champs exclus du schema normalise

Le dataset source contient 29 colonnes. Le schema normalise n'en retient que 21. Les colonnes suivantes ont ete volontairement exclues :

| Colonne | Raison de l'exclusion |
| --- | --- |
| `original_price` | Identique a `catalog_price` (redondance directe). Conserver les deux violerait la 2NF : deux attributs portent la meme information pour une meme cle. |
| `unit_price` | Calculable a partir de `catalog_price - discount_applied`. Stocker une valeur derivee viole la 3NF (dependance transitive : `item_id` -> `catalog_price, discount_applied` -> `unit_price`). |
| `discount_percent` | Calculable a partir de `discount_applied / catalog_price * 100`. Meme violation de 3NF que `unit_price`. De plus, cette colonne est de type `str` dans le CSV alors qu'elle devrait etre numerique, ce qui confirme un probleme de qualite. |
| `discounted` | Booleen derivable de `discount_applied > 0`. Aucune information nouvelle par rapport a `discount_applied`. |
| `item_total` | Calculable via `quantity * unit_price`. Dependance transitive sur des attributs deja presents dans `sale_product` et `product`. |
| `total_amount` | Somme des `item_total` par `sale_id`. C'est un aggregat, pas un attribut atomique. Le stocker violerait la 3NF et introduirait des risques d'incoherence si un item est modifie sans recalculer le total. De plus, cette colonne contient ~10% de valeurs manquantes, ce qui renforce le choix de la recalculer a la demande. |

En resume : ne sont conserves que les attributs atomiques, non derivables, qui dependent directement de la cle primaire de leur table. Les valeurs calculees seront reconstituees par des requetes SQL au moment de l'exploitation.

## Entites et attributs

- Client :  
  - customer_id (identifiant)
  - first_name
  - last_name
  - email
  - country
  - signup_date
  - gender
  - age_range

- Produit : 
  - product_id (identifiant)
  - product_name
  - brand
  - category
  - cost_price
  - color
  - size
  - catalog_price

- Sale
  - sale_id (identifiant)
  - sale_date
  - channel
  - channel_campaigns
  - customer_id

- Sale_Product
  - item_id (identifiant)
  - sale_id
  - product_id
  - quantity
  - discount_applied


## Schema de la bd
<img src='schema_bd.png'/>