# 03 – Transformation des données

In [None]:
import pandas as pd

df = pd.read_csv("../data/raw/dirty_cafe_sales.csv")

df = df.drop_duplicates()
df = df.dropna(subset=["Item", "Quantity", "Price Per Unit", "Transaction Date"])
df["Payment Method"] = df["Payment Method"].fillna("Unknown")
df["Location"] = df["Location"].fillna("Unknown")


In [2]:
df = df.rename(columns={
    "Transaction ID": "transaction_id",
    "Item": "item",
    "Quantity": "quantity",
    "Price Per Unit": "price_per_unit",
    "Total Spent": "total_spent",
    "Payment Method": "payment_method",
    "Location": "location",
    "Transaction Date": "transaction_date"
})


Les noms de colonnes ont été standardisés (minuscules et underscores)
afin d’améliorer la lisibilité et la manipulation des données.


In [3]:
df["quantity"] = pd.to_numeric(df["quantity"], errors="coerce")
df["price_per_unit"] = pd.to_numeric(df["price_per_unit"], errors="coerce")
df["transaction_date"] = pd.to_datetime(df["transaction_date"], errors="coerce")


In [4]:
df["total_spent"] = df["quantity"] * df["price_per_unit"]


La colonne total_spent étant une valeur dérivée, elle a été recalculée
à partir de la quantité et du prix unitaire afin de garantir sa cohérence.


In [6]:
df = df.dropna()


In [7]:
df.info()
df.head()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 8320 entries, 0 to 9999
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   transaction_id    8320 non-null   object        
 1   item              8320 non-null   object        
 2   quantity          8320 non-null   float64       
 3   price_per_unit    8320 non-null   float64       
 4   total_spent       8320 non-null   float64       
 5   payment_method    8320 non-null   object        
 6   location          8320 non-null   object        
 7   transaction_date  8320 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 585.0+ KB


Unnamed: 0,transaction_id,item,quantity,price_per_unit,total_spent,payment_method,location,transaction_date
0,TXN_1961373,Coffee,2.0,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4.0,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4.0,1.0,4.0,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2.0,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2.0,2.0,4.0,Digital Wallet,In-store,2023-06-11


In [8]:
df.to_csv("../data/processed/clean_cafe_sales.csv", index=False)


Le jeu de données final a été exporté dans le dossier data/processed.
Il est désormais propre, cohérent et prêt à être exploité.


Conclusion

Cette phase de transformation a permis de corriger les types de données,
de standardiser les colonnes et de recalculer les valeurs dérivées.
Le jeu de données obtenu est exploitable et constitue le livrable final.
