In [2]:
# --- CELLULE 1 : IMPORTATION DES LIBRAIRIES (Tout au début) ---
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os

# Configuration graphique
%matplotlib inline
sns.set_theme(style="whitegrid")

print("Librairies chargées et environnement prêt !")

# --- CELLULE 2 : CHARGEMENT DES DONNÉES ---
# On charge le fichier brut
try:
    df = pd.read_csv('../DATA/RAW/dirty_cafe_sales.csv')
    print("Fichier chargé avec succès !")
    display(df.head())
except FileNotFoundError:
    print("Erreur : Le fichier est introuvable. Vérifiez le chemin '../DATA/RAW/dirty_cafe_sales.csv'")

# --- CELLULE 3 : AUDIT DES TYPES (Recommandation Prof) ---
# On vérifie comment Python interprète nos données brutes
print("\n--- 1. VÉRIFICATION DES TYPES (Typage) ---")
print(df.dtypes)

print("\n[ANALYSE] :")
print("On remarque que 'Price Per Unit', 'Quantity' et 'Transaction Date' sont détectés comme 'object' (texte)")
print("au lieu de float/datetime. C'est dû à la présence des valeurs parasites 'ERROR' et 'UNKNOWN'.")
print("Il faudra impérativement les convertir (caster) lors de l'étape de Cleaning.")

# --- CELLULE 4 : DÉTECTION DES VALEURS MANQUANTES ---
print("\n--- 2. COMPTE DES VALEURS MANQUANTES (VIDES) ---")
print(df.isnull().sum())

# --- CELLULE 5 : DÉTECTION DES ERREURS TEXTUELLES ---
print("\n--- 3. COMPTE DES ANOMALIES ('ERROR' / 'UNKNOWN') ---")
colonnes_a_verifier = ['Item', 'Quantity', 'Price Per Unit', 'Total Spent', 'Payment Method', 'Location', 'Transaction Date']

for col in colonnes_a_verifier:
    # On convertit en string pour chercher le texte
    nb_error = df[col].astype(str).str.contains('ERROR', case=False).sum()
    nb_unknown = df[col].astype(str).str.contains('UNKNOWN', case=False).sum()
    
    if nb_error > 0 or nb_unknown > 0:
        print(f"Colonne {col} : {nb_error} 'ERROR' + {nb_unknown} 'UNKNOWN'")

Librairies chargées et environnement prêt !
Fichier chargé avec succès !


Unnamed: 0,Transaction ID,Item,Quantity,Price Per Unit,Total Spent,Payment Method,Location,Transaction Date
0,TXN_1961373,Coffee,2,2.0,4.0,Credit Card,Takeaway,2023-09-08
1,TXN_4977031,Cake,4,3.0,12.0,Cash,In-store,2023-05-16
2,TXN_4271903,Cookie,4,1.0,ERROR,Credit Card,In-store,2023-07-19
3,TXN_7034554,Salad,2,5.0,10.0,UNKNOWN,UNKNOWN,2023-04-27
4,TXN_3160411,Coffee,2,2.0,4.0,Digital Wallet,In-store,2023-06-11



--- 1. VÉRIFICATION DES TYPES (Typage) ---
Transaction ID      object
Item                object
Quantity            object
Price Per Unit      object
Total Spent         object
Payment Method      object
Location            object
Transaction Date    object
dtype: object

[ANALYSE] :
On remarque que 'Price Per Unit', 'Quantity' et 'Transaction Date' sont détectés comme 'object' (texte)
au lieu de float/datetime. C'est dû à la présence des valeurs parasites 'ERROR' et 'UNKNOWN'.
Il faudra impérativement les convertir (caster) lors de l'étape de Cleaning.

--- 2. COMPTE DES VALEURS MANQUANTES (VIDES) ---
Transaction ID         0
Item                 333
Quantity             138
Price Per Unit       179
Total Spent          173
Payment Method      2579
Location            3265
Transaction Date     159
dtype: int64

--- 3. COMPTE DES ANOMALIES ('ERROR' / 'UNKNOWN') ---
Colonne Item : 292 'ERROR' + 344 'UNKNOWN'
Colonne Quantity : 170 'ERROR' + 171 'UNKNOWN'
Colonne Price Per Unit : 190 '