# Data Cleaning

Dans ce notebook, nous allons nettoyer un dataset "sale" Ã  la main avec Pandas. 

**Objectifs pÃ©dagogiques :**
1. DÃ©tecter les anomalies (Types, Doublons, Valeurs manquantes).
2. Standardiser des formats hÃ©tÃ©rogÃ¨nes (Dates, Prix).
3. Corriger les erreurs de saisie (Typos, Casses).
4. Traiter les valeurs aberrantes (Outliers).

---

## 1. Chargement et Exploration Initiale

Avant de toucher aux donnÃ©es, il faut comprendre ce qu'on a entre les mains. 
`read_csv` est le point d'entrÃ©e classique. On utilise ensuite `info()` pour voir les types de donnÃ©es infÃ©rÃ©s par Pandas.

In [None]:
import pandas as pd
import numpy as np

# Chargement du dataset
df = pd.read_csv('dirty_sales_data.csv')

# AperÃ§u rapide
display(df.head())

In [None]:
df.info()

### ðŸ”Ž Analyse du problÃ¨me
En regardant le rÃ©sultat de `df.info()`, on remarque plusieurs red flags :
- **Date** est de type `object` (string) -> Il faudrait du `datetime`.
- **Unit_Price** est de type `object` (string) -> Il y a probablement des symboles monÃ©taires.
- **Quantity** est bien un `int`, mais nous devrons vÃ©rifier sa cohÃ©rence mÃ©tier.

## 2. Gestion des Doublons

Les doublons polluent les analyses. Il y a deux types :
1. **Doublons parfaits** : Toute la ligne est identique.
2. **Doublons partiels** : MÃªme identifiant unique (`Transaction_ID`) mais donnÃ©es diffÃ©rentes (conflit).

CommenÃ§ons par supprimer les doublons parfaits.

In [None]:
# Compter les doublons initiaux
print(f"Doublons : {df.duplicated().sum()}")
display(df[df.duplicated(keep=False)])

In [None]:
# Suppression des doublons exacts
df = df.drop_duplicates()
print(f"Doublons aprÃ¨s nettoyage : {df.duplicated().sum()}")

Maintenant, vÃ©rifions si des `Transaction_ID` se rÃ©pÃ¨tent encore (doublons logiques).

In [None]:
# VÃ©rification des IDs dupliquÃ©s
duplicates_ids = df[df.duplicated(subset=['Transaction_ID'], keep=False)]
print(f"Nombre de lignes avec ID conflictuels : {len(duplicates_ids)}")

display(duplicates_ids.sort_values(by='Transaction_ID').head(10))

In [None]:
# StratÃ©gie : On garde la derniÃ¨re occurrence (rÃ¨gle mÃ©tier interne)
# Sinon on ferait une investigation plus poussÃ©e (timestamp, etc.)
df = df.drop_duplicates(subset=['Transaction_ID'], keep='last')
df[df.duplicated(subset=['Transaction_ID'], keep=False)]


## 3. Standardisation des Dates

La colonne `Date` contient un mÃ©lange de formats (YYYY-MM-DD vs DD/MM/YYYY) et du texte poubelle.
Utiliser simplement `pd.to_datetime(..., errors='coerce')` est risquÃ© car cela supprimerait les dates valides au format franÃ§ais (ex: 18/07/2025).

**Solution Robuste :** Tenter plusieurs conversions successives.
1. D'abord le format ISO (majoritaire).
2. Ensuite le format EuropÃ©en sur les Ã©checs.
3. Ne garder en erreur que ce qui Ã©choue aux deux.

In [None]:
# AperÃ§u du problÃ¨me
print("Exemples de dates avant conversion :")
print(df['Date'])

In [None]:
# 1. Tentative Format ISO (YYYY-MM-DD)
dates_iso = pd.to_datetime(df['Date'], format='%Y-%m-%d', errors='coerce')
dates_iso.head(10)

In [None]:
# 2. Tentative Format FR (DD/MM/YYYY) sur les lignes en Ã©chec (NaT)
mask_missed = dates_iso.isna()
dates_fr = pd.to_datetime(df.loc[mask_missed, 'Date'], format='%d/%m/%Y', errors='coerce')
dates_fr.head(10)

In [None]:
# 3. Combinaison : On remplit les trous de l'ISO avec les succÃ¨s du FR
df['Date'] = dates_iso.fillna(dates_fr)
df.head(15)

In [None]:
# Bilan
saved_docs = dates_fr.notna().sum()
final_missing = df['Date'].isnull().sum()
print(f"\nDates rÃ©cupÃ©rÃ©es via format FR : {saved_docs}")
print(f"Dates irrÃ©cupÃ©rables (Vraies poubelles) : {final_missing}")

# Suppression des lignes sans date valide, indispensables pour la suite de l'analyse
df = df.dropna(subset=['Date'])
df.head(10)

## 4. Nettoyage des chaÃ®nes de caractÃ¨res (Strings)

### A. Noms Clients
Les noms ont des problÃ¨mes de casse ("ACME" vs "Acme") et des espaces superflus. 
Standardisons tout en "Title Case" et retirons les espaces.

In [None]:
df['Client_Name']

In [None]:
df['Client_Name'].str.strip()

In [None]:
df['Client_Name'].str.strip().str.title()

In [None]:
# Nettoyage espaces + Title Case
df['Client_Name'] = df['Client_Name'].str.strip().str.title()

# VÃ©rification rapide
print(df['Client_Name'].sample(5))

### B. CatÃ©gories Produits (Typos)
Regardons les valeurs uniques pour repÃ©rer les fautes de frappe.

In [None]:
print("valeurs uniques avant :", df['Product_Category'].unique())

In [None]:
# Dictionnaire de correction
corrections = {
    'Sofware': 'Software', 'Softwar': 'Software', 'Softwaree': 'Software',
    'Electornics': 'Electronics', 'Elec': 'Electronics', 'Electronic': 'Electronics',
    'Clothng': 'Clothing', 'Clotting': 'Clothing',
    'H0me': 'Home', 'Hom': 'Home',
    'Boks': 'Books', 'Book': 'Books'
}

# Application (replace ou map)
df['Product_Category'] = df['Product_Category'].replace(corrections)

print("\nValeurs uniques aprÃ¨s :", df['Product_Category'].unique())

## 5. Conversions NumÃ©riques complexes (Prix)

C'est souvent le plus dur. `Unit_Price` contient des "$", "â‚¬", "USD". 
Il faut :
1. Identifier les symboles.
2. GÃ©rer le format europÃ©en (1.200,50) vs US (1,200.50) si nÃ©cessaire.
3. Convertir en float.

*Pour simplifier ici, on va retirer tous les caractÃ¨res non numÃ©riques (sauf '.' et ',') et uniformiser.*

In [None]:
df['Unit_Price'].head()

In [None]:
"$793 USD".replace('$', '')

In [None]:
"$793 USD ".replace('$', '').replace('USD', '').strip()

In [None]:
p = "1,000,000.73"
p = "1.000.00,73"
p = "10000,73"
if ',' in p and '.' in p:
    if p.rfind(',') > p.rfind('.'):
            # Format US 1,000.00 mais inversÃ© ?? Ou juste Europe 1.000,00
            # On remplace . par rein, et , par .
            p = p.replace('.', '').replace(',', '.')
    else:
            # Format US 1,000.00 -> remove ,
            p = p.replace(',', '')
elif ',' in p:
    # Juste une virgule ? Probablement dÃ©cimale si pas de point
    p = p.replace(',', '.')

p

In [None]:
def clean_price(price_str):
    if isinstance(price_str, (int, float)):
        return float(price_str)
    
    # Convertir en string propre
    p = str(price_str)
    
    # Cas simple : on retire devises et espaces
    p = p.replace('$', '').replace('â‚¬', '').replace('USD', '').strip()
    
    # Gestion format Europe (point pour millier, virgule pour dÃ©cimale)
    # Heuristique simple : si ',' est le dernier sÃ©parateur, c'est une dÃ©cimale
    if ',' in p and '.' in p:
        if p.rfind(',') > p.rfind('.'):
             # Format US 1,000.00 mais inversÃ© ?? Ou juste Europe 1.000,00
             # On remplace . par rein, et , par .
             p = p.replace('.', '').replace(',', '.')
        else:
             # Format US 1,000.00 -> remove ,
             p = p.replace(',', '')
    elif ',' in p:
        # Juste une virgule ? Probablement dÃ©cimale si pas de point
        p = p.replace(',', '.')
    
    return float(p)

df['Unit_Price'] = df['Unit_Price'].apply(clean_price)
display(df.head(10))
print(df['Unit_Price'].describe())

## 6. Valeurs Aberrantes (Outliers)

La colonne `Quantity` ne doit pas Ãªtre nÃ©gative, et 10,000 articles d'un coup, c'est suspect.

In [None]:
print("Avant nettoyage :")
print(df['Quantity'].describe())

In [None]:
# RÃ¨gles mÃ©tier :
# 1. Quantity > 0
# 2. Quantity < 100 (seuil arbitraire)

condition_valide = (df['Quantity'] > 0) & (df['Quantity'] < 100)
condition_valide


In [None]:
df_clean = df[condition_valide].copy()
df_clean

In [None]:
print("\nAprÃ¨s nettoyage :")
print(df_clean['Quantity'].describe())

## Conclusion

Nous avons converti un dataset "sale" en dataset propre prÃªt pour l'analyse.
Cependant, **c'Ã©tait long et verbeux**. Il a fallu Ã©crire une fonction spÃ©cifique pour chaque colonne.

Dans le prochain notebook, nous verrons comment un **Agent IA** peut faire tout cela pour nous en quelques secondes.

In [None]:
df_clean.to_csv('clean_sales_data_manual.csv', index=False)
print("Fichier propre sauvegardÃ© : clean_sales_data_manual.csv")