In [None]:
# ============================================
# NOTEBOOK 2: NETTOYAGE DES DONNÉES
# ============================================

# Cellule 1: Charger les données
import pandas as pd
import numpy as np
from pathlib import Path

df_sales = pd.read_excel('data/raw/Sales.xlsx')
print(f"Données chargées: {df_sales.shape}")

# Cellule 2: Nettoyer les données
print("\n=== NETTOYAGE DES DONNÉES ===")

# Supprimer les doublons
n_duplicates = df_sales.duplicated().sum()
df_sales = df_sales.drop_duplicates()
print(f"✓ {n_duplicates} doublons supprimés")

# Gérer les valeurs manquantes
print(f"\nValeurs manquantes avant:")
print(df_sales.isnull().sum())

# Remplir ou supprimer les valeurs manquantes
df_sales = df_sales.dropna(subset=['Sales', 'Order Date'])
print(f"\n✓ Lignes avec valeurs manquantes critiques supprimées")

# Convertir les types de données
df_sales['Order Date'] = pd.to_datetime(df_sales['Order Date'])
df_sales['Sales'] = pd.to_numeric(df_sales['Sales'], errors='coerce')
df_sales['Profit'] = pd.to_numeric(df_sales['Profit'], errors='coerce')
print("✓ Types de données convertis")

# Créer des colonnes dérivées
df_sales['Year'] = df_sales['Order Date'].dt.year
df_sales['Month'] = df_sales['Order Date'].dt.month
df_sales['Quarter'] = df_sales['Order Date'].dt.quarter
df_sales['Month Name'] = df_sales['Order Date'].dt.strftime('%B')
df_sales['Day Name'] = df_sales['Order Date'].dt.strftime('%A')
print("✓ Colonnes temporelles créées")

# Cellule 3: Valider les données
print("\n=== VALIDATION ===")
print(f"Forme finale: {df_sales.shape}")
print(f"Période: {df_sales['Order Date'].min()} à {df_sales['Order Date'].max()}")
print(f"Ventes totales: ${df_sales['Sales'].sum():,.2f}")
print(f"Profit total: ${df_sales['Profit'].sum():,.2f}")

# Cellule 4: Sauvegarder les données nettoyées
output_path = Path('data/processed/sales_clean.csv')
output_path.parent.mkdir(parents=True, exist_ok=True)
df_sales.to_csv(output_path, index=False)
print(f"\n✓ Données sauvegardées dans: {output_path}")

# Sauvegarder aussi en Excel
df_sales.to_excel('data/processed/sales_clean.xlsx', index=False)
print("✓ Données également sauvegardées en Excel")