# Analyse Exploratoire des Données (EDA)

Ce notebook effectue une analyse exploratoire complète des données clients pour comprendre leur structure, identifier les patterns et préparer les données pour le clustering.

## Objectifs
- Analyser la structure des données
- Identifier les variables importantes
- Détecter les valeurs manquantes et outliers
- Explorer les corrélations entre variables
- Préparer les données pour le clustering


In [None]:
# Import des librairies nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("✅ Librairies importées avec succès!")


In [None]:
# Chargement des données
# TODO: Remplacer par le chemin vers vos données réelles
# df = pd.read_csv('../data/raw/donnees_clients.csv')

# Pour l'instant, créons des données de démonstration
np.random.seed(42)
n_customers = 1000

df = pd.DataFrame({
    'customer_id': range(1, n_customers + 1),
    'age': np.random.normal(35, 12, n_customers).astype(int),
    'income': np.random.normal(50000, 20000, n_customers),
    'spending_score': np.random.randint(1, 101, n_customers),
    'recency': np.random.randint(1, 366, n_customers),
    'frequency': np.random.poisson(5, n_customers),
    'monetary': np.random.exponential(100, n_customers),
    'gender': np.random.choice(['M', 'F'], n_customers),
    'education': np.random.choice(['High School', 'Bachelor', 'Master', 'PhD'], n_customers),
    'marital_status': np.random.choice(['Single', 'Married', 'Divorced'], n_customers)
})

# Ajustement des valeurs pour qu'elles soient réalistes
df['age'] = np.clip(df['age'], 18, 80)
df['income'] = np.clip(df['income'], 20000, 150000)
df['monetary'] = np.clip(df['monetary'], 10, 1000)

print(f"✅ Dataset créé avec {len(df)} clients et {len(df.columns)} variables")
print(f"\nDimensions du dataset: {df.shape}")
df.head()
