# Exploration des données - Sales Agents Project

Ce notebook explore les données clients et produits pour comprendre les patterns et préparer l'analyse pour les agents de pricing.

In [None]:
# Import des bibliothèques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import sys

# Ajouter le répertoire parent au path
project_root = Path.cwd().parent
sys.path.append(str(project_root))

# Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("Bibliothèques importées avec succès!")

In [None]:
# Chargement des données
data_path = project_root / "data"

# Charger les données clients
customers_df = pd.read_csv(data_path / "customer_data" / "sample_customers.csv")
print("Données clients chargées:")
print(f"Shape: {customers_df.shape}")
print(f"Colonnes: {list(customers_df.columns)}")
print("\nAperçu:")
customers_df.head()

In [None]:
# Analyse statistique des données clients
print("Statistiques descriptives:")
customers_df.describe()

print("\nInformations sur les types de données:")
customers_df.info()

print("\nValeurs manquantes:")
customers_df.isnull().sum()

In [None]:
# Visualisations des données clients

# Distribution des segments clients
plt.figure(figsize=(10, 6))
segment_counts = customers_df['segment'].value_counts()
plt.pie(segment_counts.values, labels=segment_counts.index, autopct='%1.1f%%')
plt.title('Distribution des segments clients')
plt.show()

# Distribution de la fidélité
plt.figure(figsize=(10, 6))
sns.histplot(customers_df['loyalty'], bins=20, kde=True)
plt.title('Distribution de la fidélité des clients')
plt.xlabel('Score de fidélité')
plt.ylabel('Nombre de clients')
plt.show()

# Dépenses moyennes par segment
plt.figure(figsize=(10, 6))
sns.boxplot(x='segment', y='avg_spending', data=customers_df)
plt.title('Dépenses moyennes par segment client')
plt.xlabel('Segment')
plt.ylabel('Dépenses moyennes (€)')
plt.show()