# Analyse des Comportements Clients - Exploration des Donnees

Ce notebook effectue une analyse exploratoire complete des donnees de comportement des clients.

## Objectifs
1. Charger et explorer les donnees clients
2. Effectuer une evaluation de la qualite des donnees
3. Creer des visualisations initiales
4. Generer des statistiques de synthese
5. Identifier des modeles et des insights

## Table des Matieres
1. [Configuration de l'Environnement](#configuration-de-lenvironnement)
2. [Chargement des Donnees](#chargement-des-donnees)
3. [Apercu des Donnees](#apercu-des-donnees)
4. [Evaluation de la Qualite des Donnees](#evaluation-de-la-qualite-des-donnees)
5. [Visualisations Exploratoires](#visualisations-exploratoires)
6. [Statistiques de Synthese](#statistiques-de-synthese)
7. [Insights Cles](#insights-cles)

## Configuration de l'Environnement

Commencons par importer toutes les bibliotheques necessaires pour l'analyse de donnees et la visualisation.

In [None]:
# Import des bibliotheques necessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime, timedelta
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import random

# Configuration du style de graphiques
plt.style.use('default')  # Change de 'seaborn-v0_8' vers 'default' pour la compatibilite
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuration des options d'affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

print("Bibliotheques importees avec succes!")
print(f"Version Pandas: {pd.__version__}")
print(f"Version NumPy: {np.__version__}")
print(f"Version Matplotlib: {plt.matplotlib.__version__}")
print(f"Version Seaborn: {sns.__version__}")

# Fonctions de generation de donnees (integrees pour eviter les problemes d'import)
def get_sample_data(n_customers: int = 1000) -> pd.DataFrame:
    """Generer des donnees d'exemple de comportement client pour l'analyse."""
    np.random.seed(42)  # Pour des resultats reproductibles
    random.seed(42)
    
    # Generer les IDs clients
    customer_ids = [f"CUST_{i:04d}" for i in range(1, n_customers + 1)]
    
    # Generer les donnees demographiques
    ages = np.random.normal(45, 15, n_customers).astype(int)
    ages = np.clip(ages, 18, 80)  # Assurer une plage d'age raisonnable
    
    genders = np.random.choice(['M', 'F', 'Other'], n_customers, p=[0.4, 0.5, 0.1])
    
    cities = np.random.choice([
        'Zurich', 'Geneva', 'Basel', 'Bern', 'Lausanne', 'Lucerne'
    ], n_customers)
    
    # Generer les dates d'inscription (reparties sur 2023)
    start_date = datetime(2023, 1, 1)
    end_date = datetime(2023, 12, 31)
    date_range = (end_date - start_date).days
    
    registration_dates = [
        start_date + timedelta(days=random.randint(0, date_range))
        for _ in range(n_customers)
    ]
    
    # Generer les donnees comportementales avec des correlations realistes
    # Age plus eleve -> depenses legerement plus elevees
    age_factor = (ages - ages.mean()) / ages.std()
    
    # Generer le nombre total d'achats (1-20, avec une correlation a l'age)
    total_purchases = np.random.poisson(5, n_customers) + np.random.poisson(2, n_customers) * (1 + 0.1 * age_factor)
    total_purchases = np.clip(total_purchases, 1, 20).astype(int)
    
    # Generer le montant total depense (correle avec les achats et l'age)
    base_spending = 50 + 30 * total_purchases + 2 * ages + np.random.normal(0, 50, n_customers)
    total_spent = np.maximum(base_spending, 0.5)  # Minimum 0.50$
    
    # Generer les donnees de session
    avg_session_duration = np.random.exponential(10, n_customers) + 5
    avg_session_duration = np.clip(avg_session_duration, 0.5, 35)
    
    page_views_per_session = np.random.poisson(8, n_customers) + np.random.poisson(3, n_customers)
    page_views_per_session = np.clip(page_views_per_session, 2, 25).astype(int)
    
    # Taux de rebond (relation inverse avec la duree de session)
    bounce_rate = np.random.beta(2, 5, n_customers) * (1 - 0.3 * (avg_session_duration / avg_session_duration.max()))
    bounce_rate = np.clip(bounce_rate, 0.01, 0.8)
    
    # Generer les dates de derniere activite (apres inscription, dans une plage raisonnable)
    last_activity_dates = []
    for reg_date in registration_dates:
        # Derniere activite entre l'inscription et la fin de 2023
        days_after_reg = random.randint(0, (end_date - reg_date).days)
        last_activity_dates.append(reg_date + timedelta(days=days_after_reg))
    
    # Generer les types d'abonnement (correles avec les depenses)
    # Utiliser les quantiles pour creer des types d'abonnement bases sur les depenses
    q25 = np.percentile(total_spent, 25)
    q50 = np.percentile(total_spent, 50)
    q75 = np.percentile(total_spent, 75)
    
    subscription_types = []
    for spending in total_spent:
        if spending <= q25:
            subscription_types.append('Basic')
        elif spending <= q50:
            subscription_types.append(np.random.choice(['Basic', 'Premium'], p=[0.4, 0.6]))
        elif spending <= q75:
            subscription_types.append(np.random.choice(['Premium', 'Enterprise'], p=[0.7, 0.3]))
        else:  # Top 25%
            subscription_types.append(np.random.choice(['Premium', 'Enterprise'], p=[0.3, 0.7]))
    
    # Generer les types d'appareils
    device_types = np.random.choice(['Mobile', 'Desktop', 'Tablet'], n_customers, p=[0.6, 0.3, 0.1])
    
    # Generer les scores de satisfaction (quelques valeurs manquantes, correles avec les depenses)
    satisfaction_scores = []
    for i in range(n_customers):
        if random.random() < 0.05:  # 5% de valeurs manquantes
            satisfaction_scores.append(np.nan)
        else:
            # Depenses plus elevees -> satisfaction legerement plus elevee
            base_satisfaction = 5 + 0.5 * (total_spent[i] / total_spent.max()) + np.random.normal(0, 1.5)
            satisfaction_scores.append(np.clip(base_satisfaction, 1, 10))
    
    # Generer les tickets de support (correles avec les achats et la satisfaction)
    support_tickets = []
    for i in range(n_customers):
        base_tickets = np.random.poisson(1)
        # Plus d'achats -> plus de tickets, satisfaction plus faible -> plus de tickets
        if not np.isnan(satisfaction_scores[i]):
            satisfaction_factor = max(0, 6 - satisfaction_scores[i]) / 5
        else:
            satisfaction_factor = 0.5
        tickets = base_tickets + int(total_purchases[i] * 0.1) + int(satisfaction_factor * 2)
        support_tickets.append(max(0, min(tickets, 8)))  # Max 8 tickets, min 0
    
    # Generer les sources de reference
    referral_sources = np.random.choice([
        'Organic', 'Social Media', 'Email', 'Paid Ads', 'Referral'
    ], n_customers, p=[0.3, 0.25, 0.2, 0.15, 0.1])
    
    # Creer le DataFrame
    df = pd.DataFrame({
        'customer_id': customer_ids,
        'age': ages,
        'gender': genders,
        'city': cities,
        'registration_date': registration_dates,
        'total_purchases': total_purchases,
        'total_spent': total_spent,
        'avg_session_duration': avg_session_duration,
        'page_views_per_session': page_views_per_session,
        'bounce_rate': bounce_rate,
        'last_activity': last_activity_dates,
        'subscription_type': subscription_types,
        'device_type': device_types,
        'satisfaction_score': satisfaction_scores,
        'support_tickets': support_tickets,
        'referral_source': referral_sources
    })
    
    return df

def validate_customer_data(df: pd.DataFrame) -> dict:
    """Valider les donnees clients pour la qualite et la completude."""
    validation_results = {
        'total_rows': len(df),
        'total_columns': len(df.columns),
        'missing_values': df.isnull().sum().sum(),
        'duplicate_rows': df.duplicated().sum(),
        'data_types': df.dtypes.to_dict(),
        'column_names': list(df.columns),
        'validation_passed': True,
        'issues': []
    }
    
    # Verifier les IDs clients dupliques
    if 'customer_id' in df.columns:
        duplicate_ids = df['customer_id'].duplicated().sum()
        if duplicate_ids > 0:
            validation_results['issues'].append(f"Trouve {duplicate_ids} IDs clients dupliques")
            validation_results['validation_passed'] = False
    
    return validation_results

print("Fonctions de generation de donnees definies avec succes!")

## Chargement des Donnees

Creons des donnees d'exemple de comportement client pour travailler. Dans un scenario reel, vous chargeriez votre jeu de donnees reel ici.

In [None]:
# Generer des donnees d'exemple de comportement client en utilisant le module de collecte de donnees
n_customers = 1000

# Utiliser le module de collecte de donnees pour generer des donnees d'exemple
df = get_sample_data(n_customers)

# Valider les donnees generees
validation_results = validate_customer_data(df)

print("Donnees d'exemple de comportement client creees avec succes!")
print(f"Forme du jeu de donnees: {df.shape}")
print(f"Plage de dates: {df['registration_date'].min().strftime('%Y-%m-%d')} a {df['registration_date'].max().strftime('%Y-%m-%d')}")
print(f"Validation des donnees: {validation_results['total_rows']} lignes, {validation_results['total_columns']} colonnes")
print(f"Valeurs manquantes: {validation_results['missing_values']}")
print(f"Lignes dupliquees: {validation_results['duplicate_rows']}")

## Apercu des Donnees

Obtenons un apercu complet de la structure et du contenu de notre jeu de donnees.

In [None]:
# Afficher les informations de base sur le jeu de donnees
print("=" * 60)
print("APERCU DU JEU DE DONNEES")
print("=" * 60)

print(f"Forme du jeu de donnees: {df.shape[0]:,} lignes x {df.shape[1]} colonnes")
print(f"Utilisation de la memoire: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print()

# Afficher les informations sur les colonnes
print("INFORMATIONS SUR LES COLONNES")
print("-" * 40)
print(df.info())
print()

# Afficher les premieres lignes
print("PREMIERES 5 LIGNES")
print("-" * 40)
display(df.head())
print()

# Afficher les dernieres lignes
print("DERNIERES 5 LIGNES")
print("-" * 40)
display(df.tail())

## Evaluation de la Qualite des Donnees

Evaluation complete de la qualite des donnees incluant les valeurs manquantes, les doublons, les valeurs aberrantes et les verifications de coherence des donnees.

In [None]:
# 1. Analyse des Valeurs Manquantes
print("=" * 60)
print("ANALYSE DES VALEURS MANQUANTES")
print("=" * 60)

# Calculer les valeurs manquantes
missing_data = df.isnull().sum()
missing_percentage = (missing_data / len(df)) * 100

# Creer un resume des valeurs manquantes
missing_summary = pd.DataFrame({
    'Colonne': missing_data.index,
    'Nombre de Valeurs Manquantes': missing_data.values,
    'Pourcentage de Valeurs Manquantes': missing_percentage.values
}).sort_values('Nombre de Valeurs Manquantes', ascending=False)

# Filtrer pour afficher seulement les colonnes avec des valeurs manquantes
missing_summary = missing_summary[missing_summary['Nombre de Valeurs Manquantes'] > 0]

if len(missing_summary) > 0:
    print("Colonnes avec des valeurs manquantes:")
    display(missing_summary)
    
    # Visualiser les valeurs manquantes
    plt.figure(figsize=(12, 6))
    plt.subplot(1, 2, 1)
    missing_data[missing_data > 0].plot(kind='bar', color='salmon')
    plt.title('Nombre de Valeurs Manquantes par Colonne')
    plt.xlabel('Colonnes')
    plt.ylabel('Nombre de Valeurs Manquantes')
    plt.xticks(rotation=45)
    
    plt.subplot(1, 2, 2)
    missing_percentage[missing_percentage > 0].plot(kind='bar', color='lightcoral')
    plt.title('Pourcentage de Valeurs Manquantes par Colonne')
    plt.xlabel('Colonnes')
    plt.ylabel('Pourcentage de Valeurs Manquantes (%)")
    plt.xticks(rotation=45)
    
    plt.tight_layout()
    plt.show()
else:
    print("Aucune valeur manquante trouvee dans le jeu de donnees!")
    print("Completude des donnees: 100%")

## Visualisations Exploratoires

Creer des visualisations completes pour comprendre les distributions de donnees, les relations et les modeles dans le comportement des clients.

In [None]:
# 1. Analyse de Distribution - Variables Numeriques
print("=" * 60)
print("ANALYSE DE DISTRIBUTION - VARIABLES NUMERIQUES")
print("=" * 60)

# Selectionner les variables numeriques cles pour l'analyse de distribution
numeric_vars = ['age', 'total_purchases', 'total_spent', 'avg_session_duration', 
                'page_views_per_session', 'bounce_rate', 'satisfaction_score', 'support_tickets']

# Filtrer pour inclure seulement les colonnes qui existent dans le dataframe
numeric_vars = [var for var in numeric_vars if var in df.columns]

# Creer des graphiques de distribution
n_vars = len(numeric_vars)
n_cols = min(4, n_vars)
n_rows = (n_vars + n_cols - 1) // n_cols  # Division par le plafond

fig, axes = plt.subplots(n_rows, n_cols, figsize=(5*n_cols, 4*n_rows))
if n_vars == 1:
    axes = [axes]
elif n_rows == 1:
    axes = axes.reshape(1, -1)
axes = axes.ravel()

for i, var in enumerate(numeric_vars):
    if i < len(axes):
        # Histogramme
        df[var].hist(bins=30, alpha=0.7, ax=axes[i], color='skyblue', edgecolor='black')
        
        # Ajouter les statistiques
        mean_val = df[var].mean()
        median_val = df[var].median()
        axes[i].axvline(mean_val, color='green', linestyle='--', linewidth=2, label=f'Moyenne: {mean_val:.2f}')
        axes[i].axvline(median_val, color='orange', linestyle='--', linewidth=2, label=f'Mediane: {median_val:.2f}')
        
        axes[i].set_title(f'Distribution de {var}', fontsize=12, fontweight='bold')
        axes[i].set_xlabel(var)
        axes[i].set_ylabel('Frequence')
        axes[i].legend()
        axes[i].grid(True, alpha=0.3)

# Masquer les sous-graphiques non utilises
for i in range(n_vars, len(axes)):
    axes[i].set_visible(False)

plt.tight_layout()
plt.show()

# Statistiques de synthese pour les distributions
print("\nSTATISTIQUES DE SYNTHESE DES DISTRIBUTIONS:")
print("-" * 50)
distribution_stats = df[numeric_vars].describe()
display(distribution_stats)

## Statistiques de Synthese

Statistiques de synthese completes, metriques commerciales et insights cles de l'analyse du comportement des clients.

In [None]:
# 1. Statistiques de Synthese Executives
print("=" * 80)
print("STATISTIQUES DE SYNTHESE EXECUTIVES - ANALYSE DES COMPORTEMENTS CLIENTS")
print("=" * 80)

# Metriques Commerciales Cles
total_customers = len(df)
total_revenue = df['total_spent'].sum() if 'total_spent' in df.columns else 0
avg_revenue_per_customer = df['total_spent'].mean() if 'total_spent' in df.columns else 0
median_revenue_per_customer = df['total_spent'].median() if 'total_spent' in df.columns else 0
total_purchases = df['total_purchases'].sum() if 'total_purchases' in df.columns else 0
avg_purchases_per_customer = df['total_purchases'].mean() if 'total_purchases' in df.columns else 0
avg_satisfaction = df['satisfaction_score'].mean() if 'satisfaction_score' in df.columns else 0
avg_session_duration = df['avg_session_duration'].mean() if 'avg_session_duration' in df.columns else 0

print(f"Total Clients: {total_customers:,}")
print(f"Chiffre d'Affaires Total: ${total_revenue:,.2f}")
print(f"Chiffre d'Affaires Moyen par Client: ${avg_revenue_per_customer:.2f}")
print(f"Chiffre d'Affaires Median par Client: ${median_revenue_per_customer:.2f}")
print(f"Total Achats: {total_purchases:,}")
print(f"Achats Moyens par Client: {avg_purchases_per_customer:.1f}")
print(f"Score de Satisfaction Moyen: {avg_satisfaction:.1f}/10")
print(f"Duree Moyenne de Session: {avg_session_duration:.1f} minutes")
print()

# Resume Demographique des Clients
print("DEMOGRAPHIE DES CLIENTS:")
print("-" * 40)
if 'age' in df.columns:
    print(f"Age Moyen: {df['age'].mean():.1f} ans")
    print(f"Plage d'Age: {df['age'].min()} - {df['age'].max()} ans")
else:
    print("Donnees d'age non disponibles")

if 'gender' in df.columns:
    print(f"Repartition par Genre:")
    gender_dist = df['gender'].value_counts()
    for gender, count in gender_dist.items():
        percentage = (count / total_customers) * 100
        print(f"  {gender}: {count} ({percentage:.1f}%)")
else:
    print("Donnees de genre non disponibles")

if 'city' in df.columns:
    print(f"\nTop 3 Villes par Nombre de Clients:")
    city_dist = df['city'].value_counts().head(3)
    for city, count in city_dist.items():
        percentage = (count / total_customers) * 100
        print(f"  {city}: {count} ({percentage:.1f}%)")
else:
    print("Donnees de ville non disponibles")

## Insights Cles et Recommandations Commerciales

Insights cles et recommandations strategiques basees sur l'analyse des donnees de comportement des clients.

In [None]:
# Insights et Recommandations Commerciales
print("=" * 80)
print("INSIGHTS CLES ET RECOMMANDATIONS COMMERCIALES")
print("=" * 80)

# Insights sur le comportement des clients
print("INSIGHTS SUR LE COMPORTEMENT DES CLIENTS:")
print("-" * 40)

# Comportement de depenses
high_spenders = df[df['total_spent'] > df['total_spent'].quantile(0.75)]
low_spenders = df[df['total_spent'] < df['total_spent'].quantile(0.25)]

print(f"â€¢ Gros Depensiers (Top 25%) vs Petits Depensiers (Bottom 25%):")
print(f"  - Gros Depensiers: {len(high_spenders)} clients, Moyenne: ${high_spenders['total_spent'].mean():.2f}")
print(f"  - Petits Depensiers: {len(low_spenders)} clients, Moyenne: ${low_spenders['total_spent'].mean():.2f}")
print(f"  - Ratio de Depenses: {high_spenders['total_spent'].mean() / low_spenders['total_spent'].mean():.1f}x")

# Modeles d'engagement
print(f"\nâ€¢ Modeles d'Engagement:")
print(f"  - Engagement Eleve (Sessions Longues): {len(df[df['avg_session_duration'] > df['avg_session_duration'].quantile(0.75)])} clients")
print(f"  - Engagement Faible (Sessions Courtes): {len(df[df['avg_session_duration'] < df['avg_session_duration'].quantile(0.25)])} clients")
print(f"  - Taux de Rebond Eleve (>50%): {len(df[df['bounce_rate'] > 0.5])} clients ({len(df[df['bounce_rate'] > 0.5])/len(df)*100:.1f}%)")

# Analyse de satisfaction
print(f"\nâ€¢ Analyse de Satisfaction:")
satisfied_customers = df[df['satisfaction_score'] >= 8]
dissatisfied_customers = df[df['satisfaction_score'] <= 4]
print(f"  - Clients Satisfaits (8+): {len(satisfied_customers)} ({len(satisfied_customers)/len(df)*100:.1f}%)")
print(f"  - Clients Insatisfaits (â‰¤4): {len(dissatisfied_customers)} ({len(dissatisfied_customers)/len(df)*100:.1f}%)")

# Recommandations Commerciales
print(f"\nRECOMMANDATIONS STRATEGIQUES:")
print("-" * 40)

# Optimisation des revenus
print("OPTIMISATION DES REVENUS:")
print("1. Se concentrer sur les Segments Clients a Haute Valeur:")
if 'subscription_type' in df.columns:
    best_subscription = df.groupby('subscription_type')['total_spent'].mean().idxmax()
    print(f"   â€¢ Cibler les clients avec abonnements {best_subscription}")
if 'device_type' in df.columns:
    best_device = df.groupby('device_type')['total_spent'].mean().idxmax()
    print(f"   â€¢ Prioriser les utilisateurs {best_device} pour les fonctionnalites premium")

# Strategie d'abonnement
print(f"\n2. Strategie d'Abonnement:")
if 'subscription_type' in df.columns:
    print(f"   â€¢ Promouvoir l'abonnement {best_subscription} car il montre les depenses moyennes les plus elevees")
    print(f"   â€¢ Creer des incitations a la mise a niveau pour les clients Basic â†’ Premium")

# Expansion geographique
print(f"\n3. Expansion Geographique:")
if 'city' in df.columns:
    top_city = df.groupby('city')['total_spent'].mean().idxmax()
    print(f"   â€¢ Etendre les efforts marketing a {top_city} (depenses moyennes les plus elevees)")
    print(f"   â€¢ Repliquer les strategies reussies des villes les plus performantes")

# Experience client
print(f"\n4. Ameliorations de l'Experience Client:")
print(f"   â€¢ Adresser le taux de rebond eleve ({len(df[df['bounce_rate'] > 0.5])/len(df)*100:.1f}% des clients)")
print(f"   â€¢ Ameliorer la duree de session pour un meilleur engagement")
print(f"   â€¢ Implementer des enquetes de satisfaction pour les clients notes â‰¤4")

print(f"\nMETRIQUES DE SUCCES A SUIVRE:")
print("-" * 40)
print("â€¢ Valeur Vie Client (CLV)")
print("â€¢ Revenus Recurrents Mensuels (MRR)")
print("â€¢ Cout d'Acquisition Client (CAC)")
print("â€¢ Taux de Desabonnement par segment")
print("â€¢ Score Net Promoter (NPS)")
print("â€¢ Revenus Moyens par Utilisateur (ARPU)")

print("\nANALYSE EXPLORATOIRE TERMINEE!")
print("Votre analyse complete du comportement des clients est prete!")
print("Utilisez ces insights pour orienter les decisions commerciales basees sur les donnees!")