# üìä Analyse Exploratoire des Donn√©es (EDA)

Ce notebook explore les donn√©es MMM pour comprendre :
- Les distributions des variables
- Les corr√©lations entre d√©penses media et ventes
- Les tendances et la saisonnalit√©
- Les patterns de d√©penses

**Auteur** : Ivan  
**Projet** : MMM Bay√©sien - MSMIN5IN43

In [None]:
# Imports
import sys
sys.path.insert(0, '../src')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from data.loader import load_csv_data, validate_mmm_data, get_dataset_summary
from data.preprocessing import handle_missing_values, add_time_features
from visualization.exploratory import (
    plot_time_series,
    plot_sales_vs_media,
    plot_correlation_matrix,
    plot_distributions,
    plot_seasonality_decomposition,
    plot_spending_patterns,
    create_eda_report
)

# Config plots
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (14, 8)
%matplotlib inline

# Pandas options
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 2)

## 1Ô∏è‚É£ Chargement des donn√©es

In [None]:
# Charger le dataset
df = load_csv_data('../data/raw/sample_data.csv')

print(f"‚úì Dataset charg√© : {len(df)} p√©riodes")
print(f"‚úì Colonnes : {list(df.columns)}")
print(f"\nüìÖ P√©riode : {df['date'].min()} ‚Üí {df['date'].max()}")

df.head(10)

## 2Ô∏è‚É£ Statistiques descriptives

In [None]:
# Stats descriptives
print("üìä Statistiques descriptives\n")
print(df.describe())

In [None]:
# R√©sum√© complet du dataset
summary = get_dataset_summary(df)

print("\nüìà R√©sum√© du dataset")
print(f"Nombre de p√©riodes : {summary['n_periods']}")
print(f"Nombre de colonnes : {summary['n_columns']}")
print(f"Plage de dates : {summary['date_range']}")

print("\nüí∞ Statistiques des ventes :")
sales_stats = summary['numeric_stats']['sales']
print(f"  Moyenne : {sales_stats['mean']:.1f}")
print(f"  √âcart-type : {sales_stats['std']:.1f}")
print(f"  Min : {sales_stats['min']:.1f}")
print(f"  Max : {sales_stats['max']:.1f}")

## 3Ô∏è‚É£ Validation du dataset

In [None]:
# Valider le dataset
media_columns = ['media_1_spend', 'media_2_spend', 'media_3_spend']
report = validate_mmm_data(df, media_columns=media_columns)

print("‚úÖ Validation du dataset\n")
print(f"Dataset valide : {report['valid']}")
print(f"Nombre de p√©riodes : {report['n_periods']}")
print(f"Canaux media : {report['n_media_channels']}")

if report['warnings']:
    print("\n‚ö†Ô∏è  Warnings :")
    for w in report['warnings']:
        print(f"  - {w}")

if report['errors']:
    print("\n‚ùå Erreurs :")
    for e in report['errors']:
        print(f"  - {e}")

## 4Ô∏è‚É£ Visualisations

### 4.1 S√©ries temporelles

In [None]:
# Visualiser toutes les s√©ries
all_cols = ['sales'] + media_columns
fig = plot_time_series(df, all_cols, title='√âvolution temporelle des ventes et d√©penses media')
plt.show()

### 4.2 Relations Ventes vs Media

In [None]:
# Scatter plots avec corr√©lations
fig = plot_sales_vs_media(df, target_column='sales', media_columns=media_columns)
plt.show()

### 4.3 Matrice de corr√©lation

In [None]:
# Heatmap des corr√©lations
fig = plot_correlation_matrix(df, columns=all_cols)
plt.show()

In [None]:
# Table des corr√©lations avec les ventes
print("\nüìä Corr√©lations avec les ventes\n")
corr_with_sales = df[all_cols].corr()['sales'].sort_values(ascending=False)
print(corr_with_sales)

### 4.4 Distributions

In [None]:
# Histogrammes et densit√©s
fig = plot_distributions(df, all_cols)
plt.show()

### 4.5 D√©composition saisonnalit√©

In [None]:
# D√©composer les ventes (tendance + saisonnalit√© + r√©sidus)
fig = plot_seasonality_decomposition(df, 'sales', period=52)
plt.show()

### 4.6 Patterns de d√©penses media

In [None]:
# Stacked area des d√©penses
fig = plot_spending_patterns(df, media_columns)
plt.show()

## 5Ô∏è‚É£ Insights cl√©s

### üìå Observations principales

In [None]:
# Calculer quelques m√©triques cl√©s
print("üîç Insights cl√©s\n")

# Total d√©penses par canal
print("üí∞ D√©penses totales par canal :")
for col in media_columns:
    total = df[col].sum()
    pct = (total / df[media_columns].sum().sum()) * 100
    print(f"  {col:20s} : {total:10,.0f} ({pct:.1f}%)")

print(f"\n  Total : {df[media_columns].sum().sum():,.0f}")

# Ventes totales et moyennes
print(f"\nüìä Ventes :")
print(f"  Total : {df['sales'].sum():,.0f}")
print(f"  Moyenne/p√©riode : {df['sales'].mean():,.1f}")
print(f"  Croissance : {((df['sales'].iloc[-1] / df['sales'].iloc[0]) - 1) * 100:.1f}%")

# ROI approximatif par canal (tr√®s simplifi√©)
print(f"\nüí° ROI approximatif (corr√©lation simple) :")
for col in media_columns:
    corr = df[[col, 'sales']].corr().iloc[0, 1]
    print(f"  {col:20s} : {corr:.3f}")

## 6Ô∏è‚É£ Pr√©paration pour la mod√©lisation

In [None]:
# Ajouter les features temporelles
df_enriched = add_time_features(df)

print("‚úì Features temporelles ajout√©es :")
time_features = ['trend', 'seasonality_sin', 'seasonality_cos', 'month', 'quarter']
print(f"  {time_features}")

print(f"\nüìä Nouvelles colonnes : {len(df_enriched.columns)} (avant : {len(df.columns)})")
df_enriched.head()

## 7Ô∏è‚É£ Conclusions

### ‚úÖ R√©sum√© de l'EDA

**Dataset :**
- ‚úì 104 p√©riodes (2 ans hebdomadaires)
- ‚úì 3 canaux media
- ‚úì Pas de valeurs manquantes

**Patterns identifi√©s :**
- Tendance croissante des ventes
- Saisonnalit√© annuelle visible
- Corr√©lations positives entre media et ventes

**Prochaines √©tapes :**
1. Mod√®le MMM simple (r√©gression lin√©aire)
2. Ajout des transformations (adstock + saturation)
3. Mod√®le bay√©sien complet avec PyMC
4. Attribution et optimisation budget