# üìä Notebook 01 - Exploration des Donn√©es

## Projet : D√©tection de Fraudes - Transactions par Ch√®que

**M2 SISE - Fouille de Donn√©es Massives**

---

### Objectifs de ce notebook

1. Charger et valider les donn√©es
2. Analyser les statistiques descriptives
3. Visualiser les distributions
4. Analyser le d√©s√©quilibre des classes
5. Identifier les corr√©lations et patterns

---

## 1. Configuration et imports

In [None]:
# Imports standards
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings

# Configuration
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

# Style des graphiques
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('viridis')

# Taille par d√©faut des figures
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("‚úÖ Imports r√©ussis")

In [None]:
# Import de notre module personnalis√©
import sys
sys.path.append('..')

from config.config import (
    RAW_DATA_DIR, DATA_FILENAME, TARGET_COLUMN, 
    COLUMNS_TO_EXCLUDE, RANDOM_STATE, FIGURES_DIR
)
from src.data_loader import (
    load_raw_data, validate_columns, convert_data_types,
    get_data_summary, split_by_date, print_data_summary
)

print(f"üìÅ Dossier des donn√©es: {RAW_DATA_DIR}")
print(f"üìÅ Dossier des figures: {FIGURES_DIR}")

## 2. Chargement des donn√©es

In [None]:
# Chargement des donn√©es brutes
# IMPORTANT: Modifiez DATA_FILENAME dans config/config.py si n√©cessaire

df = load_raw_data(verbose=True)

In [None]:
# Aper√ßu des premi√®res lignes
print("\nüìã Aper√ßu des donn√©es (5 premi√®res lignes):")
df.head()

In [None]:
# Aper√ßu des derni√®res lignes
print("\nüìã Aper√ßu des donn√©es (5 derni√®res lignes):")
df.tail()

In [None]:
# Validation des colonnes
validation = validate_columns(df)

print("\nüîç Validation des colonnes:")
print(f"   - Valide: {validation['valid']}")
print(f"   - Colonnes attendues: {validation['expected_count']}")
print(f"   - Colonnes trouv√©es: {validation['actual_count']}")

if validation['missing_columns']:
    print(f"   ‚ö†Ô∏è Colonnes manquantes: {validation['missing_columns']}")
if validation['extra_columns']:
    print(f"   ‚ÑπÔ∏è Colonnes suppl√©mentaires: {validation['extra_columns']}")

In [None]:
# Conversion des types
df = convert_data_types(df, verbose=True)

## 3. Statistiques descriptives

In [None]:
# R√©sum√© global
summary = get_data_summary(df)
print_data_summary(summary)

In [None]:
# Information sur les types de donn√©es
print("\nüìä Types de donn√©es:")
print(df.dtypes)

In [None]:
# Statistiques descriptives pour les variables num√©riques
print("\nüìà Statistiques descriptives (variables num√©riques):")
df.describe().T

In [None]:
# Valeurs manquantes d√©taill√©es
missing = df.isnull().sum()
missing_pct = (missing / len(df) * 100).round(2)

missing_df = pd.DataFrame({
    'Valeurs manquantes': missing,
    'Pourcentage (%)': missing_pct
}).sort_values('Valeurs manquantes', ascending=False)

print("\n‚ùì Valeurs manquantes par colonne:")
missing_df[missing_df['Valeurs manquantes'] > 0]

## 4. Analyse du d√©s√©quilibre des classes

In [None]:
# Distribution de la variable cible
target_counts = df[TARGET_COLUMN].value_counts()
target_pct = df[TARGET_COLUMN].value_counts(normalize=True) * 100

print(f"\nüéØ Distribution de la variable cible '{TARGET_COLUMN}':")
print("\n   Valeur | Count      | Pourcentage")
print("   " + "-" * 40)
for val in target_counts.index:
    label = "Normal" if val == 0 else "Fraude"
    print(f"   {val} ({label:6s}) | {target_counts[val]:>10,} | {target_pct[val]:>6.2f}%")

imbalance_ratio = target_counts.min() / target_counts.max()
print(f"\n   üìä Ratio de d√©s√©quilibre: {imbalance_ratio:.4f} (1:{1/imbalance_ratio:.0f})")

In [None]:
# Visualisation du d√©s√©quilibre
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Graphique en barres
colors = ['#2ecc71', '#e74c3c']
bars = axes[0].bar(['Normal (0)', 'Fraude (1)'], target_counts.values, color=colors, edgecolor='black')
axes[0].set_ylabel('Nombre de transactions', fontsize=12)
axes[0].set_title('Distribution de la variable cible', fontsize=14, fontweight='bold')

# Ajouter les valeurs sur les barres
for bar, count, pct in zip(bars, target_counts.values, target_pct.values):
    axes[0].text(bar.get_x() + bar.get_width()/2, bar.get_height() + 1000, 
                 f'{count:,}\n({pct:.2f}%)', ha='center', va='bottom', fontsize=11)

# Graphique en camembert
axes[1].pie(target_counts.values, labels=['Normal (0)', 'Fraude (1)'], 
            autopct='%1.2f%%', colors=colors, explode=[0, 0.1],
            shadow=True, startangle=90)
axes[1].set_title('Proportion des classes', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'class_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"\nüíæ Figure sauvegard√©e: {FIGURES_DIR / 'class_distribution.png'}")

## 5. Analyse des variables

In [None]:
# Liste des variables num√©riques (excluant les identifiants et la date)
exclude_cols = ['ZIBZIN', 'IDAvisAutorisationCheque', 'DateTransaction', 'CodeDecision']
numeric_cols = [col for col in df.select_dtypes(include=[np.number]).columns 
                if col not in exclude_cols]

print(f"\nüìä Variables num√©riques √† analyser ({len(numeric_cols)}):")
for i, col in enumerate(numeric_cols, 1):
    print(f"   {i:2d}. {col}")

In [None]:
# Distribution du montant des transactions
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Histogramme global
axes[0, 0].hist(df['Montant'], bins=50, edgecolor='black', alpha=0.7)
axes[0, 0].set_xlabel('Montant (‚Ç¨)')
axes[0, 0].set_ylabel('Fr√©quence')
axes[0, 0].set_title('Distribution des montants (tous)')
axes[0, 0].axvline(df['Montant'].median(), color='red', linestyle='--', label=f"M√©diane: {df['Montant'].median():.0f}‚Ç¨")
axes[0, 0].legend()

# Histogramme par classe
df[df[TARGET_COLUMN] == 0]['Montant'].hist(ax=axes[0, 1], bins=50, alpha=0.6, label='Normal', color='green')
df[df[TARGET_COLUMN] == 1]['Montant'].hist(ax=axes[0, 1], bins=50, alpha=0.6, label='Fraude', color='red')
axes[0, 1].set_xlabel('Montant (‚Ç¨)')
axes[0, 1].set_ylabel('Fr√©quence')
axes[0, 1].set_title('Distribution des montants par classe')
axes[0, 1].legend()

# Boxplot par classe
df.boxplot(column='Montant', by=TARGET_COLUMN, ax=axes[1, 0])
axes[1, 0].set_xlabel('Classe')
axes[1, 0].set_ylabel('Montant (‚Ç¨)')
axes[1, 0].set_title('Boxplot des montants par classe')
plt.suptitle('')

# Log-scale pour mieux voir
axes[1, 1].hist(df['Montant'], bins=50, edgecolor='black', alpha=0.7, log=True)
axes[1, 1].set_xlabel('Montant (‚Ç¨)')
axes[1, 1].set_ylabel('Fr√©quence (log)')
axes[1, 1].set_title('Distribution des montants (√©chelle log)')

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'montant_distribution.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# Statistiques du montant par classe
print("\nüí∞ Statistiques du montant par classe:")
df.groupby(TARGET_COLUMN)['Montant'].describe().T

In [None]:
# Analyse de la variable CodeDecision
print("\nüîç Distribution de CodeDecision:")
code_counts = df['CodeDecision'].value_counts().sort_index()
print(code_counts)

# Crosstab avec la cible
print("\nüìä Crosstab CodeDecision vs FlagImpaye:")
ct = pd.crosstab(df['CodeDecision'], df[TARGET_COLUMN], margins=True, margins_name='Total')
ct

In [None]:
# Taux de fraude par CodeDecision
fraud_rate_by_code = df.groupby('CodeDecision')[TARGET_COLUMN].mean() * 100

print("\nüìà Taux de fraude par CodeDecision:")
for code, rate in fraud_rate_by_code.items():
    print(f"   Code {code}: {rate:.2f}%")

## 6. Analyse temporelle

In [None]:
# Extraction des composantes temporelles
df['Date'] = df['DateTransaction'].dt.date
df['Month'] = df['DateTransaction'].dt.month
df['DayOfWeek'] = df['DateTransaction'].dt.dayofweek
df['Hour'] = df['DateTransaction'].dt.hour

# Transactions par mois
monthly_stats = df.groupby('Month').agg({
    TARGET_COLUMN: ['count', 'sum', 'mean']
}).round(4)
monthly_stats.columns = ['Total', 'Fraudes', 'Taux_fraude']

print("\nüìÖ Statistiques mensuelles:")
monthly_stats

In [None]:
# Visualisation temporelle
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Transactions par mois
monthly_stats['Total'].plot(kind='bar', ax=axes[0, 0], color='steelblue', edgecolor='black')
axes[0, 0].set_xlabel('Mois')
axes[0, 0].set_ylabel('Nombre de transactions')
axes[0, 0].set_title('Transactions par mois')
axes[0, 0].tick_params(axis='x', rotation=0)

# Taux de fraude par mois
(monthly_stats['Taux_fraude'] * 100).plot(kind='bar', ax=axes[0, 1], color='coral', edgecolor='black')
axes[0, 1].set_xlabel('Mois')
axes[0, 1].set_ylabel('Taux de fraude (%)')
axes[0, 1].set_title('Taux de fraude par mois')
axes[0, 1].tick_params(axis='x', rotation=0)

# Transactions par jour de la semaine
dow_stats = df.groupby('DayOfWeek')[TARGET_COLUMN].agg(['count', 'mean'])
days = ['Lun', 'Mar', 'Mer', 'Jeu', 'Ven', 'Sam', 'Dim']
axes[1, 0].bar(days, dow_stats['count'], color='steelblue', edgecolor='black')
axes[1, 0].set_xlabel('Jour de la semaine')
axes[1, 0].set_ylabel('Nombre de transactions')
axes[1, 0].set_title('Transactions par jour de la semaine')

# Taux de fraude par heure
hourly_fraud = df.groupby('Hour')[TARGET_COLUMN].mean() * 100
axes[1, 1].plot(hourly_fraud.index, hourly_fraud.values, marker='o', color='coral')
axes[1, 1].fill_between(hourly_fraud.index, hourly_fraud.values, alpha=0.3, color='coral')
axes[1, 1].set_xlabel('Heure')
axes[1, 1].set_ylabel('Taux de fraude (%)')
axes[1, 1].set_title('Taux de fraude par heure')
axes[1, 1].set_xlim(0, 23)

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'temporal_analysis.png', dpi=300, bbox_inches='tight')
plt.show()

## 7. Analyse des corr√©lations

In [None]:
# Matrice de corr√©lation
corr_cols = numeric_cols + [TARGET_COLUMN] if TARGET_COLUMN not in numeric_cols else numeric_cols
corr_matrix = df[corr_cols].corr()

# Heatmap
plt.figure(figsize=(16, 14))
mask = np.triu(np.ones_like(corr_matrix, dtype=bool))
sns.heatmap(corr_matrix, mask=mask, annot=True, cmap='RdBu_r', center=0,
            fmt='.2f', square=True, linewidths=0.5,
            cbar_kws={'shrink': 0.8})
plt.title('Matrice de corr√©lation', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.savefig(FIGURES_DIR / 'correlation_matrix.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
# Corr√©lations avec la variable cible
target_corr = corr_matrix[TARGET_COLUMN].drop(TARGET_COLUMN).sort_values(key=abs, ascending=False)

print(f"\nüéØ Corr√©lations avec {TARGET_COLUMN} (tri√©es par valeur absolue):")
print("\n   Variable               | Corr√©lation")
print("   " + "-" * 40)
for var, corr in target_corr.items():
    print(f"   {var:25s} | {corr:+.4f}")

In [None]:
# Visualisation des corr√©lations avec la cible
fig, ax = plt.subplots(figsize=(12, 8))

colors = ['#e74c3c' if x < 0 else '#2ecc71' for x in target_corr.values]
bars = ax.barh(target_corr.index, target_corr.values, color=colors, edgecolor='black')
ax.axvline(x=0, color='black', linewidth=0.8)
ax.set_xlabel('Corr√©lation avec FlagImpaye', fontsize=12)
ax.set_title('Corr√©lations des variables avec la variable cible', fontsize=14, fontweight='bold')

# Ajouter les valeurs
for bar, val in zip(bars, target_corr.values):
    x_pos = val + 0.01 if val >= 0 else val - 0.01
    ha = 'left' if val >= 0 else 'right'
    ax.text(x_pos, bar.get_y() + bar.get_height()/2, f'{val:.3f}', 
            va='center', ha=ha, fontsize=9)

plt.tight_layout()
plt.savefig(FIGURES_DIR / 'target_correlations.png', dpi=300, bbox_inches='tight')
plt.show()

## 8. S√©paration Train/Test

In [None]:
# S√©paration temporelle selon le sujet
df_train, df_test = split_by_date(df, verbose=True)

In [None]:
# V√©rification de la coh√©rence
print("\n‚úÖ V√©rification de la s√©paration:")
print(f"   Train - Date min: {df_train['DateTransaction'].min()}")
print(f"   Train - Date max: {df_train['DateTransaction'].max()}")
print(f"   Test  - Date min: {df_test['DateTransaction'].min()}")
print(f"   Test  - Date max: {df_test['DateTransaction'].max()}")

# V√©rifier qu'il n'y a pas de chevauchement
assert df_train['DateTransaction'].max() < df_test['DateTransaction'].min(), "‚ö†Ô∏è Chevauchement d√©tect√©!"
print("\n‚úÖ Aucun chevauchement entre train et test")

## 9. R√©sum√© et conclusions de l'exploration

In [None]:
print("\n" + "=" * 70)
print("R√âSUM√â DE L'EXPLORATION DES DONN√âES")
print("=" * 70)

print(f"\nüìä DONN√âES:")
print(f"   - Total: {len(df):,} transactions")
print(f"   - Variables: {len(df.columns)} colonnes")
print(f"   - P√©riode: {df['DateTransaction'].min().date()} ‚Üí {df['DateTransaction'].max().date()}")

print(f"\nüéØ D√âS√âQUILIBRE DES CLASSES:")
fraud_rate = df[TARGET_COLUMN].mean() * 100
print(f"   - Taux de fraude global: {fraud_rate:.2f}%")
print(f"   - Ratio: 1:{1/df[TARGET_COLUMN].mean():.0f}")
print(f"   ‚Üí FORT D√âS√âQUILIBRE - n√©cessite techniques sp√©cifiques")

print(f"\nüìÖ S√âPARATION TRAIN/TEST:")
print(f"   - Train: {len(df_train):,} ({len(df_train)/len(df)*100:.1f}%)")
print(f"   - Test: {len(df_test):,} ({len(df_test)/len(df)*100:.1f}%)")

print(f"\nüîó VARIABLES LES PLUS CORR√âL√âES AVEC LA FRAUDE:")
for var, corr in target_corr.head(5).items():
    print(f"   - {var}: {corr:+.4f}")

print(f"\n‚ö†Ô∏è POINTS D'ATTENTION:")
print(f"   1. Ne PAS utiliser 'CodeDecision' pour la pr√©diction")
print(f"   2. G√©rer le d√©s√©quilibre (SMOTE, class_weight, etc.)")
print(f"   3. Optimiser la F-mesure, pas l'accuracy")
print(f"   4. Respecter la s√©paration temporelle (pas de data leakage)")

print("\n" + "=" * 70)

In [None]:
# Sauvegarde des donn√©es pr√©par√©es pour le prochain notebook
from config.config import PROCESSED_DATA_DIR

df_train.to_pickle(PROCESSED_DATA_DIR / 'df_train.pkl')
df_test.to_pickle(PROCESSED_DATA_DIR / 'df_test.pkl')

print(f"\nüíæ Donn√©es sauvegard√©es:")
print(f"   - {PROCESSED_DATA_DIR / 'df_train.pkl'}")
print(f"   - {PROCESSED_DATA_DIR / 'df_test.pkl'}")

---

## ‚û°Ô∏è Prochaine √©tape

Passez au notebook **02_preprocessing.ipynb** pour:
- Pr√©paration des features
- Gestion des valeurs manquantes
- Encodage des variables
- Normalisation/Standardisation