# Fluzz — Détection de fraude bancaire  
**Partie 3 — Augmentation de données avec SDV (Module 3)**

Ce notebook utilise **SDV (Synthetic Data Vault)** pour générer des données synthétiques et équilibrer le dataset de fraude bancaire.

**Objectifs :**
- Gérer le déséquilibre des classes (0.173% de fraudes)
- Générer des transactions frauduleuses synthétiques réalistes
- Comparer les performances avant/après augmentation
- Méthode de test rapide pour validation

## 1. Configuration et chargement des données

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, f1_score, precision_score, recall_score
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Import SDV
from sdv.single_table import GaussianCopulaSynthesizer
from sdv.metadata import SingleTableMetadata

print("Bibliothèques chargées avec succès")

In [None]:
# Chargement du dataset original
df_original = pd.read_csv('../01_data/creditcard.csv')

print(f"Dataset original : {df_original.shape[0]} transactions")
print(f"Répartition des classes :")
print(df_original['Class'].value_counts())
print(f"Taux de fraude : {df_original['Class'].mean()*100:.4f}%")

# Séparation des classes pour analyse
df_legit = df_original[df_original['Class'] == 0].copy()
df_fraud = df_original[df_original['Class'] == 1].copy()

print(f"\nTransactions légitimes : {len(df_legit)}")
print(f"Transactions frauduleuses : {len(df_fraud)}")
print(f"Ratio déséquilibre : 1:{len(df_legit)//len(df_fraud)}")

## 2. Configuration de SDV pour les données frauduleuses

In [None]:
# Préparation des métadonnées pour SDV
metadata = SingleTableMetadata()
metadata.detect_from_dataframe(df_fraud)

# Configuration du modèle SDV (Gaussian Copula pour données numériques)
synthesizer = GaussianCopulaSynthesizer(
    metadata=metadata,
    default_distribution='gaussian_kde',  # Distribution adaptée aux données continues
    numerical_distributions={
        'Amount': 'gamma'  # Distribution gamma pour les montants (toujours positifs)
    }
)

print("Métadonnées SDV configurées")
print(f"Colonnes détectées : {list(metadata.columns.keys())}")

In [None]:
# Entraînement du modèle SDV sur les données frauduleuses
print("Entraînement du modèle SDV sur les transactions frauduleuses...")
print("(Cela peut prendre quelques minutes)")

synthesizer.fit(df_fraud)

print("✓ Modèle SDV entraîné avec succès")

## 3. Génération de données synthétiques

In [None]:
# Calcul du nombre de fraudes à générer pour équilibrer
num_legit = len(df_legit)
num_fraud_original = len(df_fraud)

# Stratégies d'équilibrage
strategies = {
    'equilibre_complet': num_legit - num_fraud_original,  # 50/50
    'equilibre_partiel': int((num_legit * 0.1) - num_fraud_original),  # 10% de fraudes
    'test_rapide': min(1000, num_legit - num_fraud_original)  # Pour tests rapides
}

print("Stratégies d'équilibrage disponibles :")
for strategy, count in strategies.items():
    total_fraud = num_fraud_original + max(0, count)
    ratio = total_fraud / (num_legit + total_fraud) * 100
    print(f"• {strategy}: +{max(0, count)} fraudes synthétiques → {ratio:.2f}% de fraudes")

# Sélection de la stratégie (changez ici selon vos besoins)
STRATEGY = 'test_rapide'  # Changez en 'equilibre_partiel' ou 'equilibre_complet' si besoin
num_synthetic_fraud = max(0, strategies[STRATEGY])

print(f"\n🎯 Stratégie sélectionnée : {STRATEGY}")
print(f"Génération de {num_synthetic_fraud} transactions frauduleuses synthétiques...")

In [None]:
# Génération des données synthétiques
if num_synthetic_fraud > 0:
    synthetic_fraud = synthesizer.sample(num_rows=num_synthetic_fraud)
    
    # Vérification de la qualité des données générées
    print("Données synthétiques générées :")
    print(f"Forme : {synthetic_fraud.shape}")
    print(f"Valeurs manquantes : {synthetic_fraud.isnull().sum().sum()}")
    
    # Affichage des statistiques comparatives
    print("\nComparaison statistiques (Amount) :")
    print(f"Fraudes originales - Moyenne: {df_fraud['Amount'].mean():.2f}, Std: {df_fraud['Amount'].std():.2f}")
    print(f"Fraudes synthétiques - Moyenne: {synthetic_fraud['Amount'].mean():.2f}, Std: {synthetic_fraud['Amount'].std():.2f}")
    
    # Création du dataset augmenté
    df_augmented = pd.concat([
        df_original,  # Données originales
        synthetic_fraud  # Fraudes synthétiques
    ], ignore_index=True)
    
    print(f"\n✓ Dataset augmenté créé : {df_augmented.shape[0]} transactions")
    print(f"Nouveau taux de fraude : {df_augmented['Class'].mean()*100:.4f}%")
    
else:
    df_augmented = df_original.copy()
    print("Aucune donnée synthétique générée (stratégie ne le nécessite pas)")

## 4. Visualisation de la distribution des données

In [None]:
# Comparaison des distributions avant/après augmentation
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Distribution des classes - avant
df_original['Class'].value_counts().plot(kind='bar', ax=axes[0,0], color=['green', 'red'], alpha=0.7)
axes[0,0].set_title('Distribution avant augmentation', fontweight='bold')
axes[0,0].set_xlabel('Classe (0=Légit, 1=Fraude)')
axes[0,0].set_ylabel('Nombre de transactions')

# Distribution des classes - après
df_augmented['Class'].value_counts().plot(kind='bar', ax=axes[0,1], color=['green', 'red'], alpha=0.7)
axes[0,1].set_title('Distribution après augmentation', fontweight='bold')
axes[0,1].set_xlabel('Classe (0=Légit, 1=Fraude)')
axes[0,1].set_ylabel('Nombre de transactions')

# Distribution des montants - fraudes originales vs synthétiques
if num_synthetic_fraud > 0:
    axes[1,0].hist(df_fraud['Amount'], bins=50, alpha=0.7, label='Fraudes originales', color='red')
    axes[1,0].hist(synthetic_fraud['Amount'], bins=50, alpha=0.7, label='Fraudes synthétiques', color='orange')
    axes[1,0].set_title('Distribution des montants - Fraudes', fontweight='bold')
    axes[1,0].set_xlabel('Montant')
    axes[1,0].set_ylabel('Fréquence')
    axes[1,0].legend()
    axes[1,0].set_yscale('log')

# Comparaison des taux de fraude
rates = [
    df_original['Class'].mean() * 100,
    df_augmented['Class'].mean() * 100
]
axes[1,1].bar(['Avant', 'Après'], rates, color=['lightcoral', 'darkred'], alpha=0.7)
axes[1,1].set_title('Taux de fraude (%)', fontweight='bold')
axes[1,1].set_ylabel('Pourcentage')

# Ajout des valeurs sur les barres
for i, rate in enumerate(rates):
    axes[1,1].text(i, rate + 0.1, f'{rate:.3f}%', ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 5. Test rapide de performance

In [None]:
# Fonction de test rapide pour comparer les performances
def quick_performance_test(df, test_name, sample_size=10000):
    """Test rapide avec échantillonnage pour comparer les performances"""
    
    print(f"\n=== {test_name} ===")
    
    # Échantillonnage stratifié pour test rapide
    if len(df) > sample_size:
        df_sample = df.groupby('Class', group_keys=False).apply(
            lambda x: x.sample(min(len(x), sample_size//2), random_state=42)
        ).reset_index(drop=True)
        print(f"Échantillon de test : {len(df_sample)} transactions")
    else:
        df_sample = df.copy()
        print(f"Dataset complet utilisé : {len(df_sample)} transactions")
    
    # Séparation train/test
    X = df_sample.drop('Class', axis=1)
    y = df_sample['Class']
    
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.3, random_state=42, stratify=y
    )
    
    # Modèle simple pour test rapide
    rf = RandomForestClassifier(
        n_estimators=50,  # Réduit pour rapidité
        max_depth=10,
        class_weight='balanced',
        random_state=42,
        n_jobs=-1
    )
    
    rf.fit(X_train, y_train)
    y_pred = rf.predict(X_test)
    
    # Métriques
    f1 = f1_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    
    print(f"F1-Score : {f1:.4f}")
    print(f"Précision : {precision:.4f}")
    print(f"Rappel : {recall:.4f}")
    print(f"Fraudes en test : {y_test.sum()} ({y_test.mean()*100:.3f}%)")
    
    return {
        'test_name': test_name,
        'f1_score': f1,
        'precision': precision,
        'recall': recall,
        'fraud_rate': y_test.mean() * 100
    }

In [None]:
# Tests de performance rapides
results = []

# Test sur données originales
result_original = quick_performance_test(df_original, "Dataset Original")
results.append(result_original)

# Test sur données augmentées (si différentes)
if len(df_augmented) != len(df_original):
    result_augmented = quick_performance_test(df_augmented, "Dataset Augmenté")
    results.append(result_augmented)

# Comparaison des résultats
if len(results) > 1:
    comparison_df = pd.DataFrame(results)
    print("\n" + "="*80)
    print("COMPARAISON DES PERFORMANCES")
    print("="*80)
    display(comparison_df.round(4))
    
    # Calcul des améliorations
    f1_improvement = (results[1]['f1_score'] - results[0]['f1_score']) / results[0]['f1_score'] * 100
    precision_improvement = (results[1]['precision'] - results[0]['precision']) / results[0]['precision'] * 100
    recall_improvement = (results[1]['recall'] - results[0]['recall']) / results[0]['recall'] * 100
    
    print(f"\n📈 Améliorations avec augmentation SDV :")
    print(f"F1-Score : {f1_improvement:+.2f}%")
    print(f"Précision : {precision_improvement:+.2f}%")
    print(f"Rappel : {recall_improvement:+.2f}%")
else:
    print("\n📝 Test effectué sur dataset original uniquement")

## 6. Sauvegarde du dataset augmenté

In [None]:
# Sauvegarde du dataset augmenté pour utilisation ultérieure
if len(df_augmented) != len(df_original):
    output_path = '../01_data/creditcard_augmented.csv'
    df_augmented.to_csv(output_path, index=False)
    print(f"✓ Dataset augmenté sauvegardé : {output_path}")
    print(f"Taille : {df_augmented.shape[0]} transactions")
    print(f"Taux de fraude : {df_augmented['Class'].mean()*100:.4f}%")
else:
    print("Aucune sauvegarde nécessaire (pas d'augmentation)")

## 7. Conclusion et recommandations

### Résultats de l'augmentation SDV
L'augmentation de données avec SDV permet de :
- **Équilibrer les classes** pour améliorer l'apprentissage
- **Générer des fraudes réalistes** basées sur les patterns existants
- **Améliorer les métriques** de détection (F1, Précision, Rappel)

### Stratégies disponibles :
1. **test_rapide** : Génération limitée pour tests et prototypage
2. **equilibre_partiel** : 10% de fraudes (plus réaliste)
3. **equilibre_complet** : 50/50 (équilibrage total)

### Recommandations :
- Utiliser **test_rapide** pour les expérimentations
- Utiliser **equilibre_partiel** pour l'entraînement final
- Valider sur données réelles non augmentées
- Surveiller la qualité des données synthétiques

### Points d'attention :
- Les données synthétiques ne remplacent pas les vraies données
- Toujours valider les performances sur un jeu de test réel
- Surveiller le sur-apprentissage avec les données augmentées