# Fluzz ‚Äî D√©tection de fraude bancaire  
**Partie 3 ‚Äî Augmentation de donn√©es avec SDV (Module 3)**

Ce notebook utilise **SDV (Synthetic Data Vault)** pour g√©n√©rer des donn√©es synth√©tiques et √©quilibrer le dataset de fraude bancaire.

**Objectifs :**
- G√©rer le d√©s√©quilibre des classes (0.173% de fraudes)
- G√©n√©rer des transactions frauduleuses synth√©tiques r√©alistes
- Comparer les performances avant/apr√®s augmentation
- M√©thode de test rapide pour validation

## 1. Configuration et chargement des donn√©es

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, f1_score, precision_score, recall_score
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Import SDV
from sdv.single_table import GaussianCopulaSynthesizer
from sdv.metadata import SingleTableMetadata

print("Biblioth√®ques charg√©es avec succ√®s")

In [None]:
# Chargement du dataset original
df_original = pd.read_csv('../01_data/creditcard.csv')

print(f"Dataset original : {df_original.shape[0]} transactions")
print(f"R√©partition des classes :")
print(df_original['Class'].value_counts())
print(f"Taux de fraude : {df_original['Class'].mean()*100:.4f}%")

# S√©paration des classes pour analyse
df_legit = df_original[df_original['Class'] == 0].copy()
df_fraud = df_original[df_original['Class'] == 1].copy()

print(f"\nTransactions l√©gitimes : {len(df_legit)}")
print(f"Transactions frauduleuses : {len(df_fraud)}")
print(f"Ratio d√©s√©quilibre : 1:{len(df_legit)//len(df_fraud)}")

## 2. Configuration de SDV pour les donn√©es frauduleuses

In [None]:
# Pr√©paration des m√©tadonn√©es pour SDV
metadata = SingleTableMetadata()
metadata.detect_from_dataframe(df_fraud)

# Configuration du mod√®le SDV (Gaussian Copula pour donn√©es num√©riques)
synthesizer = GaussianCopulaSynthesizer(
    metadata=metadata,
    default_distribution='gaussian_kde',  # Distribution adapt√©e aux donn√©es continues
    numerical_distributions={
        'Amount': 'gamma'  # Distribution gamma pour les montants (toujours positifs)
    }
)

print("M√©tadonn√©es SDV configur√©es")
print(f"Colonnes d√©tect√©es : {list(metadata.columns.keys())}")

In [None]:
# Entra√Ænement du mod√®le SDV sur les donn√©es frauduleuses
print("Entra√Ænement du mod√®le SDV sur les transactions frauduleuses...")
print("(Cela peut prendre quelques minutes)")

synthesizer.fit(df_fraud)

print("‚úì Mod√®le SDV entra√Æn√© avec succ√®s")

## 3. G√©n√©ration de donn√©es synth√©tiques

In [None]:
# Calcul du nombre de fraudes √† g√©n√©rer pour √©quilibrer
num_legit = len(df_legit)
num_fraud_original = len(df_fraud)

# Strat√©gies d'√©quilibrage
strategies = {
    'equilibre_complet': num_legit - num_fraud_original,  # 50/50
    'equilibre_partiel': int((num_legit * 0.1) - num_fraud_original),  # 10% de fraudes
    'test_rapide': min(1000, num_legit - num_fraud_original)  # Pour tests rapides
}

print("Strat√©gies d'√©quilibrage disponibles :")
for strategy, count in strategies.items():
    total_fraud = num_fraud_original + max(0, count)
    ratio = total_fraud / (num_legit + total_fraud) * 100
    print(f"‚Ä¢ {strategy}: +{max(0, count)} fraudes synth√©tiques ‚Üí {ratio:.2f}% de fraudes")

# S√©lection de la strat√©gie (changez ici selon vos besoins)
STRATEGY = 'test_rapide'  # Changez en 'equilibre_partiel' ou 'equilibre_complet' si besoin
num_synthetic_fraud = max(0, strategies[STRATEGY])

print(f"\nüéØ Strat√©gie s√©lectionn√©e : {STRATEGY}")
print(f"G√©n√©ration de {num_synthetic_fraud} transactions frauduleuses synth√©tiques...")

In [None]:
# G√©n√©ration des donn√©es synth√©tiques
if num_synthetic_fraud > 0:
    synthetic_fraud = synthesizer.sample(num_rows=num_synthetic_fraud)
    
    # V√©rification de la qualit√© des donn√©es g√©n√©r√©es
    print("Donn√©es synth√©tiques g√©n√©r√©es :")
    print(f"Forme : {synthetic_fraud.shape}")
    print(f"Valeurs manquantes : {synthetic_fraud.isnull().sum().sum()}")
    
    # Affichage des statistiques comparatives
    print("\nComparaison statistiques (Amount) :")
    print(f"Fraudes originales - Moyenne: {df_fraud['Amount'].mean():.2f}, Std: {df_fraud['Amount'].std():.2f}")
    print(f"Fraudes synth√©tiques - Moyenne: {synthetic_fraud['Amount'].mean():.2f}, Std: {synthetic_fraud['Amount'].std():.2f}")
    
    # Cr√©ation du dataset augment√©
    df_augmented = pd.concat([
        df_original,  # Donn√©es originales
        synthetic_fraud  # Fraudes synth√©tiques
    ], ignore_index=True)
    
    print(f"\n‚úì Dataset augment√© cr√©√© : {df_augmented.shape[0]} transactions")
    print(f"Nouveau taux de fraude : {df_augmented['Class'].mean()*100:.4f}%")
    
else:
    df_augmented = df_original.copy()
    print("Aucune donn√©e synth√©tique g√©n√©r√©e (strat√©gie ne le n√©cessite pas)")

## 4. Visualisation de la distribution des donn√©es

In [None]:
# Comparaison des distributions avant/apr√®s augmentation
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Distribution des classes - avant
df_original['Class'].value_counts().plot(kind='bar', ax=axes[0,0], color=['green', 'red'], alpha=0.7)
axes[0,0].set_title('Distribution avant augmentation', fontweight='bold')
axes[0,0].set_xlabel('Classe (0=L√©git, 1=Fraude)')
axes[0,0].set_ylabel('Nombre de transactions')

# Distribution des classes - apr√®s
df_augmented['Class'].value_counts().plot(kind='bar', ax=axes[0,1], color=['green', 'red'], alpha=0.7)
axes[0,1].set_title('Distribution apr√®s augmentation', fontweight='bold')
axes[0,1].set_xlabel('Classe (0=L√©git, 1=Fraude)')
axes[0,1].set_ylabel('Nombre de transactions')

# Distribution des montants - fraudes originales vs synth√©tiques
if num_synthetic_fraud > 0:
    axes[1,0].hist(df_fraud['Amount'], bins=50, alpha=0.7, label='Fraudes originales', color='red')
    axes[1,0].hist(synthetic_fraud['Amount'], bins=50, alpha=0.7, label='Fraudes synth√©tiques', color='orange')
    axes[1,0].set_title('Distribution des montants - Fraudes', fontweight='bold')
    axes[1,0].set_xlabel('Montant')
    axes[1,0].set_ylabel('Fr√©quence')
    axes[1,0].legend()
    axes[1,0].set_yscale('log')

# Comparaison des taux de fraude
rates = [
    df_original['Class'].mean() * 100,
    df_augmented['Class'].mean() * 100
]
axes[1,1].bar(['Avant', 'Apr√®s'], rates, color=['lightcoral', 'darkred'], alpha=0.7)
axes[1,1].set_title('Taux de fraude (%)', fontweight='bold')
axes[1,1].set_ylabel('Pourcentage')

# Ajout des valeurs sur les barres
for i, rate in enumerate(rates):
    axes[1,1].text(i, rate + 0.1, f'{rate:.3f}%', ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 5. Test rapide de performance

In [None]:
# Fonction de test rapide pour comparer les performances
def quick_performance_test(df, test_name, sample_size=10000):
    """Test rapide avec √©chantillonnage pour comparer les performances"""
    
    print(f"\n=== {test_name} ===")
    
    # √âchantillonnage stratifi√© pour test rapide
    if len(df) > sample_size:
        df_sample = df.groupby('Class', group_keys=False).apply(
            lambda x: x.sample(min(len(x), sample_size//2), random_state=42)
        ).reset_index(drop=True)
        print(f"√âchantillon de test : {len(df_sample)} transactions")
    else:
        df_sample = df.copy()
        print(f"Dataset complet utilis√© : {len(df_sample)} transactions")
    
    # S√©paration train/test
    X = df_sample.drop('Class', axis=1)
    y = df_sample['Class']
    
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.3, random_state=42, stratify=y
    )
    
    # Mod√®le simple pour test rapide
    rf = RandomForestClassifier(
        n_estimators=50,  # R√©duit pour rapidit√©
        max_depth=10,
        class_weight='balanced',
        random_state=42,
        n_jobs=-1
    )
    
    rf.fit(X_train, y_train)
    y_pred = rf.predict(X_test)
    
    # M√©triques
    f1 = f1_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    
    print(f"F1-Score : {f1:.4f}")
    print(f"Pr√©cision : {precision:.4f}")
    print(f"Rappel : {recall:.4f}")
    print(f"Fraudes en test : {y_test.sum()} ({y_test.mean()*100:.3f}%)")
    
    return {
        'test_name': test_name,
        'f1_score': f1,
        'precision': precision,
        'recall': recall,
        'fraud_rate': y_test.mean() * 100
    }

In [None]:
# Tests de performance rapides
results = []

# Test sur donn√©es originales
result_original = quick_performance_test(df_original, "Dataset Original")
results.append(result_original)

# Test sur donn√©es augment√©es (si diff√©rentes)
if len(df_augmented) != len(df_original):
    result_augmented = quick_performance_test(df_augmented, "Dataset Augment√©")
    results.append(result_augmented)

# Comparaison des r√©sultats
if len(results) > 1:
    comparison_df = pd.DataFrame(results)
    print("\n" + "="*80)
    print("COMPARAISON DES PERFORMANCES")
    print("="*80)
    display(comparison_df.round(4))
    
    # Calcul des am√©liorations
    f1_improvement = (results[1]['f1_score'] - results[0]['f1_score']) / results[0]['f1_score'] * 100
    precision_improvement = (results[1]['precision'] - results[0]['precision']) / results[0]['precision'] * 100
    recall_improvement = (results[1]['recall'] - results[0]['recall']) / results[0]['recall'] * 100
    
    print(f"\nüìà Am√©liorations avec augmentation SDV :")
    print(f"F1-Score : {f1_improvement:+.2f}%")
    print(f"Pr√©cision : {precision_improvement:+.2f}%")
    print(f"Rappel : {recall_improvement:+.2f}%")
else:
    print("\nüìù Test effectu√© sur dataset original uniquement")

## 6. Sauvegarde du dataset augment√©

In [None]:
# Sauvegarde du dataset augment√© pour utilisation ult√©rieure
if len(df_augmented) != len(df_original):
    output_path = '../01_data/creditcard_augmented.csv'
    df_augmented.to_csv(output_path, index=False)
    print(f"‚úì Dataset augment√© sauvegard√© : {output_path}")
    print(f"Taille : {df_augmented.shape[0]} transactions")
    print(f"Taux de fraude : {df_augmented['Class'].mean()*100:.4f}%")
else:
    print("Aucune sauvegarde n√©cessaire (pas d'augmentation)")

## 7. Conclusion et recommandations

### R√©sultats de l'augmentation SDV
L'augmentation de donn√©es avec SDV permet de :
- **√âquilibrer les classes** pour am√©liorer l'apprentissage
- **G√©n√©rer des fraudes r√©alistes** bas√©es sur les patterns existants
- **Am√©liorer les m√©triques** de d√©tection (F1, Pr√©cision, Rappel)

### Strat√©gies disponibles :
1. **test_rapide** : G√©n√©ration limit√©e pour tests et prototypage
2. **equilibre_partiel** : 10% de fraudes (plus r√©aliste)
3. **equilibre_complet** : 50/50 (√©quilibrage total)

### Recommandations :
- Utiliser **test_rapide** pour les exp√©rimentations
- Utiliser **equilibre_partiel** pour l'entra√Ænement final
- Valider sur donn√©es r√©elles non augment√©es
- Surveiller la qualit√© des donn√©es synth√©tiques

### Points d'attention :
- Les donn√©es synth√©tiques ne remplacent pas les vraies donn√©es
- Toujours valider les performances sur un jeu de test r√©el
- Surveiller le sur-apprentissage avec les donn√©es augment√©es