# üîç Exploration des donn√©es - D√©tection de Fraude

**Objectif** : Comprendre la structure des donn√©es et identifier les patterns de fraude

Petite note pour moi : Ce projet me rappelle un peu le travail que j'ai fait chez Groupama sur la pr√©diction de satisfaction client. M√™me logique de d√©s√©quilibre de classes et d'importance des co√ªts m√©tier.

**Dataset** : Credit Card Fraud Detection
- Transactions par carte bancaire
- Features anonymis√©es (PCA)
- Tr√®s d√©s√©quilibr√© (comme d'hab avec la fraude...)


In [None]:
# Imports classiques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Config pour les graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("‚úÖ Imports OK")


## 1. Chargement des donn√©es

Bon, voyons ce qu'on a dans ce dataset...


In [None]:
# Charger les donn√©es
data_path = Path('../data/raw/creditcard.csv')
df = pd.read_csv(data_path)

print(f"üìä Shape: {df.shape}")
print(f"üíæ M√©moire: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
df.head()


In [None]:
# Infos g√©n√©rales
df.info()


## 2. Analyse du d√©s√©quilibre

Le gros probl√®me avec la d√©tection de fraude c'est toujours le d√©s√©quilibre...
Voyons combien de fraudes on a vraiment.


In [None]:
# Distribution des classes
class_counts = df['Class'].value_counts()
fraud_rate = (class_counts[1] / len(df)) * 100

print(f"Transactions normales: {class_counts[0]:,}")
print(f"Fraudes: {class_counts[1]:,}")
print(f"Taux de fraude: {fraud_rate:.3f}%")
print(f"\nüí° Ratio: 1 fraude pour {class_counts[0] // class_counts[1]} transactions normales")

# Viz rapide
fig, ax = plt.subplots(1, 2, figsize=(12, 4))

# Barplot
class_counts.plot(kind='bar', ax=ax[0], color=['#2ecc71', '#e74c3c'])
ax[0].set_title('Distribution des Classes', fontsize=12, fontweight='bold')
ax[0].set_xlabel('Classe (0=Normal, 1=Fraude)')
ax[0].set_ylabel('Nombre de transactions')
ax[0].set_xticklabels(['Normal', 'Fraude'], rotation=0)

# Pie chart
colors = ['#2ecc71', '#e74c3c']
ax[1].pie(class_counts, labels=['Normal', 'Fraude'], autopct='%1.2f%%', 
          colors=colors, startangle=90)
ax[1].set_title('Proportion des Classes', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

# Note: Va falloir g√©rer ce d√©s√©quilibre avec SMOTE ou autre...


## 3. Analyse des montants

Les montants des transactions peuvent √™tre un bon indicateur. Les fraudes sont-elles plut√¥t sur des petits ou gros montants ?


In [None]:
# Stats sur les montants
print("=== Statistiques des montants ===\n")
print("Toutes transactions:")
print(df['Amount'].describe())
print("\n" + "="*40)
print("\nTransactions normales:")
print(df[df['Class']==0]['Amount'].describe())
print("\n" + "="*40)
print("\nFraudes:")
print(df[df['Class']==1]['Amount'].describe())

# Visualisation
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# Distribution des montants (toutes transactions)
df['Amount'].hist(bins=50, ax=axes[0], color='skyblue', edgecolor='black')
axes[0].set_title('Distribution des montants (Toutes)')
axes[0].set_xlabel('Montant (‚Ç¨)')
axes[0].set_ylabel('Fr√©quence')
axes[0].set_yscale('log')

# Boxplot comparaison
df.boxplot(column='Amount', by='Class', ax=axes[1])
axes[1].set_title('Montants : Normal vs Fraude')
axes[1].set_xlabel('Classe')
axes[1].set_ylabel('Montant (‚Ç¨)')

# Distribution pour fraudes uniquement (pour mieux voir)
df[df['Class']==1]['Amount'].hist(bins=30, ax=axes[2], color='#e74c3c', edgecolor='black')
axes[2].set_title('Distribution des montants (Fraudes uniquement)')
axes[2].set_xlabel('Montant (‚Ç¨)')
axes[2].set_ylabel('Fr√©quence')

plt.tight_layout()
plt.show()

# Observation perso : Les fraudes semblent avoir des montants assez variables. 
# Pas de pattern √©vident juste avec Amount. Les features V1-V28 vont √™tre importantes.
