# üîç Analyse Exploratoire des Donn√©es de Fraude Bancaire

Ce notebook pr√©sente une analyse d√©taill√©e des donn√©es de transactions bancaires pour la d√©tection de fraudes. Nous allons explorer les caract√©ristiques des transactions frauduleuses et l√©gitimes, identifier des patterns et pr√©parer les donn√©es pour le machine learning.

## üìã Table des Mati√®res

1. [Configuration et Imports](#setup)
2. [Chargement et Aper√ßu des Donn√©es](#loading)
3. [Analyse du D√©s√©quilibre des Classes](#imbalance)
4. [Distribution des Montants](#amounts)
5. [Analyse Temporelle](#temporal)
6. [Analyse des Features Anonymis√©es](#features)
7. [Corr√©lations et Relations](#correlations)
8. [Tests Statistiques](#stats)
9. [Conclusions et Recommandations](#conclusions)

## 1. Configuration et Imports {#setup}

Importation des biblioth√®ques n√©cessaires et configuration de l'environnement.

In [None]:
import sys
from pathlib import Path

# Ajout du r√©pertoire source au path Python
project_root = Path.cwd().parent
sys.path.append(str(project_root))

# Imports standards
import pandas as pd
import numpy as np
from scipy import stats
import yaml

# Visualisation
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Import du loader personnalis√©
from src.data.data_loader import DataLoader

# Configuration de l'affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.3f' % x)

## 2. Chargement et Aper√ßu des Donn√©es {#loading}

In [None]:
# Chargement des donn√©es
loader = DataLoader("../config/config.yaml")
data = loader.load_data()

print("Dimensions du dataset :", data.shape)
data.head()

In [None]:
# Informations sur le dataset
print("\nInformations sur le dataset :")
data.info()

print("\nStatistiques descriptives :")
data.describe()

## 3. Analyse du D√©s√©quilibre des Classes {#imbalance}

In [None]:
# Calcul des proportions de fraude
class_counts = data['Class'].value_counts()
class_proportions = data['Class'].value_counts(normalize=True)

# Cr√©ation du graphique camembert interactif
labels = ['Transactions L√©gitimes', 'Transactions Frauduleuses']
values = class_counts.values

fig = go.Figure(data=[go.Pie(
    labels=labels,
    values=values,
    hole=0.4,
    textinfo='label+percent',
    marker=dict(colors=['#2ecc71', '#e74c3c'])
)])

fig.update_layout(
    title='Distribution des Classes',
    annotations=[dict(text='D√©s√©quilibre', x=0.5, y=0.5, font_size=20, showarrow=False)]
)

fig.show()

print(f"\nNombre de transactions l√©gitimes : {class_counts[0]:,}")
print(f"Nombre de transactions frauduleuses : {class_counts[1]:,}")
print(f"Ratio de d√©s√©quilibre : 1:{class_counts[0]/class_counts[1]:.1f}")

## 4. Distribution des Montants {#amounts}

In [None]:
# Cr√©ation d'un graphique de distribution des montants par classe
fig = make_subplots(rows=2, cols=1, 
                    subplot_titles=('Distribution des Montants - √âchelle Normale',
                                   'Distribution des Montants - √âchelle Log'))

# Transactions l√©gitimes
fig.add_trace(
    go.Histogram(x=data[data['Class']==0]['Amount'],
                 name='L√©gitimes',
                 marker_color='#2ecc71',
                 opacity=0.75),
    row=1, col=1
)

# Transactions frauduleuses
fig.add_trace(
    go.Histogram(x=data[data['Class']==1]['Amount'],
                 name='Frauduleuses',
                 marker_color='#e74c3c',
                 opacity=0.75),
    row=1, col=1
)

# M√™me chose en √©chelle log
fig.add_trace(
    go.Histogram(x=data[data['Class']==0]['Amount'],
                 name='L√©gitimes',
                 marker_color='#2ecc71',
                 opacity=0.75),
    row=2, col=1
)

fig.add_trace(
    go.Histogram(x=data[data['Class']==1]['Amount'],
                 name='Frauduleuses',
                 marker_color='#e74c3c',
                 opacity=0.75),
    row=2, col=1
)

fig.update_xaxes(title_text="Montant", row=1, col=1)
fig.update_xaxes(title_text="Montant (log)", type="log", row=2, col=1)
fig.update_yaxes(title_text="Nombre de transactions", row=1, col=1)
fig.update_yaxes(title_text="Nombre de transactions", row=2, col=1)

fig.update_layout(
    height=800,
    title_text="Distribution des Montants par Classe",
    showlegend=True
)

fig.show()

# Statistiques descriptives par classe
print("\nStatistiques des montants par classe :")
print(data.groupby('Class')['Amount'].describe())

## 5. Analyse Temporelle {#temporal}

In [None]:
# Conversion du temps en heures
data['Hour'] = data['Time'] / 3600

# Cr√©ation d'un graphique de r√©partition temporelle des fraudes
fig = go.Figure()

# Ajout des transactions l√©gitimes
fig.add_trace(go.Scatter(
    x=data[data['Class']==0]['Hour'],
    y=data[data['Class']==0]['Amount'],
    mode='markers',
    name='L√©gitimes',
    marker=dict(color='#2ecc71', size=5, opacity=0.5)
))

# Ajout des transactions frauduleuses
fig.add_trace(go.Scatter(
    x=data[data['Class']==1]['Hour'],
    y=data[data['Class']==1]['Amount'],
    mode='markers',
    name='Frauduleuses',
    marker=dict(color='#e74c3c', size=8)
))

fig.update_layout(
    title='Distribution Temporelle des Transactions',
    xaxis_title='Temps (heures)',
    yaxis_title='Montant',
    height=600
)

fig.show()

# Calcul du taux de fraude par heure
hourly_fraud_rate = data.groupby(
    pd.cut(data['Hour'], bins=24)
)['Class'].mean()

print("\nTaux de fraude par tranche horaire :")
print(hourly_fraud_rate)

## 6. Analyse des Features Anonymis√©es {#features}

In [None]:
# Cr√©ation d'une fonction pour analyser la distribution d'une feature
def plot_feature_distribution(data, feature, title=None):
    fig = make_subplots(rows=1, cols=2,
                        subplot_titles=('Distribution par Classe', 'Box Plot par Classe'))
    
    # KDE plot
    for class_value in [0, 1]:
        fig.add_trace(
            go.Histogram(
                x=data[data['Class']==class_value][feature],
                name=f"{'Frauduleuse' if class_value==1 else 'L√©gitime'}",
                marker_color='#e74c3c' if class_value==1 else '#2ecc71',
                opacity=0.7
            ),
            row=1, col=1
        )
    
    # Box plot
    fig.add_trace(
        go.Box(
            y=data[data['Class']==0][feature],
            name='L√©gitime',
            marker_color='#2ecc71'
        ),
        row=1, col=2
    )
    
    fig.add_trace(
        go.Box(
            y=data[data['Class']==1][feature],
            name='Frauduleuse',
            marker_color='#e74c3c'
        ),
        row=1, col=2
    )
    
    fig.update_layout(
        height=400,
        title_text=title if title else f"Distribution de {feature}"
    )
    
    return fig

# Analyse des premi√®res features V1-V4
for feature in ['V1', 'V2', 'V3', 'V4']:
    fig = plot_feature_distribution(data, feature)
    fig.show()

## 7. Corr√©lations et Relations {#correlations}

In [None]:
# Calcul de la matrice de corr√©lation
correlation_matrix = data.corr()

# Cr√©ation de la heatmap de corr√©lation
fig = go.Figure(data=go.Heatmap(
    z=correlation_matrix,
    x=correlation_matrix.columns,
    y=correlation_matrix.columns,
    colorscale='RdBu',
    zmin=-1,
    zmax=1
))

fig.update_layout(
    title='Matrice de Corr√©lation',
    height=800,
    width=800
)

fig.show()

# Identification des corr√©lations importantes avec la classe
correlations_with_class = correlation_matrix['Class'].sort_values(ascending=False)
print("\nTop 10 des features les plus corr√©l√©es avec la fraude :")
print(correlations_with_class[1:11])  # Exclusion de la corr√©lation avec elle-m√™me

## 8. Tests Statistiques {#stats}

In [None]:
def perform_statistical_tests(data, feature):
    # S√©paration des donn√©es par classe
    legitimate = data[data['Class']==0][feature]
    fraudulent = data[data['Class']==1][feature]
    
    # Test de Kolmogorov-Smirnov
    ks_stat, ks_pval = stats.ks_2samp(legitimate, fraudulent)
    
    # Test de Mann-Whitney U
    mw_stat, mw_pval = stats.mannwhitneyu(legitimate, fraudulent, alternative='two-sided')
    
    return {
        'KS_statistic': ks_stat,
        'KS_p_value': ks_pval,
        'MW_statistic': mw_stat,
        'MW_p_value': mw_pval
    }

# Test pour le montant et quelques features importantes
features_to_test = ['Amount'] + [f'V{i}' for i in range(1, 5)]
test_results = {}

for feature in features_to_test:
    test_results[feature] = perform_statistical_tests(data, feature)

# Affichage des r√©sultats
results_df = pd.DataFrame(test_results).T
print("R√©sultats des tests statistiques :")
print(results_df)

# Interpr√©tation des r√©sultats
significant_features = results_df[results_df['KS_p_value'] < 0.05].index
print("\nFeatures montrant des diff√©rences significatives entre classes :")
print(significant_features.tolist())

## 9. Conclusions et Recommandations {#conclusions}

### Principales Observations

1. **D√©s√©quilibre des Classes**
   - Ratio tr√®s d√©s√©quilibr√© n√©cessitant des techniques sp√©cifiques
   - Importance d'utiliser des m√©triques adapt√©es

2. **Distribution des Montants**
   - Patterns distinctifs entre transactions l√©gitimes et frauduleuses
   - N√©cessit√© de normalisation/standardisation

3. **Patterns Temporels**
   - Variations du taux de fraude selon l'heure
   - Opportunit√© pour des features temporelles

4. **Features Discriminantes**
   - Identification des variables les plus importantes
   - Base pour la s√©lection de features

### Recommandations pour la Suite

1. **Preprocessing**
   - Standardisation des features num√©riques
   - Gestion des outliers identifi√©s

2. **Feature Engineering**
   - Cr√©ation de features temporelles
   - Agr√©gations par fen√™tres glissantes

3. **Mod√©lisation**
   - Utilisation de techniques de resampling
   - Focus sur les m√©triques adapt√©es au d√©s√©quilibre

4. **√âvaluation**
   - Validation crois√©e stratifi√©e
   - Attention particuli√®re aux faux positifs/n√©gatifs