# üìä Analyse Exploratoire des Donn√©es (EDA)
## Santander Customer Transaction Prediction

---

### Objectifs de ce notebook :
1. Charger et comprendre le dataset
2. Analyser la distribution de la variable cible
3. Explorer les features
4. Identifier les patterns et corr√©lations
5. D√©tecter les valeurs aberrantes
6. Visualiser les donn√©es

In [None]:
# Import des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuration
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

# Affichage de toutes les colonnes
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Biblioth√®ques import√©es avec succ√®s")

## 1Ô∏è‚É£ Chargement des donn√©es

In [None]:
# Charger les donn√©es
print("üì• Chargement des donn√©es...")

train = pd.read_csv('../data/train.csv')
test = pd.read_csv('../data/test.csv')

print(f"‚úÖ Donn√©es charg√©es !")
print(f"   - Train set : {train.shape[0]:,} lignes x {train.shape[1]} colonnes")
print(f"   - Test set  : {test.shape[0]:,} lignes x {test.shape[1]} colonnes")

In [None]:
# Aper√ßu des premi√®res lignes
print("üìä Aper√ßu du dataset d'entra√Ænement :")
train.head()

In [None]:
# Informations g√©n√©rales
print("‚ÑπÔ∏è Informations g√©n√©rales :")
train.info()

In [None]:
# Statistiques descriptives
print("üìà Statistiques descriptives :")
train.describe()

## 2Ô∏è‚É£ Analyse de la variable cible

In [None]:
# Distribution de la variable cible
target_counts = train['target'].value_counts()
target_pct = train['target'].value_counts(normalize=True) * 100

print("üéØ Distribution de la variable cible :")
print(f"   - Classe 0 (Pas de transaction) : {target_counts[0]:,} ({target_pct[0]:.2f}%)")
print(f"   - Classe 1 (Transaction)        : {target_counts[1]:,} ({target_pct[1]:.2f}%)")
print(f"\n‚ö†Ô∏è D√©s√©quilibre : {target_pct[0] / target_pct[1]:.2f}:1")

In [None]:
# Visualisation de la distribution de la cible
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Barplot
target_counts.plot(kind='bar', ax=axes[0], color=['#3498db', '#e74c3c'])
axes[0].set_title('Distribution de la Variable Cible', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Classe')
axes[0].set_ylabel('Nombre d\'observations')
axes[0].set_xticklabels(['Pas de transaction', 'Transaction'], rotation=0)

# Pie chart
axes[1].pie(
    target_counts,
    labels=['Pas de transaction', 'Transaction'],
    autopct='%1.1f%%',
    colors=['#3498db', '#e74c3c'],
    startangle=90
)
axes[1].set_title('Proportion des Classes', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

## 3Ô∏è‚É£ Analyse des features

In [None]:
# V√©rifier les valeurs manquantes
missing = train.isnull().sum()
missing_pct = (missing / len(train)) * 100

if missing.sum() == 0:
    print("‚úÖ Aucune valeur manquante dans le dataset !")
else:
    print("‚ö†Ô∏è Valeurs manquantes d√©tect√©es :")
    print(missing[missing > 0])

In [None]:
# S√©lectionner uniquement les features (var_0 √† var_199)
feature_cols = [col for col in train.columns if col.startswith('var_')]
print(f"üìä Nombre de features : {len(feature_cols)}")

# Statistiques sur les features
features_stats = train[feature_cols].describe().T
features_stats['range'] = features_stats['max'] - features_stats['min']
features_stats.head(10)

In [None]:
# Distribution de quelques features
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.ravel()

# S√©lectionner 6 features al√©atoires
random_features = np.random.choice(feature_cols, 6, replace=False)

for i, feature in enumerate(random_features):
    axes[i].hist(train[feature], bins=50, alpha=0.7, color='steelblue', edgecolor='black')
    axes[i].set_title(f'Distribution de {feature}', fontweight='bold')
    axes[i].set_xlabel('Valeur')
    axes[i].set_ylabel('Fr√©quence')
    axes[i].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 4Ô∏è‚É£ Corr√©lations

In [None]:
# Corr√©lation des features avec la cible
correlations = train[feature_cols].corrwith(train['target']).sort_values(ascending=False)

print("üîó Top 10 features les plus corr√©l√©es (positivement) avec la cible :")
print(correlations.head(10))

print("\nüîó Top 10 features les plus corr√©l√©es (n√©gativement) avec la cible :")
print(correlations.tail(10))

In [None]:
# Visualisation des corr√©lations
fig, ax = plt.subplots(figsize=(12, 6))

# Top 20 corr√©lations absolues
top_corr = correlations.abs().sort_values(ascending=False).head(20)
colors = ['red' if correlations[idx] < 0 else 'green' for idx in top_corr.index]

top_corr.plot(kind='barh', ax=ax, color=colors, alpha=0.7)
ax.set_title('Top 20 Features par Corr√©lation avec la Cible', fontsize=14, fontweight='bold')
ax.set_xlabel('Corr√©lation Absolue')
ax.set_ylabel('Feature')
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 5Ô∏è‚É£ Analyse par classe

In [None]:
# Comparer les distributions pour les features les plus corr√©l√©es
top_features = correlations.abs().sort_values(ascending=False).head(6).index

fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.ravel()

for i, feature in enumerate(top_features):
    # Distribution par classe
    train[train['target'] == 0][feature].hist(
        bins=50, alpha=0.5, label='Pas de transaction',
        ax=axes[i], color='blue'
    )
    train[train['target'] == 1][feature].hist(
        bins=50, alpha=0.5, label='Transaction',
        ax=axes[i], color='red'
    )
    
    axes[i].set_title(f'{feature} (corr={correlations[feature]:.3f})', fontweight='bold')
    axes[i].set_xlabel('Valeur')
    axes[i].set_ylabel('Fr√©quence')
    axes[i].legend()
    axes[i].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 6Ô∏è‚É£ D√©tection des valeurs aberrantes

In [None]:
# Boxplot pour quelques features
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.ravel()

sample_features = np.random.choice(feature_cols, 6, replace=False)

for i, feature in enumerate(sample_features):
    train.boxplot(column=feature, by='target', ax=axes[i])
    axes[i].set_title(f'Boxplot de {feature}')
    axes[i].set_xlabel('Target')
    axes[i].set_ylabel('Valeur')

plt.suptitle('')  # Supprimer le titre automatique
plt.tight_layout()
plt.show()

## üìù Conclusions de l'EDA

### Points cl√©s :
1. **Dataset d√©s√©quilibr√©** : ~90% classe 0, ~10% classe 1
2. **Pas de valeurs manquantes** : Dataset propre
3. **200 features anonymis√©es** : Difficile d'interpr√©ter le sens m√©tier
4. **Corr√©lations faibles** : Les features ont des corr√©lations relativement faibles avec la cible
5. **Pr√©sence d'outliers** : Certaines features ont des valeurs aberrantes

### Prochaines √©tapes :
1. Preprocessing et feature engineering
2. Gestion du d√©s√©quilibre des classes
3. Feature selection
4. Entra√Ænement de mod√®les

In [None]:
# Sauvegarder les insights
insights = {
    'n_samples': len(train),
    'n_features': len(feature_cols),
    'class_distribution': target_counts.to_dict(),
    'class_imbalance_ratio': float(target_pct[0] / target_pct[1]),
    'missing_values': int(missing.sum()),
    'top_correlated_features': correlations.abs().sort_values(ascending=False).head(10).to_dict()
}

print("‚úÖ Analyse exploratoire termin√©e !")
print(f"\nüìä Insights sauvegard√©s :")
for key, value in insights.items():
    print(f"   - {key}: {value}")