# Analyse Exploratoire Initiale - Credit Scoring,
    Ce notebook permet de réaliser une analyse exploratoire du dataset de scoring crédit.
**Objectifs** :
   - Comprendre les features socio-démographiques et comportementales
   - Identifier les valeurs manquantes et anomalies
   - Visualiser les distributions et corrélations

## Import des bibliothèques

In [None]:
# Import des bibliothèques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Réglages matplotlib/seaborn
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (10,6)

## Charger le dataset

In [None]:
# Charger le dataset
df = pd.read_csv('../data/processed/processed_data.csv')  # chemin relatif
df.head()

## Informations générales

In [None]:
# Informations générales
df.info()

## Statistiques descriptives

In [None]:
# Statistiques descriptives
df.describe()

## Vérifier les valeurs manquantes

In [None]:
# Vérifier les valeurs manquantes
missing = df.isnull().sum()
missing[missing > 0]

## Visualisation des distributions pour quelques features

In [None]:
# Visualisation des distributions pour quelques features
features_to_plot = ['age', 'income', 'loan_amount']  # adapter selon ton dataset
for feature in features_to_plot:
    sns.histplot(df[feature], kde=True, bins=30)
    plt.title(f'Distribution de {feature}')
    plt.show()

## Matrice de corrélation

In [None]:
# Matrice de corrélation
corr_matrix = df.corr()
plt.figure(figsize=(12,8))
sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm')
plt.title('Matrice de corrélation')
plt.show()

## Observations et prochaines étapes
- Identifier les features pertinentes pour le modèle
- Imputer ou traiter les valeurs manquantes
- Normaliser / encoder les variables si nécessaire