# Étape 1 — Préparation et nettoyage des données

L'objectif de cette première étape est d'obtenir un **jeu de données propre, fusionné et enrichi**, prêt à être utilisé pour l'entraînement des modèles de machine learning. Pour cela, nous allons :

1. Charger et explorer les jeux de données bruts.
2. Identifier les colonnes clés pour effectuer les jointures.
3. Nettoyer les valeurs manquantes et les doublons.
4. Réaliser les jointures pour constituer un dataset final unique.

Nous prendrons également en compte les spécificités métiers, comme la présence de classes déséquilibrées ou de colonnes ID spécifiques à certaines tables.

> **Note** : Ce notebook s'inspire en partie de l'approche proposée par Will Koehrsen dans le cadre du challenge Home Credit.  
> Source : [Start Here - A Gentle Introduction](https://www.kaggle.com/code/willkoehrsen/start-here-a-gentle-introduction/notebook)
>
> Nous reprenons notamment certaines bonnes pratiques de structuration, de visualisation des valeurs manquantes, et d’agrégation intelligente des jeux de données secondaires.


## 1. Chargement des fichiers de données
Les fichiers sont stockés dans le dossier `../data/raw/`.

In [None]:
import pandas as pd
import os
from pathlib import Path

raw_data_path = Path('../data/raw/')
files = list(raw_data_path.glob('*.csv'))
datasets = {}

# Encodage utf-8 avec gestion des erreurs
for file in files:
    try:
        df = pd.read_csv(file, encoding='utf-8')
    except UnicodeDecodeError:
        df = pd.read_csv(file, encoding='ISO-8859-1')
    datasets[file.stem] = df
    print(f"{file.name}: {df.shape[0]} lignes, {df.shape[1]} colonnes")

## 2. Vérification et correction des formats

Avant de procéder à tout nettoyage ou fusion, il est essentiel de s'assurer que les jeux de données ont des types cohérents et que les formats sont exploitables.

#### Actions menées :
- Vérification des types de colonnes (`df.dtypes`)
- Conversion explicite des dates (`object` → `datetime`)
- Homogénéisation des types numériques (`float32`, `int64`)
- Détection de colonnes booléennes encodées sous forme de `0/1` ou de chaînes

#### Résultat :
Toutes les colonnes critiques (dates, booléens, numériques) ont un format adapté à l’analyse ou à la modélisation.

In [None]:
for name, df in datasets.items():
    print(f"\n==== {name.upper()} : types initiaux ====")
    print(df.dtypes.value_counts())
    
    # Exemple : conversion des colonnes 'DAYS_BIRTH' en valeur absolue
    if 'DAYS_BIRTH' in df.columns:
        df['DAYS_BIRTH'] = df['DAYS_BIRTH'].abs()
    
    # Conversion des colonnes contenant 'DATE' ou 'datetime' si besoin
    for col in df.select_dtypes('object'):
        if 'date' in col.lower() or 'datetime' in col.lower():
            try:
                df[col] = pd.to_datetime(df[col])
                print(f"{col} convertie en datetime")
            except:
                pass  # on ignore si ce n’est pas convertible

    # Mise à jour du dictionnaire
    datasets[name] = df

## 3. Traitement des valeurs manquantes et doublons

Cette étape a pour objectif de :
		
- Identifier visuellement les valeurs manquantes dans chaque fichier
- Supprimer les colonnes contenant trop de valeurs manquantes
- Imputer les valeurs manquantes restantes selon le type de variable
- Supprimer les doublons éventuels

### 3.1 Visualisation des valeurs manquantes

Visualiser rapidement la structure des valeurs manquantes par fichier pour anticiper les nettoyages nécessaires.

In [None]:
import missingno as msno
import matplotlib.pyplot as plt

for name, df in datasets.items():
    print(f"\n=== {name.upper()} ===")
    na_ratio = df.isna().mean().sort_values(ascending=False)
    print("Variables avec > 50% de valeurs manquantes :")
    display(na_ratio[na_ratio > 0.5])

    msno.matrix(df)
    plt.title(f"Missing values — {name}")
    plt.show()

### 3.2 Nettoyage : suppression et imputation

Nettoyer les données en supprimant les colonnes peu exploitables et en imputant les valeurs manquantes restantes.

In [None]:
from sklearn.impute import SimpleImputer

for name, df in datasets.items():
    print(f"\n=== Nettoyage du dataset : {name.upper()} ===")

    # 1. Supprimer les colonnes avec plus de 80% de NaN
    threshold = 0.8
    missing_ratio = df.isna().mean()
    cols_to_drop = missing_ratio[missing_ratio > threshold].index
    df.drop(columns=cols_to_drop, inplace=True)
    print(f"{len(cols_to_drop)} colonnes supprimées (>80% NaN) : {list(cols_to_drop)}")

    # 2. Imputer les variables numériques (par la médiane)
    num_cols = df.select_dtypes(include=['int64', 'float64']).columns
    imputer_num = SimpleImputer(strategy='median')
    df[num_cols] = imputer_num.fit_transform(df[num_cols])

    # 3. Imputer les variables catégorielles (par "inconnu")
    cat_cols = df.select_dtypes(include='object').columns
    df[cat_cols] = df[cat_cols].fillna("inconnu")

    # Mise à jour dans le dictionnaire
    datasets[name] = df

    print(f"{len(num_cols)} colonnes numériques imputées")
    print(f"{len(cat_cols)} colonnes catégorielles imputées")

### 3.3 Suppression des doublons

Éliminer les éventuelles lignes dupliquées qui pourraient biaiser l’analyse ou l’entraînement du modèle.

In [None]:
for name, df in datasets.items():
    duplicates = df.duplicated().sum()
    if duplicates > 0:
        df.drop_duplicates(inplace=True)
        print(f"{name}: {duplicates} doublons supprimés")
    else:
        print(f"{name}: aucun doublon détecté")

    # Mise à jour
    datasets[name] = df

## 4. Identification des colonnes clés pour les jointures

Pour fusionner les différents jeux de données, il est essentiel d’identifier les colonnes servant de clés primaires et secondaires. Ces clés permettent de relier les historiques d’interactions du client (`bureau`, `previous_application`, `credit_card_balance`, etc.) à l’enregistrement principal d’un client unique.

Nous nous appuyons ici :
- Sur l’analyse de la documentation fournie (`HomeCredit_columns_description.csv`),
- Sur la structure des noms de colonnes (`SK_ID_CURR`, `SK_ID_PREV`, `SK_ID_BUREAU`),
- Sur la logique métier (par exemple, une carte de crédit appartient à une demande passée, elle-même reliée à un client).

**Remarque** : le fichier `HomeCredit_columns_description.csv` est un document de **description des colonnes**. Il ne comporte **aucune clé de jointure** et ne sera donc **pas fusionné** avec les autres jeux de données.

Le tableau ci-dessous récapitule les relations entre fichiers, et un dictionnaire Python permet de centraliser ces clés pour automatiser les jointures ultérieures.

| Fichier              | Clé principale       | Clé(s) de jointure         |
|----------------------|----------------------|----------------------------|
| application_train    | SK_ID_CURR           | —                          |
| application_test     | SK_ID_CURR           | —                          |
| bureau               | SK_ID_BUREAU         | SK_ID_CURR                 |
| bureau_balance       | SK_ID_BUREAU         | via bureau                 |
| previous_application | SK_ID_PREV           | SK_ID_CURR                 |
| POS_CASH_balance     | SK_ID_PREV           | via previous_application   |
| installments_payments| SK_ID_PREV           | via previous_application   |
| credit_card_balance  | SK_ID_PREV           | via previous_application   |

In [None]:
# Colonnes clés identifiées manuellement à partir de la documentation
primary_keys = {
    'application_train': 'SK_ID_CURR',
    'application_test': 'SK_ID_CURR',
    'bureau': 'SK_ID_CURR',
    'bureau_balance': 'SK_ID_BUREAU',
    'previous_application': 'SK_ID_CURR',
    'installments_payments': 'SK_ID_PREV',
    'credit_card_balance': 'SK_ID_PREV',
    'POS_CASH_balance': 'SK_ID_PREV',
    'sample_submission': 'SK_ID_CURR'
}

## 5. Fusionner les jeux de données

### 5.1 Fusion des données Bureau 

Nous commençons par fusionner les données issues des fichiers bureau_balance et bureau, en suivant la logique relationnelle identifiée à l’étape 4 :
- Agrégation des historiques bureau_balance au niveau de chaque SK_ID_BUREAU (via moyenne et somme),
- Fusion avec bureau sur la colonne SK_ID_BUREAU,
- Puis fusion avec application_train sur SK_ID_CURR.

Cela permet d’enrichir chaque client avec un résumé de ses interactions passées via les bureaux de crédit.

In [None]:
def agg_numeric_only(df, group_var, df_name):
    """
    Agrège uniquement les colonnes numériques d’un DataFrame par une clé donnée.
    Les noms des colonnes sont préfixés pour éviter les collisions.
    """
    df_numeric = df.select_dtypes(include=['number']).copy()
    df_numeric[group_var] = df[group_var]
    agg = df_numeric.groupby(group_var).agg(['mean', 'sum'])
    agg.columns = [f"{df_name}_{col[0]}_{col[1]}" for col in agg.columns]
    agg.reset_index(inplace=True)
    return agg

In [None]:
# Fusion bureau_balance → bureau
bureau_balance = datasets['bureau_balance']
bureau = datasets['bureau']

bureau_balance_agg = agg_numeric_only(bureau_balance, 'SK_ID_BUREAU', 'BB')
bureau = bureau.merge(bureau_balance_agg, on='SK_ID_BUREAU', how='left')

# Fusion bureau → application
app_train = datasets['application_train']
app_train = app_train.merge(bureau.drop(columns='SK_ID_BUREAU'), on='SK_ID_CURR', how='left')

### 5.2 Fusion des données Previous + historiques

Même logique que précédemment, cette fois appliquée aux données liées aux demandes précédentes :
- Pour chaque table liée à une demande passée (POS_CASH_balance, installments_payments, credit_card_balance), nous :
  - Regroupons les données par SK_ID_PREV
  - Calculons des agrégats (moyenne, somme)
- Ces agrégats sont fusionnés avec previous_application
- Puis previous_application est fusionné à application_train via SK_ID_CURR

Ainsi, chaque client est enrichi avec un résumé de ses demandes passées et de leurs historiques.

In [None]:
previous = datasets['previous_application']

# Agrégats pour les historiques liés à previous
for table_name in ['POS_CASH_balance', 'installments_payments', 'credit_card_balance']:
    df = datasets[table_name]
    df_agg = agg_numeric_only(df, 'SK_ID_PREV', table_name)
    previous = previous.merge(df_agg, on='SK_ID_PREV', how='left')

# Fusion avec application
app_train = app_train.merge(previous.drop(columns='SK_ID_PREV'), on='SK_ID_CURR', how='left')

### 5.3 Export final

Le fichier enrichi final est exporté dans ./data/output/train_clean_merged.csv.

In [None]:
output_path = Path('../data/output')
output_path.mkdir(parents=True, exist_ok=True)
app_train.to_csv(output_path / 'train_clean_merged.csv', index=False)

⚠️ Suite à un échange avec mon mentor (Elie Wanko), nous avons décidé de ne pas utiliser l'intégralité du fichier `train_clean_merged.csv` pour les étapes de modélisation.

Le fichier final, issu de la fusion des jeux de données bruts, atteint environ 10. Go. Ce volume très important est susceptible de ralentir, voire bloquer notre environnement d'exécution (Jupyter Lab / MLFlow).

Afin d’assurer la faisabilité de nos expérimentations tout en conservant un volume représentatif, nous avons choisi de diviser ce fichier en deux et de conserver uniquement la première moitié pour la suite. Ce fichier allégé reste suffisant pour entraîner, valider et comparer plusieurs modèles dans le cadre du projet.

Nous enregistrons donc un fichier `train_clean_sample.csv`, contenant 12.5 % des lignes originales.

In [None]:
import pandas as pd

# Compter le nombre total de lignes (moins l'en-tête)
with open("../data/output/train_clean_merged.csv", "r") as f:
    total_lines = sum(1 for line in f) - 1

# Calculer combien garder (1/8 du fichier)
eighth_lines = total_lines // 8

# Lire et sauvegarder 1/8 des données
df_sample = pd.read_csv("../data/output/train_clean_merged.csv", nrows=eighth_lines)
df_sample.to_csv("../data/output/train_clean_sample.csv", index=False)

# Supprimer le fichier trop volumineux
import os
os.remove("../data/output/train_clean_merged.csv")

## Conclusion

Dans cette première étape, nous avons réalisé une préparation complète des données en suivant les bonnes pratiques de la data science appliquée à la modélisation supervisée :

- Exploration initiale des jeux de données fournis
- Vérification des formats, des valeurs manquantes et des doublons
- Identification des colonnes clés pour les jointures (`SK_ID_CURR`, `SK_ID_BUREAU`, `SK_ID_PREV`)
- Nettoyage des colonnes fortement manquantes
- Imputation de valeurs (moyenne, médiane ou catégories “unknown”)
- Fusion cohérente de toutes les sources secondaires avec application_train

Le jeu final `train_clean_merged.csv` est un dataset propre, enrichi et prêt à être utilisé pour l’entraînement d’un modèle de scoring.