# Nettoyage des données

## Importation des librairies

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import os

## Description des colonnes

Le jeu de données contient les colonnes suivantes :

- `age`
- `taille`
- `poids`
- `revenu_estime_mois`
- `historique_credits`
- `risque_personnel`
- `score_credit`
- `loyer_mensuel`
- `montant_pret`

## Chargement des données

In [None]:
df = pd.read_csv("data.csv")

print("Taille du fichier brut : ",  len(df.index))

## Visualisation des outliers

Un boxplot peut être utilisé pour détecter visuellement les outliers dans une colonne spécifique, comme le `score_credit`.

In [None]:
# sns.boxplot(x=df["score_credit"])
# plt.show()

## Suppression des doublons

In [None]:
df = df.drop_duplicates()
print("Taille après suppression des doublons : ",  len(df.index))

## Gestion des valeurs manquantes

In [None]:
print("Total des valeurs manquantes par colonne")
print(df.isnull().sum())

### Suppression des lignes avec trop de valeurs manquantes

On ajoute une colonne temporaire `manquants` pour compter le nombre de valeurs manquantes par ligne. Ensuite, on ne conserve que les lignes qui ont moins de 2 valeurs manquantes.

In [None]:
df["manquants"] = df.isnull().sum(axis=1)

df = df[df['manquants'] < 2]

print("Taille après conservation des lignes ayant moins de 2 colonnes vides : ",  len(df.index))

## Elimination des outliers

On utilise la méthode de l'écart interquartile (IQR) pour identifier et supprimer les outliers.

### Outliers sur `revenu_estime_mois`

In [None]:
Q1 = df["revenu_estime_mois"].quantile(0.25)
Q3 = df["revenu_estime_mois"].quantile(0.75)
IQR = Q3 - Q1
df = df[(df["revenu_estime_mois"] >= (Q1 - 1.5 * IQR)) & (df["revenu_estime_mois"] <= (Q3 + 1.5 * IQR))]

print("Taille après élimination des outliers de revenus mensuels : ",  len(df.index))

### Outliers sur `score_credit`

In [None]:
Q1 = df["score_credit"].quantile(0.25)
Q3 = df["score_credit"].quantile(0.75)
IQR = Q3 - Q1
df = df[(df["score_credit"] >= (Q1 - 1.5 * IQR)) & (df["score_credit"] <= (Q3 + 1.5 * IQR))]

print("Taille après élimination des outliers de score de crédit : ",  len(df.index))

## Imputation des valeurs manquantes restantes

Après le premier filtrage, on vérifie à nouveau les valeurs manquantes.

In [None]:
print("Total des valeurs manquantes par colonne après filtrage")
print(df.isnull().sum())

On remplace les valeurs manquantes restantes par la moyenne de leur colonne respective.

In [None]:
df["loyer_mensuel"].fillna(df["loyer_mensuel"].mean(), inplace=True)
df["score_credit"].fillna(df["score_credit"].mean(), inplace=True)
df["historique_credits"].fillna(df["historique_credits"].mean(), inplace=True)

## Finalisation

On supprime les dernières lignes qui pourraient encore contenir des valeurs `NaN` (ce qui ne devrait pas être le cas ici) et on supprime la colonne `manquants` qui n'est plus utile.

In [None]:
df = df.drop(columns=['manquants'])
df = df.dropna()

print("Taille après élimination finale des lignes vides : ",  len(df.index))

## Sauvegarde du jeu de données nettoyé

In [None]:
df.to_csv("data_cleaned.csv", index=False)

## Affichage des premières lignes du dataframe nettoyé

In [None]:
df.head()