# 1. Préparation des Données

Ce notebook se concentre sur la première étape du processus d'analyse prédictive : la préparation des données. Nous allons charger le fichier Excel, renommer les colonnes pour plus de clarté, transformer la variable cible, vérifier et traiter les valeurs manquantes, puis sauvegarder les données préparées pour les étapes suivantes.

## 1.1 Importation des bibliothèques nécessaires

In [None]:
# Importation des bibliothèques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Configuration pour les visualisations
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Pour afficher toutes les colonnes
pd.set_option('display.max_columns', None)

# Pour une meilleure lisibilité des graphiques
%matplotlib inline

## 1.2 Chargement du fichier Excel

In [None]:
# Chemin vers le fichier Excel
excel_path = "/home/ubuntu/upload/ab4e5df7-08a5-4e76-8ddd-9d4f845ecff1.xlsx"

# Vérification de l'existence du fichier
if os.path.exists(excel_path):
    print(f"Le fichier existe à l'emplacement : {excel_path}")
else:
    print(f"Erreur : Le fichier n'existe pas à l'emplacement : {excel_path}")

In [None]:
# Chargement du fichier Excel
try:
    df = pd.read_excel(excel_path)
    print(f"Le fichier Excel a été chargé avec succès.")
    print(f"Dimensions du dataset : {df.shape[0]} lignes x {df.shape[1]} colonnes")
except Exception as e:
    print(f"Erreur lors du chargement du fichier Excel : {e}")

## 1.3 Exploration initiale des données

In [None]:
# Affichage des premières lignes du dataset
print("Aperçu des 5 premières lignes :")
df.head()

In [None]:
# Informations sur les colonnes
print("Informations sur les colonnes :")
df.info()

In [None]:
# Statistiques descriptives
print("Statistiques descriptives :")
df.describe()

In [None]:
# Vérification des valeurs manquantes
print("Vérification des valeurs manquantes :")
df.isnull().sum()

## 1.4 Renommage des colonnes pour plus de clarté

Pour faciliter la manipulation des données, nous allons renommer les colonnes avec des noms plus courts et sans espaces.

In [None]:
# Dictionnaire de renommage des colonnes
colonnes_renommees = {
    "client's age": "age",
    "marital status": "marital_status",
    "amount of expenses": "expenses",
    "amount of income": "income",
    "amount requested of loan": "loan_amount",
    "price of good": "good_price",
    "credit status": "credit_status"
}

# Renommage des colonnes
df = df.rename(columns=colonnes_renommees)

# Vérification du renommage
print("Colonnes après renommage :")
print(df.columns.tolist())

# Affichage des premières lignes après renommage
df.head()

## 1.5 Transformation de la variable cible

La variable cible `credit_status` est actuellement sous forme de texte ("Yes" ou "No"). Pour faciliter la modélisation, nous allons la transformer en variable binaire (0 ou 1) :
- "Yes" (solvable) → 0
- "No" (non solvable) → 1

Cette convention est choisie pour que la classe positive (1) représente les clients non solvables, ce qui est généralement la classe d'intérêt dans les problèmes de crédit.

In [None]:
# Vérification des valeurs uniques de la variable cible
print("Valeurs uniques de credit_status avant transformation :")
print(df['credit_status'].value_counts())

# Transformation de la variable cible
df['credit_status'] = df['credit_status'].map({"Yes": 0, "No": 1})

# Vérification après transformation
print("\nValeurs uniques de credit_status après transformation :")
print(df['credit_status'].value_counts())
print("\n0 = Solvable (Yes), 1 = Non solvable (No)")

## 1.6 Vérification de la distribution des variables

Avant de finaliser la préparation des données, vérifions rapidement la distribution de chaque variable pour détecter d'éventuelles anomalies.

In [None]:
# Distribution de la variable cible
plt.figure(figsize=(10, 6))
ax = sns.countplot(x='credit_status', data=df)
plt.title('Distribution de la variable cible (credit_status)')
plt.xlabel('Statut de crédit (0 = Solvable, 1 = Non solvable)')
plt.ylabel('Nombre de clients')

# Ajout des pourcentages
total = len(df)
for p in ax.patches:
    percentage = f'{100 * p.get_height() / total:.1f}%'
    x = p.get_x() + p.get_width() / 2
    y = p.get_height()
    ax.annotate(percentage, (x, y), ha='center', va='bottom')

plt.show()

In [None]:
# Vérification rapide de la distribution des variables numériques
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
axes = axes.flatten()

# Variables numériques à vérifier
variables_numeriques = ['age', 'expenses', 'income', 'loan_amount', 'good_price']

for i, var in enumerate(variables_numeriques):
    sns.histplot(df[var], kde=True, ax=axes[i])
    axes[i].set_title(f'Distribution de {var}')
    axes[i].set_xlabel(var)
    axes[i].set_ylabel('Fréquence')

# Distribution du statut marital
sns.countplot(x='marital_status', data=df, ax=axes[5])
axes[5].set_title('Distribution du statut marital')
axes[5].set_xlabel('Statut marital')
axes[5].set_ylabel('Nombre de clients')

plt.tight_layout()
plt.show()

## 1.7 Sauvegarde des données préparées

Maintenant que nous avons préparé les données, nous allons les sauvegarder pour les utiliser dans les notebooks suivants.

In [None]:
# Création d'un dossier pour les données préparées
output_dir = "/home/ubuntu/notebooks/data"
os.makedirs(output_dir, exist_ok=True)

# Sauvegarde au format CSV
csv_path = os.path.join(output_dir, "credit_data_prepared.csv")
df.to_csv(csv_path, index=False)

# Sauvegarde au format Excel
excel_path = os.path.join(output_dir, "credit_data_prepared.xlsx")
df.to_excel(excel_path, index=False)

# Sauvegarde au format pickle pour préserver les types de données
pickle_path = os.path.join(output_dir, "credit_data_prepared.pkl")
df.to_pickle(pickle_path)

print(f"Données préparées sauvegardées avec succès dans le dossier : {output_dir}")
print(f"Nombre total d'observations : {df.shape[0]}")
print(f"Nombre de variables : {df.shape[1]}")

## 1.8 Résumé de la préparation des données

Dans ce notebook, nous avons effectué les opérations suivantes :

1. **Chargement des données** : Nous avons chargé le fichier Excel contenant les données des clients.
2. **Exploration initiale** : Nous avons examiné la structure des données, les statistiques descriptives et vérifié l'absence de valeurs manquantes.
3. **Renommage des colonnes** : Nous avons renommé les colonnes pour faciliter la manipulation des données.
4. **Transformation de la variable cible** : Nous avons transformé la variable `credit_status` en variable binaire (0 = Solvable, 1 = Non solvable).
5. **Vérification des distributions** : Nous avons vérifié la distribution de chaque variable pour détecter d'éventuelles anomalies.
6. **Sauvegarde des données préparées** : Nous avons sauvegardé les données préparées dans différents formats pour les utiliser dans les notebooks suivants.

Les données sont maintenant prêtes pour l'analyse exploratoire qui sera réalisée dans le prochain notebook.

## Prochaine étape

Dans le prochain notebook, nous réaliserons une analyse exploratoire approfondie des données pour mieux comprendre les relations entre les variables et identifier les facteurs qui influencent le statut de crédit des clients.