# üìò 1_data_preparation.ipynb
- Projet : Churn Prediction avec MLflow
- Auteur : [SALIM MAJIDE]
---

# √âtape 1 : Pr√©paration et exploration du dataset

## 1. Import des librairies

In [None]:
# ========================
# 1. Import des librairies
# ========================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split

### Configuration d'affichage

In [None]:
# Configuration d'affichage
pd.set_option('display.max_columns', None)
sns.set(style="whitegrid")

## 2. Chargement du dataset

In [None]:
# ========================
# 2. Chargement du dataset
# ========================
# ‚ö†Ô∏è Adapter le chemin si n√©cessaire
data = pd.read_csv("data/dataset.csv")

In [None]:
print("‚úÖ Dataset charg√© avec succ√®s !")
print(f"Nombre d‚Äôobservations : {data.shape[0]}")
print(f"Nombre de variables : {data.shape[1]}")
display(data.head())

## 3. Suppression des colonnes inutiles

In [None]:
# ===============================
# 3. Suppression des colonnes inutiles
# ===============================
cols_to_drop = ["RowNumber", "CustomerId", "Surname"]
data = data.drop(columns=cols_to_drop, errors="ignore")

In [None]:
print(f"‚úÖ Colonnes supprim√©es : {cols_to_drop}")
print(f"Dimensions apr√®s nettoyage : {data.shape}")

## 4. Nettoyage des valeurs aberrantes

In [None]:
# ===============================
# 4. Nettoyage des valeurs aberrantes
# ===============================
# V√©rifions la distribution des √¢ges
plt.figure(figsize=(6,4))
sns.histplot(data["Age"], bins=30, kde=True)
plt.title("Distribution de l‚Äô√¢ge avant filtrage")
plt.show()

### Filtrage des √¢ges aberrants

In [None]:
# Filtrage des √¢ges aberrants
data = data[data["Age"] <= 80]
print(f"‚úÖ Valeurs aberrantes supprim√©es. Taille finale : {data.shape}")

## 5. Exploration du churn

In [None]:
# ===============================
# 5. Exploration du churn
# ===============================
# V√©rifions la variable cible
if 'Exited' in data.columns:
    churn_rate = data['Exited'].mean() * 100
    print(f"üìä Taux de churn global : {churn_rate:.2f}%")

    plt.figure(figsize=(5,4))
    sns.countplot(x='Exited', data=data, palette=['#5DADE2','#E74C3C'])
    plt.title("R√©partition du churn (0=Non, 1=Oui)")
    plt.xlabel("Churn")
    plt.ylabel("Nombre de clients")
    plt.show()
else:
    print("‚ö†Ô∏è La colonne cible 'Exited' n‚Äôa pas √©t√© trouv√©e dans le dataset.")

## 6. Analyse des corr√©lations

In [None]:
# ===============================
# 6. Analyse des corr√©lations
# ===============================
# Conversion des variables cat√©gorielles en num√©riques temporaires
data_num = data.select_dtypes(include=[np.number])
corr_matrix = data_num.corr()

In [None]:
plt.figure(figsize=(10,8))
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap="coolwarm")
plt.title("Matrice de corr√©lation (variables num√©riques)")
plt.show()

## 7. S√©paration des features et de la target

In [None]:
# ===============================
# 7. S√©paration des features et de la target
# ===============================
X = data.drop(columns=["Exited"])
y = data["Exited"]

In [None]:
print(f"‚úÖ Features shape : {X.shape}")
print(f"‚úÖ Target shape : {y.shape}")

## 8. Split train/test (80/20, stratifi√©)

In [None]:
# ===============================
# 8. Split train/test (80/20, stratifi√©)
# ===============================
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42, 
    stratify=y
)

In [None]:
print("‚úÖ Jeu de donn√©es divis√© avec succ√®s !")
print(f"Train set : {X_train.shape}, Test set : {X_test.shape}")

## 9. Exploration compl√©mentaire

In [None]:
# ===============================
# 9. Exploration compl√©mentaire
# ===============================
# Exemple : relation entre churn et genre
if "Gender" in data.columns:
    plt.figure(figsize=(5,4))
    sns.countplot(x='Gender', hue='Exited', data=data, palette='Set2')
    plt.title("Churn selon le genre")
    plt.show()

### Exemple : relation entre churn et pays

In [None]:
# Exemple : relation entre churn et pays
if "Geography" in data.columns:
    plt.figure(figsize=(6,4))
    sns.countplot(x='Geography', hue='Exited', data=data, palette='Set1')
    plt.title("Churn selon la g√©ographie")
    plt.show()

## 10. Sauvegarde des datasets pr√©par√©s

In [None]:
# ===============================
# 10. Sauvegarde des datasets pr√©par√©s
# ===============================
X_train.to_csv("data/X_train.csv", index=False)
X_test.to_csv("data/X_test.csv", index=False)
y_train.to_csv("data/y_train.csv", index=False)
y_test.to_csv("data/y_test.csv", index=False)

In [None]:
print("üíæ Datasets sauvegard√©s dans le dossier data/")
print("‚úÖ √âtape 1 (Pr√©paration et Exploration) termin√©e avec succ√®s !")