# Étape 2: Feature Engineering et Prétraitement

## 1. Importation des bibliothèques

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder

## 2. Chargement des données

In [2]:
df = pd.read_csv("../data/churn_data_processed.csv")

## 3. Encodage des variables catégorielles

In [3]:
# Drop customerID
df = df.drop("customerID", axis=1)

# Binary encoding
binary_cols = ["gender", "Partner", "Dependents", "PhoneService", "PaperlessBilling", "Churn"]
le = LabelEncoder()
for col in binary_cols:
    df[col] = le.fit_transform(df[col])

# One-Hot encoding
df = pd.get_dummies(df, drop_first=True)

## 4. Division des données en ensembles d'entraînement et de test

In [4]:
X = df.drop("Churn", axis=1)
y = df["Churn"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

## 5. Mise à l'échelle des caractéristiques numériques

In [5]:
numerical_cols = ["tenure", "MonthlyCharges", "TotalCharges"]
scaler = StandardScaler()

X_train[numerical_cols] = scaler.fit_transform(X_train[numerical_cols])
X_test[numerical_cols] = scaler.transform(X_test[numerical_cols])

## 6. Sauvegarde des ensembles de données préparés

In [6]:
X_train.to_csv('../data/X_train.csv', index=False)
X_test.to_csv('../data/X_test.csv', index=False)
y_train.to_csv('../data/y_train.csv', index=False)
y_test.to_csv('../data/y_test.csv', index=False)

print("Les ensembles de données d'entraînement et de test ont été sauvegardés dans le dossier /data.")

Les ensembles de données d'entraînement et de test ont été sauvegardés dans le dossier /data.
