<small>

#### Bibliothèques Essentielles

Pour mener l’analyse, il est nécessaire d’importer les bibliothèques essentielles.  
Elles fournissent les outils nécessaires pour manipuler les données, les visualiser et les analyser efficacement.  
Les principales bibliothèques utilisées sont **pandas** et **numpy** pour le traitement des données, **matplotlib** et **seaborn** pour la visualisation, **scikit-learn** pour le prétraitement et la modélisation, **xgboost** pour les modèles avancés, ainsi qu’**imbalanced-learn** pour gérer le déséquilibre des classes.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import shutil
import os
import itertools
%matplotlib inline
import seaborn as sns
pd.options.display.float_format = '{:.2f}'.format
import warnings
warnings.filterwarnings('ignore')

In [2]:
file_path = os.path.join("..", "data", "raw", "WA_Fn-UseC_-Telco-Customer-Churn.csv")
df = pd.read_csv(file_path)
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


In [4]:
df.columns

Index(['customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents',
       'tenure', 'PhoneService', 'MultipleLines', 'InternetService',
       'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
       'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn'],
      dtype='object')

In [5]:
df.isnull().sum()

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

In [6]:
df.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
customerID,7043.0,7043.0,7590-VHVEG,1.0,,,,,,,
gender,7043.0,2.0,Male,3555.0,,,,,,,
SeniorCitizen,7043.0,,,,0.16,0.37,0.0,0.0,0.0,0.0,1.0
Partner,7043.0,2.0,No,3641.0,,,,,,,
Dependents,7043.0,2.0,No,4933.0,,,,,,,
tenure,7043.0,,,,32.37,24.56,0.0,9.0,29.0,55.0,72.0
PhoneService,7043.0,2.0,Yes,6361.0,,,,,,,
MultipleLines,7043.0,3.0,No,3390.0,,,,,,,
InternetService,7043.0,3.0,Fiber optic,3096.0,,,,,,,
OnlineSecurity,7043.0,3.0,No,3498.0,,,,,,,


<small>

L'ensemble de données présente de nombreuses caractéristiques textuelles, représentant probablement des caractéristiques catégorielles. Notamment, la caractéristique « Charges totales » contient des valeurs numériques, mais est actuellement stockée sous forme de chaîne. Dans un premier temps, nous allons convertir les entrées de cette colonne en nombres à virgule flottante pour une analyse plus approfondie.

In [3]:
df["TotalCharges"]=pd.to_numeric(df["TotalCharges"],errors='coerce')

In [4]:
print(df.shape)
print(df['TotalCharges'].isna().sum())
print(df.dtypes)

(7043, 21)
11
customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges        float64
Churn                object
dtype: object


<small>

Lors de la conversion de la colonne **`TotalCharges`** en type *float*, une erreur est apparue à cause de la présence de chaînes vides (`' '`).  
Ces valeurs, bien que stockées sous forme de chaînes de caractères, ne sont pas considérées comme des valeurs nulles et n’apparaissent donc pas dans la détection classique des valeurs manquantes.  
Un exemple typique est une variable chaîne définie comme `a = ' '`.

Pour résoudre ce problème, nous avons remplacé les chaînes vides par des valeurs manquantes (`NaN`) puis converti la colonne en **float**.  
Les lignes contenant des valeurs non convertibles ont ensuite été supprimées.

De plus :  
- La colonne **`customerID`** a été supprimée car elle n’apporte aucune information utile à la modélisation.  
- Les variables ont été catégorisées en **numériques** et **catégorielles**.  
- Les variables catégorielles ont été transformées grâce à un **Label Encoding** afin de permettre leur utilisation dans les modèles de Machine Learning.


<small>

#### Separation numeric & Categoriel

In [5]:
# numerical feature
numerical_feature = {feature for feature in df.columns if df[feature].dtypes != 'O'}
print(f'Count of Numerical feature: {len(numerical_feature)}')
print(f'Numerical feature are:\n {numerical_feature}')

Count of Numerical feature: 4
Numerical feature are:
 {'tenure', 'MonthlyCharges', 'TotalCharges', 'SeniorCitizen'}


In [7]:
# Categorical feature
categorical_feature = {feature for feature in df.columns if df[feature].dtypes == 'O'}
print(f'Count of Categorical feature: {len(categorical_feature)}')
print(f'Categorical feature are:\n {categorical_feature}')

Count of Categorical feature: 17
Categorical feature are:
 {'PhoneService', 'MultipleLines', 'PaperlessBilling', 'Contract', 'StreamingTV', 'Partner', 'PaymentMethod', 'customerID', 'gender', 'DeviceProtection', 'TechSupport', 'Churn', 'InternetService', 'OnlineSecurity', 'StreamingMovies', 'Dependents', 'OnlineBackup'}


<small>

#### Data Cleaning:


In [8]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [9]:
df.isnull().sum()

customerID           0
gender               0
SeniorCitizen        0
Partner              0
Dependents           0
tenure               0
PhoneService         0
MultipleLines        0
InternetService      0
OnlineSecurity       0
OnlineBackup         0
DeviceProtection     0
TechSupport          0
StreamingTV          0
StreamingMovies      0
Contract             0
PaperlessBilling     0
PaymentMethod        0
MonthlyCharges       0
TotalCharges        11
Churn                0
dtype: int64

In [10]:
# replace NaN values with mean value
df.TotalCharges = df.TotalCharges.fillna(df.TotalCharges.median())

In [13]:
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
for feature in categorical_feature:
    df[feature] = encoder.fit_transform(df[feature])

In [14]:
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,5375,0,0,1,0,1,0,1,0,0,...,0,0,0,0,0,1,2,29.85,29.85,0
1,3962,1,0,0,0,34,1,0,0,2,...,2,0,0,0,1,0,3,56.95,1889.5,0
2,2564,1,0,0,0,2,1,0,0,2,...,0,0,0,0,0,1,3,53.85,108.15,1
3,5535,1,0,0,0,45,0,1,0,2,...,2,2,0,0,1,0,0,42.3,1840.75,0
4,6511,0,0,0,0,2,1,0,1,0,...,0,0,0,0,0,1,2,70.7,151.65,1


In [15]:
# suppression of customerID column
df.drop(columns=['customerID'], inplace=True)

<small>
 
Toutes les transformations appliquées — notamment l’**encodage des variables catégorielles** — ont été réalisées sur cette copie, de manière à convertir l’ensemble des attributs en valeurs **numériques exploitables**.  

Les variables binaires (`Yes/No`, `Male/Female`) ont été transformées en indicateurs **0/1**, tandis que les variables multi-catégorielles (`Contract`, `PaymentMethod`, `InternetService`, etc.) ont été traitées par **One-Hot Encoding**, garantissant l’absence d’ordre artificiel entre les modalités.  

Cette version transformée du dataset constitue une base fiable pour les étapes suivantes :  
- **visualisation** (corrélations, distributions, analyses de churn),  
- **modélisation prédictive** (régression logistique, forêts aléatoires, gradient boosting).  

Enfin, nous avons recalculé les **statistiques descriptives** afin d’obtenir une vue d’ensemble cohérente sur le jeu de données désormais numérisé.  

In [16]:
df.describe()

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
count,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0,7043.0
mean,0.5,0.16,0.48,0.3,32.37,0.9,0.94,0.87,0.79,0.91,0.9,0.8,0.99,0.99,0.69,0.59,1.57,64.76,2281.92,0.27
std,0.5,0.37,0.5,0.46,24.56,0.3,0.95,0.74,0.86,0.88,0.88,0.86,0.89,0.89,0.83,0.49,1.07,30.09,2265.27,0.44
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,18.25,18.8,0.0
25%,0.0,0.0,0.0,0.0,9.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,35.5,402.23,0.0
50%,1.0,0.0,0.0,0.0,29.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,2.0,70.35,1397.47,0.0
75%,1.0,0.0,1.0,1.0,55.0,1.0,2.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,2.0,89.85,3786.6,1.0
max,1.0,1.0,1.0,1.0,72.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,3.0,118.75,8684.8,1.0


<small>

Le dataset encodé est désormais **entièrement numérique** et exploitable pour l’apprentissage automatique.  

- Les **variables binaires** (par ex. `Partner`, `PhoneService`, `PaperlessBilling`) ont été converties en indicateurs **0/1**.  
- Les **variables multi-catégorielles** (`Contract`, `InternetService`, `PaymentMethod`, etc.) ont été transformées en colonnes indicatrices via **One-Hot Encoding**, supprimant tout ordre artificiel entre les modalités.  
- Les variables **numériques continues** (`tenure`, `MonthlyCharges`, `TotalCharges`) ont conservé leurs valeurs d’origine.  
- La variable cible `Churn` est encodée en **0 = Non** et **1 = Oui**, avec un taux de churn d’environ **27%**, traduisant un **déséquilibre de classes** à prendre en compte lors de la modélisation.  

Nous disposons ainsi d’un jeu de données **propre, encodé et prêt** pour la prochaine étape : la **séparation en ensembles d’entraînement et de test**, puis la construction des premiers modèles de prédiction.  

</small>


In [17]:
# Sauvegarde du DataFrame encodé
df.to_csv("../data/processed/df_encoded.csv", index=False)

print("Dataset encodé sauvegardé dans data/processed/df_encoded.csv")

Dataset encodé sauvegardé dans data/processed/df_encoded.csv


In [14]:
# Sauvegarde dans le bon dossier
df1.to_csv("../data/processed/df1_encoder.csv", index=False)

print("Dataset traité et sauvegardé dans data/processed/df1_encoder.csv")

Dataset traité et sauvegardé dans data/processed/df1_encoder.csv
