# CONTROL CONTINU : ML Avancé Optimisation

## NOM : TAYAWELBA DAWAI HESED - KIA-22-2A-435




### Le dataset Churn_Modelling est un ensemble de données qui contient les informations de 10 000 clients d’une banque fictive. L’objectif est de prédire si un client va quitter la banque ou non en fonction de son profil et de son comportement. Pour cela, on dispose de 11 variables explicatives:

###### creditScore: le score de crédit du client, qui mesure sa solvabilité
###### Geography: le pays du client (France, Spain ou Germany)
###### Gender: le sexe du client (Male ou Female)
###### Age: l’âge du client
###### Tenure: le nombre d’années que le client est avec la banque
###### Balance: le solde du compte du client
###### NumOfProducts: le nombre de produits que le client a avec la banque (compte courant, épargne, crédit, etc.)
###### HasCrCard: si le client possède une carte de crédit ou non (0 ou 1)
###### IsActiveMember: si le client est un membre actif ou non (0 ou 1), c’est-à-dire s’il utilise fréquemment les services de la banque
###### EstimatedSalary: le salaire estimé du client
###### Exited: si le client a quitté la banque ou non (0 ou 1), qui est la variable cible à prédire

### Il s’agit donc d’un problème de classification binaire, où l’on cherche à distinguer les clients fidèles des clients partants. Pour résoudre ce problème, on va utiliser la bibliothèque PyCaret, qui est une bibliothèque de machine learning à faible code en Python qui automatise les workflows de machine learning. PyCaret permet de réaliser des expériences de bout en bout rapidement et efficacement, en utilisant des fonctions simples et cohérentes. PyCaret s’occupe également du prétraitement des données, comme la mise à l’échelle, l’encodage, la sélection des caractéristiques, etc. PyCaret offre également la possibilité de comparer et d’optimiser différents algorithmes de machine learning, ainsi que de déployer et de suivre les modèles entraînés.

#### Importer les bibliothèques nécessaires

In [1]:
import pandas as pd # Pour manipuler les données tabulaires
import numpy as np # Pour effectuer des opérations numériques
import seaborn as sns # Pour créer des visualisations statistiques
import matplotlib.pyplot as plt # Pour tracer des graphiques
import pycaret as py # Pour automatiser le processus d'apprentissage automatique

#### Importer les modules spécifiques de pycaret pour différents types de problèmes

In [2]:
from pycaret.regression import * # Pour la régression
from pycaret.classification import * # Pour la classification
from pycaret.clustering import * # Pour le clustering
from pycaret.anomaly import * # Pour la détection d'anomalies


In [3]:
# Modifier l'option d'affichage pour voir toutes les colonnes du dataframe
pd.set_option('display.max_columns', None)
# Charger les données à partir d'un fichier csv
data = pd.read_csv("Churn_Modelling.csv")
# Afficher les cinq premières lignes des données
data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [4]:
# Afficher la forme du dataframe (nombre de lignes et de colonnes)
data.shape

(10000, 14)

In [5]:
data.drop(["RowNumber"],axis=1,inplace=True)

In [6]:
data.drop(["CustomerId"],axis=1,inplace=True)


In [7]:
data.drop(["Surname"],axis=1,inplace=True)

In [8]:
data.head()


Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [9]:
# Afficher les statistiques descriptives des variables numériques
data.describe()

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,650.5288,38.9218,5.0128,76485.889288,1.5302,0.7055,0.5151,100090.239881,0.2037
std,96.653299,10.487806,2.892174,62397.405202,0.581654,0.45584,0.499797,57510.492818,0.402769
min,350.0,18.0,0.0,0.0,1.0,0.0,0.0,11.58,0.0
25%,584.0,32.0,3.0,0.0,1.0,0.0,0.0,51002.11,0.0
50%,652.0,37.0,5.0,97198.54,1.0,1.0,1.0,100193.915,0.0
75%,718.0,44.0,7.0,127644.24,2.0,1.0,1.0,149388.2475,0.0
max,850.0,92.0,10.0,250898.09,4.0,1.0,1.0,199992.48,1.0


In [10]:
# Afficher les informations sur les types de données et les valeurs manquantes
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CreditScore      10000 non-null  int64  
 1   Geography        10000 non-null  object 
 2   Gender           10000 non-null  object 
 3   Age              10000 non-null  int64  
 4   Tenure           10000 non-null  int64  
 5   Balance          10000 non-null  float64
 6   NumOfProducts    10000 non-null  int64  
 7   HasCrCard        10000 non-null  int64  
 8   IsActiveMember   10000 non-null  int64  
 9   EstimatedSalary  10000 non-null  float64
 10  Exited           10000 non-null  int64  
dtypes: float64(2), int64(7), object(2)
memory usage: 859.5+ KB


In [11]:
# Calculer le nombre de valeurs manquantes par colonne
data.isna().sum()

CreditScore        0
Geography          0
Gender             0
Age                0
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          0
IsActiveMember     0
EstimatedSalary    0
Exited             0
dtype: int64

In [12]:
# Remplacer les 0 par des valeurs manquantes (NaN) dans la colonne Balance
#data["Balance"] = data["Balance"].replace(0, np.nan)
# Remplacer les valeurs manquantes par la moyenne dans la colonne Balance
#data["Balance"] = data["Balance"].fillna(data["Balance"].mean())

In [13]:
# Encoder la colonne Gender en 0 pour Female et 1 pour Male
#data["Gender"] = data["Gender"].map({"Female": 0, "Male": 1})

In [14]:
# Afficher les cinq premières lignes des données après les transformations
data.head()
# Afficher les informations sur les types de données et les valeurs manquantes après les transformations
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   CreditScore      10000 non-null  int64  
 1   Geography        10000 non-null  object 
 2   Gender           10000 non-null  object 
 3   Age              10000 non-null  int64  
 4   Tenure           10000 non-null  int64  
 5   Balance          10000 non-null  float64
 6   NumOfProducts    10000 non-null  int64  
 7   HasCrCard        10000 non-null  int64  
 8   IsActiveMember   10000 non-null  int64  
 9   EstimatedSalary  10000 non-null  float64
 10  Exited           10000 non-null  int64  
dtypes: float64(2), int64(7), object(2)
memory usage: 859.5+ KB


In [15]:
# Afficher les valeurs uniques de la colonne Exited (variable cible)
data.Exited.unique()

array([1, 0], dtype=int64)

In [16]:
# Importer le module de classification de pycaret
from pycaret.classification import *
# Initialiser l'environnement d'apprentissage automatique avec les paramètres choisis
exp_clf = setup(data, target="Exited",train_size=0.8,normalize=True,normalize_method="minmax")

Unnamed: 0,Description,Value
0,Session id,7768
1,Target,Exited
2,Target type,Binary
3,Original data shape,"(10000, 11)"
4,Transformed data shape,"(10000, 13)"
5,Transformed train set shape,"(8000, 13)"
6,Transformed test set shape,"(2000, 13)"
7,Ordinal features,1
8,Numeric features,8
9,Categorical features,2


In [None]:
# Comparer les modèles de classification disponibles et les trier par précision
compare_models(sort="Accuracy")

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
lr,Logistic Regression,0.81,0.7585,0.1883,0.6066,0.2866,0.2112,0.2598,4.993


Processing:   0%|          | 0/65 [00:00<?, ?it/s]

In [None]:
# Créer le meilleur modèle selon la comparaison (lightgbm)
best_model = create_model("lightgbm")

In [None]:
# Afficher les paramètres et les performances du meilleur modèle
print(best_model)

In [None]:
# Optimiser le meilleur modèle en ajustant ses hyperparamètres
tuned_best_model = tune_model(best_model)

In [None]:
# Tracer la courbe ROC du meilleur modèle
plot_model(best_model,plot="auc")

In [None]:
plot_model(best_model,"confusion_matrix")

In [None]:
plot_model(best_model,"class_report")

In [None]:

plot_model(best_model, plot = 'feature')

In [None]:
interpret_model(best_model)

In [None]:
predictions = predict_model(best_model)

In [None]:
finalize_model(best_model)

In [None]:
save_model(best_model,"lxgb")

In [None]:
model = load_model("lxgb")

In [None]:
create_app(best_model)

In [None]:

final_best = finalize_model(best_model)

save_model(final_best, 'pipeline')