In [1]:
# Importation des librairies
import numpy as np  # Utilisé pour les opérations numériques
import matplotlib.pyplot as plt # Utilisé pour le tracé de graphiques
import pandas as pd # Utilisé pour la manipulation de données
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix # Utilisé pour l'évaluation du modèle
from sklearn.model_selection import cross_val_score # Utilisé pour la validation croisée

In [2]:
# Importation du jeu de données
dataset = pd.read_csv('C:/Users/Onesime/Documents/Formation en Machine Learning avec Scikit_Learn/Churn_Modelling.csv')  # Importation du jeu de données en utilisant pandas
dataset # Affichage du jeu de données

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,9996,15606229,Obijiaku,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,9997,15569892,Johnstone,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,9998,15584532,Liu,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,9999,15682355,Sabbatini,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [3]:
dataset['Geography']= dataset['Geography'].replace({'France':0, 'Spain':1, 'Germany':2}) # Remplacement des valeurs catégorielles par des valeurs numériques pour la colonne Geography
dataset['Geography']= dataset['Geography'].astype('category') # Conversion de la colonne Geography en type catégoriel
dataset['Geography'] = dataset['Geography'].cat.codes # Encodage des valeurs catégorielles
dataset['Gender']= dataset['Gender'].replace({'Male':0, 'Female':1}) # Remplacement des valeurs catégorielles par des valeurs numériques pour la colonne Gender
dataset['Gender']= dataset['Gender'].astype('category') # Conversion de la colonne Gender en type catégoriel
dataset['Gender'] = dataset['Gender'].cat.codes # Encodage des valeurs catégorielles


In [4]:
new_dataset= dataset[['CreditScore','Geography','Gender','Age','Tenure','Balance','NumOfProducts','HasCrCard','IsActiveMember','EstimatedSalary','Exited']] # Sélection de colonnes spécifiques pour le nouveau jeu de données
new_dataset # Affichage du nouveau jeu de données

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,0,1,42,2,0.00,1,1,1,101348.88,1
1,608,1,1,41,1,83807.86,1,0,1,112542.58,0
2,502,0,1,42,8,159660.80,3,1,0,113931.57,1
3,699,0,1,39,1,0.00,2,0,0,93826.63,0
4,850,1,1,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...
9995,771,0,0,39,5,0.00,2,1,0,96270.64,0
9996,516,0,0,35,10,57369.61,1,1,1,101699.77,0
9997,709,0,1,36,7,0.00,1,0,1,42085.58,1
9998,772,2,0,42,3,75075.31,2,1,0,92888.52,1


In [5]:
X= new_dataset.drop(columns=['Exited']) # Séparation des caractéristiques (X) de la variable cible
y= dataset['Exited'] # Assignation de la variable cible à y

In [6]:
X = (X - X.mean()) / X.std() # Standardisation des caractéristiques

In [7]:
X

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,-0.326205,-0.902541,1.095933,0.293503,-1.041708,-1.225786,-0.911538,0.646059,0.970194,0.021885
1,-0.440014,0.301650,1.095933,0.198154,-1.387468,0.117344,-0.911538,-1.547691,0.970194,0.216523
2,-1.536717,-0.902541,1.095933,0.293503,1.032856,1.332987,2.526930,0.646059,-1.030619,0.240675
3,0.501496,-0.902541,1.095933,0.007456,-1.387468,-1.225786,0.807696,-1.547691,-1.030619,-0.108912
4,2.063781,0.301650,1.095933,0.388852,-1.041708,0.785689,-0.911538,0.646059,0.970194,-0.365258
...,...,...,...,...,...,...,...,...,...,...
9995,1.246426,-0.902541,-0.912374,0.007456,-0.004426,-1.225786,0.807696,0.646059,-1.030619,-0.066416
9996,-1.391870,-0.902541,-0.912374,-0.373939,1.724377,-0.306363,-0.911538,0.646059,0.970194,0.027987
9997,0.604958,-0.902541,1.095933,-0.278590,0.687096,-1.225786,-0.911538,-1.547691,0.970194,-1.008593
9998,1.256772,1.505841,-0.912374,0.293503,-0.695947,-0.022606,0.807696,0.646059,-1.030619,-0.125224


In [8]:
# Division du jeu de données en ensemble d'entraînement et ensemble de test
from sklearn.model_selection import train_test_split # Importation de train_test_split pour diviser le jeu de données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0) # Division du jeu de données en ensembles d'entraînement et de test

# Ajustement de XGBoost à l'ensemble d'entraînement

In [9]:
from xgboost import XGBClassifier # Importation du classificateur XGBoost

classifier = XGBClassifier() # Création d'une instance du classificateur

classifier.fit(X_train, y_train) # Ajustement du classificateur aux données d'entraînement


In [10]:
# Prédiction des résultats de l'ensemble de test
y_pred = classifier.predict(X_test) # Prédiction de la variable cible pour l'ensemble de test
y_pred 

array([1, 0, 0, ..., 0, 0, 0])

In [11]:
#!pip install librarie

# Création de la matrice de confusion

In [12]:
from sklearn.metrics import confusion_matrix # Importation de confusion_matrix pour l'évaluation du modèle

cm = confusion_matrix(y_test, y_pred) # Création de la matrice de confusion

cm # Affichage de la matrice de confusion

array([[1491,  104],
       [ 192,  213]], dtype=int64)

# Calculer les métriques

In [15]:
accuracy = accuracy_score(y_test, y_pred) # Calcul de la précision
precision = precision_score(y_test, y_pred) # Calcul de la précision
recall = recall_score(y_test, y_pred) # Calcul du rappel
f1 = f1_score(y_test, y_pred) # Calcul du score F1
confusion_mat = confusion_matrix(y_test, y_pred) # Création de la matrice de confusion


In [16]:
print("Accuracy:", accuracy) # Affichage de la précision
print("Precision:", precision) # Affichage de la précision
print("Recall:", recall) # Affichage du rappel
print("F1-score:", f1) # Affichage du score F1
print("Confusion matrix:\n", confusion_mat) # Affichage de la matrice de confusion


Accuracy: 0.852
Precision: 0.6719242902208202
Recall: 0.5259259259259259
F1-score: 0.590027700831025
Confusion matrix:
 [[1491  104]
 [ 192  213]]


#Cross-Validation

In [20]:
# Applying k-Fold Cross Validation
from sklearn.model_selection import cross_val_score
accuracies = cross_val_score(estimator = classifier, X = X_train, y = y_train, cv = 50)
accuracies.mean()
#accuracies.std()

0.854625

# Théorie sur l’Équilibrage de Données en Machine Learning : Random Over-Sampling vs SMOTE

*L’équilibrage de données* est une étape clé en Machine Learning, surtout lorsque l’on travaille avec des jeux de données déséquilibrés. Ces déséquilibres se produisent souvent dans des tâches de classification, où certaines classes sont significativement sous-représentées par rapport à d'autres (par exemple, dans la détection de fraudes ou le diagnostic de maladies rares). Pour pallier ce problème, il existe des méthodes telles que le *Random Over-Sampling* et le *SMOTE (Synthetic Minority Over-sampling Technique)*. Ces deux approches visent à rééquilibrer les classes minoritaires, mais elles diffèrent dans leur manière d'y parvenir.

#### 1. *Random Over-Sampling (ROS)* :
Le *Random Over-Sampling* est une méthode simple et intuitive. Elle consiste à dupliquer aléatoirement des exemples de la classe minoritaire afin d'augmenter sa proportion dans le dataset. Cela signifie que certains points de données sont simplement répétés plusieurs fois jusqu'à ce que la classe minoritaire atteigne une fréquence comparable à celle de la classe majoritaire.

- *Avantages* :
  - Facile à implémenter et rapide à exécuter.
  - Aucune nouvelle donnée synthétique n'est générée, ce qui évite le risque de créer des informations incorrectes.

- *Inconvénients* :
  - Augmente la taille du dataset, ce qui peut entraîner un risque de *surapprentissage (overfitting)*, car le modèle pourrait mémoriser des exemples dupliqués au lieu d'apprendre des motifs généralisables.
  - Ne produit aucune nouvelle information, les exemples ajoutés étant des copies exactes des instances existantes.

#### 2. *SMOTE (Synthetic Minority Over-sampling Technique)* :
Le *SMOTE* est une méthode plus sophistiquée qui génère artificiellement de nouveaux exemples pour la classe minoritaire en interpolant entre des exemples réels de cette classe. Pour chaque exemple minoritaire sélectionné, SMOTE crée de nouvelles instances en générant des points de données interpolés qui sont des combinaisons linéaires des voisins proches dans l’espace de caractéristiques.

- *Avantages* :
  - En générant de nouveaux exemples synthétiques, SMOTE réduit le risque de surapprentissage par rapport au Random Over-Sampling, car il introduit de la variabilité dans les données de la classe minoritaire.
  - Les nouveaux points de données synthétiques créent une frontière plus représentative entre les classes, aidant à une meilleure généralisation du modèle.

- *Inconvénients* :
  - Risque de générer des exemples moins fiables ou irréalistes, surtout si les données sont complexes ou bruitées.
  - Peut être plus coûteux en termes de calcul, car il nécessite une étape supplémentaire de génération de données synthétiques.

#### 3. *Comparaison en résumé* :
- *Random Over-Sampling* duplique simplement les exemples existants de la classe minoritaire, ce qui est rapide mais peut causer du surapprentissage.
- *SMOTE* génère de nouvelles instances synthétiques en interpolant entre les exemples minoritaires, ce qui est plus sophistiqué et permet de mieux généraliser, mais cela peut introduire des exemples artificiels qui ne reflètent pas parfaitement la réalité.

#### Conclusion :
Le choix entre Random Over-Sampling et SMOTE dépend du type de données et des exigences du modèle. Si le risque de surapprentissage est élevé et que l’on souhaite une meilleure généralisation, SMOTE est généralement préféré. En revanche, si l'on cherche une solution rapide et simple sans ajout de complexité, le Random Over-Sampling peut suffire.


In [50]:
new_dataset2= dataset[['CreditScore','Geography','Gender','Age','Tenure','Balance','NumOfProducts','HasCrCard','IsActiveMember','EstimatedSalary','Exited']]
new_dataset2

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,0,1,42,2,0.00,1,1,1,101348.88,1
1,608,1,1,41,1,83807.86,1,0,1,112542.58,0
2,502,0,1,42,8,159660.80,3,1,0,113931.57,1
3,699,0,1,39,1,0.00,2,0,0,93826.63,0
4,850,1,1,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...
9995,771,0,0,39,5,0.00,2,1,0,96270.64,0
9996,516,0,0,35,10,57369.61,1,1,1,101699.77,0
9997,709,0,1,36,7,0.00,1,0,1,42085.58,1
9998,772,2,0,42,3,75075.31,2,1,0,92888.52,1


In [51]:
new_dataset2.shape

(10000, 11)

In [52]:
new_dataset2.Exited.value_counts()

0    7963
1    2037
Name: Exited, dtype: int64

In [53]:
X= new_dataset2.drop(columns=['Exited'])
y= new_dataset2['Exited']

In [54]:
X = (X - X.mean()) / X.std() # Standardisation des caractéristiques

In [55]:
X

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,-0.326205,-0.902541,1.095933,0.293503,-1.041708,-1.225786,-0.911538,0.646059,0.970194,0.021885
1,-0.440014,0.301650,1.095933,0.198154,-1.387468,0.117344,-0.911538,-1.547691,0.970194,0.216523
2,-1.536717,-0.902541,1.095933,0.293503,1.032856,1.332987,2.526930,0.646059,-1.030619,0.240675
3,0.501496,-0.902541,1.095933,0.007456,-1.387468,-1.225786,0.807696,-1.547691,-1.030619,-0.108912
4,2.063781,0.301650,1.095933,0.388852,-1.041708,0.785689,-0.911538,0.646059,0.970194,-0.365258
...,...,...,...,...,...,...,...,...,...,...
9995,1.246426,-0.902541,-0.912374,0.007456,-0.004426,-1.225786,0.807696,0.646059,-1.030619,-0.066416
9996,-1.391870,-0.902541,-0.912374,-0.373939,1.724377,-0.306363,-0.911538,0.646059,0.970194,0.027987
9997,0.604958,-0.902541,1.095933,-0.278590,0.687096,-1.225786,-0.911538,-1.547691,0.970194,-1.008593
9998,1.256772,1.505841,-0.912374,0.293503,-0.695947,-0.022606,0.807696,0.646059,-1.030619,-0.125224


In [56]:
!pip install imblearn



In [21]:
#from imblearn.over_sampling import RandomOverSampler
from imblearn.over_sampling import SMOTE

In [22]:
smote = SMOTE()

X_train_smote, y_train_smote = smote.fit_resample(X, y)

#X_train_smote, y__train_sm = smote.fit_resample(X.astype('float'), y)

In [23]:
X_train_smote

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary
0,-0.326205,-0.902541,1.095933,0.293503,-1.041708,-1.225786,-0.911538,0.646059,0.970194,0.021885
1,-0.440014,0.301650,1.095933,0.198154,-1.387468,0.117344,-0.911538,-1.547691,0.970194,0.216523
2,-1.536717,-0.902541,1.095933,0.293503,1.032856,1.332987,2.526930,0.646059,-1.030619,0.240675
3,0.501496,-0.902541,1.095933,0.007456,-1.387468,-1.225786,0.807696,-1.547691,-1.030619,-0.108912
4,2.063781,0.301650,1.095933,0.388852,-1.041708,0.785689,-0.911538,0.646059,0.970194,-0.365258
...,...,...,...,...,...,...,...,...,...,...
15921,0.533191,0.301650,1.095933,0.025512,0.827238,-1.225786,0.807696,-1.547691,0.970194,0.506858
15922,0.419524,-0.902541,1.095933,0.179568,-1.149472,1.226713,1.343538,-1.547691,-1.030619,0.913305
15923,-0.085166,0.663276,-0.912374,0.627369,0.825188,0.596548,0.807696,0.646059,-1.030619,0.911284
15924,-0.602310,-0.902541,1.095933,1.193768,-1.149460,0.725702,-0.911538,0.646059,0.970194,-0.820253


In [24]:
from collections import Counter
print("Avant SMOTE :",Counter(y))
print("Apres SMOTE :",Counter(y_train_smote))

Avant SMOTE : Counter({0: 7963, 1: 2037})
Apres SMOTE : Counter({1: 7963, 0: 7963})


In [25]:
# Division du jeu de données en ensemble d'entraînement et ensemble de test
from sklearn.model_selection import train_test_split # Importation de train_test_split pour diviser le jeu de données

X_train_sm, X_test_sm, y_train_sm, y_test_sm = train_test_split(X_train_smote, y_train_smote, test_size = 0.2, random_state = 0) # Division du jeu de données en ensembles d'entraînement et de test

In [26]:
from xgboost import XGBClassifier # Importation du classificateur XGBoost
classifier_XGBC = XGBClassifier() # Création d'une instance du classificateur
classifier_XGBC.fit(X_train_sm, y_train_sm) # Ajustement du classificateur aux données d'entraînement

In [27]:
# Prédiction des résultats de l'ensemble de test
y_pred_sm_Xboost = classifier_XGBC.predict(X_test_sm) # Prédiction de la variable cible pour l'ensemble de test

In [28]:
from sklearn.metrics import confusion_matrix # Importation de confusion_matrix pour l'évaluation du modèle
cm = confusion_matrix(y_test_sm, y_pred_sm_Xboost) # Création de la matrice de confusion
cm # Affichage de la matrice de confusion

array([[1469,  121],
       [ 181, 1415]], dtype=int64)

In [29]:
accuracy = accuracy_score(y_test_sm, y_pred_sm_Xboost) # Calcul de la précision
precision = precision_score(y_test_sm, y_pred_sm_Xboost) # Calcul de la précision
recall = recall_score(y_test_sm, y_pred_sm_Xboost) # Calcul du rappel
f1 = f1_score(y_test_sm, y_pred_sm_Xboost) # Calcul du score F1
confusion_mat = confusion_matrix(y_test_sm, y_pred_sm_Xboost) # Création de la matrice de confusion

In [30]:
print("Accuracy:", accuracy) # Affichage de la précision
print("Precision:", precision) # Affichage de la précision
print("Recall:", recall) # Affichage du rappel
print("F1-score:", f1) # Affichage du score F1
print("Confusion matrix:\n", confusion_mat) # Affichage de la matrice de confusion

Accuracy: 0.9052102950408035
Precision: 0.9212239583333334
Recall: 0.8865914786967418
F1-score: 0.9035759897828863
Confusion matrix:
 [[1469  121]
 [ 181 1415]]


In [31]:
X_train_sm.columns

Index(['CreditScore', 'Geography', 'Gender', 'Age', 'Tenure', 'Balance',
       'NumOfProducts', 'HasCrCard', 'IsActiveMember', 'EstimatedSalary'],
      dtype='object')

# Teste

In [32]:
import numpy as np
classifier_XGBC.predict([[-0.440014,0.301650,1.095933,0.198154,-1.387468,0.117344,-0.911538,-1.547691,0.970194,-0.911538]])

array([0])

# Théorie sur Pickle et le Déploiement des Modèles de Machine Learning

Lorsqu'un modèle de *machine learning* a été formé et validé, l'une des étapes cruciales est son *déploiement* pour qu'il puisse être utilisé en production. Le déploiement implique la transition d'un modèle d'un environnement de développement (où il a été formé et testé) à un environnement où il sera utilisé pour faire des prédictions sur de nouvelles données. Pour cela, les modèles doivent être *sauvegardés* afin d'être réutilisés sans nécessiter une nouvelle formation, ce qui économise du temps et des ressources.

C'est là que *Pickle* entre en jeu. Pickle est une bibliothèque standard de Python qui permet de *sérialiser* et *désérialiser* des objets Python, y compris des modèles de machine learning. En termes simples, Pickle transforme un objet Python en un flux de données (ou fichier) que l'on peut stocker, puis charger ultérieurement pour restaurer l'objet dans son état d'origine. Cette technique est particulièrement utile pour le déploiement des modèles.

#### 1. *Sérialisation et Désérialisation avec Pickle*

- *Sérialisation* : C’est le processus de conversion d’un modèle (ou tout objet Python) en un format de fichier binaire qui peut être enregistré sur le disque. Ce fichier peut ensuite être transporté vers d’autres environnements.
  
- *Désérialisation* : C’est le processus inverse, consistant à charger un fichier sérialisé et à reconstituer l’objet Python dans son état original.

#### 2. *Utilisation de Pickle dans le Déploiement des Modèles de Machine Learning*

Dans un flux de travail de machine learning typique, une fois qu’un modèle a été formé et optimisé, il doit être enregistré pour pouvoir être utilisé ultérieurement pour faire des prédictions. Pickle permet de stocker les modèles formés sous forme de fichiers binaires qui peuvent être chargés dans des environnements de production sans besoin de réentraînement.

Voici comment *Pickle* s’intègre dans le processus de déploiement des modèles :

1. *Enregistrement du modèle* : Après avoir formé le modèle avec des données d'entraînement, on peut utiliser Pickle pour sérialiser le modèle dans un fichier.

 

#### 3. *Avantages de Pickle pour le Déploiement*

- *Efficacité* : La sérialisation avec Pickle permet de gagner du temps en évitant de réentraîner le modèle à chaque nouvelle utilisation.
  
- *Facilité d’utilisation* : Pickle est une bibliothèque native de Python, ce qui la rend facile à utiliser avec tous les objets Python, y compris les modèles de machine learning formés avec des bibliothèques comme Scikit-learn, TensorFlow, ou Keras.
  
- *Portabilité* : Les modèles peuvent être sérialisés dans un environnement de développement et transportés dans un environnement de production pour faire des prédictions. Pickle permet cette portabilité sans nécessiter de transformation complexe des objets.

#### 4. *Limites et Alternatives à Pickle*

- *Problèmes de sécurité* : La désérialisation de fichiers Pickle à partir de sources non fiables peut être risquée car elle exécute du code Python lors du chargement. Cela peut ouvrir des vulnérabilités si des fichiers Pickle malveillants sont utilisés.
  
- *Compatibilité* : Les objets sérialisés avec Pickle dépendent souvent de la version de Python ou des bibliothèques utilisées. Cela signifie qu’un modèle enregistré dans une version de Python peut ne pas fonctionner dans une autre version sans modifications.

- *Alternatives* : D’autres méthodes comme *Joblib* (plus efficace pour les grands objets) ou des formats comme *ONNX* et *PMML* permettent aussi de sérialiser des modèles, notamment pour une meilleure compatibilité inter-langages et inter-plateformes.

#### 5. *Déploiement des Modèles en Production*

Une fois un modèle sérialisé avec Pickle, il peut être intégré dans une application de production, généralement à travers des *API* ou des frameworks de services web tels que Flask, Django, ou FastAPI. Dans ce contexte :

- Le modèle Pickle est chargé au démarrage du serveur ou à chaque requête selon le cas d'utilisation.
- Le modèle fait des prédictions en réponse à des appels API, et les résultats sont retournés à l’utilisateur ou à un autre service.

Voici un exemple de pipeline simple utilisant *Flask* pour servir un modèle Pickle :

python
from flask import Flask, request, jsonify
import pickle

app = Flask(__name__)



Ce type de configuration est couramment utilisé dans le déploiement de modèles en production dans des applications web, des systèmes embarqués, ou des pipelines de traitement de données automatisés.

#### Conclusion

*Pickle* joue un rôle fondamental dans la sérialisation et le déploiement des modèles de machine learning. En permettant de sauvegarder et de réutiliser les modèles sans avoir à les réentraîner, il facilite le déploiement et l’intégration des modèles dans des environnements de production. Bien que Pickle soit efficace pour de nombreuses

In [33]:
#Pip Install Pickle

In [69]:
import pickle

In [70]:
pickle.dump(classifier_XGBC, open("classifier_XGBC_final.pkl","wb"))

In [71]:
pickled_model=pickle.load(open("classifier_XGBC_final.pkl", "rb"))