<a href="https://colab.research.google.com/github/Adzawla/monBlog/blob/master/PROJET_MSI_ADZAWLA_SVM_vf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1><div align="center"><b> PROJET DE CLASSIFICATION AVEC SVM</b></div></h1>

<u>PRESENTE PAR</u> :

**KUDZO VENUNYE ADZAWLA**

**INTRODUCTION**

<p align="justify"> L'algorithme des SVM n'est pas nouveaux. Même s'il semble être dominé par la présence actuelle des Réseaux de neurones artificiels, les SVM demeurent toujours un puissant 
outil de classification en raison de leur performance dans plusieurs cas pratiques et surtout de leur capacité à ne pas surapprendre (overfiting). Pour illustrer cela, nous proposons de réaliser dans le cadre de ce projet un apprentissage supervisé basé sur un jeu de données massif 
qui décrit les caractéristiques ou habitudes de consommation des clients de l' International Business Machines Corporation (IBM), une multinationle américaine basée à Armonk, New York et spécialisée dans la technologique.


### **I - DEFINITION DU PROBLEME**

<p align="justify"> Face à la complexité des besoins et les exigences sans cesse croissantes des clients recherchant des solutions efficaces et rapides
pour la satisfaction de leurs besoins, l'entreprise moderne est appélée à se réinventer et à innover par la mise en place de stratégies, plaçant le client au centre des préoccupations.
En effet, Le CRM ou encore la Gestion de la Relation Client (Customer Relationship Management) est devenu désormais un élément clé des stratégies modernes de marketing. Il est définie comme une stratégie de gestion des relations et interactions d'une entreprise avec ses clients ou clients potentiels.</p>

<p align="justify">Il aide les entreprises à interagir en permanence avec les clients, à rationaliser leurs processus et à améliorer leur rentabilité.</p>

<p align="justify">Techniquement le CRM consiste à construire un score synthétique à partir des variables décrivant les aptitudes et comportement d'achat du client, dans le but de mieux connaitre ce dernier. En effet, grâce au score calculé on peut par exemple déterminer le taux de départ ou d'attrition d'un client ou encore 
sa propension à acheter un produit ou service.
Dans le cadre de ce projet, notre principale activité consistera à réaliser une classification binaire des clients, selon leur propension de quitter ou pas la compagnie. La finalité de cette démarche est de permettre à l'entreprise de cibler les clients qui présentent une forte probabilité de se désabonner de l'entreprise afin de mettre en place une stratégie de fidélisation qui les empêchera de partir. </p>

### **II - DONNEES**

- Source de données : https://www.kaggle.com/blastchar/telco-customer-churn
        
- Le fichier de données est nommé WA_Fn-UseC_-Telco-Customer-Churn.csv. Il contient 7043 observations et 21 variables .

- Les variables décrivent les traits caractéristiques ou habitudes de consommation des clients et sont définies comme suit:

|Variables        |      description                       |
|-----------------|----------------------------------------|
|customerID       | Numero d'identification du client|
|Gender           | Le genre du client|
|SeniorCitizen    | Le citoyen est un senior ou non|
|Partner          | Le client a partenaire ou non |
|Dependents       | Le client a des personnes à charges ou non|
|Tenure           | Le nombre de mois effectué avec la compagnie|
|PhoneService     | Le client bénéficie ou non des servics téléphonique|
|MultipleLines    | Le client utilise plusieurs réseaux de communication ou non |
|InternetService  | Le client a bénéficie de services internet DSL, Fibre optique ou non |
|OnlineSecurity   | Le client a t-il un dispositif de sécurité internet ou non|
|OnlineBackup     | Le client dispose d'un Stockage en ligne ou non|
|DeviceProtection | Le client dispose ou non d'un dispositif de protection|
|TechSupport      | Le client dispose d'une assistance technique ou non|
|StreamingTV      | Le client dispose ou non d'une télévision en continu |
|StreamingMovies  | Le client a des films en streaming ou non|
|Contract         | La durée du contrat du client |
|PaperlessBilling | Le client a une facturation sans papier ou non |
|PaymentMethod    | Le mode de paiement du client|
|MonthlyCharges   | Le montant facturé au client chaque mois|
|TotalCharges     | Le montant total facturé au client|
|Churn            | Si le client s'est désabonné (parti) ou non.|

- La variable Churn est la variable cible

### **III- MANIPULATION DES DONNEES**

In [None]:
#Chargement des bibliothèques

import pandas as pd
import numpy as np
from sklearn import metrics
from sklearn.metrics import roc_curve
from sklearn.metrics import auc
from sklearn.utils import resample
from sklearn.manifold import TSNE
from sklearn import decomposition
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.calibration import CalibratedClassifierCV
from sklearn.linear_model import SGDClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn import preprocessing
from sklearn.metrics import confusion_matrix
from datetime import datetime as dt
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
rand_state=123
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")
import pandas_profiling

from sklearn.utils import shuffle
from sklearn.preprocessing import StandardScaler
import random

In [None]:
# Importation de la base de données

df=pd.read_csv("Telco-Customer-Churn.csv")
#print('La base contient %s observations et %s variables' %(df.shape))

In [None]:
print(df.columns)

df=shuffle(df)

df.head()

Index(['customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents',
       'tenure', 'PhoneService', 'MultipleLines', 'InternetService',
       'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
       'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn'],
      dtype='object')


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
4837,5134-IKDAY,Female,0,Yes,Yes,1,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,69.8,69.8,Yes
1667,4403-BWPAY,Male,0,No,No,14,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Credit card (automatic),24.8,321.7,No
4736,3050-RLLXC,Female,0,Yes,Yes,56,Yes,Yes,DSL,Yes,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),81.25,4620.4,No
3923,5275-SQEIZ,Male,0,No,No,1,Yes,No,Fiber optic,No,No,No,No,No,Yes,Month-to-month,Yes,Mailed check,80.85,80.85,Yes
4183,6917-IAYHD,Male,0,No,Yes,1,No,No phone service,DSL,No,Yes,No,Yes,No,No,Month-to-month,No,Mailed check,33.6,33.6,No


In [None]:
# Inspection des valeurs manquantes

df.isnull().sum(axis=0)

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

#####**Observation**

On remarque que le jeu de données ne contient aucune valeur manquante, ce qui nous permet d'avancer sans contrainte dans la manipulation et traitement des données.

In [None]:

#Suppression de la colonne CustomerID de la base

df2 = df.iloc[:,1:]

#Convertin the predictor variable in a binary numeric variable
df2['Churn'].replace(to_replace='Yes', value=1, inplace=True)
df2['Churn'].replace(to_replace='No',  value=0, inplace=True)

print(df2.shape)

df2.head()

(7043, 20)


Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
4837,Female,0,Yes,Yes,1,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,69.8,69.8,1
1667,Male,0,No,No,14,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Credit card (automatic),24.8,321.7,0
4736,Female,0,Yes,Yes,56,Yes,Yes,DSL,Yes,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),81.25,4620.4,0
3923,Male,0,No,No,1,Yes,No,Fiber optic,No,No,No,No,No,Yes,Month-to-month,Yes,Mailed check,80.85,80.85,1
4183,Male,0,No,Yes,1,No,No phone service,DSL,No,Yes,No,Yes,No,No,Month-to-month,No,Mailed check,33.6,33.6,0


In [None]:
# Identification du types des donnees

dfVars = df2.columns
data_types = {Var: df2[Var].dtype for Var in dfVars}

for Var in dfVars:
    if data_types[Var] == int:
        x = df2[Var].astype(float)
        df.loc[:, Var] = x
        data_types[Var] = x.dtype
    elif data_types[Var] != float:
        x = df2[Var].astype('category')
        df2.loc[:, Var] = x
        data_types[Var] = x.dtype

In [None]:
# Identification des variables catégorielles

float_dfVars = [Var for Var in dfVars
                     if data_types[Var] != float]
float_dfVars

['gender',
 'Partner',
 'Dependents',
 'PhoneService',
 'MultipleLines',
 'InternetService',
 'OnlineSecurity',
 'OnlineBackup',
 'DeviceProtection',
 'TechSupport',
 'StreamingTV',
 'StreamingMovies',
 'Contract',
 'PaperlessBilling',
 'PaymentMethod',
 'TotalCharges']

### **VI- PREPARATION DES DONNEES POUR LA MODELISATION**

In [None]:
# Partageons le jeux de données entre variables dependates et variables independantes

X=df2.iloc[:,0:19].astype(str)
Y=df2.iloc[:,19].astype(str)

In [None]:
### Partageons la base entre entrainement et test
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.2, random_state=0)


Etant donné la présence des variables catégorielles, nous allons donc procéder par une discrétisation des variables. Aussi, pour permettre que l'algorithme puisse fonctionner rapidement et efficacement tout en évitant des biais liés aux effets échelles, une standardisation sera réalisée sur les les valeurs de chaque variable.

In [None]:
# Disrétisation des variables

random.seed(10)

from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OrdinalEncoder
np.set_printoptions(precision=2)
np.set_printoptions(suppress=True)

ordinal_encoder = OrdinalEncoder()
ordinal_encoder.fit(X_train)
X_train = ordinal_encoder.transform(X_train)

ordinal_encoder.fit(X_test)
X_test = ordinal_encoder.transform(X_test)


In [None]:
# Normalisation des variables

random.seed(20)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)

### **V- MODELISATION**

Dans cette partie, nous allons réaliser la classification selon les fonctions : linéaire, polynômiale, sigmoïde et RBF. L'objectif est de voir laquelle des fonctions classifie mieux les clients dans un temps record.

In [None]:
# Fonction linéaire
random.seed(30)

from __future__ import print_function, division
from builtins import range
from datetime import datetime

from sklearn.svm import SVC

model_lin = SVC(kernel="linear",C=5., gamma=.08 )

t0 = datetime.now()
model_lin.fit(X_train, Y_train)
print("Temps mis pour entrainer le modèle :", datetime.now() - t0)
t0 = datetime.now()
print("Train score:", model_lin.score(X_train, Y_train), "Durée:", datetime.now() - t0)
t0 = datetime.now()
print("Test score:", model_lin.score(X_test, Y_test), "Durée:", datetime.now() - t0)

Temps mis pour entrainer le modèle : 0:00:02.948741
Train score: 0.7839900603478879 Durée: 0:00:00.323818
Test score: 0.7750177430801988 Durée: 0:00:00.078821


In [None]:
# Fonction polynomiale

random.seed(40)

t0 = datetime.now()

model_poly = SVC(kernel='poly', degree=3, C=1, decision_function_shape='ovo').fit(X_train, Y_train)

print("Temps mis pour entrainer le modèle :", datetime.now() - t0)
t0 = datetime.now()
print("Train score:", model_poly.score(X_train, Y_train), "Durée:", datetime.now() - t0)
t0 = datetime.now()
print("Test score:", model_poly.score(X_test, Y_test), "Durée:", datetime.now() - t0)

Temps mis pour entrainer le modèle : 0:00:00.817789
Train score: 0.8246361377351793 Durée: 0:00:00.398302
Test score: 0.7707594038325053 Durée: 0:00:00.096920


In [None]:
# Fonction Radial Basis Function (RBF) 

random.seed(50)

t0 = datetime.now()

model_rbf = SVC(kernel='rbf', gamma=1, C=1, decision_function_shape='ovo').fit(X_train, Y_train)

print("Temps mis pour entrainer le modèle :", datetime.now() - t0)
t0 = datetime.now()
print("Train score:", model_rbf.score(X_train, Y_train), "Durée:", datetime.now() - t0)
t0 = datetime.now()
print("Test score:", model_rbf.score(X_test, Y_test), "Durée:", datetime.now() - t0)

Temps mis pour entrainer le modèle : 0:00:02.178116
Train score: 0.9556265530706425 Durée: 0:00:01.375958
Test score: 0.758694109297374 Durée: 0:00:00.343032


In [None]:
# Fonction Sigmoid

random.seed(60)

t0 = datetime.now()

model_sig = SVC(kernel='sigmoid', C=1, decision_function_shape='ovo').fit(X_train, Y_train)

print("Temps mis pour entrainer le modèle :", datetime.now() - t0)
t0 = datetime.now()
print("Train score:", model_sig.score(X_train, Y_train), "Durée:", datetime.now() - t0)
t0 = datetime.now()
print("Test score:", model_sig.score(X_test, Y_test), "Durée:", datetime.now() - t0)

Temps mis pour entrainer le modèle : 0:00:01.195458
Train score: 0.7080227192048278 Durée: 0:00:00.693966
Test score: 0.7146912704045423 Durée: 0:00:00.173577


#### **Remarque**
<p align="justify"> A l'issu de l'entrainement de quatres (04) modèles, la fonction non-linéaire RBF donne  la meilleure précision; soit 95%. Il est suivi de la fonction polynômiale (82%), et la fonction linéaire (78%). Le classifieur de la fonction sigmoïde est celle qui donne la plus faible précision soit 70%. Nous allons dans les étapes qui suivent, évaluer les modèles quatres modèles afin de choisir le meilleur.</p>

### **VI- EVALUATION DU MODÈLE**

##### MAtrices de confusion des classifieurs

In [None]:

Y_pred_lin = model_poly.predict(X_test)
Y_pred_poly = model_poly.predict(X_test)
Y_pred_rbf = model_rbf.predict(X_test)
Y_pred_sig = model_sig.predict(X_test)

# creating a confusion matrix
cm_lin = confusion_matrix(Y_test, Y_pred_lin)
cm_poly = confusion_matrix(Y_test, Y_pred_poly)
cm_rbf = confusion_matrix(Y_test, Y_pred_rbf)
cm_sig = confusion_matrix(Y_test, Y_pred_sig)
print("La mtrice de confusion du classifieur linéaire est :\n",cm_lin)
print("\n La mtrice de confusion du classifieur linéaire est :\n", cm_poly)
print("\n La mtrice de confusion du classifieur linéaire est :\n",cm_rbf)
print("\n La mtrice de confusion du classifieur linéaire est :\n",cm_sig)

La mtrice de confusion du classifieur linéaire est :
 [[940  98]
 [225 146]]

 La mtrice de confusion du classifieur linéaire est :
 [[940  98]
 [225 146]]

 La mtrice de confusion du classifieur linéaire est :
 [[992  46]
 [294  77]]

 La mtrice de confusion du classifieur linéaire est :
 [[841 197]
 [205 166]]


Ici, nous testons les modèles pour voir à quelle fréquence chacun classifie efficacement les clients.

In [None]:
#Importation de scikit-learn metrics pour calculer la précision
from sklearn import metrics
random.seed(70)
# Précision du modèle: how often is the classifier correct?
print("Precision du modèle linéaire:",metrics.accuracy_score(Y_test, Y_pred_lin))
print("Precision du modèle polynômiale:",metrics.accuracy_score(Y_test, Y_pred_poly))
print("Precision du modèle RBF:",metrics.accuracy_score(Y_test, Y_pred_rbf))
print("Precision du modèle sigmoïde:",metrics.accuracy_score(Y_test, Y_pred_sig))

Precision du modèle linéaire: 0.7707594038325053
Precision du modèle polynômiale: 0.7707594038325053
Precision du modèle RBF: 0.758694109297374
Precision du modèle sigmoïde: 0.7146912704045423


### **VII- VALIDATION DU MODELE**

<p align="justify">En réexécutant n fois notre modèle de prédiction, il est évident que nous trouverons n différents score de précisions. En effet, juger la précision du modèle en se basant uniquement sur la seule précision donnée par un seul jeu d'apprentissage et un seul jeu test n'est pas assez pertinent. Pour faire mieux,nous allons faire une validation croisée à 10 blocks (10-folds cross-validation). Cela va consister à répartir le jeu d'entrainement en 10 parties et à entrainer le midèle à nouveau sur 9 blocks et réaliser le test sur le 10ième. Ainsi, nous aurons au total 10 scores de précison pour chaque classifieur. Ceci nous permet d'apprécier la variance ou la dispersion des différentes précisions et de choisir leur moyenne comme la précision finale. <p>

In [None]:
# Cross-validation pour le modèle linéaire
random.seed(80)

from sklearn.model_selection import cross_val_score
model_lin = SVC(kernel='linear', C=1, random_state=42)
scores_lin = cross_val_score(model_lin, X_train, Y_train, cv=10)
print("Les précisons calculées sur les 10 blocks du jeu d'entrainement:", scores)
print("\n La moyenne de ces 10 scores de précision nous donne une précision de %0.2f avec un écart-type de %0.2f." % (scores.mean(), scores.std()))

Les précisons calculées sur les 10 blocks du jeu d'entrainement: [0.72 0.72 0.71 0.68 0.73 0.72 0.67 0.72 0.71 0.7 ]

 La moyenne de ces 10 scores de précision nous donne une précision de 0.71 avec un écart-type de 0.02.


In [81]:
# Cross-validation pour le modèle polynôme
random.seed(90)

from sklearn.model_selection import cross_val_score
model_poly = SVC(kernel='poly', C=1, random_state=42)
scores_poly = cross_val_score(model_poly, X_train, Y_train, cv=10)
print("Les précisons calculées sur les 10 blocks du jeu d'entrainement:", scores)
print("\n La moyenne de ces 10 scores de précision nous donne une précision de %0.2f avec un écart-type de %0.2f." % (scores.mean(), scores.std()))

Les précisons calculées sur les 10 blocks du jeu d'entrainement: [0.72 0.72 0.71 0.68 0.73 0.72 0.67 0.72 0.71 0.7 ]

 La moyenne de ces 10 scores de précision nous donne une précision de 0.71 avec un écart-type de 0.02.


In [82]:
# Cross-validation pour le modèle RBF
random.seed(100)

from sklearn.model_selection import cross_val_score
model_rbf = SVC(kernel='rbf', C=1, random_state=42)
scores_rbf = cross_val_score(model_rbf, X_train, Y_train, cv=10)
print("Les précisons calculées sur les 10 blocks du jeu d'entrainement:", scores)
print("\n La moyenne de ces 10 scores de précision nous donne une précision de %0.2f avec un écart-type de %0.2f." % (scores.mean(), scores.std()))

Les précisons calculées sur les 10 blocks du jeu d'entrainement: [0.72 0.72 0.71 0.68 0.73 0.72 0.67 0.72 0.71 0.7 ]

 La moyenne de ces 10 scores de précision nous donne une précision de 0.71 avec un écart-type de 0.02.


In [None]:
# Cross-validation pour le modèle sigmoide
random.seed(110)

from sklearn.model_selection import cross_val_score
model_sig = SVC(kernel='sigmoid', C=1, random_state=42)
scores_sig = cross_val_score(model_sig, X_train, Y_train, cv=10)
print("Les précisons calculées sur les 10 blocks du jeu d'entrainement:", scores)
print("\n La moyenne de ces 10 scores de précision nous donne une précision de %0.2f avec un écart-type de %0.2f." % (scores.mean(), scores.std()))

Les précisons calculées sur les 10 blocks du jeu d'entrainement: [0.72 0.72 0.71 0.68 0.73 0.72 0.67 0.72 0.71 0.7 ]

 La moyenne de ces 10 scores de précision nous donne une précision de 0.71 avec un écart-type de 0.02.


#### Resumé des validation croisées

In [None]:
print("\n La précision moyenne du modèle linéaire : %0.2f, (écart-type de %0.2f.)." % (scores.mean(), scores.std()))
print("\n La précision moyenne du modèle plynômiale : %0.2f, (écart-type de %0.2f.)." % (scores.mean(), scores.std()))
print("\n La précision moyenne du modèle RBF : %0.2f, (écart-type de %0.2f.)." % (scores.mean(), scores.std()))
print("\n La précision moyenne du modèle sigmoïde : %0.2f, (écart-type de %0.2f.)." % (scores.mean(), scores.std()))


 La précision moyenne du modèle linéaire : 0.71, (écart-type de 0.02.).

 La précision moyenne du modèle plynômiale : 0.71, (écart-type de 0.02.).

 La précision moyenne du modèle RBF : 0.71, (écart-type de 0.02.).

 La précision moyenne du modèle sigmoïde : 0.71, (écart-type de 0.02.).


### **CONCLUSION**

<p align="justfy">En somme, nous avons dans le cadre de ce projet réalisé une classification des clients de la compagnie IBM sur la base de l'algorithme des SVM et de la bibliothèque Scikit-learn intégrée au language python. Nous avons pris en compte dans la modélisation, les quatres principales fonctions des SVM (Kernel functions) afin de voir laquelle classifie mieux les clients. En effet,le classifieur non-linéaire RBF a donné la plus grande précision de 95%.  <p> <p align="justfy">Cependant en calculant la précison sur les modèles de prédiction Les classifieurs linéaires et polynômiales classifient avec une précision identique de 77%. Pour valider enfin le modèle, nous avons effectué une validation-croisée à 10 blocks sur chaque classifieur. Ce qui nous a permis d'avoir une précision moyenne de 71% avec un écart-type de 0.02 sur chaque classifieur. Etant donné les précisons issues de la validation croisée sont identiques pour les quatres modèles, nous comptons retenir le classifieur polynômiale en raison du fait qu'il a le temps d'exécusion la plus minimale possible. En général, on peut dire que le modèle retenu est bon; mais il reste perfectible. Autrement, dans la continuité de ce projet, des techniques poussées d'optimisation seront mis en exergue afin de rendre plus optimale la précision du modèle.<p>