<a href="https://colab.research.google.com/github/Adzawla/monBlog/blob/master/ADZAWLA_SVM_MSI_vf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**INTRODUCTION**

<p align="justify"> L'algorithme des SVM n'est pas nouveaux. Même s'il semble être dominé par la présence actuelle des Réseaux de neurones artificiels, les SVM demeurent toujours un puissant 
outil de classification en raison de sa performance dans plusieurs cas pratiques et surtout de leur capacité à ne pas surapprendre (overfiting). Pour illustrer cela, nous proposons de réaliser dans le cadre de ce projet un apprentissage supervisé basé sur un jeu de données massif 
qui décrit les caractéristiques ou habitudes de consommation des clients de l' International Business Machines Corporation (IBM), une multinationle américaine basée à Armonk, New York et spécialisée dans la technologique.


### **I - DEFINITION DU PROBLEME**

<p align="justify"> Face à la complexité des besoins et les exigences sans cesse croissantes des clients recherchant des solutions efficaces et rapides
pour la satisfaction de leurs besoins, l'entreprise moderne est appélée à se réinventer et à innover par la mise en place de stratégies, plaçant le client au centre des préoccupations.
En effet, Le CRM ou encore la Gestion de la Relation Client (Customer Relationship Management) est devenu désormais un élément clé des stratégies de marketing modernes. Il est définie comme une stratégie de gestion des relations et interactions d'une entreprise avec ses clients ou clients potentiels.</p>

<p align="justify">Il aide les entreprises à interagir en permanence avec les clients, à rationaliser leurs processus et à améliorer leur rentabilité.</p>

<p align="justify">Techniquement le CRM consiste à construire un score synthétique à partir des variables décrivant les aptitudes et comportement d'achat du client, dans le but de mieux connaitre ce dernier. En effet, grâce au score calculé on peut par exemple déterminer le taux de départ ou d'attrition d'un client ou encore 
sa propension à acheter un produit ou service.
Dans le cadre de ce projet, notre principale activité consistera à réaliser une classification binaire des clients, selon leur propension de quitter ou pas la compagnie. La finalité de cette démarche est de permettre à l'entreprise de cibler les clients qui présente une forte probabilité de se désabonner de l'entreprise afin de mettre en place une stratégie de fidélisation qui les empêchera de partir. </p>

### **II - DONNEES**

- Source de données : https://www.kaggle.com/blastchar/telco-customer-churn
        
- Le fichier de données est nommé WA_Fn-UseC_-Telco-Customer-Churn.csv. Il contient 7043 observations et 21 variables .

- Les variables décrivent les traits caractéristiques ou habitudes de consommation des clients et sont définies comme suit:

|Variables        |      description                       |
|-----------------|----------------------------------------|
|customerID       | Numero d'identification du client|
|Gender           | Le genre du client|
|SeniorCitizen    | Le citoyen est un senior ou non|
|Partner          | Le client a partenaire ou non |
|Dependents       | Le client a des personnes à charges ou non|
|Tenure           | Le nombre de mois effectué avec la compagnie|
|PhoneService     | Le client bénéficie ou non des servics téléphonique|
|MultipleLines    | Le client utilise plusieurs réseaux de communication ou non |
|InternetService  | Le client a bénéficie de services internet DSL, Fibre optique ou non |
|OnlineSecurity   | Le client a t-il un dispositif de sécurité internet ou non|
|OnlineBackup     | Le client dispose d'un Stockage en ligne ou non|
|DeviceProtection | Le client dispose ou non d'un dispositif de protection|
|TechSupport      | Le client dispose d'une assistance technique ou non|
|StreamingTV      | Le client dispose ou non d'une télévision en continu |
|StreamingMovies  | Le client a des films en streaming ou non|
|Contract         | La durée du contrat du client |
|PaperlessBilling | Le client a une facturation sans papier ou non |
|PaymentMethod    | Le mode de paiement du client|
|MonthlyCharges   | Le montant facturé au client chaque mois|
|TotalCharges     | Le montant total facturé au client|
|Churn            | Si le client s'est désabonné (parti) ou non.|



### **MANIPULATION DES DONNEES**

In [1]:
#Chargement des bibliothèques

import pandas as pd
import numpy as np
from sklearn import metrics
import seaborn as sns
from sklearn.metrics import roc_curve
from sklearn.metrics import auc
from sklearn.utils import resample
from sklearn.manifold import TSNE
from sklearn import decomposition
from sklearn.model_selection import RandomizedSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.calibration import CalibratedClassifierCV
from sklearn.linear_model import SGDClassifier
from sklearn.ensemble import RandomForestClassifier
from xgboost import XGBClassifier
from sklearn import preprocessing
from sklearn.metrics import confusion_matrix
from datetime import datetime as dt
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
rand_state=123
%matplotlib inline
import warnings
warnings.filterwarnings("ignore")
import pandas_profiling

from sklearn.utils import shuffle
from sklearn.preprocessing import StandardScaler

In [4]:
# Importation de la base de données

df=pd.read_csv("Telco-Customer-Churn.csv")
#print('La base contient %s observations et %s variables' %(df.shape))

In [5]:
print(df.columns)

df=shuffle(df)

df.head()

Index(['customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents',
       'tenure', 'PhoneService', 'MultipleLines', 'InternetService',
       'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
       'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn'],
      dtype='object')


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
6654,1925-TIBLE,Female,0,Yes,No,7,Yes,Yes,Fiber optic,No,No,No,No,Yes,No,Month-to-month,Yes,Electronic check,86.5,582.5,Yes
1501,5014-GSOUQ,Male,0,No,No,13,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,19.95,243.65,No
4825,0921-OHLVP,Male,0,No,No,22,Yes,Yes,Fiber optic,No,No,No,No,No,Yes,Month-to-month,No,Electronic check,83.05,1799.3,No
2730,1169-SAOCL,Male,0,No,No,49,Yes,Yes,Fiber optic,No,Yes,No,Yes,Yes,Yes,One year,Yes,Bank transfer (automatic),106.65,5168.1,No
4652,3178-CIFOT,Female,0,No,No,23,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Credit card (automatic),19.65,478.1,No


In [6]:
df.isnull().sum(axis=0)

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

In [7]:
#Removing missing values 
df.dropna(inplace = True)

#Remove customer IDs from the data set

df2 = df.iloc[:,1:]

#Convertin the predictor variable in a binary numeric variable
df2['Churn'].replace(to_replace='Yes', value=1, inplace=True)
df2['Churn'].replace(to_replace='No',  value=0, inplace=True)

print(df2.shape)

df2.head()

(7043, 20)


Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
6654,Female,0,Yes,No,7,Yes,Yes,Fiber optic,No,No,No,No,Yes,No,Month-to-month,Yes,Electronic check,86.5,582.5,1
1501,Male,0,No,No,13,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,19.95,243.65,0
4825,Male,0,No,No,22,Yes,Yes,Fiber optic,No,No,No,No,No,Yes,Month-to-month,No,Electronic check,83.05,1799.3,0
2730,Male,0,No,No,49,Yes,Yes,Fiber optic,No,Yes,No,Yes,Yes,Yes,One year,Yes,Bank transfer (automatic),106.65,5168.1,0
4652,Female,0,No,No,23,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Credit card (automatic),19.65,478.1,0


In [8]:
# Identification du types des donnees

dfVars = df2.columns
data_types = {Var: df2[Var].dtype for Var in dfVars}

for Var in dfVars:
    if data_types[Var] == int:
        x = df2[Var].astype(float)
        df.loc[:, Var] = x
        data_types[Var] = x.dtype
    elif data_types[Var] != float:
        x = df2[Var].astype('category')
        df2.loc[:, Var] = x
        data_types[Var] = x.dtype

In [9]:
float_dfVars = [Var for Var in dfVars
                     if data_types[Var] != float]
float_dfVars

['gender',
 'Partner',
 'Dependents',
 'PhoneService',
 'MultipleLines',
 'InternetService',
 'OnlineSecurity',
 'OnlineBackup',
 'DeviceProtection',
 'TechSupport',
 'StreamingTV',
 'StreamingMovies',
 'Contract',
 'PaperlessBilling',
 'PaymentMethod',
 'TotalCharges']

In [10]:
# Partageons le jeux de données entre variables dependates et variables independantes

X=df2.iloc[:,0:19].astype(str)
Y=df2.iloc[:,19].astype(str)

In [11]:
### Spliting the dataset into training set and test set
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.2, random_state=0)


In [12]:
# one-hot encode input variables
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OrdinalEncoder
np.set_printoptions(precision=2)
np.set_printoptions(suppress=True)

ordinal_encoder = OrdinalEncoder()
ordinal_encoder.fit(X_train)
X_train = ordinal_encoder.transform(X_train)

ordinal_encoder.fit(X_test)
X_test = ordinal_encoder.transform(X_test)


In [13]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)

In [14]:
from __future__ import print_function, division
from builtins import range
from datetime import datetime

from sklearn.svm import SVC

# model = SVC()

model = SVC(C=5., gamma=.05)

t0 = datetime.now()
model.fit(X_train, Y_train)
print("train duration:", datetime.now() - t0)
t0 = datetime.now()
print("train score:", model.score(X_train, Y_train), "duration:", datetime.now() - t0)
t0 = datetime.now()
print("test score:", model.score(X_test, Y_test), "duration:", datetime.now() - t0)

train duration: 0:00:01.622428
train score: 0.8635072772452964 duration: 0:00:00.779515
test score: 0.758694109297374 duration: 0:00:00.191310
