## Modèle de machine learning

Les étapes de traitement d'un modèle de ML :

- Récupération des données
- Préparation des données
- Séparation des données (prédicteur / cible)
- Découpage des données (apprentissage / validation)
- Ajustement des modèles
- Validation des modèles

Les données : telecom.csv

In [1]:
import pandas as pd
import numpy as np

## Récupération des données

In [2]:
telecom = pd.read_csv("./data/telecom.csv")

In [3]:
telecom.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   State           3333 non-null   object 
 1   Account Length  3333 non-null   int64  
 2   Area Code       3333 non-null   int64  
 3   Phone           3333 non-null   object 
 4   Int'l Plan      3333 non-null   object 
 5   VMail Plan      3333 non-null   object 
 6   VMail Message   3333 non-null   int64  
 7   Day Mins        3333 non-null   float64
 8   Day Calls       3333 non-null   int64  
 9   Day Charge      3333 non-null   float64
 10  Eve Mins        3333 non-null   float64
 11  Eve Calls       3333 non-null   int64  
 12  Eve Charge      3333 non-null   float64
 13  Night Mins      3333 non-null   float64
 14  Night Calls     3333 non-null   int64  
 15  Night Charge    3333 non-null   float64
 16  Intl Mins       3333 non-null   float64
 17  Intl Calls      3333 non-null   i

In [4]:
telecom["Churn?"].value_counts()

False.    2850
True.      483
Name: Churn?, dtype: int64

## Préparation des données

In [5]:
x = telecom.select_dtypes(np.number).drop(["Account Length", "Area Code"], axis=1)

In [6]:
y = telecom["Churn?"]

## Découpage des données

Obtenir des données d'apprentissage et de test

In [7]:
from sklearn.model_selection import train_test_split

In [8]:
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size = 0.3)

# Ajustement de modèles


In [9]:
# importation du modèle
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier

In [10]:
# création d'un objet associé à la classe du modèle
modele_logit = LogisticRegression()
# ajustement du modèle (apprentissage)
modele_logit.fit(x_train,y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [11]:
# affichage des coefficients
pd.DataFrame(modele_logit.coef_,columns=x.columns,index=["Coef"]).T.sort_values("Coef",ascending = False)

Unnamed: 0,Coef
CustServ Calls,0.372485
Intl Mins,0.013715
Day Mins,0.008113
Intl Charge,0.003747
Day Charge,0.00148
Eve Mins,0.001446
Eve Charge,0.000143
Night Charge,-6.2e-05
Night Mins,-0.001566
Day Calls,-0.009299


In [12]:
# prédiction à partir du modèle
y_predict_logit = modele_logit.predict(x_test)

## Validation du modèle

In [13]:
# validation du modèle
from sklearn.metrics import accuracy_score, confusion_matrix

In [14]:
print(accuracy_score(y_test, y_predict_logit))

0.86


## Automatisation du traitement de plusieurs modèles

In [15]:
dico_model = {"logit":LogisticRegression(),
              "rf":RandomForestClassifier(),
              "gbm":GradientBoostingClassifier(),
              "knn":KNeighborsClassifier(),
              "rn":MLPClassifier()}

In [16]:
for model in dico_model:
    # on récupère le modèle dans le dictionnaire
    mon_modele = dico_model[model]
    # on ajuste le modèle
    mon_modele.fit(x_train,y_train)
    # on affiche les résultats
    print("Accuracy du modèle {} :".format(model),accuracy_score(y_test, mon_modele.predict(x_test)))
    print("Matrice de confusion du modèle {} :".format(model),confusion_matrix(y_test, mon_modele.predict(x_test)),sep="\n")

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Accuracy du modèle logit : 0.86
Matrice de confusion du modèle logit :
[[854  10]
 [130   6]]
Accuracy du modèle rf : 0.932
Matrice de confusion du modèle rf :
[[856   8]
 [ 60  76]]
Accuracy du modèle gbm : 0.921
Matrice de confusion du modèle gbm :
[[849  15]
 [ 64  72]]
Accuracy du modèle knn : 0.888
Matrice de confusion du modèle knn :
[[846  18]
 [ 94  42]]
Accuracy du modèle rn : 0.874
Matrice de confusion du modèle rn :
[[860   4]
 [122  14]]
