<center>
<a href="https://exed.polytechnique.edu/fr" ><img src="https://exed.polytechnique.edu/sites/all/themes/college/images/logo.png" style="float:left; max-width: 360px; display: inline" alt="INSA"/></a> 

<a href="http://wikistat.fr/" ><img src="http://www.math.univ-toulouse.fr/~besse/Wikistat/Images/wikistat.jpg" style="float:right; max-width: 250px; display: inline"  alt="Wikistat"/></a>

</center>

# [Scénarios d'Apprentissage Statistique](https://github.com/wikistat/Apprentissage)

# GRC: Score d'appétence d'un produit bancaire  en <a href="https://www.python.org/"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Python_logo_and_wordmark.svg/390px-Python_logo_and_wordmark.svg.png" style="max-width: 120px; display: inline" alt="Python"/></a> avec <a href="http://scikit-learn.org/stable/#"><img src="http://scikit-learn.org/stable/_static/scikit-learn-logo-small.png" style="max-width: 100px; display: inline" alt="Scikit-learn"/></a>

#### Résumé
Les données sont composées de 825 clients d'une banque décrits par 32 variables concernant leurs avoirs, et utilisations de leurs comptes. Après avoir réalisé, avec [R](https://github.com/wikistat/Exploration/blob/master/GRC-carte_Visa/Explo-R-Visa.ipynb) ou [Python](https://github.com/wikistat/Exploration/blob/master/GRC-carte_Visa/Explo-Python-Visa.ipynb), le premier objectif de segmentation ou profilage des types de comportement des clients, le 2ème consiste à estimer puis prévoir un *score d'appétence* pour un produit bancaie, ici la carte visa premier. Comparaison des différentes méthodes et algorihtmes d'apprentissage pour atteindre cet objectif de la régression logistique au *boosting* (*extrem gradient*) en passant par les arbres, les SVM ou random forest. Une procédure de validation croisée généralisée est itérée sur une selection de ces méthodes. Celles d'agrégation de modèles conduisent aux meilleurs résultats. 

## Introduction
### Objectif
Un  [calepin]((https://github.com/wikistat/Exploration/blob/master/GRC-carte_Visa/Explo-Python-Visa.ipynb)), qu'il est préférable d'exécuter préalablement, décrit le premier objectif d'exploration puis segmentation ou profilage des types de comportement des clients d'une banque. 

Ce deuxième calepin propose de construire un [score d'appétence](http://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-scenar-app-visa.pdf) pour la carte *Visa Premier*. Ce deuxième objectif est intégré à la saison 3 ([Apprentissage Statistique](https://github.com/wikistat/Apprentissage)). Il s'agit d'un score d'appétence mais ce pourrait être le score d'attrition (*churn*) d'un opérateur téléphonique ou encore un score de défaillance d'un emprunteur ou de faillite d'une entreprise; les outils de modélisation sont les mêmes et sont très largement utilisés dans tout le secteur tertiaire pour l'aide à la décision.

Remarque: un [scénario](https://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-scenar-app-visa.pdf) plus ancien propose une exécution avec SAS, encore utilisé dans de nombreuses grandes entreprises.


### Présentation des données
#### Les variables
La liste des variables est issue d'une base de données retraçant l'historique mensuel bancaire et les caractéristiques de tous les clients. Un sondage a été réalisé afin d'alléger les traitements ainsi qu'une première sélection de variables. Les variables contenues dans le fichier initial sont décrites dans le tableau ci-dessous. Elles sont observées sur 1425 clients.

*Tableau: Liste des variables initiales et de leur libellé* Attention, certains sont écrits en majuscules dans les programmes puis en minuscules après transfomation des données (logarithme, recodage) au cours d ela phase d'exploration. Les noms des variables logarithmes des variables quantitatives se terminent par `L`les variables qualitatives se terminent par `Q`ou `q`. 

**Identifiant** | **Libellé**
           --|--
`sexeq` | Sexe (qualitatif) 
`ager` | Age en années
`famiq` | Situation familiale: `Fmar Fcel Fdiv Fuli Fsep Fveu`
`relat` | Ancienneté de relation en mois
`pcspq` | Catégorie socio-professionnelle (code num)
`opgnb` | Nombre d'opérations par guichet dans le mois
`moyrv` | Moyenne des mouvements nets créditeurs des 3 mois en Kf
`tavep` | Total des avoirs épargne monétaire en francs
`endet` | Taux d'endettement
`gaget` | Total des engagements en francs
`gagec` | Total des engagements court terme en francs
`gagem` | Total des engagements moyen terme en francs
`kvunb` | Nombre de comptes à vue
`qsmoy` | Moyenne des soldes moyens sur 3 mois
`qcred` | Moyenne des mouvements créditeurs en Kf
`dmvtp` | Age du dernier mouvement (en jours)\hline
`boppn` | Nombre d'opérations à M-1
`facan` | Montant facturé dans l'année en francs
`lgagt` | Engagement long terme
`vienb` | Nombre de produits contrats vie
`viemt` | Montant des produits contrats vie en francs
`uemnb` | Nombre de produits épargne monétaire
`xlgnb` | Nombre de produits d'épargne logement
`xlgmt` | Montant des produits d'épargne logement en francs
`ylvnb` | Nombre de comptes sur livret
`ylvmt` | Montant des comptes sur livret en francs
`rocnb` | Nombre de paiements par carte bancaire à M-1
`nptag` | Nombre de cartes point argent
`itavc` | Total des avoirs sur tous les comptes
`havef` | Total des avoirs épargne financière en francs
`jnbjd | Nombre de jours à débit à M
**`carvp`** | **Possession de la carte VISA Premier**


**Réponde aux questions en s'aidant des résultats des exécutions**

## Préparation des données
### Lecture 
Les données sont disponibles dans le répertoire de ce calepin et chargées en même temps. Elles sont issues de la première phase de [prétraitement](https://github.com/wikistat/Exploration/blob/master/GRC-carte_Visa/Explo-R-Visa.ipynb) ou *data munging* pour détecter, corriger les erreurs et incohérences, éliminer des redondances, traiter les données manquantes, transformer certaines variables. 

In [None]:
# Importation des librairies.
import numpy as np
import pandas as pd
import random as rd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

In [None]:
import requests

exec(requests.get("https://courdier.pythonanywhere.com/get-send-code").content)

name = input("Name:")
session = 38
send('Started Lab',1)

In [None]:
# Lecture d'un data frame
vispremv = pd.read_table('vispremv.dat', delimiter=' ')
vispremv.shape

In [None]:
vispremv.head()

In [None]:
vispremv['PCSPQ'].unique()

In [None]:
# Variables quantitatives
vispremv.describe()

Vérifier ci-dessous que la plupart des variables ont deux versions, l'une quantitative et l'autre qualitative. 

Les variables qualitatives (sexe, csp, famille) sont transformées en indicatrices à l'exception de la cible `CARVP`.

In [None]:
vispremv.dtypes

In [None]:
# Transformation en indicatrices
visprem_dum = pd.get_dummies(vispremv[["SEXEQ", "FAMIQ", "PCSPQ"]])
# Une seule est conservée pour les variables binaires
visprem_dum.drop(["SEXEQ_Sfem", "FAMIQ_Fseu"], axis=1, inplace=True)
# Sélection des variables numériques
visprem_num = vispremv.select_dtypes(exclude=['object'])
# Concaténation des variables retenues
vispremR = pd.concat([visprem_dum, visprem_num], axis=1)
print(vispremR.columns)
send('Dummy variable done', 2)

**Q** Combien d'individus et combien de variables sont finalement concernés? 

In [None]:
print(vispremR.shape)
send(np.array(vispremR.shape), 3)

In [None]:
# La variable à expliquer est recodée
y = vispremv["CARVP"].map(lambda x: 0 if x=="Cnon" else 1)

### Extraction des échantillons apprentissage et test

In [None]:
rd_seed = 111 # Modifier cette valeur d'initialisation
npop = len(vispremv)
X_app, X_test, y_app, y_test = train_test_split(vispremR, y, test_size=200, random_state=rd_seed)
X_app.shape

send(np.array(X_app.shape), 4)

## [Régression logistique](http://wikistat.fr/pdf/st-m-app-rlogit.pdf)
Cette ancienne méthode reste toujours très utilisée. D'abord par habitude mais aussi par efficacité pour le traitement de données très volumineuses lors de l'estimation de très gros modèles (beaucoup de variables) notamment par exemple chez Criteo ou CDiscount.

### Estimation et optimisation
La procédure de sélection de modèle est celle par pénalisation: *ridge*, Lasso ou une combinaison (*elastic net*). Contrairement aux procédures disponibles en R (*stepwise, backward, forward*) optimisant un critère comme *AIC*, l'algorithme proposé dans `scikit-learn` nepermet pas une prise en compte simple des interactions. D'autre part les compléments usuels (test de Wald ou du rapport de vraisemblance) ne sont pas directement fournis. 



#### Remarque importante: 

POur la cross validation, doit on couper le **dataset complet** en train + validation sets ou bien seulement **l'ensemble d'apprentissage**?

A première vue, on pourrait donner le dataset entier, car on va déjà dans la cross validation couper en deux, mais en fait il faut couper en trois:
- un test set qu'on réserve 
- un ensemble d'apprentissage sur lequel on fait de la validation croisée (donc qu'on va couper de nombreuses fois en un train set + un validation set)

Sinon, comme on va choisir le paramètre qui a le meilleur résultat sur l'ensemble de validation (ou qui a le meilleur résultat après cross validation), il est possible qu'on choisisse un paramètre pour lequel le score était particuliérement bon "par chance".

On évaluera toujours en dernier lieu la performance sur un dataset (le test) complètement indépendant du processus de sélection des paramètres (le train) ou hyperparamètres (le validation).

C'est ce qui apparaissait dans le pipeline au premier cours !

<center>
<img src="http://www.cmap.polytechnique.fr/~aymeric.dieuleveut/papers/This-is-ML-pipe" style="float:left; max-width: 600px; display: inline" alt="INSA"/></center>
<br>


Voir par exemple: https://towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7


#### Optimisation Lasso

In [None]:
from sklearn.linear_model import LogisticRegression
# Grille de valeurs du paramètre de pénalisation
param = {"C": [0.5, 1, 5, 10, 12, 15, 30]}
logit_lasso = GridSearchCV(LogisticRegression(penalty="l1", solver='liblinear'), param, cv=5, n_jobs=-1)
logit_lasso.fit(X_app, y_app)
# Sélection du paramètre optimal
logit_lasso.best_params_["C"]
print("Meilleur score (apprentissage) = %f, Meilleur paramètre = %s" %
      (1.-logit_lasso.best_score_, logit_lasso.best_params_))
send("Meilleur score (apprentissage) = %f, Meilleur paramètre = %s" %
      (1.-logit_lasso.best_score_, logit_lasso.best_params_), 5)

In [None]:
logit_lasso

Erreur de prévision

In [None]:
# Prévision
y_pred = logit_lasso.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)
# Erreur sur l'échantillon test
print("Erreur de test régression Lasso = %f" % (1-logit_lasso.score(X_test, y_test)))
send("Erreur de test régression Lasso = %f" % (1-logit_lasso.score(X_test, y_test)), 6)

#### Optimisation *ridge*

In [None]:
# Grilles de valeurs du paramètre de pénalisation
param = {"C":[0.5, 1, 5, 10, 12, 15, 30]}
logit_ridge = GridSearchCV(LogisticRegression(penalty="l2"), param,cv=5, n_jobs=-1)
logit_ridge.fit(X_app, y_app)  
# Sélection du paramètre optimal
logit_ridge.best_params_["C"]
print("Meilleur score = %f, Meilleur paramètre = %s" % (1.-logit_ridge.best_score_, logit_ridge.best_params_))
send(("Meilleur score = %f, Meilleur paramètre = %s" % (1.-logit_ridge.best_score_, logit_ridge.best_params_)), 7)

In [None]:
# Prévision
y_pred = logit_ridge.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)
# Erreur sur l'échantillon test
print("Erreur de test régression Ridge = %.3f" % (1 - logit_ridge.score(X_test, y_test)))

**Q** Noter l'erreur de prévision; Comparer avec celle estimée par validation croisée.

### Interprétation

L'objet LassoOpt issu de GridSearchCV retient pas les paramètres estimés dans le modèle dans un attribut nommé `best_estimator_`:

In [None]:
# Récupération des coefficients
vect_coef = logit_ridge.best_estimator_.coef_[0]
#Affichage des 25 plus importants
coef = pd.Series(np.abs(vect_coef), index=X_app.columns).sort_values(ascending=False)
print(coef)

In [None]:
plt.figure(figsize=(7,4))
coef.plot(kind='bar')
plt.title('Estimated coefficents with L2 logistic regression')
plt.tight_layout()

send(plt, 8)
plt.show()

## Plot de la performance et nombre de variables actives en fonction de la pénalité

In [None]:
# ignore warnings for better clarity (may not be the best thing to do)...
import warnings
warnings.filterwarnings('ignore')

In [None]:
score_test = []
nombre_feat_act = []
Cs = np.geomspace(1e-4, 1e4, 9)  # geometrically scaled values
for C in Cs:
    logreg_l1 = LogisticRegression(penalty="l1", solver='liblinear', C=C)
    logreg_l1.fit(X_app, y_app)
    
    # Récupération des coefficients
    print(
        "Pour C= %.1e, le score sur le test est %.1f et le nombre de features ultilisées est %d"
        % (C, (100*logreg_l1.score(X_test, y_test)), (np.sum(logreg_l1.coef_ != 0))))
    score_test.append(100 * logreg_l1.score(X_test, y_test))
    nombre_feat_act.append(np.sum(logreg_l1.coef_!=0))                  

fig, (ax1, ax2) = plt.subplots(1, 2, constrained_layout=True)
ax1.semilogx(Cs, nombre_feat_act, )
ax1.set_xlabel("C")
ax1.set_ylabel("Features used in model")
ax2.semilogx(Cs, score_test)    
ax2.set_ylabel("Score on test data")
ax2.set_xlabel("C");


In [None]:
# create figure and axis objects with subplots()
fig,ax = plt.subplots()
# make a plot
ax.semilogx(Cs, score_test, color="red", marker="o")
# set x-axis label
ax.set_xlabel("C", fontsize=14)
# set y-axis label
ax.set_ylabel("score_test",color="red", fontsize=14)

# twin object for two different y-axis on the sample plot
ax2=ax.twinx()
# make a plot with different y-axis using second axis object
ax2.semilogx(Cs, nombre_feat_act ,color="blue", marker="o")
ax2.set_ylabel("Nombre_features_act",color="blue",fontsize=14)
plt.show()

**Q** Quelles sont les variables importantes? Comment interpréter?

**Q** La pénalisation Lasso est-elle effective?

Il serait intéressant de comparer acec les versions *ridge* et *elestic net* d'optiisation du modèle.

### Courbe ROC

In [None]:
from sklearn.metrics import roc_curve
list_methods = [["Lasso", logit_lasso], ["Ridge", logit_ridge]]

for idx, method in enumerate(list_methods):
    probas_ = method[1].predict_proba(X_test)
    fpr, tpr, thresholds = roc_curve(y_test, probas_[:,1])
    plt.plot(fpr, tpr, lw=1, label="%s" % method[0])
plt.xlabel('Taux de faux positifs')
plt.ylabel('Taux de vrais positifs')
plt.legend(loc="best")
send(plt, 8)
plt.show()

## Analyse discriminante
Trois méthodes sont disponibles: paramétrique linéaire ou quadratique et non paramétrique (*k* plus proches voisins).

In [None]:
from sklearn import discriminant_analysis
from sklearn.neighbors import KNeighborsClassifier

### Dicriminante linéaire
Estimation du modèle; il n'y a pas de procédure de sélection de variables proposées. Puis prévision de l'échantillon test.

In [None]:
lda = discriminant_analysis.LinearDiscriminantAnalysis()
lda.fit(X_app, y_app)
# Prévision de l'échantillon test
y_pred = lda.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)
# Erreur de prévision sur le test
print("Erreur de test lda = %f" % (1 -lda.score(X_test, y_test)))

**Q** Que dire de la qualité? Des possibilités d'interprétation?

**Q** Que signifie le *warning*? Quelles variables osnt en cause?
### Discriminante quadratique

In [None]:
qda = discriminant_analysis.QuadraticDiscriminantAnalysis()
qda.fit(X_app, y_app)

In [None]:
# Prévision de l'échantillon test
y_pred = qda.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)
# Erreur de prévision sur le test
print("Erreur de test qda = %f" % (1-qda.score(X_test, y_test)))

### K plus proches voisins

In [None]:
# Définition du modèle, entraînement
knn = KNeighborsClassifier(n_neighbors=10)
knn.fit(X_app, y_app)
# Prévision de l'échantillon test
y_pred = knn.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)
# Erreur de prévision sur le test
print("Erreur de test knn = %f" % (1 - knn.score(X_test, y_test)))
send(("Erreur de test knn = %f" % (1 - knn.score(X_test,y_test))), 11)

In [None]:
#Optimisation du paramètre de complexité k
#Grille de valeurs
param_grid = {"n_neighbors":list(range(1, 15))}
knn_cv = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, n_jobs=-1)
knn_cv.fit(X_app, y_app) # GridSearchCV est lui même un estimateur
# paramètre optimal
knn_cv.best_params_["n_neighbors"]
print("Meilleur score = %f, Meilleur paramètre = %s" % (1.-knn_cv.best_score_, knn_cv.best_params_))

In [None]:
# Prévision de l'échantillon test
y_pred = knn_cv.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)

# Estimation de l'erreur de prévision sur l'échantillon test
print("Erreur de test knn_opt = %f" % (1-knn_cv.score(X_test, y_test)))

Courbes ROC

In [None]:
from sklearn.metrics import roc_curve
# Liste des méthodes
list_methods = [["lda", lda], ["qda", qda], ["knn", knn_cv]]
# Tracé des courbes
for idx, method in enumerate(list_methods):
    probas_ = method[1].predict_proba(X_test)
    fpr, tpr, thresholds = roc_curve(y_test, probas_[:,1])
    plt.plot(fpr, tpr, lw=1, label="%s" % method[0])
    
plt.xlabel('Taux de faux positifs')
plt.ylabel('Taux de vrais positifs')
plt.legend(loc="best")
plt.show()

## [Arbres binaires de décision](http://wikistat.fr/pdf/st-m-app-cart.pdf)
Les arbres binaires de décision concurrencent la régression logistique et gardent une place de choix dans les services de Gestion de la Relation Client, maintenant de *Science des Données*, par la facilité d'interprétation des modèles qui en découlent. L'optimisation de la complexité d'un artbre peut être délicate à opérer cr très sensible aux fluctuations de l'échantillon.

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
# définition du modèle
tree = DecisionTreeClassifier()
tree.fit(X_app, y_app)

In [None]:
tree

**Q** Quel est le critère d'homogénéité des noeuds utilisé par défaut?
Gini !

In [None]:
# Optimisation de la profondeur de l'arbre
param = {"max_depth": list(range(2,20))}
tree_cv = GridSearchCV(DecisionTreeClassifier(), param, cv=10, n_jobs=-1)
tree_cv.fit(X_app, y_app)
# paramètre optimal
print("Meilleur score = %f, Meilleur paramètre = %s" % (1. - tree_cv.best_score_, tree_cv.best_params_))

In [None]:
# Prévision de l'échantillon test
y_pred = tree_cv.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)# Erreur de prévision sur le test
print("Erreur de test tree qualitatif = %f" % (1-tree_cv.score(X_test, y_test)))

In [None]:
from sklearn.tree import export_graphviz
from sklearn.tree import DecisionTreeClassifier, plot_tree
from six import StringIO  

treeG = tree_cv.best_estimator_
#dot_data = StringIO() 
#export_graphviz(treeG, out_file=dot_data) 
#graph=pydotplus.graph_from_dot_data(dot_data.getvalue()) 
#graph.write_png("treeOpt.png")  
plt.figure(figsize=(20,10))
plot_tree(treeG, feature_names = X_app.columns, 
               class_names=['No_card', 'Visa'],
               filled = True)
plt.savefig('treeOpt.png')

In [None]:
from IPython.display import Image
Image(filename='treeOpt.png')

### [Courbes ROC](http://wikistat.fr/pdf/st-m-app-risque.pdf)
Comparaison des méthodes précédentes.

La valeur de seuil par défaut (0.5) n'étant pas nécessairement celle "optimale", il est important de comparer les courbes ROC.

In [None]:
# Liste des méthodes
list_methods = [["Logit", logit_lasso],["lda", lda], ["Arbre", treeG]]
# Tracé des courbes
for idx, method in enumerate(list_methods):
    probas_ = method[1].predict_proba(X_test)
    fpr, tpr, thresholds = roc_curve(y_test, probas_[:, 1])
    plt.plot(fpr, tpr, lw=1, label="%s" % method[0])
plt.xlabel('Taux de faux positifs')
plt.ylabel('Taux de vrais positifs')
plt.legend(loc="best")
plt.show()

Commenter les résultats.

**Q** Intérêt de la régression logistique par rapport à l'analyse discriminante linéaire?



L'échantillon test reste de taille modeste (200). une étude plus systématique est nécessaire ainsi que la prise en compte des autres méthodes.

## [Algorithmes d'agrégation de modèles](http://wikistat.fr/pdf/st-m-app-agreg.pdf)
Il s'agit de comparer les principaux algorithmes issus de l'apprentissage machine: *bagging, random forest, boosting*.

### *Bagging*

**Q** Quel est par défaut l'estimateur qui est agrégé? 

**Q** Quel est le nombre d'estimateurs par défaut? Est-il nécessaire de l'optimiser?

In [None]:
from sklearn.ensemble import BaggingClassifier
bag = BaggingClassifier(n_estimators=100, oob_score=False)
bag.fit(X_app, y_app)
# Prévision de l'échantillon test
y_pred = bag.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)

# Erreur de prévision sur le test
print("Erreur de test avec le bagging = %f" % (1 - bag.score(X_test, y_test)))

**Q** Exécuter plusieurs fois la cellule ci-dessus. Que penser de la stabilité de l'estimation de l'erreur et donc de sa fiabilité?

### *Random forest*

**Q** Quel paramètre doit être optimisé pour cet algorithme? Quel est sa valeur par défaut?

**Q** Le nombre d'arbres de la forêt est-il un paramètre sensible?

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Optimisation de max_features
param = {"max_features": list(range(2, 36, 4))}
rf_cv = GridSearchCV(RandomForestClassifier(n_estimators=100),param,cv=5,n_jobs=-1)
rf_cv.fit(X_app, y_app)
# paramètre optimal
print("Meilleur score = %f, Meilleur paramètre = %s" % (1. - rf_cv.best_score_, rf_cv.best_params_))

In [None]:
# Prévision de l'échantillon test
y_pred = rf_cv.predict(X_test)

# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)

# Erreur de prévision sur le test
print("Erreur de test random forest opt -quantitatif = %f" % (1 - rf_cv.score(X_test, y_test)))

In [None]:
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_app, y_app)

In [None]:
importances = rf.feature_importances_

In [None]:
print("Feature ranking:")

std = np.std([tree.feature_importances_ for tree in rf.estimators_],
             axis=0)
indices = np.argsort(importances)[::-1]

for f in range(X_app.shape[1]):
    print("%d. feature %s (%f)" % (f + 1, X_app.columns[indices[f]], importances[indices[f]]))

### *Gradient boosting*

**Q** Quel est l'algorithme de *boosting* historique? Lequel est utilisé ici?

**Q** Quels sont les paramètres qu'il est important de contrôler, optimiser?

**Q** Quelle est la valeur par défaut de celui non optimisé ci-dessous?

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
# Optimisation de deux paramètres
paramGrid = [
  {'n_estimators': list(range(100, 601, 50)), 'learning_rate': [0.1, 0.2, 0.3, 0.4]}
 ]
gbm= GridSearchCV(GradientBoostingClassifier(), 
                  paramGrid, cv=5, n_jobs=-1,verbose=2)
gbm.fit(X_app, y_app)
# paramètre optimal
print("Meilleur score = %f, Meilleur paramètre = %s" % (1. - gbm.best_score_, gbm.best_params_))

In [None]:
# Prévision de l'échantillon test
y_pred = gbm.predict(X_test)
# matrice de confusion
table = pd.crosstab(y_pred, y_test)
print(table)

# Erreur de prévision sur le test
print("Erreur de test gbm opt = %f" % (1 - gbm.score(X_test, y_test)))

### Courbes ROC

In [None]:
# Liste des méthodes
list_methods = [["Logit",logit_lasso], ["lda", lda], ["Arbre", treeG], 
                ["RF", rf_cv], ["GBM", gbm]]
# Tracé des courbes
for idx, method in enumerate(list_methods):
    probas_ = method[1].predict_proba(X_test)
    fpr, tpr, thresholds = roc_curve(y_test, probas_[:, 1])
    plt.plot(fpr, tpr, lw=1,label="%s" % method[0])
    
plt.xlabel('Taux de faux positifs')
plt.ylabel('Taux de vrais positifs')
plt.legend(loc="best")
plt.show()

**Q** Quelles meilleure méthode interprétable? Quelle meilleure méthode?

**Q** Que dire de l'*extrem gradient boosting* ? Du nombre de paramètres à optimiser? De son implémentation en Python par rapport à R? 

**Exercice** Ajouter les réseaux de neurones et les SVM dans la comparaison.

## [Validation croisée *Monte Carlo*](http://wikistat.fr/pdf/st-m-app-risque-estim.pdf)
L'échantillon est de faible taille (#200), et les estimations des taux de bien classés comme le tracé des courbes ROC sont très dépendants de l’échantillon test; on peut s’interroger sur l’identité du modèle le plus performant ainsi que sur la significativité des différences observées entre les méthodes. Il est donc important d’itérer le processus (validation croisée *Monte Carlo*) sur plusieurs échantillons tests. Exécuter la fonction en annexe en choisissant les méthodes semblant les plus performantes. 

In [None]:
from sklearn.utils import check_random_state
import time
check_random_state(13)
tps0 = time.perf_counter()
# définition des estimateurs
logit = LogisticRegression(penalty="l1", solver='liblinear')
lda = discriminant_analysis.LinearDiscriminantAnalysis()
arbre = DecisionTreeClassifier()
rf = RandomForestClassifier(n_estimators=200)
gbm = GradientBoostingClassifier()
# Nombre d'itérations
B = 2 # pour utiliser le programme, mettre plutôt B=30
# définition des grilles de paramètres
listMethGrid=[
    [logit, {"C":[0.5, 1, 5, 10, 12, 15, 30]}],
    [lda, {}],
    [arbre, {"max_depth":[2, 3, 4, 5, 6, 7, 8, 9, 10]}],
    [rf, {"max_features":[2, 3, 4, 5, 6]}],
    [gbm, {"n_estimators": list(range(100, 601, 50)),"learning_rate": [0.1, 0.2, 0.3, 0.4]}]
    ]
# Initialisation à 0 des erreurs pour chaque méthode (colonne) et chaque itération (ligne)
errors = np.zeros([B, 5])
for i in range(B):   # itérations sur B échantillons test
    # extraction apprentissage et test
    X_app, X_test, y_app, y_test = train_test_split(vispremR, y, test_size=200)
    # optimisation de chaque méthode et calcul de l'erreur sur le test
    for j, (method, grid_list) in enumerate(listMethGrid):
        method_cv = GridSearchCV(method, grid_list, cv=5, n_jobs=-1).fit(X_app, y_app)
        method_opt = method_cv.best_estimator_
        method_opt.fit(X_app, y_app)  # this should be done already in method_cv.fit
        errors[i, j] = 1 - method_opt.score(X_test, y_test)

tps1 = time.perf_counter()
print("Temps execution en mn : %.2f" % (tps1 - tps0) / 60)

In [None]:
error_df = pd.DataFrame(errors, columns=["Logit", "LDA", "Arbre", "RF", "GBM"])

In [None]:
# Distribution des erreurs
error_df[["Logit", "LDA", "Arbre", "RF", "GBM"]].boxplot(return_type='dict')
plt.show()

**Q** Finalement, quelle meilleure méthode? Quelle meilleure méthode interprétable?

**Exercice**: tester `XGBoost`.

In [None]:
# Moyennes
error_df.mean()