In [1]:
from sklearn.utils import shuffle
from utils.data import prepare_data
from utils.gini import eval_gini, gini_xgb
import numpy as np
import pandas as pd
import xgboost as xgb
import time

In [2]:
# Simple classifiers
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.naive_bayes import BernoulliNB, GaussianNB, MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis

from sklearn.model_selection import GridSearchCV

# Ensemble methods (bagging and/or boosting)
from xgboost import XGBClassifier
from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier
from sklearn.ensemble import BaggingClassifier, VotingClassifier, RandomForestClassifier

# Laboratoire 2

Comme vu en classe, la classification est une part importante de la science des données. Elle consiste à apprendre à classer des échantillons et de par la suite prédire les classes de nouveaux échantillons. 

Durant ce laboratoire, vous allez travailler sur un concours Kaggle dont le but est de prédire la probabilité qu'un conducteur fasse une réclamation d'assurance auto durant l'année suivante. En voyant ce problème, la tâche semble être celle d'une regression et non d'un classification, cependant, avec les données disponibles, c'est effectivement une classification. En effet, les cibles ne sont pas des réels mais bien des entiers naturels puisque l'assureur peut simplement noter si le client a oui ou non fait une réclamation durant l'année d'après. Mais je vous conseille d'aller sur https://www.kaggle.com/c/porto-seguro-safe-driver-prediction pour avoir plus d'information.

Vous l'aurez donc compris, il faut entraîner un prédicteur probabilistique pour avoir des probabilités durant la prédiction (ex: Regression Logistique, Bayes Naif, etc. et non SVM).

Votre première tâche sera donc d'entraîner un classifieur sur l'ensemble d'entraînement et de prédire des probabilités sur l'ensemble de test.

### Preparation des données

Pour ce laboratoiree le but est surtout d'étudier la classification. La préparation des données est donc faite pour vous. 

In [3]:
data_path='./input'

train = pd.read_csv(data_path+'/train.csv')
test = pd.read_csv(data_path+'/test.csv')

prep = prepare_data(train,test)
train, targets, test = prep(True,False)

0 duplicates dropped.

Under-sampling...
Rate to undersample records with target=0: 0.34043569687437886
Number of records with target=0 after undersampling: 195246

Checking missing values...
Variable ps_ind_02_cat has 103 records (0.05%) with missing values
Variable ps_ind_04_cat has 51 records (0.02%) with missing values
Variable ps_ind_05_cat has 2256 records (1.04%) with missing values
Variable ps_reg_03 has 38580 records (17.78%) with missing values
Variable ps_car_01_cat has 62 records (0.03%) with missing values
Variable ps_car_02_cat has 2 records (0.00%) with missing values
Variable ps_car_03_cat has 148367 records (68.39%) with missing values
Variable ps_car_05_cat has 96026 records (44.26%) with missing values
Variable ps_car_07_cat has 4431 records (2.04%) with missing values
Variable ps_car_09_cat has 230 records (0.11%) with missing values
Variable ps_car_11 has 1 records (0.00%) with missing values
Variable ps_car_14 has 15726 records (7.25%) with missing values
In total

## Classifieur classique

**QUESTION 1:** Entraînez un classifieur classique sur l'ensemble X_train et retournez le score Gini pour cet ensemble, puis prédisez les probabilités sur l'ensemble de test. Pour avoir les meilleurs résultats possibles (score gini), faites une recherche d'hyper-paramètres (ex:GridSearchCV) et **montrez votre travail**.

In [4]:
X, y = train.as_matrix()[:,1:], targets.as_matrix()
X, y = shuffle(X,y)
cutoff = int(len(X)*0.9)

X_train_valid, y_train_valid = X[:cutoff], y[:cutoff]
X_test, y_test = X[cutoff:], y[cutoff:]
X_sub = test.as_matrix()[:,1:]

del X, y, train, targets, test

Nous avons essayé plusieurs types de classifieurs sur cette tâche. La table suivante montre les scores Gini obtenus pour ceux-ci avec le temps pris pour chaque algorithme avec leurs valeurs par défaut :


|Classifieur                    | Score Gini | Temps (s) |
|-------------------------------|------------|-----------|
|Régression Logistique          |      0.270 |21.91      |
|Classifieur SGD                |      0.265 |   27.62    |
|Bernoulli Naive Bayes          |      0.224 |      0.45 |
|Gaussian Naive Bayes           |      0.224 |      0.48 |
|Multinomial Naive Bayes        |      0.227 |      0.10 |
|Arbre de décision              |      0.047 |      23.28|
|Réseau de neurones MLP         |      0.218 |  240.85   |
|Linear Discriminant Analysis   |      0.271 |  2.20     |
|Quadratic Discriminant Analysis|      0.156 |  1.60     |
|K Neighbors                    |      0.032 | 649.59    |

In [6]:
start = time.time()
# Initialiser votre classifieur
# clf = LogisticRegression()    
# clf = KNeighborsClassifier()  
clf = SGDClassifier(loss='log', max_iter=250)  
# clf = BernoulliNB()              
# clf = GaussianNB()     
# clf = MultinomialNB()  
# clf = DecisionTreeClassifier()  
# clf = MLPClassifier()          
# clf = LinearDiscriminantAnalysis() 
# clf = QuadraticDiscriminantAnalysis()

# Entraîner le classifieur
clf.fit(X_train_valid,y_train_valid)

# Calculer les probabilitées prédites sur l'ensemble de test
probs = clf.predict_proba(X_test)[:,-1]

# Calculer le score Gini
score_test = eval_gini(y_test,probs)
print("Best score for test set : %0.3f" % score_test)

# Temps pris pour le classifieur
print("Time elapsed : %.2f s" % (time.time()-start))

Best score for test set : 0.265
Time elapsed : 27.62 s


Nous avons aussi fait une recherche d'hyperparamètres à l'aide de GridSearchCV pour la régression logistique, les arbres de décision et les réseaux de neurones de type MLP. Les résultats sont présentés dans la table ci-dessous:

| Classifieur                   | Meilleure configuration                 | Score Gini obtenu |
|-------------------------------|-----------------------------------------|----------------------------|
| Logistic Regression           |  max_iter=100, alpha=1e-3              |       0.278                |
| Decision Tree                 |  max_depth=3                            |       0.180                |
| Réseau de neurones MLP        |  hidden_layers=(100, 100), batch_size=32|       0.278                |

On note que SGDClassifier utilisant la perte `log` est une régression logistique utilisant la descente de gradient pour apprendre ses paramètres. De cette façon, il est possible d'ajuster plus d'hyperparamètres. Cependant, le meilleur classifieur est obtenu en fonction de l'accuracy et non du score Gini, ce qui explique pourquoi le score Gini obtenu est plus bas que celui obtenu précédemment.

On voit que les meilleurs résultats obtenus sont avec un réseau de neurones avec deux couches cachées de 100 neurones. Cependant, ce type d'algorithme est beaucoup plus long à entraîner que les autres.

In [12]:
params = {"max_iter": [50, 100, 250, 500, 1000],
          "alpha": [0.001, 0.0001, 0.00001, 0.000001]}

clf = GridSearchCV(SGDClassifier(loss='log', n_jobs=-1), params, verbose=1)

clf.fit(X_train_valid, y_train_valid)

print("Best parameters : ")
print(clf.best_params_)

probs = clf.predict_proba(X_test)[:,-1]

score_test = eval_gini(y_test, probs)
print("Best score for test set : %0.3f" % score_test)


Fitting 3 folds for each of 20 candidates, totalling 60 fits


[Parallel(n_jobs=1)]: Done  60 out of  60 | elapsed: 27.9min finished


Best parameters : 
{'alpha': 0.001, 'max_iter': 100}
Best score for test set : 0.278


In [10]:
params = {"max_depth": [3, 5, 7, None]}

start = time.time()
clf = GridSearchCV(DecisionTreeClassifier(), params, n_jobs=-1, verbose=1)

clf.fit(X_train_valid, y_train_valid)

print("Best parameters : ")
print(clf.best_params_)

probs = clf.predict_proba(X_test)[:,-1]

score_test = eval_gini(y_test, probs)
print("Best score for test set : %0.3f" % score_test)

# Temps pris pour le classifieur
print("Time elapsed : %.2f s" % (time.time()-start))


Fitting 3 folds for each of 4 candidates, totalling 12 fits


[Parallel(n_jobs=-1)]: Done  12 out of  12 | elapsed:   29.9s finished


Best parameters : 
{'max_depth': 3}
Best score for test set : 0.180
Time elapsed : 33.06 s


In [11]:
params = {"hidden_layer_sizes": [(100, ), (200, ), (100, 100)],
          "batch_size": [32, 64, 128]}

start = time.time()
clf = GridSearchCV(MLPClassifier(), params, n_jobs=-1, verbose=1)

clf.fit(X_train_valid, y_train_valid)

print("Best parameters : ")
print(clf.best_params_)

probs = clf.predict_proba(X_test)[:,-1]

score_test = eval_gini(y_test, probs)
print("Best score for test set : %0.3f" % score_test)

# Temps pris pour le classifieur
print("Time elapsed : %.2f s" % (time.time()-start))


Fitting 3 folds for each of 9 candidates, totalling 27 fits


[Parallel(n_jobs=-1)]: Done  27 out of  27 | elapsed: 305.1min finished


Best parameters : 
{'batch_size': 32, 'hidden_layer_sizes': (100, 100)}
Best score for test set : 0.278
Time elapsed : 18859.44 s


## Méthodes d'ensembles

Les méthodes d'ensembles sont très populaires dans le machine learning pour donner de très bons résultats rapidement avec des classifieurs simples. Dans la communauté Kaggle, particulièrement, ces méthodes sont souvent utilisées et ne nécessitent pas des capacités de computation très élevées contraîrement aux réseaux de neurones.

Le principe général est simple: combiner plusieurs classifieurs simples afin d'obtenir un classifieur qui généralise mieux. 

Pour rappel, l'erreur de généralisation peut se décomposer en deux termes: 


*   Le biais: si la famille de fonction considérée ne contient pas la fonction idéale
*   La variance: variabilité dans la focntion trouvée due à la variabilité de l'ensemble de données

La deuxième partie du laboratoire consite donc à se familiariser avec ces méthodes et de déterminer si elles aident pour cette tâche.

### Boosting

Le boosting a principalement pour but de réduire le biais. Sont principe est le suivant:


1.   Entraîner un classifieur simple $h_1$ sur l'ensemble de donnée initial et prédire les classes.
2.   Déterminer les échantillons mal classés et entraîner un autre classifieur $h_{t+1}$ en augmentant l'importance de ces échantillons dans le calcul de la perte.
3.   Combiner tous les classifieurs avec des poids différents ($\alpha_t$) pour chaque classifieurs pour obtenir les prédictions.

  Pour une prédiction binaire {-1,1}:      $H(x) = sign(\sum_{t=1}^T \alpha_t h_t(x))$

4.   Répéter étapes 2, 3 N fois.



**QUESTION 2**: Reprenez le classifieur précédent en rajoutant du boosting et comparez les résultats. 

HINT: Extreme Gradient Boosting semble fonctionner particulièrement bien pour ce problème.

Nous avons essayé plusieurs types de méthodes d'ensemble boostés avec différent classifieurs comme algorithme de base. Les résultats obtenus sont présentés au tableau suivant :

| Méthode de boosting             | Algorithme de base         |Configuration optimale       | Gini sur Valid set     | Gini sur Test set      |
|---------------------------------|----------------------------|-----------------------------|------------------------|------------------------|
|  eXtreme Gradient Boosting      |    Arbre de decision       | max_depth=5, lr=0.025, n_estimators=200         |  0.271                 |  0.285                 |
|  eXtreme Gradient Boosting      |    Regression logistique   |              lr=0.5, n_estimators=200           |  0.180                 |  0.265                 |
|   AdaBoost                      | Arbre de decision          |      lr=0.5, n_estimators=50                    |      0.267             |   0.254                |
|   AdaBoost                      | Regression logistique      |      lr=1.0, n_estimators=100                   |      0.258             |   0.248                |
|   Gradient Boosting             | Arbre de decision          |  max_depth=3, lr=0.025, n_estimators=100        |      0.257             |   0.250                |


In [5]:
def BoostedClassifier(X_train_, y_train_, X_valid_, y_valid_, clf):
    # Initialiser le classifieur Boosté

#     clf = XGBClassifier()                    # valid : 0.281, test : 0.285
#     clf = XGBClassifier(booster='gblinear')
#     clf = AdaBoostClassifier()               # valid : 0.259, test : 0.261
#     clf = GradientBoostingClassifier()       # valid : 0.277, test = 0.285
#     clf = XGBClassifier(booster='gblinear')    # valid : 0.102, test = 0.115   

    # Entraîner le classifieur avec la métrique gini_xgb (si-possible)
    clf.fit(X_train_, y_train_)

    # Calculer les probabilités prédites par le meilleur estimateur sur l'ensemble de validation
    valid_probs = clf.predict_proba(X_valid_)[:,-1]

    # Calculer le score Gini pour les probabilités valid_probs
    score_valid = eval_gini(y_valid_,valid_probs)
    print("Best score for valid set : %0.3f" % score_valid)
    
    return score_valid

    # we should only evaluate the test score after the hyperparameter search!
#     # Calculer les probabilités prédites par le meilleur estimateur sur l'ensemble de test
#     test_probs = clf.predict_proba(X_test)[:,-1]
    
#     score_test = eval_gini(y_test,test_probs)
#     print("Best score for test set : %0.3f" % score_test)
    

In [6]:
# Séparer X_train_valid, y_train_valid en X_train, X_valid et y_train, y_valid avec un split de 0.9 (90% des données dans train et 10% dans test)
cutoff = int(len(X_train_valid)*0.9)
X_train, y_train = X_train_valid[:cutoff], y_train_valid[:cutoff]
X_valid, y_valid = X_train_valid[cutoff:], y_train_valid[cutoff:]

In [15]:
# Appeler le BoostedClassifier

# gridsearchcv doesn't work well with xgbclassifier
best_valid_score=0
best_max_depth=0
best_learning_rate=0
best_n_estimators=0
for n_estimators in [100, 200]:
    for max_depth in [3, 5]:
        for learning_rate in [1, 0.5, 0.25, 0.1, 0.05, 0.025, 0.01]:
            print("Max depth : %d ----- Learning rate : %.3f ----- Nb of estimators : %d"%(max_depth, learning_rate, n_estimators))
            estimator = XGBClassifier(booster='gbtree', max_depth=max_depth, learning_rate=learning_rate, n_estimators=n_estimators)

            valid_score = BoostedClassifier(X_train, y_train, X_valid, y_valid, clf=estimator)

            if valid_score > best_valid_score:
                best_valid_score=valid_score
                best_max_depth = max_depth
                best_learning_rate = learning_rate
                best_n_estimators = n_estimators
            
# Calculer les probabilités prédites par le meilleur estimateur sur l'ensemble de test

estimator = XGBClassifier(booster='gbtree', max_depth=best_max_depth, learning_rate=best_learning_rate,
                          n_estimators=best_n_estimators)
estimator.fit(X_train, y_train)
test_probs = estimator.predict_proba(X_test)[:,-1]

print("Best configuration : max_depth = %d, learning_rate = %.2f,  Nb of estimators = %d" % (best_max_depth, best_learning_rate, best_n_estimators))
score_test = eval_gini(y_test,test_probs)
print("Best score for test set : %0.3f" % score_test)
    

Max depth : 3 ----- Learning rate : 1.000 ----- Nb of estimators : 100
Best score for valid set : 0.196
Max depth : 3 ----- Learning rate : 0.500 ----- Nb of estimators : 100
Best score for valid set : 0.245
Max depth : 3 ----- Learning rate : 0.250 ----- Nb of estimators : 100
Best score for valid set : 0.256
Max depth : 3 ----- Learning rate : 0.100 ----- Nb of estimators : 100
Best score for valid set : 0.268
Max depth : 3 ----- Learning rate : 0.050 ----- Nb of estimators : 100
Best score for valid set : 0.256
Max depth : 3 ----- Learning rate : 0.025 ----- Nb of estimators : 100
Best score for valid set : 0.242
Max depth : 3 ----- Learning rate : 0.010 ----- Nb of estimators : 100
Best score for valid set : 0.229
Max depth : 5 ----- Learning rate : 1.000 ----- Nb of estimators : 100
Best score for valid set : 0.130
Max depth : 5 ----- Learning rate : 0.500 ----- Nb of estimators : 100
Best score for valid set : 0.192
Max depth : 5 ----- Learning rate : 0.250 ----- Nb of estimators

In [19]:
# Appeler le BoostedClassifier

# gridsearchcv doesn't work well with xgbclassifier
best_valid_score=0
best_n_estimators=0
best_learning_rate=0
for n_estimators in [100, 200]:
    for learning_rate in [2.5, 1, 0.5, 0.25, 0.1]:
        print("Learning rate : %.3f ----- Nb of estimators : %d"%(learning_rate, n_estimators))
        estimator = XGBClassifier(booster='gblinear', learning_rate=learning_rate, n_estimators=n_estimators)

        valid_score = BoostedClassifier(X_train, y_train, X_valid, y_valid, clf=estimator)

        if valid_score > best_valid_score:
            best_valid_score = valid_score
            best_n_estimators = n_estimators
            best_learning_rate = learning_rate

# Calculer les probabilités prédites par le meilleur estimateur sur l'ensemble de test
estimator = XGBClassifier(booster='gblinear', learning_rate=best_learning_rate,
                          n_estimators=best_n_estimators)
estimator.fit(X_train, y_train)

test_probs = clf.predict_proba(X_test)[:,-1]

print("Best configuration : learning_rate = %.3f,  Nb of estimators = %d" % ( best_learning_rate, best_n_estimators))
score_test = eval_gini(y_test,test_probs)
print("Best score for test set : %0.3f" % score_test)

Learning rate : 2.500 ----- Nb of estimators : 100
Best score for valid set : -0.014
Learning rate : 1.000 ----- Nb of estimators : 100
Best score for valid set : 0.180
Learning rate : 0.500 ----- Nb of estimators : 100
Best score for valid set : 0.179
Learning rate : 0.250 ----- Nb of estimators : 100
Best score for valid set : 0.148
Learning rate : 0.100 ----- Nb of estimators : 100
Best score for valid set : 0.097
Learning rate : 2.500 ----- Nb of estimators : 200
Best score for valid set : -0.014
Learning rate : 1.000 ----- Nb of estimators : 200
Best score for valid set : 0.180
Learning rate : 0.500 ----- Nb of estimators : 200
Best score for valid set : 0.180
Learning rate : 0.250 ----- Nb of estimators : 200
Best score for valid set : 0.174
Learning rate : 0.100 ----- Nb of estimators : 200
Best score for valid set : 0.126
Best configuration : learning_rate = 0.500,  Nb of estimators = 200
Best score for test set : 0.265


In [11]:
params = {"n_estimators": [50, 100, 200], "learning_rate": [1., 0.5, 0.25, 0.1, 0.05, 0.025, 0.01]}

clf = GridSearchCV(AdaBoostClassifier(), params, n_jobs=-1, verbose=1)

clf.fit(X_train, y_train)

print("Best parameters : ")
print(clf.best_params_)

valid_probs = clf.predict_proba(X_valid)[:,-1]
score_valid = eval_gini(y_valid, valid_probs)
print("Best score for valid set : %0.3f" % score_valid)

test_probs = clf.predict_proba(X_test)[:,-1]
score_test = eval_gini(y_test, test_probs)
print("Best score for test set : %0.3f" % score_test)


Fitting 3 folds for each of 21 candidates, totalling 63 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed: 16.5min
[Parallel(n_jobs=-1)]: Done  63 out of  63 | elapsed: 25.9min finished


Best parameters : 
{'learning_rate': 0.5, 'n_estimators': 50}
Best score for valid set : 0.267
Best score for test set : 0.254


In [10]:
params = {"n_estimators": [50, 100, 200], "learning_rate": [1., 0.5, 0.25, 0.1, 0.05, 0.025, 0.01]}

clf = GridSearchCV(AdaBoostClassifier(base_estimator=LogisticRegression()), params, n_jobs=-1, verbose=1)

clf.fit(X_train, y_train)

print("Best parameters : ")
print(clf.best_params_)

valid_probs = clf.predict_proba(X_valid)[:,-1]
score_valid = eval_gini(y_valid, valid_probs)
print("Best score for valid set : %0.3f" % score_valid)

test_probs = clf.predict_proba(X_test)[:,-1]
score_test = eval_gini(y_test, test_probs)
print("Best score for test set : %0.3f" % score_test)

Fitting 3 folds for each of 21 candidates, totalling 63 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed: 28.8min
[Parallel(n_jobs=-1)]: Done  63 out of  63 | elapsed: 46.4min finished


Best parameters : 
{'learning_rate': 1.0, 'n_estimators': 100}
Best score for valid set : 0.258
Best score for test set : 0.248


In [14]:
params = { "learning_rate": [1., 0.5, 0.25, 0.1, 0.05, 0.025, 0.01], "max_depth":[3, 5]}

clf = GridSearchCV(GradientBoostingClassifier(), params, n_jobs=-1, verbose=1)

clf.fit(X_train, y_train)

print("Best parameters : ")
print(clf.best_params_)

valid_probs = clf.predict_proba(X_valid)[:,-1]
score_valid = eval_gini(y_valid, valid_probs)
print("Best score for valid set : %0.3f" % score_valid)

test_probs = clf.predict_proba(X_test)[:,-1]
score_test = eval_gini(y_test, test_probs)
print("Best score for test set : %0.3f" % score_test)

Fitting 3 folds for each of 14 candidates, totalling 42 fits


[Parallel(n_jobs=-1)]: Done  42 out of  42 | elapsed: 56.2min finished


Best parameters : 
{'learning_rate': 0.025, 'max_depth': 3}
Best score for valid set : 0.257
Best score for test set : 0.250


### Boosting + Bagging

La bagging est une méthode relativement simple qui a pour but de réduire la variance. Le principe est le suivant:
1.   Séparer l'ensemble d'entraînement en N ensembles.
2.   Entraîner N classifieurs simples sur les N ensembles.
3.   Produire N sets de prédictions sur l'ensemble de validation avec ces prédicteurs 
4.   Faire la moyenne de ces prédictions

      $H(x) = \dfrac{1}{N} \sum_{t=1}^N h_t(x)$

**QUESTION 3**: Utiliser la méthode du bagging en réutilisant l'algorithme boosté précédant. BONUS si vous obtenez plus de 0.3 de score Gini sur l'ensemble de test.

On ne garde que les deux meilleurs résultats obtenus précédemment, soit XGBClassifier utilisant les arbres de décision ainsi que XGBClassifier avec la régression logistique. Les hyperparamètres choisis sont ceux obtenus avec le grid search au numéro précédent. On fait le tout avec 20 estimateurs. On obtient les résultats suivants :

| Estimateur de base                      | Valid Gini     | Test Gini     |
|-----------------------------------------|----------------|---------------|
| XGBClassifier avec arbres               |     0.261      |    0.259      |
| XGBClassifier avec régression logistique|     0.163      |    0.182      |  

Les résultats sont quelque peu décevants. On ne garde donc que XGBClassifier avec les arbres de décision en choisissant de nouveaux hyperparamètres pour avoir de meilleurs résultats. On utilise cette fois-ci seulement 12 estimateurs pour accélérer l'entraînement. On obtient les résultats suivants :

| Estimateur de base                      |Hyperparamètres        | Valid Gini     | Test Gini     |
|-----------------------------------------|-----------------------|----------------|---------------|
|XGBClassifier avec arbres                | lr=0.05, max_depth=3   |     0.267      |    0.263      | 
| XGBClassifier avec arbres               | lr=0.1, max_depth=3   |     0.277      |    0.274      |
|XGBClassifier avec arbres                | lr=0.5, max_depth=3   |     0.270      |    0.273      | 
|XGBClassifier avec arbres                | lr=1.0, max_depth=3   |     0.250      |    0.264      | 
|XGBClassifier avec arbres                | lr=0.05, max_depth=5   |     0.278      |    0.275      | 
| XGBClassifier avec arbres               | lr=0.1, max_depth=5   |     0.283      |    0.279      |
|XGBClassifier avec arbres                | lr=0.5, max_depth=5   |     0.236      |    0.247      | 

Nous ne sommes donc pas en mesure d'obtenir un score meilleur que 0.279 utilisant le bagging ainsi que le extreme gradient boosting avec des arbres de décision.

In [15]:
# Faire le Bagging de votre clasifieur boosté.

base_estimator = XGBClassifier(booster='gbtree',
                               learning_rate=0.025,
                               max_depth=5)

bagged_clf = BaggingClassifier(base_estimator=base_estimator,
                               n_estimators=20, 
                               n_jobs=-1, 
                               verbose=10)

bagged_clf.fit(X_train, y_train)

valid_probs = bagged_clf.predict_proba(X_valid)[:,-1]
score_valid = eval_gini(y_valid, valid_probs)
print("Best score for valid set : %0.3f" % score_valid)
  
# Faire la moyenne des probabilitées sur l'ensemble de test
test_probs = bagged_clf.predict_proba(X_test)[:,1]

# Calculer le score Gini sur l'ensemble de test
score_test = eval_gini(y_test,test_probs)
print("Best score for test set : %0.3f" % score_test)

Building estimator 1 of 5 for this parallel run (total 20)...
Building estimator 1 of 5 for this parallel run (total 20)...
Building estimator 1 of 5 for this parallel run (total 20)...
Building estimator 1 of 5 for this parallel run (total 20)...
Building estimator 2 of 5 for this parallel run (total 20)...
Building estimator 2 of 5 for this parallel run (total 20)...
Building estimator 2 of 5 for this parallel run (total 20)...
Building estimator 2 of 5 for this parallel run (total 20)...
Building estimator 3 of 5 for this parallel run (total 20)...
Building estimator 3 of 5 for this parallel run (total 20)...
Building estimator 3 of 5 for this parallel run (total 20)...
Building estimator 3 of 5 for this parallel run (total 20)...
Building estimator 4 of 5 for this parallel run (total 20)...
Building estimator 4 of 5 for this parallel run (total 20)...
Building estimator 4 of 5 for this parallel run (total 20)...
Building estimator 4 of 5 for this parallel run (total 20)...
Building

[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed: 10.2min
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed: 10.3min remaining: 10.3min
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed: 10.4min remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed: 10.4min finished
[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed:    0.8s
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:    0.8s remaining:    0.8s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.9s remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.9s finished


Best score for valid set : 0.261


[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed:    0.8s
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:    0.9s remaining:    0.9s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.9s remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.9s finished


Best score for test set : 0.259


In [16]:
# Faire le Bagging de votre clasifieur boosté.

base_estimator = XGBClassifier(booster='gblinear',
                               learning_rate=0.5,
                               n_estimators=200)

bagged_clf = BaggingClassifier(base_estimator=base_estimator,
                               n_estimators=10, 
                               n_jobs=-1, 
                               verbose=10)

bagged_clf.fit(X_train, y_train)

valid_probs = bagged_clf.predict_proba(X_valid)[:,-1]
score_valid = eval_gini(y_valid, valid_probs)
print("Best score for valid set : %0.3f" % score_valid)
  
# Faire la moyenne des probabilitées sur l'ensemble de test
test_probs = bagged_clf.predict_proba(X_test)[:,1]

# Calculer le score Gini sur l'ensemble de test
score_test = eval_gini(y_test,test_probs)
print("Best score for test set : %0.3f" % score_test)

Building estimator 1 of 3 for this parallel run (total 10)...
Building estimator 1 of 3 for this parallel run (total 10)...
Building estimator 1 of 2 for this parallel run (total 10)...
Building estimator 1 of 2 for this parallel run (total 10)...
Building estimator 2 of 3 for this parallel run (total 10)...
Building estimator 2 of 3 for this parallel run (total 10)...
Building estimator 2 of 2 for this parallel run (total 10)...
Building estimator 2 of 2 for this parallel run (total 10)...
Building estimator 3 of 3 for this parallel run (total 10)...
Building estimator 3 of 3 for this parallel run (total 10)...


[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed:  1.1min
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:  1.1min remaining:  1.1min
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:  1.5min remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:  1.5min finished


Best score for valid set : 0.163


[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed:    0.2s
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:    0.3s remaining:    0.3s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.3s remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.3s finished
[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed:    0.2s
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:    0.3s remaining:    0.3s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.3s remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.3s finished


Best score for test set : 0.182


In [24]:
# Faire le Bagging de votre clasifieur boosté.

# trying out new hyperparameters

base_estimator = XGBClassifier(booster='gbtree',
                               learning_rate=0.5,
                               max_depth=5)

bagged_clf = BaggingClassifier(base_estimator=base_estimator,
                               n_estimators=12, 
                               n_jobs=-1, 
                               verbose=10)

bagged_clf.fit(X_train, y_train)

valid_probs = bagged_clf.predict_proba(X_valid)[:,-1]
score_valid = eval_gini(y_valid, valid_probs)
print("Best score for valid set : %0.3f" % score_valid)
  
# Faire la moyenne des probabilitées sur l'ensemble de test
test_probs = bagged_clf.predict_proba(X_test)[:,1]

# Calculer le score Gini sur l'ensemble de test
score_test = eval_gini(y_test,test_probs)
print("Best score for test set : %0.3f" % score_test)

Building estimator 1 of 3 for this parallel run (total 12)...
Building estimator 1 of 3 for this parallel run (total 12)...
Building estimator 1 of 3 for this parallel run (total 12)...
Building estimator 1 of 3 for this parallel run (total 12)...
Building estimator 2 of 3 for this parallel run (total 12)...
Building estimator 2 of 3 for this parallel run (total 12)...
Building estimator 2 of 3 for this parallel run (total 12)...
Building estimator 2 of 3 for this parallel run (total 12)...
Building estimator 3 of 3 for this parallel run (total 12)...
Building estimator 3 of 3 for this parallel run (total 12)...
Building estimator 3 of 3 for this parallel run (total 12)...
Building estimator 3 of 3 for this parallel run (total 12)...


[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed:  6.1min
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:  6.1min remaining:  6.1min
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:  6.1min remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:  6.1min finished
[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed:    0.4s
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:    0.5s remaining:    0.5s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.5s remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.5s finished


Best score for valid set : 0.236


[Parallel(n_jobs=4)]: Done   1 tasks      | elapsed:    0.5s
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:    0.5s remaining:    0.5s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.6s remaining:    0.0s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    0.6s finished


Best score for test set : 0.247


# Pour soumettre les résultats

In [None]:
import csv

with open("submission.csv", "w", newline="") as csvfile:
    csv_writer = csv.writer(csvfile, delimiter=',', quoting=csv.QUOTE_NONE)
    csv_writer.writerow(["id","target"])
    for i, prob in enumerate(test_probs):
        csv_writer.writerow([i,prob])

Excecutez la commande:

`kaggle competitions submit -c porto-seguro-safe-driver-prediction -f submission.csv -m "Message"`