In [36]:
from sklearn.utils import shuffle
from utils.data import prepare_data
from utils.gini import eval_gini, gini_xgb
import numpy as np
import pandas as pd
import xgboost as xgb

In [27]:
# Simple classifiers
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.naive_bayes import BernoulliNB, GaussianNB, MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis

# Ensemble methods (bagging and/or boosting)
from xgboost import XGBClassifier
from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier
from sklearn.ensemble import BaggingClassifier, VotingClassifier, RandomForestClassifier

# for hyperparameter search
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from sklearn.pipeline import Pipeline

# Laboratoire 2

Comme vu en classe, la classification est une part importante de la science des données. Elle consiste à apprendre à classer des échantillons et de par la suite prédire les classes de nouveaux échantillons. 

Durant ce laboratoire, vous allez travailler sur un concours Kaggle dont le but est de prédire la probabilité qu'un conducteur fasse une réclamation d'assurance auto durant l'année suivante. En voyant ce problème, la tâche semble être celle d'une regression et non d'un classification, cependant, avec les données disponibles, c'est effectivement une classification. En effet, les cibles ne sont pas des réels mais bien des entiers naturels puisque l'assureur peut simplement noter si le client a oui ou non fait une réclamation durant l'année d'après. Mais je vous conseille d'aller sur https://www.kaggle.com/c/porto-seguro-safe-driver-prediction pour avoir plus d'information.

Vous l'aurez donc compris, il faut entraîner un prédicteur probabilistique pour avoir des probabilités durant la prédiction (ex: Regression Logistique, Bayes Naif, etc. et non SVM).

Votre première tâche sera donc d'entraîner un classifieur sur l'ensemble d'entraînement et de prédire des probabilités sur l'ensemble de test.

### Preparation des données

Pour ce laboratoiree le but est surtout d'étudier la classification. La préparation des données est donc faite pour vous. 

In [3]:
data_path='./input'

train = pd.read_csv(data_path+'/train.csv')
test = pd.read_csv(data_path+'/test.csv')

prep = prepare_data(train,test)
train, targets, test = prep(True,False)

0 duplicates dropped.

Under-sampling...
Rate to undersample records with target=0: 0.34043569687437886
Number of records with target=0 after undersampling: 195246

Checking missing values...
Variable ps_ind_02_cat has 103 records (0.05%) with missing values
Variable ps_ind_04_cat has 51 records (0.02%) with missing values
Variable ps_ind_05_cat has 2256 records (1.04%) with missing values
Variable ps_reg_03 has 38580 records (17.78%) with missing values
Variable ps_car_01_cat has 62 records (0.03%) with missing values
Variable ps_car_02_cat has 2 records (0.00%) with missing values
Variable ps_car_03_cat has 148367 records (68.39%) with missing values
Variable ps_car_05_cat has 96026 records (44.26%) with missing values
Variable ps_car_07_cat has 4431 records (2.04%) with missing values
Variable ps_car_09_cat has 230 records (0.11%) with missing values
Variable ps_car_11 has 1 records (0.00%) with missing values
Variable ps_car_14 has 15726 records (7.25%) with missing values
In total

## Classifieur classique

**QUESTION 1:** Entraînez un classifieur classique sur l'ensemble X_train et retournez le score Gini pour cet ensemble, puis prédisez les probabilités sur l'ensemble de test. Pour avoir les meilleurs résultats possibles (score gini), faites une recherche d'hyper-paramètres (ex:GridSearchCV) et **montrez votre travail**.

In [4]:
X, y = train.as_matrix()[:,1:], targets.as_matrix()
X, y = shuffle(X,y)
cutoff = int(len(X)*0.9)

X_train_valid, y_train_valid = X[:cutoff], y[:cutoff]
X_test, y_test = X[cutoff:], y[cutoff:]
X_sub = test.as_matrix()[:,1:]

del X, y, train, targets, test

In [5]:
# Initialiser votre classifieur
clf = LogisticRegression()            # 0.264
# clf = SGDClassifier(loss='log')       # 0.186
# clf = SGDClassifier(loss='modified_huber')         # 0.035
# clf = BernoulliNB()                   # 0.215
# clf = GaussianNB()                    # 0.220
# clf = MultinomialNB()                 # 0.225
# clf = DecisionTreeClassifier()        # 0.035         lol
# clf = MLPClassifier()                 # 0.210
# clf = LinearDiscriminantAnalysis()    # 0.276
# clf = QuadraticDiscriminantAnalysis() # 0.165

# Entraîner le classifieur
clf.fit(X_train_valid,y_train_valid)

# Calculer les probabilitées prédites sur l'ensemble de test
probs = clf.predict_proba(X_test)[:,-1]

# Calculer le score Gini
score_test = eval_gini(y_test,probs)
print("Best score for test set : %0.3f" % score_test)

Best score for test set : 0.262


## Méthodes d'ensembles

Les méthodes d'ensembles sont très populaires dans le machine learning pour donner de très bons résultats rapidement avec des classifieurs simples. Dans la communauté Kaggle, particulièrement, ces méthodes sont souvent utilisées et ne nécessitent pas des capacités de computation très élevées contraîrement aux réseaux de neurones.

Le principe général est simple: combiner plusieurs classifieurs simples afin d'obtenir un classifieur qui généralise mieux. 

Pour rappel, l'erreur de généralisation peut se décomposer en deux termes: 


*   Le biais: si la famille de fonction considérée ne contient pas la fonction idéale
*   La variance: variabilité dans la focntion trouvée due à la variabilité de l'ensemble de données

La deuxième partie du laboratoire consite donc à se familiariser avec ces méthodes et de déterminer si elles aident pour cette tâche.

### Boosting

Le boosting a principalement pour but de réduire le biais. Sont principe est le suivant:


1.   Entraîner un classifieur simple $h_1$ sur l'ensemble de donnée initial et prédire les classes.
2.   Déterminer les échantillons mal classés et entraîner un autre classifieur $h_{t+1}$ en augmentant l'importance de ces échantillons dans le calcul de la perte.
3.   Combiner tous les classifieurs avec des poids différents ($\alpha_t$) pour chaque classifieurs pour obtenir les prédictions.

  Pour une prédiction binaire {-1,1}:      $H(x) = sign(\sum_{t=1}^T \alpha_t h_t(x))$

4.   Répéter étapes 2, 3 N fois.



**QUESTION 2**: Reprenez le classifieur précédent en rajoutant du boosting et comparez les résultats. 

HINT: Extreme Gradient Boosting semble fonctionner particulièrement bien pour ce problème.

In [12]:
def BoostedClassifier(X_train_, y_train_, X_valid_, y_valid_, xgboosting=False):
    # Initialiser le classifieur Boosté
    clf = XGBClassifier()                    # valid : 0.281, test : 0.285
#     clf = AdaBoostClassifier()               # valid : 0.259, test : 0.261
#     clf = AdaBoostClassifier(algorithm='SAMME')  # valid : 0.206, test : 0.217
#     clf = GradientBoostingClassifier()       # valid : 0.277, test = 0.285
#     clf = XGBClassifier(booster='gblinear')    # valid : 0.102, test = 0.115    

    clf = GridSearchCV()


#     if xgboosting:
        
#         params = {'eta': 0.1, 'seed':0, 'subsample': 0.8, 'colsample_bytree': 0.8, 
#              'objective': 'binary:logistic', 'max_depth':3, 'min_child_weight':1}
        
#         clf = XGBClassifier(objective=gini_xgb)
#         train_dmat = xgb.DMatrix(X_train_)
#         valid_dmat = xgb.DMatrix(X_valid_)
#         test_dmat = xgb.DMatrix(X_test)

        # Entraîner le classifieur avec la métrique gini_xgb (si-possible)
    clf.fit(X_train_, y_train_)

    # Calculer les probabilités prédites par le meilleur estimateur sur l'ensemble de validation
    valid_probs = clf.predict_proba(X_valid_)[:,-1]

    # Calculer le score Gini pour les probabilités valid_probs
    score_valid = eval_gini(y_valid_,valid_probs)
    print("Best score for valid set : %0.3f" % score_valid)

    # Calculer les probabilités prédites par le meilleur estimateur sur l'ensemble de test
    test_probs = clf.predict_proba(X_test)[:,-1]
    
    return test_probs, score_valid

In [13]:
# Séparer X_train_valid, y_train_valid en X_train, X_valid et y_train, y_valid avec un split de 0.9 (90% des données dans train et 10% dans test)
cutoff = int(len(X_train_valid)*0.9)
X_train, y_train = X_train_valid[:cutoff], y_train_valid[:cutoff]
X_valid, y_valid = X_train_valid[cutoff:], y_train_valid[cutoff:]

# Appeler le BoostedClassifier
test_probs, score_valid = BoostedClassifier(X_train, y_train, X_valid, y_valid, xgboosting=True)

# Calculer le score Gini pour les probabilités test_probs
score_test = eval_gini(y_test,test_probs)
print("Best score for test set : %0.3f" % score_test)

Best score for valid set : 0.250
Best score for test set : 0.268


### Boosting + Bagging

La bagging est une méthode relativement simple qui a pour but de réduire la variance. Le principe est le suivant:
1.   Séparer l'ensemble d'entraînement en N ensembles.
2.   Entraîner N classifieurs simples sur les N ensembles.
3.   Produire N sets de prédictions sur l'ensemble de validation avec ces prédicteurs 
4.   Faire la moyenne de ces prédictions

      $H(x) = \dfrac{1}{N} \sum_{t=1}^N h_t(x)$

**QUESTION 3**: Utiliser la méthode du bagging en réutilisant l'algorithme boosté précédant. BONUS si vous obtenez plus de 0.3 de score Gini sur l'ensemble de test.

In [66]:
# Faire le Bagging de votre clasifieur boosté.

bagged_clf = BaggingClassifier(base_estimator=XGBClassifier())
bagged_clf.fit(X_train, y_train)
  
# Faire la moyenne des probabilitées sur l'ensemble de test
test_probs = bagged_clf.predict_proba(X_test)

# Calculer le score Gini sur l'ensemble de test
score_test = eval_gini(y_test,test_probs)
print("Best score for test set : %0.3f" % score_test)

KeyboardInterrupt: 

# Pour soumettre les résultats

In [None]:
import csv

with open("submission.csv", "w", newline="") as csvfile:
    csv_writer = csv.writer(csvfile, delimiter=',', quoting=csv.QUOTE_NONE)
    csv_writer.writerow(["id","target"])
    for i, prob in enumerate(test_probs):
        csv_writer.writerow([i,prob])

Excecutez la commande:

`kaggle competitions submit -c porto-seguro-safe-driver-prediction -f submission.csv -m "Message"`

### TODO

* evaluer `XGBClassifier` avec `gini_xgb`
* utiliser `XGBClassifier` dans `BaggingClassifier`
* ~~Ajuster hyperparametres pour maximiser les resultats sur le test set~~

In [None]:
est = Pipeline([('model', XGBClassifier())])

param_grid = {'model__min_child_weight': [1],
              'model__subsample': [0.8],
              'model__max_depth': [3, 5, 7],
              'model__learning_rate': [0.1, 0.05, 0.01, 0.005],
              'model__n_estimators': [200]
              }
param_grid = {}

# Normalized Gini Scorer
gini_scorer = make_scorer(eval_gini, greater_is_better=True,
                          needs_proba=True)

clf = GridSearchCV(estimator=est,
                   scoring=gini_scorer,
                   param_grid=param_grid,
                   verbose=10,
                   n_jobs=-1,
                   iid=True,
                   refit=True,
                   cv=2)

# Fit Grid Search Model
clf.fit(X_train, y_train)
print("Best score: %0.3f" % clf.best_score_)
print("Best parameters set:")
best_parameters = clf.best_estimator_.get_params()
for param_name in sorted(param_grid.keys()):
    print("\t%s: %r" % (param_name, best_parameters[param_name]))

# Get best model
# best_model = model.best_estimator_

# Fit model with best parameters optimized for normalized_gini
# best_model.fit(X_test, y_test)


In [None]:
clf = XGBClassifier()
clf.get_params().keys()

Best score: -0.004


In [31]:
test = XGBClassifier()

print(test.get_params())

{'base_score': 0.5, 'booster': 'gbtree', 'colsample_bylevel': 1, 'colsample_bytree': 1, 'gamma': 0, 'learning_rate': 0.1, 'max_delta_step': 0, 'max_depth': 3, 'min_child_weight': 1, 'missing': None, 'n_estimators': 100, 'n_jobs': 1, 'nthread': None, 'objective': 'binary:logistic', 'random_state': 0, 'reg_alpha': 0, 'reg_lambda': 1, 'scale_pos_weight': 1, 'seed': None, 'silent': True, 'subsample': 1}


In [33]:
# Calculer les probabilitées prédites sur l'ensemble de test
probs = clf.predict_proba(X_test)[:,-1]

# Calculer le score Gini
score_test = eval_gini(y_test,probs)
print("Best score for test set : %0.3f" % score_test)

Best score for test set : 0.274


In [40]:


clf = XGBClassifier()

X_train_xgb = xgb.DMatrix(X_train)
X_test_xgb = xgb.DMatrix(X_test)

clf.fit(X_train, y_train, eval_metric=gini_xgb)

# Calculer les probabilitées prédites sur l'ensemble de test
probs = clf.predict_proba(X_test_xgb)[:,-1]

# Calculer le score Gini
score_test = gini_xgb(y_test, probs)
print("Best score for test set : %0.3f" % score_test)

TypeError: can not initialize DMatrix from DMatrix

In [41]:
print(probs)

[ 0.0939306   0.09702575  0.11598822 ...,  0.07982267  0.10536036
  0.04472698]


In [44]:
print(X_test_xgb)

TypeError: 'DMatrix' object is not subscriptable

In [None]:
base_estimator = MLPClassifier()

boosted_clf = AdaBoostClassifier(base_estimator=base_estimator, verbose=10)

boosted_clf.fit(X_train, y_train)

    # Calculer les probabilités prédites par le meilleur estimateur sur l'ensemble de validation
    valid_probs = clf.predict_proba(X_valid_)[:,-1]

    # Calculer le score Gini pour les probabilités valid_probs
    score_valid = eval_gini(y_valid_,valid_probs)
    print("Best score for valid set : %0.3f" % score_valid)

# Calculer les probabilités prédites par le meilleur estimateur sur l'ensemble de test
test_probs = boosted_clf.predict_proba(X_test)[:,-1]

score_test = eval_gini(y_test, test_probs)
print("Best score for valid set : %0.3f" % score_test)
