# Challenge Kaggle : Partie 3
### Schwartz Antoine <br> Fournier Amaury

Maintenant que nous disposons de différents modèles apppris et sérialisés, cette dernière partie constite à les assembler afin de tirer parti de chacuns et d'augmenter les performances prédictives.

In [1]:
import pandas as pd
import numpy as np
import random

%matplotlib inline

#path = "/media/3000708/ESD-USB/Kaggle/"
path = "/Vrac/LMOR/"
#path = "C:/Users/S4rge09/Documents/Python Scripts/"
#path  = "C:/Users/afournier/Desktop/kaggle/"

#### On recharge uniquement les dataframe de test

In [2]:
# dftest with features
dftest = pd.read_csv(path + "dftest.csv")

# dftrain_test with features
dftrain_test = pd.read_csv(path + "dftrain.csv")

#### On les gère de la même manière que pour l'apprentissage

In [3]:
# ---- Gérer les NaN

# - Pour Test et Train_Test
#dftest = dftest.fillna(dftest.mean())
#dftrain_test = dftrain_test.fillna(dftrain_test.mean())
dftest = dftest.fillna(-9999)
dftrain_test = dftrain_test.fillna(-9999)

### Sélection et chargement des modèles 

Ici nous chargeons uniquement les meilleurs modèles : 

- Extremmely Random Trees (400 estimateurs, maxdepth = 20, appris sur l'ensemble des features générés) 
- Gradient Boosting (1000 estimateurs, maxdepth = 7, learninrate=0.01, appris sur l'ensemble des features)
- Random forest (100 estimateurs, maxdepth=20, appris sur les 20 meilleurs features pour ce modèle sélectionnées manuellement)
- Modèle de Marshall Palmer créé en Partie 1.

In [4]:
import pickle
dfsample = pd.read_csv(path + "sample_solution.csv")
dfmtrain = pd.read_csv(path + "marshall_palmer_train.csv")
marshalltest = dfsample["Expected"].as_matrix()
marshall = dfmtrain["Expected"].as_matrix()

model_ET = pickle.load(open(path + "ExtraTreesExp30FillNAfulltrain.pkl", "rb"))
model_GB = pickle.load(open(path + "GboostExp30FillNAfulltrain.pkl", "rb"))
model_RF = pickle.load(open(path + "RFExp30FillNAfulltraintop20.pkl", "rb"))

In [5]:
Xtest = dftrain_test.copy()
Xtest.drop("Expected", axis=1, inplace=True)
y_true = dftrain_test["Expected"].as_matrix()

####  top 20 features du random forest

In [6]:
listeTopRF = ['Ref_5x5_90th', 'radardist_km',  'RefComposite_5x5_10th',
              'Zdr_5x5_50th','minutes_past','Zdr_5x5_90th','Ref_5x5_10th',
              'Ref_5x5_50th', 'Max_Ref_5x5_50th','Max_radardist_km',
              'Max_Ref_5x5_90th','Max_Ref_5x5_10th', 'Min_radardist_km', 
              'Std_minutes_past', 'Std_RhoHV_5x5_50th', 'Std_RhoHV_5x5_90th',
              'Std_Zdr_5x5_50th']
XtestRF = Xtest[listeTopRF]

#### performances de chacun

In [7]:
y_pred_RF = model_RF.predict(XtestRF)
y_pred_GB = model_GB.predict(Xtest)
y_pred_ET = model_ET.predict(Xtest)
#ypred_old_ET = model_ET.predict(Xtest)

from sklearn.metrics import mean_absolute_error
print "RF"
print mean_absolute_error(y_true, y_pred_RF)
print "GB"
print mean_absolute_error(y_true, y_pred_GB)
print "ET"
print mean_absolute_error(y_true, y_pred_ET)

# train_test = alldata
#131.592336721 alldata exp > 9.5 top 20 sum miss max, dropNa + fillmean, no log1p   # ---> RF
#131.559235647 alldata exp > 9.5 allfeatures, dropNa + fillmean, no log1p # ---> ExtraTrees

# Expected final  < 30 :
# ExtraTrees : 131.460905078
# Gboost : 131.738229935
# Random Forest (top 17) : 131.633598907

[Parallel(n_jobs=8)]: Done  16 tasks      | elapsed:    2.9s
[Parallel(n_jobs=8)]: Done 100 out of 100 | elapsed:  1.4min finished


RF
131.633598907
GB
131.738229935
ET
131.460905078


On constate que l'ET est légerement plus performant mais on espère que les deux autres puisse apporter aussi de l'information.

### GridSearch Ensembling de nos modèles 

Notre ensembling se base sur une méthode naive qui consiste à pondérer les prédictions de chaque modèle pour optimiser le score final.

In [8]:
max_score = 100000
quadruplet = (0,0,0,0)

for a in range(11) :
    for b in range(11) :
        for c in range(11) :
            for d in range(11) :
                if a+b+c+d == 10 :
                    alpha = (a*1.0)/10
                    beta = (b*1.0)/10
                    gamma = (c*1.0)/10
                    delta = (d*1.0)/10 
                    y_npred = (alpha*y_pred_RF + beta*y_pred_GB + gamma*y_pred_ET + delta*marshall)
                    #y_npred = (alpha*y_pred_RF + beta*y_pred_GB)

                    score = mean_absolute_error(y_true, y_npred)
                    #print quadruplet

                    if score < max_score :
                        max_score = score
                        quadruplet = (alpha,beta,gamma,delta)

print "quadruplet", quadruplet
print "score", max_score

quadruplet (0.0, 0.0, 0.8, 0.2)
score 131.425355989


Malheureusement il s'avère que nos trois modèles ensemblistes apprennent de façon trop similaire, c'est pourquoi le gridsearch attribut le poids maximal au meilleur modèle et ignore les autres. Toutefois marshall palmer semble apporter de l'information.

##### Affinage de la pondération entre ET et Marshall Palmer 

In [9]:
param_grid = {"alpha" : np.arange(0,1.1,0.001), "beta" : np.arange(0,1.1,0.001)[::-1] }
max_score = 100000
couple = (0,0)

print param_grid['alpha']
print param_grid['beta']
for a,b in zip(param_grid['alpha'], param_grid['beta']) :
    y_npred = a*y_pred_ET + b*marshall
    score = mean_absolute_error(y_true, y_npred)
    #print a , b
    #print score 
    #print "\n"
    if score < max_score :
        max_score = score
        couple = (a,b)
print "couple", couple
print "score", max_score


# 131.564575603 alldata exp > 9.5 top 20 sum miss max, dropNa + fillmean, no log1p   # ---> RF
# 131.529703353 alldata exp > 9.5 allfeatures, dropNa + fillmean, no log1p           # ---> ExtraTrees
# avec couple 0.77600000000000002, 0.32300000000000001

# --- RF 
#couple (0.81600000000000006, 0.18300000000000003)
#score 131.533407723

# -- GB 
#couple (0.72399999999999998, 0.275)
#score 131.625438493

# -- ET
#couple (0.88500000000000001, 0.114)
#score 131.386896328

[  0.00000000e+00   1.00000000e-03   2.00000000e-03 ...,   1.09700000e+00
   1.09800000e+00   1.09900000e+00]
[  1.09900000e+00   1.09800000e+00   1.09700000e+00 ...,   2.00000000e-03
   1.00000000e-03   0.00000000e+00]
couple (0.88500000000000001, 0.214)
score 131.386896328


#### Prediction final du test

In [11]:
# -- Prediction de notre model --
pred = model_ET.predict(dftest)

In [12]:
# -- final pred
pred_f = couple[0]*pred + couple[1]*marshalltest

In [None]:
dftest.index -= 1
result = np.c_[dftest.index, pred_f]
submit = pd.DataFrame(result, columns=['Id', 'Expected'])
submit.Id = submit.Id.astype(int)
submit.to_csv(path + "Submit.csv" , index=False)