<h1> <a> Apprentissage </a> </h1>
<h2> Pour le Challenge Axa </h2>
<h3> Axa Graduate Program Février 2017 </h3>
<i> Author : Paul Tran </i> <br>


--------------

# Sommaire
1. [Préliminaires](#préliminaires)
    1. [Introduction](#introduction)
    2. [Imports](#imports)
    3. [Chargement de la donnée](#load)
2. [Data Management](#management)
    1. [Train, Validation & Test](#split)
    2. [Description de la donnée](#description)
3. [Machine Learning](#ML)
    1. [Méthode Linéaire](#linéaire)
        1. [Régression Linéaire simple](#RF)
        2. [Lasso](#ET)
    2. [Méthodes ensemblistes](#ensemblistes)
        1. [Random Forest](#RF)
        2. [Extra Trees](#ET)
        3. [XG Boost](#XGB)
4. [Interprétation des modèles](#interprétation)
5. [Soumission des résultats](#submit)

------------

# Préliminaires  <a name="préiliminaires"></a>

- ## Introduction :  <a name="introduction"></a>

Dans cette partie nous allons gérer l'approche naïve de l'apprentissage avec très peu de modifications sur la donnée. Nous tenterons par la suite d'effectuer un travail plus réfléchi sur la donnée dans l'optique d'obtenir un meilleur score.

- ## Précautions

Ce notebook prend beaucoup de temps à être exécuté dans son intégralité du fait des apprentissages successifs qui sont lancés. Il est conseiller de ne pas l'exécuter et d'observer directement les résultats des cellules.

- ## Imports des librairies utiles <a name="imports"></a>

In [None]:
import os
import math
import pandas as pd
pd.set_option('display.max_columns', 300)
import numpy as np


#pour la partie data viz
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
#import bokeh
#from bokeh.io import output_notebook
#output_notebook()

from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn import preprocessing
from sklearn.metrics import r2_score

- ## Chargement de la donnée  <a name="load"></a>

In [None]:
df = pd.read_excel('../data/synthese.xlsx')
aux = pd.read_excel('../data/extrait_2.xlsx')

In [None]:
#drop useless
to_drop = ["annee","GME_ATIH","chapitre","GN","RGME","sortie",u'Médecin',"dep_totale"]
target = ["nb_rhs"]
target_related = [ u'nb_rhs', u'nb_jours_total', u'nb_jours_WE']
rename_mapper = {"date_2":"date_entree",
                 "jour":"jour_entree",
                 "mois":"mois_entree",
                 "annee":"annee_entree"}
df = df.drop(to_drop,axis=1)
aux= aux.drop(["date"], axis = 1).rename(rename_mapper, axis=1)

#cast date type such as date
aux["date_entree"]= pd.to_datetime(aux["date_entree"])

#left join on N_ordre
data = pd.merge(df,aux,on="N_ordre",how="left")

#fill na to 0 for the 
practiciens = [u'Animateur', u'Assistant de service social',
                 u'Autre intervenant',                 u'Diététicien',
              u'Éducateur spécialisé',           u'Éducateur sportif',
                u'Enseignant général',                    u'Ergonome',
                    u'Ergothérapeute',                   u'Infirmier',
           u'Masseurkinésithérapeute',        u'Moniteur d’autoécole',
                u'Moniteur éducateur',               u'Orthophoniste',
                  u'Orthoprothésiste',                  u'Osteopathe',
                       u'Psychologue',             u'Psychomotricien']

for col in practiciens:
    data[col] = data[col].fillna(0)


In [None]:
#Nous n'observons que le début de la table pour s'assurer qu'elle s'est bien chargée.
data.head()

# I. Data Engineering  <a name="management"></a>

- ## Feature engineering

In [None]:
target = ["nb_rhs"]

In [None]:
#Features

#create age instead at time of entry
data["Age"] = data["annee_entree"] - data["annee_naissance"]

#create indicator for u'nb_jours_WE'
def weekend_indicator(x):
    """input : x scalar"""
    if x < 0.8:
        return 0
    if x>=0.8 and x<1.8:
        return 1
    if x>=1.8:
        return 2
data["weekend_indicator"] = (data["nb_jours_WE"]/data["nb_rhs"]).apply(lambda x :weekend_indicator(x))

#add nombre d'intervenants
def nb_inter(row,practiciens):
    """
    Input:
    row : row of dataframe
    practiciens : métier
    """
    count = 0
    for col in practiciens:
        if row[col]>0:
            count+=1
    return count
data["Nb_intervenants"] = data.apply(lambda row : nb_inter(row,practiciens),axis=1)

data['Total_interventions'] = data[practiciens].sum(axis=1)

#eliminate those who have Nb_intervenants = 0
data = data[data["Nb_intervenants"]>0].reset_index(drop = True)
data = data[data["nb_rhs"]<39].reset_index(drop = True)
#data = data[data[target]>0].reset_index(drop = True)

#regroup by postal county
#CP est un type entier reformater en string avec 0 devant
data['CP'] = data['CP'].apply(lambda x : str(x).zfill(5))
data['CP_departement']=data['CP'].apply(lambda x : x[0:2])

In [None]:
#threshold and discretize 

#Creation de la variable “chapitre” simplifiee : 
#Correlation la plus grande avec “NbSemaines”
def simple_chap(chapitre):
    if "08" in chapitre:
        return 0
    if "01" in chapitre:
        return 1
    else:
        return 2
data["T_chapitre_discretized"] = data["T_chapitre"].apply(lambda x : simple_chap(x))


thresh_practiciens = {
     u'Animateur' : 909,
     u'Assistant de service social':243,
     u'Autre intervenant':227,
     u'Di\xe9t\xe9ticien':81,
     u'\xc9ducateur sp\xe9cialis\xe9':913,
     u'\xc9ducateur sportif':781,
     u'Enseignant g\xe9n\xe9ral':1888,
     u'Ergonome':258,
     u'Ergoth\xe9rapeute':781,
     u'Infirmier':411,
     u'Masseurkin\xe9sith\xe9rapeute':1419,
     u'Moniteur d\u2019auto\xe9cole':338,
     u'Moniteur \xe9ducateur':1715,
     u'Orthophoniste':945,
     u'Orthoproth\xe9siste':84,
     u'Osteopathe':194,
     u'Psychologue':364,
     u'Psychomotricien':577
}

#Discretise for each practicien:
for col in practiciens:
    thresh = thresh_practiciens[col]
    data[u"%s_discretized"%col]  = data[col].apply(lambda x : 1 if x>0 and x<=thresh else (2 if x>thresh else 0))

In [None]:
#mean et mediane
GN_Avg_Med = pd.read_csv("../data/aux/GN_Avg_Med.csv",sep=",",encoding="utf8")
data = pd.merge(data,GN_Avg_Med,on="T_GN",how="left")
left_cols = [x+"_x" for x in GN_Avg_Med.columns if x != "T_GN"]

Chapitre_Avg_Med = pd.read_csv("../data/aux/Chapitre_Avg_Med.csv",sep=",",encoding="utf8").rename({"T_Chapitre":
                                                                                                  "T_chapitre"},axis=1)
data = pd.merge(data,Chapitre_Avg_Med,on="T_chapitre",how="left")
left_cols = left_cols + [x+"_y" for x in Chapitre_Avg_Med.columns if x != "T_chapitre"]

In [None]:
def summarize(df):
    #summary
    summary =  pd.DataFrame()
    cols = list(df.columns)
    summary["column"] =  cols
    summary["type"] = list(df[cols].dtypes)
    summary["nb_missing_values"] = list(df[cols].isnull().sum())
    summary["nb_missing_values%"] = summary["nb_missing_values"]/len(df)*100
    summary["nb_unique"]= [df[x].dropna().nunique() for x in summary["column"]]
    summary.set_index("column",inplace=True)
    return summary


In [None]:
summarize(data)

- ## Features selection

In [None]:
useless = []+practiciens
option =["dep_sup","dep_physique","CP","jour_entree","mois_entree",
        "annee_entree","weekend_indicator","T_GN"]
keep = ["N_ordre","type hosp",
        "T_chapitre_discretized","sexe","Age","weekend_indicator",
        "entree","Nb_intervenants","dep_sup","dep_physique"]+left_cols+target

keep_ = []
for col in practiciens:
    keep_.append(u"%s_discretized"%col)
    
data = data[keep+keep_]

In [None]:
list_categorical = ["T_chapitre_discretized","sexe","entree"]
data = pd.get_dummies(data, columns=list_categorical,drop_first=True)

In [None]:
cols_dummies = [x for x in data.columns if any(y in x for y in list_categorical) ]
keep = [x for x in keep if x not in list_categorical + target+["N_ordre"]]+cols_dummies

In [None]:
data.shape

- ## Train, Validation & Test set  <a name="split"></a>

***La donnée étant déjà traité de façon la plus simple depuis le premier Notebook, nous nous contentons pour notre première approche "naïve" de simplement séparer notre base de train afin de pouvoir évaluer le modèle d'apprentissage.***

***Nous la considérons "naïve", dans la mesure où nous nous sommes seulement contentés de remplacer les NaN par la moyenne des valeurs existantes (pour les variables quantitatives). Le traitement des données est indispensable afin que le modèle d'apprentissage accepte le format des données en entrée.***

- ## Data split

In [None]:
from sklearn.model_selection import train_test_split
y = data[target]
X = data.drop(target,axis=1)
X0_train,X0_test,y0_train,y0_test = train_test_split(X,\
                                                y,\
                                                train_size=26000,\
                                                random_state=42)


In [None]:
#check target distribution between train and test just for good measure
#add data type column info in order to identify origin, i.e. train or test
temp = pd.DataFrame()
temp[target[0]] = y0_train.values.astype(float).flatten().tolist() + y0_test.values.astype(float).flatten().tolist()
temp['type_data']=['train'] * len(y0_train) + ['test']*len(y0_test) #because of simple concat


try:
    plt.figure(figsize=(8,8),dpi=100)
    facet = sns.FacetGrid(temp, hue="type_data",aspect=5.5) #palette="Blues_d"
    facet.map(sns.kdeplot,target[0],shade= True)
    plt.title('Distributions de %s' %("nb_jours_semaine"))
    facet.add_legend()
    plt.show()
except Exception as e:
    print(e)

In [None]:
#write train test on file
pd.concat([X0_train,X0_test],axis=1).to_csv("../data/train_v0.csv",encoding="utf8")
pd.concat([y0_train,y0_test],axis=1).to_csv("../data/test_v0.csv",encoding="utf8")


In [None]:
X0_train = X0_train.drop(["N_ordre"],axis=1)
X0_test = X0_test.drop(["N_ordre"],axis=1)

# II. Machine learning  <a name="ML"></a>

Here comes the juicy part!

***Avant d'entrer dans le coeur du machine learning, il est nécessaire de définir une métrique d'évaluation.***

In [None]:
from sklearn.metrics import mean_squared_error
from math import sqrt

# RMSE :root-mean-square error
def RMSE(y_true, y_pred): 
    return sqrt(mean_squared_error(y_true, y_pred))


# Mean Absolute Percentage Error
def mape_error(y_true, y_pred): 
    return np.mean(np.abs((y_true - y_pred) / y_true)) * 100

# Mean Absolute  Error
def mae_error(y_true, y_pred): 
    return np.mean(np.abs((y_true - y_pred)))

***Nous allons scinder la base de train afin de pouvoir évaluer le modèle, par l'intermédiaire de la méthode de validation croisée.***

In [None]:
import sklearn
from sklearn.cross_validation import train_test_split, KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn import grid_search
from sklearn.model_selection import GridSearchCV

- ## A. Méthode Linéaire  <a name="linéaire"></a>
    - Approche la plus naïve

In [None]:
%%time
#Apprentissage:
lr = LinearRegression()
lr.fit(X0_train, y0_train)

#Prédiction:
y_lr = lr.predict(X0_test)

In [None]:
#Evaluation du modèle :
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_lr))
print("La moyenne absolue d'erreur est de %s.") %(mae_error(y0_test.values, y_lr))
print('Variance score: %.2f' % r2_score(y0_test.values, y_lr))

- ## A. Méthode Linéaire  <a name="linéaire"></a>
    - Approche polynomiale et cross validation

In [None]:
#poly = PolynomialFeatures(2)
def k_fold_cross_val_poly(folds, degrees, X, y):
    #fonction qui calcule les scores RMSE pour K-fold et d degré polynomial
    n = len(X)
    kf = KFold(n, n_folds=folds,random_state=42)
    poly = PolynomialFeatures(2)
    X_ = poly.fit_transform(X[keep])
    X_ = pd.DataFrame(X_)
    X = pd.concat([X_,X[keep_]],axis=1)
    #creation du dico qui retient les scores RMSE
    kf_dict = dict([("fold_%s" % i,[]) for i in range(1, folds+1)])
    fold = 0
    for train_index, test_index in kf:
        fold += 1
        #print "Fold: %s" % fold
        X_train, X_test = X.ix[train_index], X.ix[test_index]
        y_train, y_test = y.ix[train_index], y.ix[test_index]
        # Incrémente le dégré polynomial
        for d in range(1, degrees+1):
            #print "Degree: %s" % d
            # Model & fit
            polynomial_features = PolynomialFeatures(
                degree=d, include_bias=False
            )
            linear_regression = LinearRegression()
            model = Pipeline([
                ("linear_regression", linear_regression)
            ])
            model.fit(X_train, y_train)
            # Calcul du RMSE
            y_pred = model.predict(X_test)
            test_rmse = RMSE(y_test, y_pred)
            #print test_rmse
            kf_dict["fold_%s" % fold].append(test_rmse) #stockage dans le dict
        # Transform en np.array pour le moyenner
        kf_dict["fold_%s" % fold] = np.array(kf_dict["fold_%s" % fold])
    #Dans le dico
    kf_dict["avg"] = np.zeros(degrees)
    for i in range(1, folds+1):
        kf_dict["avg"] += kf_dict["fold_%s" % i]
    kf_dict["avg"] /= float(folds)
    return kf_dict

def plot_test_error_curves_kf(kf_dict, folds, degrees):
    #fonction qui permet de visualiser les résultats calculés par la fonction ci-dessus
    fig, ax = plt.subplots(figsize=(10, 10))
    ds = range(1, degrees+1)
    for i in range(1, folds+1):
        ax.plot(ds, kf_dict["fold_%s" % i], lw=2, label='Test RMSE - Fold %s' % i)
    ax.plot(ds, kf_dict["avg"], linestyle='--', color="black", lw=3, label='Avg Test RMSE')
    ax.legend(loc=0)
    ax.set_xlabel('Degree of Polynomial Fit')
    ax.set_ylabel('RMSE')
    #ax.set_ylim([0.0, 4.0])
    fig.set_facecolor('white')
    plt.show()

In [None]:
# Plot la courbe d'erreur k-fold CV set
folds = 5
degrees = 3
kf_dict = k_fold_cross_val_poly(folds, degrees, X, y)
plot_test_error_curves_kf(kf_dict, folds, degrees)

In [None]:
print('Le régresseur polynomial atteint une valeur moyenne minimale RMSE : %s pour un degré %s'
      %(kf_dict['avg'].min(),kf_dict['avg'].argmin()+1))

- > *** Intreprétation: on décide de choisir un degré polynomial de 2. ***

In [None]:
# Sélection du model:

lr = LinearRegression() #init
polynomial_features = PolynomialFeatures(degree=2, include_bias=False)
X_ = polynomial_features.fit_transform(X[keep])
X_ = pd.DataFrame(X_)
X_ = pd.concat([X_,X[keep_]],axis=1)

X0_train_,X0_test_,y0_train_,y0_test_ = train_test_split(X_,\
                                                y,\
                                                train_size=26000,\
                                                random_state=42)

# Création du pipeline
pipe = Pipeline([
        ("linear_regression", lr)])#("polynomial_features", polynomial_features)
grid = dict(linear_regression__normalize=[False,True]) #espace de paramètre de la régression
                                                        # choix sur la normalisation
model = GridSearchCV(pipe,param_grid=grid,cv=8)
model.fit(X0_train_, y0_train_)
#predict
y_lr = model.predict(X0_test_)

In [None]:
#Evaluation du modèle :
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test_, y_lr))
print("La moyenne absolue d'erreur est de %s.") %(mae_error(y0_test_.values, y_lr))
print("Meilleur model utilisant %s." % ( model.best_params_))
print('Variance score: %.2f' % r2_score(y0_test_.values, y_lr))

- ## A-bis. Méthode Linéaire Lasso  
    - Approche polynomiale et cross validation

In [None]:
from sklearn.linear_model import LassoCV
from sklearn.linear_model import Lasso
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

- > ***Interprétation : on obtient des résultats remarquables avec la régression lasso sur donnée polynomiale d'ordre 2.***

- ## B. Méthode par plus proche voisin

In [None]:
from sklearn.neighbors import KNeighborsRegressor
knn=KNeighborsRegressor()

n_neighbors=[2,3,5,7,12,15,20,30,40]
leaf_size=[7,8,10,20]
param_grid = dict(n_neighbors=n_neighbors, leaf_size=leaf_size)

model = GridSearchCV(knn, param_grid, n_jobs=-1, cv=5,scoring='neg_mean_squared_error') #neg_mean_squared_error pour
                                                                                        #sklearn > 0.18
model.fit(X0_train, y0_train)
10
#Prédiction:
y_knn = model.predict(X0_test)
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_knn))
print("La moyenne absolue d'erreur est de %s ") %(mae_error(y0_test.values, y_knn))
print("Meilleur model utilisant %s." % ( model.best_params_))
print('Variance score: %.2f' % r2_score(y0_test.values, y_knn))

- > ***Interprétations : cette méthode est à ignorer...***

- ## C. Méthodes non-linéaires : méthodes ensemblistes  <a name="ensemblistes"></a>

***Ici, nous allons faire usage de méthodes non-linéaires d'apprentissage automatique, et nous verrons quelle est la meilleure méthode en termes de performances (notamment en termes de taux d'erreur et de vitesse d'exécution).***

In [None]:
from sklearn.ensemble import RandomForestRegressor, RandomForestRegressor, GradientBoostingRegressor 
from sklearn.cross_validation import KFold
from sklearn.externals import joblib
#from xgboost.sklearn import XGBRegressor
from sklearn.metrics import mean_squared_error
import xgboost as xgb

***Commençons par tester la méthode de régression des fôrets aléatoires.***  <a name="RF"></a>

In [None]:
%%time
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(n_estimators=300, max_depth=7, n_jobs=-1, max_features=None,criterion='mae',
                               min_samples_split=5,random_state=42)
rf.fit(X0_train, y0_train)
y_rf = rf.predict(X0_test)
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_rf))
print("La moyenne absolue d'erreur est de %s") %(mae_error(y0_test.values, y_rf))
print('Variance score: %.2f' % r2_score(y0_test.values, y_rf))

- > ***Interprétations : résultats vraiment décevants, on va chercher à tuner un peu le model.***

- **GridSearch et Cross Validation**

In [None]:
%%time
rf = RandomForestRegressor(criterion='mae', max_features=None,random_state=42)
n_estimators = [100, 150, 200,300,400]
max_depth = [2, 4, 6, 8]
min_samples_split=[2,4,6,8]
param_grid = dict(max_depth=max_depth, n_estimators=n_estimators, min_samples_split=min_samples_split)
model = GridSearchCV(rf, param_grid, n_jobs=-1, cv=5,scoring='neg_mean_squared_error') #neg_mean_squared_error pour
                                                                                        #sklearn > 0.18
model.fit(X0_train, y0_train)
y_rf = model.predict(X0_test)
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_rf))
print("La moyenne absolue d'erreur est de %s") %(mae_error(y0_test.values, y_rf))
print('Variance score: %.2f' % r2_score(y0_test.values, y_lr))

In [None]:
print("Meilleur model utilisant %s." % ( model.best_params_))

- > ***Nous obtenons une MAPE d'environ 53 % et un RMSE de 3.4. C'est légèrement mieux, mais encore une fois cela reste horrible.***

***Cette fois, testons toujours la méthode de régression extra-trees, mais cette fois, avec un nombre d'estimateurs plus important (porté à 300), et une profondeur maximale bien plus réduite (profondeur maximale de 7).***

In [None]:
%%time
from sklearn.ensemble import ExtraTreesRegressor

et = ExtraTreesRegressor(n_estimators=300, criterion='mae',max_depth=7,n_jobs=-1,
                         min_samples_split=5,max_features=None)
et.fit(X0_train, y0_train)
y_et = et.predict(X0_test)
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_et))
print("La moyenne absolue d'erreur est de %s") %(mae_error(y0_test.values, y_et))
print('Variance score: %.2f' % r2_score(y0_test.values, y_et))

- **GridSearch et Cross Validation**

print("Meilleur model utilisant %s." % ( model.best_params_))

***Pour le XG Boost: ***<a name="XGB"></a>

In [None]:
%%time
xg = xgb.XGBRegressor(max_depth=3, n_estimators=300, learning_rate=0.05).fit(X0_train, y0_train)
y_xgb = xg.predict(X0_test)
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_xgb))
print("La moyenne absolue d'erreur est de %s") %(mae_error(y0_test.values, y_xgb))
print('Variance score: %.2f' % r2_score(y0_test.values, y_xgb))

In [None]:
%%time
xg = xgb.XGBRegressor(seed=42,nthread=-1)
n_estimators = [100, 150, 200,300,400]
max_depth = [2, 4, 6, 8]
param_grid = dict(max_depth=max_depth, n_estimators=n_estimators)
model = GridSearchCV(xg, param_grid, cv=5,scoring='neg_mean_squared_error') # n_jobs=-1,
model.fit(X0_train, y0_train)
y_xgb = model.predict(X0_test)
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_xgb))
print("La moyenne absolue d'erreur est de %s") %(mae_error(y0_test.values, y_xgb))
print('Variance score: %.2f' % r2_score(y0_test.values, y_xgb))

In [None]:
means = model.cv_results_['mean_test_score']
stds = model.cv_results_['std_test_score']
params = model.cv_results_['params']
#for mean, stdev, param in zip(means, stds, params):
#    print("%f (%f) with: %r" % (mean, stdev, param))
# plot results
plt.figure(figsize = (12,12))
scores = np.array(means).reshape(len(max_depth), len(n_estimators))
for i, value in enumerate(max_depth):
    plt.plot(n_estimators, scores[i], label='depth: ' + str(value))
plt.legend()
plt.xlabel('n_estimators')
plt.ylabel('neg_mean_squared_error')
plt.title("Profondeur v.s. Nombre d'estimateurs")

In [None]:
%%time
xg = xgb.XGBRegressor(seed=42,nthread=-1)
n_estimators = [100, 150, 200,300,400]
max_depth = [2, 4, 6, 8]
learning_rate=[0.05,0.075]
param_grid = dict(max_depth=max_depth, n_estimators=n_estimators,learning_rate=learning_rate)
model = GridSearchCV(xg, param_grid, cv=5,scoring='neg_mean_squared_error') # n_jobs=-1,
model.fit(X0_train, y0_train)
y_xgb = model.predict(X0_test)
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_xgb))
print("La moyenne absolue d'erreur est de %s") %(mae_error(y0_test.values, y_xgb))
print('Variance score: %.2f' % r2_score(y0_test.values, y_xgb))

In [None]:
print("Meilleur model utilisant %s." % ( model.best_params_))

**Test du XGBoost avec des features polynomiales :**

L'intuition voudrait que le fait de dériver des features polynomiales à partir de la donnée brute soit innéficace pour les méthodes de types ensemblistes.

In [None]:
%%time
xg = xgb.XGBRegressor(seed=42,nthread=-1)

#feature polynomial d'ordre 2
polynomial_features = PolynomialFeatures(degree=2, include_bias=False)
X0_train_ = polynomial_features.fit_transform(X0_train)
X0_test_ = polynomial_features.fit_transform(X0_test)

#param
n_estimators = [100, 150, 200,300,400]
max_depth = [2, 4, 6, 8]
learning_rate=[0.05,0.075]
param_grid = dict(max_depth=max_depth, n_estimators=n_estimators,learning_rate=learning_rate)

#GridsearchCV
model = GridSearchCV(xg, param_grid, cv=5,scoring='neg_mean_squared_error') # n_jobs=-1,
model.fit(X0_train_, y0_train)
y_xgb = model.predict(X0_test_)

print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_xgb))
print("La moyenne absolue d'erreur est de %s") %(mae_error(y0_test.values, y_xgb))
print("Meilleur model utilisant %s." % ( model.best_params_))
print('Variance score: %.2f' % r2_score(y0_test.values, y_xgb))

- > *** Interprétation : notre intuition s'est révélée être correcte, dériver des features polynomiales n'apportent rien au modèle ensembliste.***

# Visualisation de l'arbre de décision

# III. Evaluation des modèles retenus  <a name="interprétation"></a>

** On étudie les deux modèles aux plus grande performances**

- - ### Modèle Linéaire simple :

In [None]:
#interprétations des coéfficients
def pretty_print_linear(coefs, names = None, sort = False,filter_=True,threshold=0.005):
    if names == None:
        names = ["X%s" % x for x in range(len(coefs))]
    lst = zip(coefs, names)
    if sort:
        lst = sorted(lst,  key = lambda x:-np.abs(x[0]))
    
    df=pd.DataFrame()
    df['coef'],df['var'] = map(list, zip(*lst))
    if filter_:
        df = df[abs(df['coef'])>threshold]
        df.reset_index(inplace=True,drop=True)
    return df
 


In [None]:
#Reprise du modèle linéaire
lr = LinearRegression() #init
polynomial_features = PolynomialFeatures(degree=2, include_bias=False)
X_ = polynomial_features.fit_transform(X)
#X0_test_ = polynomial_features.fit_transform(X0_test)

#grid = dict(linear_regression__normalize=[False,True]) #espace de paramètre de la régression
                                                        # choix sur la normalisation
#model = GridSearchCV(pipe,param_grid=grid,cv=8)
lr.fit(X_, y)

In [None]:
#Reconstruire le tableau avec le nom des variables
target_feature_names = ['x'.join(['{}^{}'.format(pair[0],pair[1]) for pair in tuple if pair[1]!=0]) for tuple in [zip(X.columns,p) for p in polynomial_features.powers_]]
output_df = pd.DataFrame(X_, columns = target_feature_names)

In [None]:
print "Linear model:"
pretty_print_linear(lr.coef_,names = list(output_df.columns),sort=True,threshold=0.01)

In [None]:
importance_frame = pretty_print_linear(lr.coef_,names = list(output_df.columns),sort=True,threshold=0.01)
#importance_frame.sort_values(by = 'Importance', inplace = True)
importance_frame[0:50].plot(kind = 'barh', x = 'var', figsize = (12,12), color = 'orange')

- > ***La lecture des coefficients est peu satisfante***

- - ### Modèle linéaire Lasso

In [None]:
lasso = Lasso(random_state=42)
alphas = np.logspace(-4, -0.5, 30)

rmse = list()
MAPE = list()
lr = list()

n_folds = 3

for alpha in alphas:
    lasso.alpha = alpha
    lasso.fit(X0_train_,y0_train)
    lr.append(lasso)
    y_lr=lasso.predict(X0_test_)
    rmse.append(RMSE(y0_test, y_lr))
    MAPE.append(mape_error(y0_test, y_lr))
rmse, MAPE = np.array(rmse), np.array(MAPE)

In [None]:
#alphas qui minimise la RMSE:
alpha=alphas[rmse.argmin()]
#Evaluation du modèle :
best_regressor = lr[rmse.argmin()]

importance_frame = pretty_print_linear(best_regressor.coef_,names = list(output_df.columns),sort=True,threshold=0.0006)
#importance_frame.sort_values(by = 'Importance', inplace = True)
importance_frame[0:50].plot(kind = 'barh', x = 'var', figsize = (12,12), color = 'orange')

- > ***La lecture des coefficients est bien plus satisfaisante avec la régression Lasso, les interprétations à valeurs métiers ont ici un sens.***

- - ### Modèle XGBoost :

- ## Plot des features selon leur importance

***Dans cette étape d'évaluation du modèle, nous allons représenter sous la forme d'un diagramme horizontal les variables qui contribuent le plus au modèle, à l'aide de la méthode XGBoost.***

In [None]:
%%time
dtrain = xgb.DMatrix(X0_train,label=y0_train)
dtest = xgb.DMatrix(X0_test)

params = {'booster':'gbtree', 'eta':0.2, 'max_depth':4, 'subsample':0.8, 'n_estimators':400,
                 'silent':1, 'objective':'reg:linear', "seed":42, 'nhtread':12,
                 'eval_metric':'rmse','colsample_bytree':0.7}
    
xg = xgb.train(params, dtrain, 400)
y_xg = xg.predict(dtest)
print("L'erreur type (RMSE) est de %s") %(RMSE(y0_test, y_xg))
print("La moyenne absolue de pourcentage d'erreur est de %s %%") %(mape_error(y0_test, y_xg))

In [None]:
importances = xg.get_score()
importance_frame = pd.DataFrame({'Importance': list(importances.values()),'Feature': list(importances.keys())})
importance_frame.sort_values(by = 'Importance', inplace = True)
importance_frame[0:75].plot(kind = 'barh', x = 'Feature', figsize = (12,12), color = 'orange')

# IV. Soumission des résultats  <a name="submit"></a>

In [None]:
path='../models/Approche Naive/'