# Méthode de boosting (regression)

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import copy
from math import log,sqrt,exp

import random
from sklearn.model_selection import train_test_split  
from sklearn.preprocessing import StandardScaler 
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error, mean_absolute_error
from itertools import cycle
from sklearn.model_selection import GridSearchCV

# Chargement et mise en forme des données

In [2]:
PATH = '../requetes/'
data = pd.read_csv(PATH+'requetes_total.csv')
data.head()

Unnamed: 0,avatar_id,city,date,language,mobile,hotel_id,price,stock,group,brand,parking,pool,children_policy
0,29822,madrid,2,bulgarian,0,127,69,0,Independant,Independant,1,0,0
1,29822,madrid,2,bulgarian,0,941,67,0,Independant,Independant,1,0,0
2,29822,madrid,2,bulgarian,0,186,129,0,Yin Yang,Ardisson,1,0,0
3,29822,madrid,2,bulgarian,0,633,148,2,Morriott International,CourtYord,0,0,0
4,29822,madrid,2,bulgarian,0,241,126,0,Boss Western,J.Halliday Inn,1,0,0


In [3]:
# transformation des données en fonction de celles qu'on a identifié dans le notebook d'analyse des données de requetes
data["price_mod"]=data["price"].map(lambda x: log(x))
data["stock_mod"]=data["stock"].map(lambda x: sqrt(x))
data_mod = data.drop(["price","stock"],axis=1)

In [None]:
# ajout de la colonne order request
order = np.zeros(len(data_mod.index),dtype=int)

# référence pour le début = la première ligne du dataframe
ref_line = 0
order[0] = 1

for line in range(0,len(data_mod.index)):
    request_line = data_mod.loc[line,['avatar_id','city','date']].to_numpy()
    request_ref_line = data_mod.loc[ref_line,['avatar_id','city','date']].to_numpy() 
    if (request_line == request_ref_line).all() :
        order[line] = order[ref_line]
    else : 
        order[line] = order[ref_line]+1
        ref_line = line

In [None]:
data_mod['order_requests'] = order
data_mod.head()

In [None]:
# définition des variables quntitatives et qualitatives : 
var_quant = ["date","stock_mod"]
var_quali = ["city","language", "mobile","group","brand","parking","pool","children_policy"]

for var in var_quali :
    data_mod[var]=pd.Categorical(data_mod[var],ordered=False)

data_mod.dtypes

In [None]:
# Renormalisation des variables quantitatives : 
scalerX = StandardScaler()  
scalerX.fit(data_mod[var_quant])  
X_quant = pd.DataFrame(scalerX.transform(data_mod[var_quant]),columns=var_quant)

# Séparation de l'output :
Y = data_mod["price_mod"].to_numpy()

In [None]:
# transformation des variables qualitatives en dummy variables
X_dum = pd.get_dummies(data_mod[var_quali])
X = pd.concat([data_mod[['order_requests','avatar_id','hotel_id']],X_quant,X_dum],axis=1)

# Fonctions utiles

In [None]:
def plot_pred_obs(Y_true,Y_pred): 
    plt.figure(figsize=(5,5))
    plt.plot(Y_true,Y_pred,"o",markersize = 0.4)
    plt.xlabel("prix prédit")
    plt.ylabel("prix observé")
    plt.show()

def scatterplot_residuals(Y_true,Y_pred):
    plt.figure(figsize=(5,5))
    plt.plot(Y_pred,Y_true-Y_pred,"o",markersize = 0.4)
    plt.xlabel(u"valeurs prédites")
    plt.ylabel(u"Résidus")
    plt.title("Residus pénalité L1 Lasso") 
    plt.hlines(0,0,3)
    plt.show()
    
def histogram_residuals(Y_true,Y_pred):
    plt.figure(figsize=(10,5))
    plt.hist(Y_true-Y_pred,bins=20)
    plt.title('histogramme des résidus')
    plt.xlabel('valeur des résidus')
    plt.ylabel('nombre de prédictions')
    plt.show()

def download_pred_Xtest(Y_pred,name_model) :
    Y_pred['index'] = Y_pred.index
    Y_pred = Y_pred[['index','price']]
    Y_pred.to_csv('../predictions/'+name_model+'.csv',index=False)

# Préparation des données de test 

In [None]:
# chargement des données de test : 
data_test = pd.read_csv('../Test_set_analysis/test_set_complet.csv')
data_test.dtypes

# apply the same transformations on the test set : 
# qualitative variables to categorical 
for var in var_quali :
    data_test[var]=pd.Categorical(data_test[var],ordered=False)
    
# recentrer et renormaliser les variables : 
data_test["stock_mod"]=data_test["stock"].map(lambda x: sqrt(x))
data_test_mod = data_test.drop(["stock"],axis=1)
scaler_test = StandardScaler()  
scaler_test.fit(data_test_mod[var_quant])
X_test_quant = pd.DataFrame(scaler_test.transform(data_test_mod[var_quant]),columns=var_quant)

# transformation des variables qualitatives en dummy variables
X_test_dum = pd.get_dummies(data_test_mod[var_quali])
X_test = pd.concat([data_test_mod[['order_requests']],X_test_quant,X_test_dum],axis=1)

# Séparation des données en échantillon d'entrainement et validation

In [None]:
# 20% des avatar_ID seront dans le test set et 80% dans le train set
random.seed(0)
alpha = 0.8
ind_user = np.unique(data_mod['avatar_id'])
n = len(ind_user)
random.shuffle(ind_user)
ind_train = ind_user[:int(alpha*n)]
ind_vali = ind_user[int(alpha*n):]

# sélection des lignes correspondantes dans le dataframe 
X_train = X.loc[X['avatar_id'].isin(ind_train)]
X_vali = X.loc[X['avatar_id'].isin(ind_vali)]

# séparation de la colonne des outputs en training et validation : 
indX_train = X.index[X['avatar_id'].isin(ind_train)]
Y_train = Y[indX_train]
indX_vali = X.index[X['avatar_id'].isin(ind_vali)]
Y_vali = Y[indX_vali]

# suppression des ID maintenant qu'on en a plus besoin
X_train.drop(['avatar_id','hotel_id'],axis=1,inplace=True)
X_vali.drop(['avatar_id','hotel_id'],axis=1,inplace=True)

# Construction du modèle de boosting et analyse des résultats