# Projet Name
* Description

# 0.0 Imports

## 0.0 Libs

In [1]:
# Importação das bibliotecas

import numpy as np
import pandas as pd
import inflection

import seaborn as sns
# from matplotlib import pyplot as plt


# Pré-processamento
from sklearn.preprocessing  import RobustScaler, MinMaxScaler, LabelEncoder, OneHotEncoder, OrdinalEncoder
from category_encoders.count import CountEncoder

from sklearn import metrics           as mt
from sklearn import model_selection   as ms

####### Algoritmos para Classificação e Regressão
# from sklearn.neighbors      import KNeighborsClassifier
# from sklearn.ensemble       import RandomForestClassifier
# from xgboost                import XGBClassifier

# from sklearn.ensemble       import RandomForestRegressor

# from sklearn                import linear_model as lm
# from sklearn.linear_model   import LogisticRegression, LinearRegression, Lasso

from sklearn.linear_model   import LogisticRegression


####### Algoritmos só para Classificação
# from sklearn.naive_bayes  import MultinomialNB
# from sklearn.naive_bayes  import CategoricalNB
# from mixed_naive_bayes    import MixedNB


# --
# Lib para não mostrar warnings de melhorias futuras (sugestão de novos comandos) das bibliotecas
# import warnings
# warnings.filterwarnings('ignore')

# from boruta                 import BorutaPy

# from IPython.display        import Image

## 0.1 Help Functions

In [2]:
# Funções criadas para evitar retrabalho


def data_description(df):
    print('Variables:\n\n{}'.format(df.dtypes), end='\n\n')
    print('===============================')
    print('Number of rows {}'.format(df.shape[0]), end='\n\n')
    print('Number of columns {}'.format(df.shape[1]), end='\n\n')
    print('===============================')
    print('NA analysis'.format(end='\n') )
    for i in df.columns:
        print('column {}: {} {}'.format(i,df[i].isna().any(), df[i].isna().sum() ) )
    print('===============================')
    print('Unique values for each columns'.format(end='\n') )
    for i in df.columns:
        print('column {}: {}'.format(i,df[i].unique() ) )






## 0.2 Load Data

In [3]:
# Coleta de dados do diretório /data, do banco de dados, ou outro lugar especificado abaixo

train = pd.read_csv('../data/train.csv')

test = pd.read_csv('../data/test.csv')


In [4]:
train.shape, test.shape

((72159, 15), (48106, 14))

In [5]:
train.sample(5).T

Unnamed: 0,53041,30657,21562,44628,44545
id,99364,61548,113191,51497,63861
Classificação do hotel,4 estrelas,4 estrelas,4 estrelas,4 estrelas,4 estrelas
Meses da reserva até o check-in,8,2,1,3,1
Número de pernoites reservadas,4,3,2,4,14
Número de hospedes,2.0,3.0,2.0,2.0,3.0
Regime de alimentação,Café da manha,Café da manha,Café da manha,Café da manha,Café da manha
Nacionalidade,Belgium,Netherlands,Spain,Italy,China
Forma de Reserva,Agência,Agência,Agência,Agência,Agência
Já se hospedou anterioremente,Não,Não,Não,Não,Não
Tipo do quarto reservado,Amethyst,Amethyst,Amethyst,Amethyst,Green Emerald


In [6]:
test.sample(5).T

Unnamed: 0,38073,34787,9385,38841,17771
id,46457,14942,112111,52277,77264
Classificação do hotel,4 estrelas,5 estrelas,4 estrelas,4 estrelas,4 estrelas
Meses da reserva até o check-in,1,8,6,11,1
Número de pernoites reservadas,4,6,3,3,3
Número de hospedes,2.0,2.0,1.0,2.0,1.0
Regime de alimentação,Sem refeicao,"Café da manha, almoco e jantar",Café da manha,Café da manha,Café da manha
Nacionalidade,United States,Spain,France,Austria,Spain
Forma de Reserva,Agência,B2B,Agência,Agência,B2B
Já se hospedou anterioremente,Não,Não,Não,Não,Sim
Tipo do quarto reservado,Amethyst,Amethyst,Amethyst,Amethyst,Amethyst


## 0.3 Adjust Columns Names

In [7]:
# Concatenate train and test together
all_data = pd.concat([train, test])

In [8]:
## Alteração nome das variábeis

all_data.columns = [c.replace(' ', '_') for c in all_data.columns]

cols_old = all_data.columns

snakecase = lambda x: inflection.underscore(x)

cols_new = list(map(snakecase, cols_old))

#rename
all_data.columns = cols_new

# Split back into train and test
train = all_data[all_data['id'].isin(train['id'])]
test = all_data[all_data['id'].isin(test['id'])].drop('reserva_cancelada', axis=1)


In [9]:
train.columns

Index(['id', 'classificação_do_hotel', 'meses_da_reserva_até_o_check_in',
       'número_de_pernoites_reservadas', 'número_de_hospedes',
       'regime_de_alimentação', 'nacionalidade', 'forma_de_reserva',
       'já_se_hospedou_anterioremente', 'tipo_do_quarto_reservado',
       'reserva_feita_por_agência_de_turismo', 'reserva_feita_por_empresa',
       'reserva_com_estacionamento', 'reserva_com_observações',
       'reserva_cancelada'],
      dtype='object')

## 0.4 Split data "Production"

In [10]:
## Separação de dados que o modelo só utilizará no momento do teste, simulação de dados da produção (que nunca viu)

# features = df_test.drop(columns=['id', 'Reserva Cancelada'], axis=1)
# label = df_test['Reserva Cancelada']

# X, X_prod, y, y_prod = ms.train_test_split(features, label, split_size=0.2, random_state=42)


## 0.5 Split data Train & Validation

In [11]:
# Separação de dados de treino e validação

#X_train = train.drop(columns=['id', 'reserva_cancelada'])
#y_train = train['reserva_cancelada']

#X_train, X_val, y_train, y_val = ms.train_test_split(X_train, y_train, test_size=0.2, random_state=42)



In [12]:
# X_train.shape

# 1.0 Data Description

In [13]:
## Backup do Dataframe

df1 = train.copy()

In [14]:
df1.sample(8).T

Unnamed: 0,60389,14388,69639,16543,46527,44059,52863,62230
id,107267,86955,42936,62068,54991,59816,44466,64977
classificação_do_hotel,4 estrelas,4 estrelas,4 estrelas,4 estrelas,4 estrelas,4 estrelas,4 estrelas,4 estrelas
meses_da_reserva_até_o_check_in,1,1,1,3,13,16,283,5
número_de_pernoites_reservadas,3,1,2,6,2,2,2,2
número_de_hospedes,2.0,3.0,2.0,2.0,2.0,2.0,1.0,2.0
regime_de_alimentação,Café da manha,Café da manha,Café da manha,Café da manha,Café da manha,Café da manha,Café da manha,Café da manha
nacionalidade,Russia,Spain,Norway,Romania,Spain,Spain,Spain,Spain
forma_de_reserva,Agência,Agência,Agência,Agência,Agência,Agência,Agência,Agência
já_se_hospedou_anterioremente,Não,Não,Não,Não,Não,Não,Não,Não
tipo_do_quarto_reservado,Green Emerald,Amethyst,Amethyst,Amethyst,Amethyst,Amethyst,Amethyst,Amethyst


In [15]:
df1[df1['número_de_hospedes'].isna()].T

Unnamed: 0,8358,36627,64865
id,40887,40899,41412
classificação_do_hotel,4 estrelas,4 estrelas,4 estrelas
meses_da_reserva_até_o_check_in,1,1,1
número_de_pernoites_reservadas,2,2,7
número_de_hospedes,,,
regime_de_alimentação,Café da manha,Café da manha,Café da manha
nacionalidade,Spain,Spain,Spain
forma_de_reserva,B2B,B2B,B2B
já_se_hospedou_anterioremente,Não,Não,Não
tipo_do_quarto_reservado,Blue Sapphire,Blue Sapphire,Blue Sapphire


In [16]:
df1.columns

Index(['id', 'classificação_do_hotel', 'meses_da_reserva_até_o_check_in',
       'número_de_pernoites_reservadas', 'número_de_hospedes',
       'regime_de_alimentação', 'nacionalidade', 'forma_de_reserva',
       'já_se_hospedou_anterioremente', 'tipo_do_quarto_reservado',
       'reserva_feita_por_agência_de_turismo', 'reserva_feita_por_empresa',
       'reserva_com_estacionamento', 'reserva_com_observações',
       'reserva_cancelada'],
      dtype='object')

## 1.1 Data Dimension

In [17]:
df1.shape

(72159, 15)

## 1.2 Data Types and Changes

In [18]:
df1.dtypes

id                                        int64
classificação_do_hotel                   object
meses_da_reserva_até_o_check_in           int64
número_de_pernoites_reservadas            int64
número_de_hospedes                      float64
regime_de_alimentação                    object
nacionalidade                            object
forma_de_reserva                         object
já_se_hospedou_anterioremente            object
tipo_do_quarto_reservado                 object
reserva_feita_por_agência_de_turismo     object
reserva_feita_por_empresa                object
reserva_com_estacionamento               object
reserva_com_observações                  object
reserva_cancelada                       float64
dtype: object

## 1.3 Check NA's

In [19]:
df1.isna().sum()

id                                         0
classificação_do_hotel                     0
meses_da_reserva_até_o_check_in            0
número_de_pernoites_reservadas             0
número_de_hospedes                         3
regime_de_alimentação                      0
nacionalidade                           1093
forma_de_reserva                           0
já_se_hospedou_anterioremente              0
tipo_do_quarto_reservado                   0
reserva_feita_por_agência_de_turismo       0
reserva_feita_por_empresa                  0
reserva_com_estacionamento                 0
reserva_com_observações                    0
reserva_cancelada                          0
dtype: int64

## 1.4 Data Descriptive

In [20]:
df1.describe()

Unnamed: 0,id,meses_da_reserva_até_o_check_in,número_de_pernoites_reservadas,número_de_hospedes,reserva_cancelada
count,72159.0,72159.0,72159.0,72156.0,72159.0
mean,60093.687787,7.145928,15.824152,14.258773,0.370418
std,34726.028006,25.85233,98.248479,96.446167,0.48292
min,1.0,1.0,0.0,0.0,0.0
25%,30013.5,1.0,2.0,2.0,0.0
50%,60080.0,3.0,3.0,2.0,0.0
75%,90301.0,6.0,4.0,2.0,1.0
max,120265.0,311.0,1172.0,1153.0,1.0


### 1.4.1 Numerical Attributes

In [21]:
## Divisão de features numericas

# num_attr = df1.select_dtypes(include=['int64', 'float64'])

In [22]:
## Tendência Central (média e mediana)

# ct1 = pd.DataFrame(num_attr.apply(np.mean)).T
# ct2 = pd.DataFrame(num_attr.apply(np.median)).T


## Dispersão (std, min, max, range, skew, kurtosis)

# d1 = pd.DataFrame(num_attr.apply(np.std)).T
# d2 = pd.DataFrame(num_attr.apply(np.min)).T
# d3 = pd.DataFrame(num_attr.apply(np.max)).T
# d4 = pd.DataFrame(num_attr.apply(lambda x: x.max() - x.min())).T
# d5 = pd.DataFrame(num_attr.apply(lambda x: x.skew())).T
# d6 = pd.DataFrame(num_attr.apply(lambda x: x.kurtosis())).T

## Concatenando os resultados

# num_attr_result = pd.concat([d2, ct1, d3, d4, ct2, d1, d5, d6])
# num_attr_result.columns = ['Atributos', 'Min', 'Media', 'Max', 'Range', 'Mediana', 'Desvio_Padrao', 'Skew', 'Kurtosis']
# num_attr_result

### 1.4.2 Categorical Attributes

In [23]:
# cat_attr = df1.select_dtypes(exclude=['int64', 'float64', 'datetime64[ns]'])

In [24]:
## Mostra os valores únicos das variáveis categóricas

# cat_attr.apply(lambda x: x.unique().shape[0])



# 2.0 Feature Engineering 

In [25]:
# Backup do Dataframe

df2 = df1.copy()

## 2.1 Mindmap

In [26]:
## Mostra imagem

# Image('img/imagem.png')

## 2.2 Hypothesis

In [27]:
# Criação de hipóteses (brainstorm)


## 2.3 Feature Engineering 

In [28]:
## Criação das features para tentar responder as questões levantadas


# 3.0 Data Filtering

In [29]:
# Backup do Dataframe

df3 = df2.copy()

In [30]:
## Caso seja necessária a retirada de alguma feature que não tenha relevância

# 4.0 EDA

In [31]:
# Backup do Dataframe

df4 = df3.copy()

## 4.1 Univariate Analysis

## 4.2 Bivariate Analysis


## 4.3 Multivariate Analysis

In [32]:
## Gráfico Mapa de calor - mostra a correlação entre as features (qt mais perto de 1, mais relacionado está)

#correlation = num_attributes.corr(method='pearson')

#sns.heatmap(correlation, annot=True);

# 5.0 Data Preparation

In [33]:
# Backup do Dataframe

df5 = df4.copy()

## 5.1 Standardization

## 5.2 Rescaling

In [34]:
## Métodos para Rescala

# rs = RobustScaler()
# mms = MinMaxScaler()

## Exemplo
# df5['feature'] = rs.fit_transform(df5[['feature']].values)



## 5.3 Encoder

In [35]:
le = LabelEncoder()

### 5.3.1 Encoding

In [36]:
## Label Encoding

df5['já_se_hospedou_anterioremente']         = le.fit_transform(df5['já_se_hospedou_anterioremente'])
df5['reserva_feita_por_agência_de_turismo']  = le.fit_transform(df5['reserva_feita_por_agência_de_turismo'])
df5['reserva_feita_por_empresa']             = le.fit_transform(df5['reserva_feita_por_empresa'])
df5['reserva_com_estacionamento']            = le.fit_transform(df5['reserva_com_estacionamento'])
df5['forma_de_reserva']                      = le.fit_transform(df5['forma_de_reserva'])
df5['classificação_do_hotel']                = le.fit_transform(df5['classificação_do_hotel'])

In [37]:
## Ordinal Encoding (dar peso)

## regime_de_alimentação
regime_alim_dict = {'Sem refeicao'                   : 0,
                    'Café da manha'                  : 1,
                    'Café da manha e jantar'         : 2,
                    'Café da manha, almoco e jantar' : 3}
df5['regime_de_alimentação'] = df5['regime_de_alimentação'].map(regime_alim_dict)

## tipo_do_quarto_reservado
tp_quarto_dict = {
'Moonstone'     :1,
'Peridot'       :2,
'Topaz'         :3,
'Garnet'        :4,
'Tanzanite'     :5, 
'Amethyst'      :6,
'Green Emerald' :7,
'Pink Sapphire' :8,
'Blue Sapphire' :9,   
'Red Ruby'      :10 
}
df5['tipo_do_quarto_reservado'] = df5['tipo_do_quarto_reservado'].map(tp_quarto_dict)

## reserva_com_observações
reserv_obs_dict = {'Nenhuma':0, '1 a 3':1, 'Mais de 3':2}
df5['reserva_com_observações'] = df5['reserva_com_observações'].map(reserv_obs_dict)


In [38]:
## Category Encoders

count = CountEncoder(cols=['nacionalidade'], return_df=True) 
df5['nacionalidade'] = count.fit_transform(df5['nacionalidade'])


In [39]:
#num_attributes['class_num_noites'] = num_attributes['número_de_pernoites_reservadas'].apply(lambda x:
#                        1 if x <= 2     else
#                        2 if 2 < x <= 3 else
#                        3 if 3 < x <= 4 else
#                        4 if 4 < x <= 7 else
#                        5)

# num_attributes['class_mes'] = num_attributes['meses_da_reserva_até_o_check_in'].apply(lambda x:
#                        1 if x < = 1    else
#                        2 if 1 < x <= 3 else
#                        3 if 3 < x <= 6 else
#                        4 if 6 < x <=13 else
#                        5)

In [40]:
df5.sample(10).T

Unnamed: 0,5893,34321,65980,18807,65325,7484,66572,19877,67851,322
id,40990.0,79557.0,59763.0,51732.0,28832.0,79463.0,103690.0,67047.0,71790.0,42577.0
classificação_do_hotel,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
meses_da_reserva_até_o_check_in,1.0,8.0,16.0,11.0,13.0,1.0,3.0,6.0,4.0,1.0
número_de_pernoites_reservadas,6.0,3.0,2.0,4.0,3.0,4.0,5.0,4.0,4.0,3.0
número_de_hospedes,2.0,3.0,2.0,137.0,2.0,2.0,3.0,2.0,2.0,2.0
regime_de_alimentação,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,1.0,1.0
nacionalidade,34212.0,6251.0,34212.0,34212.0,12.0,34212.0,34212.0,2230.0,2061.0,6251.0
forma_de_reserva,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
já_se_hospedou_anterioremente,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
tipo_do_quarto_reservado,6.0,6.0,6.0,6.0,6.0,6.0,7.0,6.0,6.0,6.0


In [41]:
df5.dtypes

id                                        int64
classificação_do_hotel                    int32
meses_da_reserva_até_o_check_in           int64
número_de_pernoites_reservadas            int64
número_de_hospedes                      float64
regime_de_alimentação                     int64
nacionalidade                             int64
forma_de_reserva                          int32
já_se_hospedou_anterioremente             int32
tipo_do_quarto_reservado                  int64
reserva_feita_por_agência_de_turismo      int32
reserva_feita_por_empresa                 int32
reserva_com_estacionamento                int32
reserva_com_observações                   int64
reserva_cancelada                       float64
dtype: object

In [42]:
df5.isna().sum()

id                                      0
classificação_do_hotel                  0
meses_da_reserva_até_o_check_in         0
número_de_pernoites_reservadas          0
número_de_hospedes                      3
regime_de_alimentação                   0
nacionalidade                           0
forma_de_reserva                        0
já_se_hospedou_anterioremente           0
tipo_do_quarto_reservado                0
reserva_feita_por_agência_de_turismo    0
reserva_feita_por_empresa               0
reserva_com_estacionamento              0
reserva_com_observações                 0
reserva_cancelada                       0
dtype: int64

In [43]:
df5[df5['número_de_hospedes'].isna()].T

Unnamed: 0,8358,36627,64865
id,40887.0,40899.0,41412.0
classificação_do_hotel,0.0,0.0,0.0
meses_da_reserva_até_o_check_in,1.0,1.0,1.0
número_de_pernoites_reservadas,2.0,2.0,7.0
número_de_hospedes,,,
regime_de_alimentação,1.0,1.0,1.0
nacionalidade,34212.0,34212.0,34212.0
forma_de_reserva,1.0,1.0,1.0
já_se_hospedou_anterioremente,0.0,0.0,0.0
tipo_do_quarto_reservado,9.0,9.0,9.0


In [44]:
df5 = df5.fillna(0)

In [46]:
# Aletração da variável para inteiro 
df5['reserva_cancelada'] = df5['reserva_cancelada'].astype(int)
df5['número_de_hospedes'] = df5['número_de_hospedes'].astype(int)

In [47]:
df5.dtypes

id                                      int64
classificação_do_hotel                  int32
meses_da_reserva_até_o_check_in         int64
número_de_pernoites_reservadas          int64
número_de_hospedes                      int32
regime_de_alimentação                   int64
nacionalidade                           int64
forma_de_reserva                        int32
já_se_hospedou_anterioremente           int32
tipo_do_quarto_reservado                int64
reserva_feita_por_agência_de_turismo    int32
reserva_feita_por_empresa               int32
reserva_com_estacionamento              int32
reserva_com_observações                 int64
reserva_cancelada                       int32
dtype: object

### 5.3.2 Response Variable Transformation

### 5.3.3 Nature Transformation

## 5.4 Validation Preparation

# 6.0 Feature Selection

In [48]:
# Backup do Dataframe

df6 = df5.copy()

In [None]:
## Drop das features que não serão utilizadas

# X_train = df6.drop(['col_index','var_resposta'],axis=1)
# X_validation = X_validation.drop('var_resposta',axis=1)

## 6.1 Feature Selector (boruta)

In [None]:
# X_train_n = X_train.values
# y_train_n = y_train.values.ravel() 

## Define RandomForest

# rf = RandomForestClassifier(n_jobs=-1, n_estimators=500)
# boruta = BorutaPy(rf, n_estimators='auto', random_state=42).fit(X_train_n, y_train_n)
# cols_selected = boruta.support_.tolist()


# X_train_fs = X_train
# cols_selected_boruta = X_train_fs.iloc[:, cols_selected].columns.to_list()

# cols_not_selected_boruta = list(np.setdiff1d(X_train_fs.columns, cols_selected_boruta) )
# cols_selected_boruta

## 6.2 Feature Importance (RandomForest)

In [None]:
## Lista de features ordenadas por importância

# Define
# rf = RandomForestClassifier(random_state=42, n_jobs=-1, n_estimators=500).fit(X_train, y_train)
# feature_importance_sorted = rf.feature_importances_.argsort()

## Exibição
# sns.barplot(y=rf.feature_names_in_[feature_importance_sorted], x=rf.feature_importances_[feature_importance_sorted] );
# df_feature_importance_rf = pd.DataFrame( {'feature'    :rf.feature_names_in_[feature_importance_sorted],
#                                           'importance' :rf.feature_importances_[feature_importance_sorted] } )
# df_feature_importance_rf.sort_values(by='importance', ascending=False)

## 6.3 Feature Importance (XGBoost)

In [None]:
## Lista de features ordenadas por importância

# xgbc = XGBClassifier(random_state=42, n_jobs=-1, n_estimators=500).fit(X_train, y_train)
# feature_importance_sorted = xgbc.feature_importances_.argsort()

## Exibição
# sns.barplot(y=xgbc.feature_names_in_[feature_importance_sorted], x=xgbc.feature_importances_[feature_importance_sorted] );
# df_feature_importance_xgbc = pd.DataFrame( {'feature':xgbc.feature_names_in_[feature_importance_sorted],
#                                             'importance': xgbc.feature_importances_[feature_importance_sorted] } )
# df_feature_importance_xgbc.sort_values(by='importance', ascending=False)

# 7.0 Machine Learning Models

In [49]:
train = df6.copy()
X_train = train.drop(columns='reserva_cancelada')
y_train = train['reserva_cancelada']

X_train, X_val, y_train, y_val = ms.train_test_split(X_train, y_train, test_size=0.2, random_state=42)

In [None]:
# Dados de Treino + Validação

## Define
# model = tr.DecisionTreeClassifier(max_depth=)

## Training
# model.fit(np.concatenate((X_train, X_val), np.concatenate((y_train, y_val)))

## Classificação
# yhat_val = model.predict(X_val)

## Métrica sobre os dados de validação
# acc_val = mt.accuracy_score(y_val, yhat_val)
# print('Accuracy over Validation: {}'.format(acc_val))



In [50]:
# Dados de Treino + Validação

## Define
model = LogisticRegression()

## Training
#model.fit(np.concatenate((X_train, X_val), np.concatenate((y_train, y_val)))
model.fit(X_train, y_train)

## Classificação
yhat_val = model.predict(X_val)

## Métrica sobre os dados de validação
f1score_val = mt.f1_score(y_val, yhat_val)
print('F1-Score over Validation: {}'.format(f1score_val))



F1-Score over Validation: 0.5268681780016793


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [None]:
# Dados de Treino + Produção

## Define
# model = tr.DecisionTreeClassifier(max_depth=)

## Training
# model.fit(np.concatenate((X_train, X_val), np.concatenate((y_train, y_val)))

## Classificação
# yhat_pred = model.predict(X_prod)

## Métrica sobre os dados de validação
# acc_prod = mt.accuracy_score(y_prod, yhat_pred)
# print('Accuracy over production: {}'.format(acc_prod))



## 7.1 Models and Cross-Validation

## 7.2 Model to Submission

In [55]:
## Label Encoding

test['já_se_hospedou_anterioremente']         = le.fit_transform(test['já_se_hospedou_anterioremente'])
test['reserva_feita_por_agência_de_turismo']  = le.fit_transform(test['reserva_feita_por_agência_de_turismo'])
test['reserva_feita_por_empresa']             = le.fit_transform(test['reserva_feita_por_empresa'])
test['reserva_com_estacionamento']            = le.fit_transform(test['reserva_com_estacionamento'])
test['forma_de_reserva']                      = le.fit_transform(test['forma_de_reserva'])
test['classificação_do_hotel']                = le.fit_transform(test['classificação_do_hotel'])

## Ordinal Encoding (dar peso)

## regime_de_alimentação
regime_alim_dict = {'Sem refeicao'                   : 0,
                    'Café da manha'                  : 1,
                    'Café da manha e jantar'         : 2,
                    'Café da manha, almoco e jantar' : 3}
test['regime_de_alimentação'] = test['regime_de_alimentação'].map(regime_alim_dict)

## tipo_do_quarto_reservado
tp_quarto_dict = {
'Moonstone'     :1,
'Peridot'       :2,
'Topaz'         :3,
'Garnet'        :4,
'Tanzanite'     :5, 
'Amethyst'      :6,
'Green Emerald' :7,
'Pink Sapphire' :8,
'Blue Sapphire' :9,   
'Red Ruby'      :10 
}
test['tipo_do_quarto_reservado'] = test['tipo_do_quarto_reservado'].map(tp_quarto_dict)

## reserva_com_observações
reserv_obs_dict = {'Nenhuma':0, '1 a 3':1, 'Mais de 3':2}
test['reserva_com_observações'] = test['reserva_com_observações'].map(reserv_obs_dict)


## Category Encoders

count = CountEncoder(cols=['nacionalidade'], return_df=True) 
test['nacionalidade'] = count.fit_transform(test['nacionalidade'])



## Limpezas dos NA's
test = test.fillna(0)


## Alteração da variável alvo
test['número_de_hospedes'] = test['número_de_hospedes'].astype(int)
test['regime_de_alimentação'] = test['regime_de_alimentação'].astype(int)
test['tipo_do_quarto_reservado'] = test['tipo_do_quarto_reservado'].astype(int)
test['reserva_com_observações'] = test['reserva_com_observações'].astype(int)

In [56]:
test.dtypes

id                                      int64
classificação_do_hotel                  int64
meses_da_reserva_até_o_check_in         int64
número_de_pernoites_reservadas          int64
número_de_hospedes                      int32
regime_de_alimentação                   int32
nacionalidade                           int64
forma_de_reserva                        int64
já_se_hospedou_anterioremente           int64
tipo_do_quarto_reservado                int32
reserva_feita_por_agência_de_turismo    int64
reserva_feita_por_empresa               int64
reserva_com_estacionamento              int64
reserva_com_observações                 int32
dtype: object

In [57]:
predicao_lr = model.predict(test)

df_final_lr = pd.concat([test.id, pd.Series(predicao_lr, name = 'Reserva Cancelada')], axis=1)

df_final_lr.head()


Unnamed: 0,id,Reserva Cancelada
0,118345,0
1,9500,0
2,34558,0
3,70816,1
4,105321,0


In [58]:
df_final_lr.dtypes

id                   int64
Reserva Cancelada    int32
dtype: object

In [59]:
df_final_lr.to_csv('../data/result/submission.csv', index=False) #Arquivo de submissão pronto para ser enviado.

# 8.0 Hyperparameter Fine Tunning

## 8.1 Model 1 (RandomForest)

In [None]:
## Definição dos parâmetros utilizados pelo algoritmo

# parameters = {
#     'n_estimators': [800,1200,2000],
#     'max_depth': [5,20,40,80,None],
#     'min_samples_split': [2,10,20,40],
#     'min_impurity_decrease': [0,.05,0.1]
# }


## Definição do método

# skf = StratifiedKFold(n_splits = 10)
# rf_search =  BayesSearchCV(estimator = RandomForestClassifier(max_features = 'sqrt'),
#                            search_spaces = parameters,
#                            n_jobs = -1,
#                            cv = skf,
#                            scoring = 'f1_weighted',
#                            random_state = 42)

# rf_search_result = rf_search.fit(x_train, y_train)

## 8.1 Model 2 (XGBoost)

In [None]:
## Definição dos parâmetros utilizados pelo algoritmo

# parameters = {
#     'n_estimators': [500,800,1200,1600,2200,3000],
#     'learning_rate': [0.05,0.1,0.15],
#     'max_depth': [10,20,40,80,None],
#     'min_samples_split': [2,10,20,40,100],
#     'min_impurity_decrease': [0,.05,.1],
#     'colsample_bytree': [0.3,0.5,0.8],
#     'subsample': [0.1,0.4,0.7]
# }


# skf = StratifiedKFold(n_splits=10)
# xgb_search =  BayesSearchCV(estimator = XGBClassifier(),
#                            search_spaces = parameters,
#                            n_jobs = -1,
#                            cv = skf,
#                            scoring = 'f1_weighted',
#                            random_state = 42)

# xgb_search_result = xgb_search.fit(x_train, y_train)