In [10]:
import pandas as pd
import numpy as np

# Cancelamentos de Reservas

https://www.kaggle.com/competitions/ih-hotel-booking

In [11]:
tb_hotel = pd.read_csv("data/tb_hotel_bookings.csv")

* **hotel** - (str) Tipo de hotel.
* **is_cancelled** - (binary) Variável binária indicando cancelamento da reserva (0 = não cancenlada, 1 = cancelada) - variável resposta do case.
* **lead_time** - (int) Número de dias entre data da reserva e data de entrada no hotel (quando a reserva foi feita).
* **arrival_date** - (date) Data de entrada no hotel (para quando a reserva é).
* **stays_in_weekend_nights** - (int) Número de dias em finais de semana na reserva.
* **stays_in_week_nights** - (int) Número de dias de semana na reserva.
* **adults** - (int) Número de adultos.
* **children** - (int) Número de crianças.
* **babies** - (int) Número de bebes.
* **meal** - (str) Tipo de refeição inclusa na reserva.
* **country** - (str) País do cliente.
* **market_segment** - (str) Segmentação de marketing do cliente.
* **distribution_channel** - (str) Canal de vendas pelo qual a reserva foi feita.
* **is_repeated_guest** - (binary) O cliente já ficou hospedado no hotel? (0 = não, 1 = sim).
* **previous_cancellations** - (int) Quantas reservas o cliente já cancelou no passado.
* **previous_bookings_not_canceled** - (int) Quantas reservas o cliente já fez e não cancelou no passado.
* **reserved_room_type** - (str) Tipo de quarto desejado.
* **assigned_room_type** - (str) Tipo de quarto reservado.
* **booking_changes** -  (str) Número de mudanças na reserva entre data de reserva e entrada/cancelamento.
* **deposit_type** - (str) Tipo de adiantamento feito no momento da reserva.
* **agent** - (str) ID do Agente que fez a reserva (NA caso a reserva não tenha sido feita por um agente).
* **company**  - (str) ID da empresa que fez a reserva (NA caso a reserva não seja corporativa)
* **days_in_waiting_list** - (int) Quantos dias demorou a confirmação da reserva.
* **customer_type** - (str) Tipo de reserva.
* **adr** - (float) Average Daily Rate, preço médio de cada diária na reserva.
* **required_car_parking_spaces** - (int) Número de vagas em estacionamento requisitadas na reserva.
* **total_of_special_requests** - (int) Número de requisições especiais na reserva (cama dupla, andar, quarto com vista...)
* **reservation_status** - (str) Status da reserva (Check-Out = cliente usou reserva e fez check-out, Cancelled = cliente cancelou a reserva, No-Show = cliente não cancelou a reserva mas não apareceu)
* **reservation_status_date** - (date) Data da última atualização feita na reserva.

In [12]:
tb_hotel.head()

Unnamed: 0.1,Unnamed: 0,hotel,is_canceled,lead_time,stays_in_weekend_nights,stays_in_week_nights,adults,children,babies,meal,...,company,days_in_waiting_list,customer_type,adr,required_car_parking_spaces,total_of_special_requests,reservation_status,reservation_status_date,arrival_date,id_booking
0,0,Resort Hotel,0,342,0,0,2,0.0,0,BB,...,,0,Transient,0.0,0,0,Check-Out,2015-07-01,2015-07-01,0
1,1,Resort Hotel,0,737,0,0,2,0.0,0,BB,...,,0,Transient,0.0,0,0,Check-Out,2015-07-01,2015-07-01,1
2,2,Resort Hotel,0,7,0,1,1,0.0,0,BB,...,,0,Transient,75.0,0,0,Check-Out,2015-07-02,2015-07-01,2
3,3,Resort Hotel,0,13,0,1,1,0.0,0,BB,...,,0,Transient,75.0,0,0,Check-Out,2015-07-02,2015-07-01,3
4,4,Resort Hotel,0,14,0,2,2,0.0,0,BB,...,,0,Transient,98.0,0,1,Check-Out,2015-07-03,2015-07-01,4


# Goal – Predictive Analytics

## Definition

In this stage we ask you to pick the booking dataset notebook you previously worked on and perform feature engineering and feature selection so that the dataset is ready for binary model classification training that furthermore be able to predict correctly if a booking instance will be cancelled or not.
Requirements:
- Feature engineering | Examples:
    - Combine features
    - Feature scaling transformations
    - Binarizations
- Feature selection
- Predictive model implementation
- Setup data splits (train/test)
- Experiment at least 2 models
    - What are their advantages?
    - What are their disadvantages?
- Evaluate models performance and implement other classification metrics
- Briefly explain their meaning
- Write notes explaining your decisions

## Deliverable

The main output of this stage is a prediction analytics notebook of a hotel bookings dataset with the aim of booking churn predictions. Notes must be included which explains your critical thinking and assumptions.

# Etapas de Construção de um Modelo

Antes de seguir em frente com a atividade vamos relembrar as etapas para construir um modelo!

## Leitura de dados

A primeira etapa na construção de qualquer modelo é a obtenção dos dados. Isso pode ser *tão simples quanto carregar um dataset* da SKLEARN ou *tão complexo quanto construir um webscrapper*. 

No exemplo de hoje estaremos trabalhando sobre uma tabela disponibilizada em CSV. O checklist abaixo pode guia-lo no processo de carregar e validar a entrada de dados:

- **Ler arquivo .csv para um DataFrame pandas**
- **Validar número de colunas**
- **Validar e tratar tipo das colunas** (principalmente datas através da função pd.to_datetime)
- **Ler mapa de dados** (caso seja disponibilizado) para entender o que cada coluna representa.

## EDA (Análise Exploratória de Dados)

A segunda etapa na construção de um modelo é a análise exploratória de dados. Neste momento buscamos *entender* o nosso conjunto de dados através de gráficos e tabelas que resumam a relação entre as diversas variáveis.

Vamos relembrar dos objetivos dessa etapa:

- **Avaliação de problemas nos dados** (missing value e informações incorretas)
    - **Ferramentas:** .info, .describe, .head, mapa de dados
- **Familiarização com o conteúdo de cada variável**
    - **Ferramentas:** boxplots e histogramas, tabelas de contagem, pandas-profiling
- **Mapeamento das relações entre meus features e minha variável resposta**
    - **Ferramentas:** scatterplots e pairplots, .groupby, .pivot_table, PCA 
- **Feature Engineering** para criar novas variáveis
    - **Ferramentas:** PCA, np.log, .qcut e .cut, np.where e .loc
    - *Feature engineering é um dos aspectos mais complexos e impactantes* na construção de um modelo. As transformações mais comuns são as transformações numéricas (como o log), a discretização de variáveis continuas (através de cut, qcut ou np.where), a aglomeração de categorias, a binarização de variáveis continuas e categóricas.
    
Nesta etapa devemos investir tempo em tentar **ENTENDER O PROBLEMA**:

- *Qual é o fenômeno que queremos modelar*?
- *Sem considerar os dados, o que, conceitualmente, impacta minha variável resposta?*
- *Considerando os dados, quais variáveis representam bem esses conceitos?*

No entanto, devemos estar atentos ao **tempo disponível** para resolvermos o problema! Qualquer modelo pode ser melhorado se investirmos mais tempo nele, logo o tempo disponível é uma pré-condição do erro que iremos obter. O **processo de modelagem é iterativo** e a construção de modelos simples e imprecisos é uma etapa importante na construção de modelos complexos.

Embora o principal resultado de uma análise exploratória seja o *aprofundamento do nosso conhecimento* sobre o problema, na prática também devemos obter um **FEATURE SET**, um conjunto de variáveis de entrada sobre o qual construíremos nossos modelos. Uma vez que tenhamos este feature set podemos dividi-lo em conjunto de treinamento e um de teste - sempre prestando atenção nos problemas de **leakage**:

- Caso o nosso feature set contenha transformações que sejam calculadas a partir dos dados (por exemplo normalização ou PCA) devemos construir estes transformadores utilizando apenas o conjunto train e então aplica-los ao conjunto teste.
- Muitas vezes algumas variáveis de uma tabela podem ser contaminadas: por exemplo, em um problema de previsão binária de chuva não podemos utilizar a variável mm/h de chuva. Uma forma simples de tratar isso é se perguntar: terei esta variável no momento da previsão?

## Modelo Baseline

Os modelos de baseline são modelos simples (do ponto de vista matemático) que fornecem um erro base que tentaremos melhorar através da utilização de algoritmos mais sofisticados. Como vimos, muitos algoritmos tem hiperparâmetros que são criticos na construção de um modelo. A utilização de modelos simples nos dá um valor de comparação para avaliarmos os primeiros hiperparâmetros que testarmos.

Dois modelos são comumemnte utilizados como baseline preditivo:

- **Regressão logística**
- **1-NN (kNN com n-neighbors = 1)**

A *regressão logística é um modelo linear*, sem nenhum hiperparâmetro, ou seja, o resultado da regressão em si é fruto apenas das variáveis de entrada escolhidas.

Além da simplicidade, **ela é uma ferramenta investigativa interessante** - possibilitando mapear os efeitos de variáveis específicas dentro de um feature set: como vimos a **colinearidade entre variáveis de entrada altera o impacto** que cada uma tem quando as consideramos conjuntamente. **A regressão nos permite desembaraçar estes efeitos!** Podemos utilizar simulações como vimos em aula para aumentar nossa compreensão do feature set escolhido.

A grande limitação da regressão logística é a linearidade: muitas vezes a estimativa de erro da regressão será bem pessimista. **Para ter uma idéia da performance esperada de algoritmos não-lineares podemos utilizar o modelo 1-NN**. 

## Modelo Final

Armados com uma estimativa de erro inicial, podemos prosseguir para a implantação de modelos utilizando algoritmos mais complexo, como árvores de decisão ou métodos de ensemble. Nessa etapa é crítico lembrar que estes algoritmos tem **hiperparâmetros que são determinantes em sua performance**. 

Podemos utilizar o **GridSearchCV** para encontrar os hiperparâmetros ótimos de um dado algoritmo, mas esse processo é custoso. Então vale a pena testar alguns valores bem separados para entender em que região cada hiperparâmetro parece funcionar melhor.

Ao final desta etapa teremos uma avaliação de erro sobre nosso conjunto teste e devemos fazer uma submissão à competição :)

**Agora, armados com todo o conhecimento que a construção dos modelos nos deu, podemos voltar à etapa de EDA para adicionar novos features, pensar em novos dados, enfim, recomeçar o processo, só que desta vez não do zero!**