<a href="https://colab.research.google.com/github/phazevedo/bookings-cancellations/blob/main/cancelamentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
import pandas as pd

In [None]:
# Carrrega informações sobre o banco de dados
df = pd.read_csv("/content/gdrive/MyDrive/Colab Notebooks/bookings_data.csv")

In [None]:
# Análise inicial dos dados
df.info()

In [None]:
# Análise probabilistica dos dados
df.describe()

In [None]:
# Numero de valores unicos
df.nunique()

In [None]:
# Número de valores faltantes
# As tabelas país (country), agente (agent) e companhia (company) possuem valores nulos.
# As variáveis de tempo antes da reserva (lead_time), país (country), agente(agent) e companhia (company) possuem muitos valores únicos, indicando alta cardinalidade.
df.isna().sum()

In [None]:
# Importa bibliotecas de visualização
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
categorical_features = ["hotel", "arrival_date_month", "meal", "country", "market_segment",
                        "distribution_channel", "reserved_room_type", "assigned_room_type",
                        "deposit_type", "customer_type", "reservation_status", "reservation_status_date"]
numeric_features = ["is_canceled", "lead_time", "arrival_date_year", "arrival_date_week_number",
                    "arrival_date_day_of_month", "stays_in_weekend_nights", "stays_in_week_nights",
                    "adults", "children", "babies", "is_repeated_guest", "previous_cancellations",
                    "previous_bookings_not_canceled", "booking_changes", "agent", "company", "days_in_waiting_list",
                    "adr", "required_car_parking_spaces", "total_of_special_requests"]
df[numeric_features].describe()

In [None]:
# Análise dos valores numéricos
df[["agent", "company", "days_in_waiting_list", "adr", "required_car_parking_spaces", "total_of_special_requests"]].describe()

* is_canceled: Varia entre 1 (Cancelado) e 0 (Não cancelado);
* lead_time: Varia entre 0 e 737 dias de antecedencia. Encontramos que 75% das reservas foram feitas com menos de 160 dia, isso pode indicar outliers quando observamos o valor máximo.
* arrival_date_year: Varia entre 2015 e 2017.
* arrival_date_week_number: Varia entre 1 e 53.
* arrival_date_day_of_month: Varia entre 1 e 31.
* stays_in_weekend_nights: Varia entre 0 e 19. Porém 75% dos dados estão abaixo de 2. Uma reserva com 19 dias de fim de semana indica a presença de outliers.
* stays_in_week_nights: Varia entre 0 e 50. Porém 75% dos dados estão abaixo de 3. Uma reserva com 50 dias na semana indica a presença de outliers.
* adults: Varia entre 0 e 55. Porém 75% dos dados estão abaixo de 2. Uma reserva com 55 adultos indica presença de dados outliers ou dados incorretos. Assim como uma reserva com 0 adultos também demonstra dados incorretos.
* children:
* babies: Varia entre 0 e 10. Porém 75% dos dados estão abaixo de 0. Uma reserva com 10 bebes indica presença de dados outliers ou dados incorretos.
* children: Varia entre 0 e 10. Porém 75% dos dados estão abaixo de 0. Uma reserva com 10 crianças indica presença de dados outliers ou dados incorretos.
* is_repeated_guest: Varia entre 1 (Repetido) e 0 (Não repetido);
* previous_cancellations: Varia entre 0 e 26. Porém 75% dos dados estão abaixo de 0. Um cliente com 26 cancelamentos anteriores indica presença de dados outliers ou dados incorretos.
* previous_bookings_not_canceled: Varia entre 0 e 72. Porém 75% dos dados estão abaixo de 0. Um cliente com 72 reservas anteriores indica presença de dados outliers ou dados incorretos.
* booking_changes: Varia entre 0 e 21. Porém 75% dos dados estão abaixo de 0. Um cliente com 21 reservas anteriores indica presença de dados outliers ou dados incorretos.
* agent: Esse é um campo do código da agência então não tem valor estatístico.
* company: Esse é um campo do código do website então não tem valor estatístico.
* days_in_waiting_list: Varia entre 0 e 391. Porém 75% dos dados estão abaixo de 0. Um cliente que aguardou 391 dias indica presença de dados outliers ou dados incorretos.
* adr: Varia entre -6.38 e 5400. Porém 75% dos dados estão abaixo de 126. Esse campo indica o valor médio pago pela reserva. Valores negativos demonstraram dados incorretos e 5400 demonstra uma reserva com um valor outlier.
* required_car_parking_spaces: Varia entre 0 e 8. Porém 75% dos dados estão abaixo de 0. Um cliente com 8 vagas solicitadas  pode indicar presença de possíveis outliers.
* total_of_special_requests: Varia entre 0 e 5. Porém 75% dos dados estão abaixo de 1. Um cliente com 5 pedidos especiais pode indicar presença de possíveis outliers.

In [None]:
# Analisando as correlações entre as features numéricas
# Por padrão é utilizado Pearson mas podemos tentar corr(method='kendall') ou corr(method='spearman')
plt.figure(figsize = (20, 8))
corr = df[numeric_features].corr()
sns.heatmap(corr, annot = True, linewidths = 1)
plt.show()

In [None]:
# Criando um método para exibir os valores outliers
def box_plot(fields):
  plt.figure(figsize=(12, 8))
  outlier_fields = ["lead_time", "stays_in_weekend_nights", "stays_in_week_nights", "adults", "children", "babies", "is_repeated_guest", "previous_cancellations", "previous_bookings_not_canceled", "booking_changes", "days_in_waiting_list", "adr", "required_car_parking_spaces", "total_of_special_requests"]
  booking_boxplot = sns.boxplot(data=df[fields], orient="h")
  plt.title("Outliers")
  plt.show()
  print(df.shape)

In [None]:
# Essas features tem um range semelhantes então vamos exibir um boxplot para visiualizar os outliers
box_plot(["stays_in_weekend_nights", "stays_in_week_nights", "adults", "children", "babies", "is_repeated_guest", "previous_cancellations", "previous_bookings_not_canceled", "booking_changes", "required_car_parking_spaces", "total_of_special_requests"])

In [None]:
# Essas features tem um limite mais extenso então vamos ver o box plot delas separados
box_plot(["lead_time", "days_in_waiting_list", "adr"])

In [None]:
# Removendo valores exorbitantes
df = df[df['adr'] <= 5000]
df = df[df['adults'] > 0]
df = df[df['adults'] <= 10]
df = df[df['babies'] <= 5]
df = df[df['children'] <= 5]
df = df[df['previous_cancellations'] <= 10]


df.info()

In [None]:
# Analisando os valores estatisticos após a remoção dos valores exorbitantes
df.describe()

In [None]:
box_plot(["stays_in_weekend_nights", "stays_in_week_nights", "adults", "children", "babies", "is_repeated_guest", "previous_cancellations", "previous_bookings_not_canceled", "booking_changes", "required_car_parking_spaces", "total_of_special_requests"])

In [None]:
box_plot(["lead_time", "days_in_waiting_list", "adr"])

In [None]:
# Reavaliando as correlações após a remoção de valores muito altos
plt.figure(figsize = (20, 8))
corr = df[numeric_features].corr()
sns.heatmap(corr, annot = True, linewidths = 1)
plt.show()

In [None]:
# Remoção de outliers utilizando amplitude interquartil
for campo in ["lead_time", "adr"]:
    q1 = df[campo].quantile(0.25)
    q3 = df[campo].quantile(0.75)
    #calculamos a amplitude interquartil
    iqr = q3 - q1
    lim_inferior = q1 - 1.5 * iqr
    lim_superior = q3 + 1.5 * iqr
    # removemos tudo abaixo do limite inferior
    df = df[df[campo] >= lim_inferior]
    # removemos tudo abaixo do limite superior
    df = df[df[campo] <= lim_superior]

In [None]:
# Visualização dos dados após remoção de outliers
df[numeric_features].describe()

In [None]:
# Correlação após a remoção de outliers
plt.figure(figsize = (20, 8))
corr = df[numeric_features].corr()
sns.heatmap(corr, annot = True, linewidths = 1)
plt.show()

In [None]:
# Agora vamos analisar os dados categóricos
# Visualização inicial
df.describe(include = 'O').T

In [None]:
# O campo de Paises tem muitos campos únicos, então o melhor é agrupar em continentes
# O primeiro passo é separar quais paises pertencem a qual continente
africa = ["DZA","AGO","BEN","BWA","IOT","BFA","BDI","CPV","CMR","CAF","TCD","COM","COG","COD","CIV","DJI","EGY","GNQ","ERI","SWZ","ETH","ATF","GAB","GMB","GHA","GIN","GNB","KEN","LSO","LBR","LBY","MDG","MWI","MLI","MRT","MUS","MYT","MAR","MOZ","NAM","NER","NGA","REU","RWA","SHN","STP","SEN","SYC","SLE","SOM","ZAF","SSD","SDN","TZA","TGO","TUN","UGA","ESH","ZMB","ZWE"]
america = ["AIA", "ATG", "ARG", "ABW", "BHS", "BRB", "BLZ", "BMU", "BOL", "BES", "BVT", "BRA", "CAN", "CYM", "CHL", "COL", "CRI", "CUB", "CUW", "DMA", "DOM", "ECU", "SLV", "FLK", "GUF", "GRL", "GRD", "GLP", "GTM", "GUY", "HTI", "HND", "JAM", "MTQ", "MEX", "MSR", "NIC", "PAN", "PRY", "PER", "PRI", "BLM", "KNA", "LCA", "MAF", "SPM", "VCT", "SXM", "SGS", "SUR", "TTO", "TCA", "USA", "URY", "VEN", "VGB", "VIR"]
asia = ["AFG", "ARM", "AZE", "BHR", "BGD", "BTN", "BRN", "KHM", "CHN", "CYP", "GEO", "HKG", "IND", "IDN", "IRN", "IRQ", "ISR", "JPN", "JOR", "KAZ", "PRK", "KOR", "KWT", "KGZ", "LAO", "LBN", "MAC", "MYS", "MDV", "MNG", "MMR", "NPL", "OMN", "PAK", "PSE", "PHL", "QAT", "SAU", "SGP", "LKA", "SYR", "TWN", "TJK", "THA", "TLS", "TUR", "TKM", "ARE", "UZB", "VNM", "YEM"]
europa = ["ALA", "ALB", "AND", "AUT", "BLR", "BEL", "BIH", "BGR", "HRV", "CZE", "DNK", "EST", "FRO", "FIN", "FRA", "DEU", "GIB", "GRC", "GGY", "VAT", "HUN", "ISL", "IRL", "IMN", "ITA", "JEY", "LVA", "LIE", "LTU", "LUX", "MLT", "MDA", "MCO", "MNE", "NLD", "MKD", "NOR", "POL", "PRT", "ROU", "RUS", "SMR", "SRB", "SVK", "SVN", "ESP", "SJM", "SWE", "CHE", "UKR", "GBR"]
oceania = ["ASM", "AUS", "CXR", "CCK", "COK", "FJI", "PYF", "GUM", "HMD", "KIR", "MHL", "FSM", "NRU", "NCL", "NZL", "NIU", "NFK", "MNP", "PLW", "PNG", "PCN", "WSM", "SLB", "TKL", "TON", "TUV", "UMI", "VUT", "WLF"]


In [None]:
# Criamos um método que recebe o pais e retorna o continente referente
def get_continent(row):
  pais = row["country"]
  if pais in africa: return "AFRICA"
  if pais in america: return "AMERICA"
  if pais in asia: return "ASIA"
  if pais in europa: return "EUROPA"
  if pais in oceania: return "OCEANIA"
  return "OUTRO"

In [None]:
# Aplicando o método de conversão ao campo de pais
df['continent'] = df.apply(get_continent, axis=1)

In [None]:
# Visualizando todos os valores unicos dos campos
for i in categorical_features:
    print(("{}({}): {} \n").format(i, df[i].nunique(), df[i].unique()))

  * hotel: Esse campo indica o nome do Hotel da reserva. Esse campo não era utilizado em nossa análise.
  *   arrival_date_month: Este campo contém todos os meses do ano. Podemos ver que os meses com mais reservas são Agosto, Julho e Maio e durante os meses de inverno as reservas diminuiem. Nas nossa analises não usaremos os meses.
  *   meal: A maioria das reservas são do tipo Bed-Breakfast. Iremos manter este campo na análise.
  *  country: Este campo possui muitos valores únicos o que pode gera um mal desempenho quando aplicarmeos one-hot encoding. Vamos transformar estes paises em continentes.
  *   market_segment: Este campo indica o segmento de market. Utilizaremos este campo na análise.
  *   distribution_channel: Este campo indica o canal de distribuição. Utilizaremos este campo na análise.
  *   reserved_room_type: Não utilizaremos este campo na análise.
  *   assigned_room_type: Não utilizaremos este campo na análise.
  *   deposit_type: Este campo indica o tipo de pagamento. Uma questão a se analisar aqui é que reservas totalmente refundáveis podem gerar mais cancelamentos.
  *   customer_type: Este é o tipo do cliente. Utilizaremos este campo na análise.
  *   reservation_status: Este campo está diretamente relacionado ao campo cancelado, então o removeremos.
  *   reservation_status_date: Este campo está diretamente relacionado ao campo cancelado, então o removeremos.


In [None]:
# Ambos os campos reservation_status_date e reservation_status_date estão diretamente relacionado a variável is_canceled. Isso significa que se mantermos essas varíaveis teremos um modelo viciado. Ambas variáveis serão removidas.
plt.figure(figsize=(8, 5))
sns.countplot(x='reservation_status', hue='is_canceled', data=df)
plt.title('Cancelamento vs Status da Reserva')
plt.xlabel('Status da Reserva')
plt.ylabel('Total')
plt.legend(title='Cancelado', labels=['Não', 'Sim'])
plt.show()

In [None]:
df = df.drop(["country", "hotel", "reservation_status_date", "reservation_status", "reserved_room_type", "assigned_room_type"], axis='columns')

In [None]:
# Como não vamos considerar sazonalidade em nossa análise, iremos remover os campos de data como arrival_date_month, arrival_date_year, arrival_date_month, arrival_date_week_number e arrival_date_day_of_month.
df = df.drop(["arrival_date_year", "arrival_date_week_number", "arrival_date_day_of_month", "agent", "company"], axis='columns')

In [None]:
# Transformando os vamores categórios em dummies, com os valores binários poderemos utilizar nos modelos
nominais = ['arrival_date_month', 'meal', 'market_segment',
                'distribution_channel', 'continent', 'deposit_type',
                'customer_type']
df = pd.get_dummies(df, columns=nominais, drop_first=True)
df.info()

In [None]:
# Visualizando se os dados estão balanceados
percentage = df['is_canceled'].value_counts(normalize=True) * 100
plt.figure(figsize=(8, 5))
ax = sns.barplot(x=percentage.index, y=percentage)
plt.title('Proporção cancelamentos')
plt.xlabel('Cancelado')
plt.ylabel('%')
plt.xticks(ticks=[0, 1], labels=['Não Cancelado', 'Cancelado'])
plt.yticks(ticks=range(0,80,10))

for i, p in enumerate(percentage):
    ax.text(i, p + 0.5, f'{p:.2f}%', ha='center', va='bottom')

plt.show()

In [None]:
# Removendo o campo is_canceled para criar iniciar as análises
df_variavel_alvo = df['is_canceled']
df_features = df.drop(["is_canceled"], axis=1)
df_canc = df_variavel_alvo

In [None]:
# Utilizando Kbest para encontrar as melhores features
from sklearn.feature_selection import SelectKBest, f_classif
k_best = SelectKBest(score_func=f_classif)

X = k_best.fit_transform(df_features, df_variavel_alvo)
y = df_variavel_alvo
scores_data = list(zip(df_features.columns, k_best.scores_))
score_df = pd.DataFrame(scores_data, columns=["column", "score"])
score_df.sort_values(by=['score'], ascending=False).head(15)

In [None]:
# Separando os dados em teste e treino
# Foi utilizado stratify para garantir o balanceamento dos datasets
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(df_features,
                                                    df_canc,
                                                    test_size=0.25,
                                                    random_state=0,
                                                    stratify=df_canc)

In [None]:
# Importando as bibliotecas que serão utilizada para calcular os modelos
import numpy as np
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_auc_score, confusion_matrix, classification_report, RocCurveDisplay, ConfusionMatrixDisplay, make_scorer
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier, RandomForestClassifier
from sklearn.svm import SVC
from matplotlib.colors import ListedColormap, LinearSegmentedColormap
from xgboost import XGBClassifier

In [None]:
# Criamos um método que recebe o tipo do Modelo, os parâmetros que queremos testar e o nome do método (apenas uma label)
# Estamos utilizando GridSearchCV para encontrar o melhor parâmetro baseado nos parâmetros passados
# Depois que encontramos o melhor método criamos um dataframe com o resultado e exibimos em um heatmap

def model_with_grisearch(dt, params, nome):
  grid_search = GridSearchCV(dt, param_grid=params,scoring='f1_macro', refit=True, verbose=10)
  grid_search.fit(X_train, y_train)
  print(f"Melhores parâmetros: {grid_search.best_params_}\nMelhor score: {grid_search.best_score_}")

  melhor_param = grid_search.best_estimator_
  y_pred = melhor_param.predict(X_test)

  result = pd.DataFrame(data=[accuracy_score(y_test, y_pred),
                              precision_score(y_test, y_pred, pos_label=1),
                              recall_score(y_test, y_pred, pos_label=1),
                              f1_score(y_test, y_pred, pos_label=1),
                              roc_auc_score(y_test, melhor_param.predict_proba(X_test)[:,1])],
                        index=['Acurácia','Precisão','Revocação','F1-score','AUC'],
                        columns = [nome])

  print((result * 100).round(2).astype(str) + '%')
  sns.heatmap(confusion_matrix(y_test, y_pred), cmap="Purples", fmt=".0f", annot=True).plot()

In [None]:
# Criamos uma varíavel que contem o nome do modelo como chave e nos valores temos os params e qual o modelo que vamos utilizar
models =  {
    "KNN": {"params": {"n_neighbors": np.arange(1, 10)}, "dt": KNeighborsClassifier()},
    "Árvore de decisão": {"params": {"max_depth": np.arange(1, 30, 2), "criterion": ["gini", "entropy"]}, "dt":  DecisionTreeClassifier(random_state=0)},
    "Regresão Logística3": {"params": {"C": [0.01, 0.1, 1, 10, 100], "penalty": ["l2"], 'solver': ['liblinear', 'saga']}, "dt":  LogisticRegression(random_state=0, max_iter=10000)},
    "Random Forest": {"params":{'n_estimators': np.arange(50, 201, 50),'max_depth':  np.arange(1, 30, 2),'min_samples_split': [2, 5],'min_samples_leaf': [2, 4],'max_features': ['sqrt']}, "dt":  RandomForestClassifier(random_state=0)},
    "SVC": {"params":{'C':[1,10,100,1000],'gamma':[1,0.1,0.001,0.0001], 'kernel':['linear','rbf']}, "dt":  SVC(random_state=0)},
    "XGBoost":  {"params": {'max_depth': range (2, 10, 1),'n_estimators': range(60, 220, 40),'learning_rate': [0.1, 0.01, 0.05]}, "dt": XGBClassifier(random_state=0,objective= 'binary:logistic',nthread=4,seed=0)},
    "ADABoost":  {"params": {'n_estimators':[10,50,100,250,500,1000], 'learning_rate':[0.0001, 0.001, 0.01, 0.1, 1.0]}, "dt": AdaBoostClassifier(base_estimator=DecisionTreeClassifier())}
}

In [None]:
# Agora passamos por cada item encontrando os melhores valores para os parâmetros e criando um heatmap para cada resultado
for key, value in models.items():
  model_with_grisearch(value["dt"],value["params"], key )