# Case técnico DHAUZ - Modelagem de cancelamentos
Victor Andrade Martins

**Briefing**: Você foi contratado pela DHAUZ como cientista de dados para analisar uma base de dados de clientes de uma rede de Hotéis e sua tarefa é investigar os dados em busca de insights que possam ajudar a empresa a evitar cancelamentos e também construir um modelo preditivo que possa antecipar esses cancelamentos, de modo que a empresa tenha tempo hábil para agir com ações de retenção.

Enquanto leem o estudo, incentivo a também darem uma olhada no app que desenvolvi para case: https://victorandmar-case-dhauz-app-dhauz-3n813c.streamlitapp.com

In [None]:
import pandas as pd
import numpy as np

# Visualização
import plotly.graph_objects as go
from plotly.colors import n_colors
import plotly.express as px
import plotly.offline as pyo
pyo.init_notebook_mode()

# Correlação
import association_metrics as am

# Processamento
from sklearn.preprocessing import MinMaxScaler

# Separação
from sklearn.model_selection import train_test_split

# Modelos para classificação
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import LinearSVC

# Afinamento
from sklearn.calibration import CalibratedClassifierCV
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline

# Avaliação de modelos
from sklearn import metrics
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import cross_val_score

In [None]:
df = pd.read_csv('cancellation-prediction.csv')

## Análise Exploratória

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.isna().sum()

Para lidar com os valores nulos, será atribuído 0 aos registros que não possuem quantidade de crianças (coluna *num_children*). Em relação aos nulos da coluna país, será avaliada a necessidade dessa informação antes de descartar esses registros.

In [None]:
df['num_children'] = df['num_children'].fillna(0)

In [None]:
df.head()

In [None]:
# Listagem de colunas numéricas
nums = [
    'days_between_booking_arrival', 'changes_between_booking_arrival',
    'num_adults', 'num_children', 'num_babies', 'num_weekend_nights',
    'num_workweek_nights', 'num_previous_cancellations', 'num_previous_stays',
    'required_car_parking_spaces', 'total_of_special_requests', 'avg_price',
]

df[nums] = df[nums].astype(float)

In [None]:
# Listagem de colunas nominais
noms = [
    'cancellation', 'type', 'year_arrival_date', 'month_arrival_date',
    'week_number_arrival_date', 'day_of_month_arrival_date', 'deposit_policy',
    'country', 'breakfast', 'market_segment', 'distribution_channel',
    'customer_type'
]

In [None]:
df[nums].describe()

    (antes de construir os gráficos interativos, eu montei uma paleta personalizada com algumas cores do site da DHAUZ.     Fiquem à vontade para anotar os códigos hexadecimais 😉)

In [None]:
# Paleta com as cores da DHAUZ
paleta_dhauz = [
   '#7b3afa','#4e28a0','#efeef2','#17e5fd', '#a478fc', '#42d0e1', '#46405f'
]

In [None]:
fig = px.pie(df,
             names='cancellation',
             color_discrete_sequence=paleta_dhauz,
             hole=.3,
             template='ggplot2')

fig.update_layout(title='Contagem de cancelamentos', showlegend=False)

fig.update_traces(textinfo='value+percent+label',
                  marker=dict(line=dict(color='white', width=3)))

fig.show()

Ao analisar o gráfico acima, percebe-se que o dataset é desbalanceado. O rótulo 0 (não cancelou) está muito mais presente no conjunto.

### Correlações

#### Correlações nominais

Para analisar a correlação entre as variáveis nominais do conjunto, será utilizado o método *Cramér's-V* ($φc$). Como ressalva, é importante lembrar que esta fórumula apresenta um problema de simetria, que se resume ao fato de que uma variável x pode explicar y, mas não o contrário. Informações que expliquem por outra perspectiva como duas variáveis se relacionam podem ser perdidas devido à este problema, portanto analisar a correlação entre variáveis nominais através de outros métodos (como *Theil's U*) também é interessante, mas por fins práticos será aplicado o *Cramér's-V*.

In [None]:
df_corr = df[noms][:]

df_corr = df_corr.dropna(subset='country')

df_corr = df_corr.apply(lambda x: pd.factorize(x)[0])

df_corr = df_corr.apply(lambda x: x.astype('str'))

df_corr = df_corr.apply(lambda x: x.astype("category")
                        if x.dtype == "O" else x)

In [None]:
cramers_v = am.CramersV(df_corr)

In [None]:
cfit = cramers_v.fit().round(2)

In [None]:
fig = px.imshow(cfit,
                text_auto=True,
                aspect='auto',
                color_continuous_scale=px.colors.sequential.dense)

fig.update_layout(title='Matriz de correlação nominal (Cramérs V)')

fig.show()

Pode-se notar que certas informações possuem forte correlação com a variável de cancelamento. A que mais chama atenção é a *deposit_policy* (0.48), o que intuitivamente faz sentido, tendo em vista que esta variável provavlmente rege as normas de cancelamento e estorno. Qualquer variável apresentando correlação acima de 0.11 será testada nos modelos preditivos, com exceção da *distribution_channel*, que por ser bem explicada pela *market_segment*, teria um uso redundante.

In [None]:
nom_vars = list(cfit['cancellation'][1:].loc[lambda x: x > 0.11].index)

In [None]:
nom_vars.remove('distribution_channel')

In [None]:
nom_vars

#### Correlação entre variável nominal x numéricas

Já para medir a correlação entre a nossa variável de interesse e as outras variáveis numéricas do conjunto, a fórmula *correlation ratio* ($η$) será utilizada. Em sumo, esse método observa como as dispersões estatísticas se comportam em cada categoria. 

In [None]:
def correlation_ratio(categories, measurements):
    fcat, _ = pd.factorize(categories)
    cat_num = np.max(fcat)+1
    y_avg_array = np.zeros(cat_num)
    n_array = np.zeros(cat_num)
    for i in range(0,cat_num):
        cat_measures = measurements[np.argwhere(fcat == i).flatten()]
        n_array[i] = len(cat_measures)
        y_avg_array[i] = np.average(cat_measures)
    y_total_avg = np.sum(np.multiply(y_avg_array,n_array))/np.sum(n_array)
    numerator = np.sum(np.multiply(n_array,np.power(np.subtract(y_avg_array,y_total_avg),2)))
    denominator = np.sum(np.power(np.subtract(measurements,y_total_avg),2))
    if numerator == 0:
        eta = 0.0
    else:
        eta = np.sqrt(numerator/denominator)
    return eta.round(2)

In [None]:
corrs = {}

for col in nums:
    c = correlation_ratio(df['cancellation'], df[col])
    corrs[col] = c

A maior correlação observada foi com a variável que contém a informação dos dias faltantes até a reserva (*days_between_booking_arrival*). Como já selecionamos muitas variáveis, apenas as principais (corr >= 0.2) desse grupo serão escolhidas. 

In [None]:
num_vars = [
    'days_between_booking_arrival', 'total_of_special_requests',
    'required_car_parking_spaces'
]

Para lidar com os outliers nominais, será removida toda variação de nominais com menos de 130 registros. 

In [None]:
df = df.dropna(subset=['country'])

In [None]:
for col in nom_vars:
    counts = df[col].value_counts().loc[lambda x: x > 130].index
    df = df.loc[df[col].isin(counts)][:]

### Analisando as variáveis

#### Segmento de mercado

In [None]:
fig = px.histogram(df,
                   x='market_segment',
                   color='market_segment',
                   color_discrete_sequence=paleta_dhauz,
                   template='plotly_white')

fig.update_layout(title='Distribuição dos segmentos de mercado', showlegend=False)

fig.update_xaxes(type='category')

fig.show()

In [None]:
fig = px.histogram(df,
                   x='market_segment',
                   color='cancellation',
                   barnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por segmento de mercado',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.update_xaxes(type='category')

fig.show()

Ao analisar os segmentos de mercado, fica evidente que entre alguns deles há uma grande variação das taxas de cancelamento. A diferença entre o mínimo (38,41%) e o máximo (87,72%) é de quase 50%. Pode-se afirmar que essa variável ajuda bastante a explicar o cancelamento, uma vez que a probabilidade de uma reserva ser cancelada no segmento 5 é muito maior do que no segmento 4, por exemplo. 

#### Política de depósito (ou reembolso)

In [None]:
fig = px.histogram(df,
                   x='deposit_policy',
                   color='cancellation',
                   barnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por política de depósito',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.show()

In [None]:
fig = px.histogram(df,
                   x='deposit_policy',
                   color='deposit_policy',
                   color_discrete_sequence=paleta_dhauz,
                   template='plotly_white')

fig.update_layout(title='Distribuição das políticas de depósito', showlegend=False)

fig.update_xaxes(type='category')

fig.show()

In [None]:
canceladas = df['deposit_policy'].loc[df['cancellation']==1]
print('Porcentagem das políticas de depósito para reservas canceladas:')
print(round(canceladas.value_counts()/len(canceladas)*100, 2))

Algo interessante a se observar nos gráficos de barras acima é que dentre as reservas que exigiam depósito (~11,8%), quase 100% não garantia reembolso e praticamente todas foram canceladas. Além do mais, na parcela fracionária de depósitos com direito a reembolso, a maioria (80%) não cancelou. Tendo dito isso, a maioria dos cancelamentos (68,4%) não exigia depósito.

#### País

In [None]:
fig = px.histogram(df,
                   x='country',
                   histnorm='percent',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Distribuição dos países',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")
fig.update_xaxes(categoryorder='total descending')

fig.show()

Pode-se notar que existe um código ISO com 2 letras correspondente a China (CN). Essa variação será normalizada para corresponder ao código ISO da China de 3 letras (CHN) 

In [None]:
df.loc[df['country']=='CN', 'country'] = 'CHN'

In [None]:
fig = px.histogram(df,
                   x='country',
                   color='cancellation',
                   barmode='overlay',
                   histnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Categorias distribuídas por país',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.show()

In [None]:
fig = px.histogram(df,
                   x='country',
                   color='cancellation',
                   barnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por país',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.show()

In [None]:
fig = px.histogram(df,
                   x='country',
                   color='deposit_policy',
                   barnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Proporção de políticas de depósito por país',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.show()

A maioria das reservas (41,25%) está concentrada em Portugal, assim como a grande maioria dos cancelamentos (62,25%). Inclsuive, o país em questão possui a segunda maior taxa de cancelamento, que é bem alta quando comparada às outras. Além do mais, ao analisar a proporção de políticas de depósito de cada país, pode-se notar uma alta bastante atípica de políticas de não-reembolso em Portugal, indicando que esse tipo de regra seja mais comum nos hotéis do país.

#### Antecedência do cancelamento

In [None]:
fig = px.histogram(df.loc[df['cancellation']==1],
                   x='days_between_booking_arrival',
                   barmode='overlay',
                   color_discrete_sequence=paleta_dhauz,
                   nbins=600,
                   template='plotly_white')

fig.update_layout(title='Distribuição da antecedência de reservas canceladas',
                  bargap=0.1)

fig.show()

Ao analisar a distribuição da antecedência de cancelamento acima, podemos notar que muito cancelamentos são feitos no mesmo dia ou próximos à reserva, e quanto maior a antecedência, menor a chance da reserva ser cancelada. Para remover os outliers (antecedências muito grandes) será utilizado o quantil 95% da variável em questão. 

In [None]:
q95 = df['days_between_booking_arrival'].quantile(0.95)
q95

In [None]:
df = df.loc[df['days_between_booking_arrival']<=q95]

#### Pedidos especiais

In [None]:
fig = px.histogram(df,
                   x='total_of_special_requests',
                   color='cancellation',
                   barmode='overlay',
                   color_discrete_sequence=paleta_dhauz,
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por número de pedidos especiais',
                  bargap=0.2)

fig.show()

De acordo com o gráfico de barras acima, reservas com pedidos especiais possuem muito menos chance de serem canceladas.

#### Vagas de carro

In [None]:
fig = px.histogram(df,
                   x='required_car_parking_spaces',
                   color='cancellation',
                   barmode='overlay',
                   color_discrete_sequence=paleta_dhauz,
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por exigência de vaga de carro',
                  bargap=0.2)

fig.show()

Segundo a distribuição acima, como os cancelamentos foram feitos apenas por reservas que não exigiam vaga de carro, a variável em questão pode ser resumida em uma boleana para explicar as reservas canceladas. 

In [None]:
df['bool_requires_car_parking_spaces'] = 0
df.loc[df['required_car_parking_spaces'] > 0, 'bool_requires_car_parking_spaces'] = 1

nom_vars.append('bool_requires_car_parking_spaces')
num_vars.remove('required_car_parking_spaces')

## Desenvolvimento de modelos

As seguintes variáveis serão utilizadas para teinar os classificadores:

In [None]:
print(nom_vars+num_vars)

In [None]:
X = df[nom_vars + num_vars]

X = pd.get_dummies(X, columns=nom_vars)

In [None]:
scaler = MinMaxScaler()
X[num_vars] = scaler.fit_transform(X[num_vars])

In [None]:
y = df['cancellation']

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.2,
                                                    random_state=0)

In [None]:
print('Tamanho dos conjuntos\n', '\nTreino:', len(X_train), '\nTeste:', len(X_test))

### Seleção

Após processar e separar o conjunto entre teste e treino, os algoritmos de classificação da lista a seguir foram selecionados para fase de teste. Nesta fase, o processo de validação cruzada é aplicado e o algoritmo com melhores resultados é selecionado. 

In [None]:
# Lista com os algoritmos a serem testados
models = [
    RandomForestClassifier(random_state=0),
    LinearSVC(random_state=0, class_weight='balanced'),
    MultinomialNB(),
    LogisticRegression(random_state=0, class_weight='balanced', max_iter=3000),
]

CV = 5
cv_df = pd.DataFrame(index=range(CV * len(models)))
entries = []

for model in models:
  model_name = model.__class__.__name__
  accuracies = cross_val_score(model, X, y, scoring='accuracy', cv=CV)    # cross validation
  for fold_idx, accuracy in enumerate(accuracies):
    entries.append((model_name, fold_idx, accuracy))

cv_df = pd.DataFrame(entries, columns=['model_name', 'fold_idx', 'accuracy'])

In [None]:
cv_df['accuracy'] = cv_df['accuracy'].round(2)

In [None]:
fig = px.line(cv_df,
              y='model_name',
              text='accuracy',
              x='accuracy',
              color='model_name',
              color_discrete_sequence=paleta_dhauz,
              template='plotly_white')

fig.update_yaxes(type='category', showgrid=False)
fig.update_xaxes(showgrid=False)
fig.update_layout(title='Comparação de acurária dos modelos')
fig.update_traces(textposition="top center")

fig.show()

De modo geral, percebe-se que os algoritmos produziram resultados parecidos. Tanto o SVC Linear quanto a Regressão Logística foram considerados para modelar nossa variável, uma vez que ambos apresentaram boas acurácias com baixa variabilidade. Falando um pouco sobre eles, uma diferença entre esses dois algoritmos reside em suas abordagens – enquanto o SVC Linear se baseia em propriedades geométricas dos dados e tenta maximizar a margem (vetor de suporte) entre as variáveis das classes, a Regressão Logística tem como base uma abordagem estatística e busca otimizar a probabilidade posterior da classe. Nesta case, o *LinearSVC* foi escolhido para seguir com a modelagem.

### Afinamento

A técnica *GridSerchCV* será utilizada para afinar os hiperparâmetros. Este método também utiliza a validação cruzada para testar as combinações de hiperparâmetros, que inclusive serão poucas para essa case em específico. 

In [None]:
params = {
    'C': [1, 0.6, 0.2, 0.01],
    'fit_intercept': [True, False],
}

svc = LinearSVC(random_state=0, class_weight='balanced')

clf = GridSearchCV(svc, params, cv=5, verbose=True, n_jobs=-1)

clf = clf.fit(X, y)

In [None]:
clf.best_params_

In [None]:
y_pred = clf.predict(X_test)

### Avaliação

In [None]:
cm = confusion_matrix(y_test, y_pred)

fig = px.imshow(cm,
                text_auto=True,
                color_continuous_scale=px.colors.sequential.Purples,
                title='Matriz de confusão')

fig.update_layout(yaxis={'title':'Reais'}, 
                  xaxis={'title':'Previstos'},
                  coloraxis_showscale=False, 
                  font_size=10,
                  height=700)

fig.update_xaxes(dtick=1)
fig.update_yaxes(dtick=1)

fig.show()

In [None]:
print(metrics.classification_report(y_test, y_pred))

Ao avaliar o desempenho do modelo, percebe-se que a sua habilidade em classificar reservas que não serão canceladas é maior. Tendo dito isso, o algoritmo conseguiu prever 73% dos cancelamentos no conjunto de teste. Não podemos afirmar que os custos (erros) do modelo para o problema em questão são de natureza muito séria, mas o principal deles é o falso negativo, que representa justamente reservas que foram canceladas sendo que o modelo classificou o contrário. Algo interessante a se estimar é o quanto esses erros estariam custando para a empresa (em termos de diárias perdidas). Por fim, por mais que existam maneiras de atribuir probabilidade às classificações do SVC Linear, ele é essencialmente determinístico e a perspectiva probabilística dos resultados não será explorada nesta case.

### Variando o conjunto de treino/teste

Seguindo a sugestão da case, os dados de 2016 serão utilizados para treinar o modelo e os de 2017 para testá-lo. 

In [None]:
X = df.copy()

scaler = MinMaxScaler()
X[num_vars] = scaler.fit_transform(X[num_vars])

train = X.loc[X['year_arrival_date']==2016]
test = X.loc[X['year_arrival_date']==2017]

X_train = pd.get_dummies(train[nom_vars + num_vars], columns=nom_vars)
y_train = train['cancellation']

X_test = pd.get_dummies(test[nom_vars + num_vars], columns=nom_vars)
y_test = test['cancellation']

In [None]:
clf = LinearSVC(random_state=0, C=0.01, fit_intercept=True, class_weight='balanced')

In [None]:
clf = clf.fit(X_train, y_train)

In [None]:
y_pred = clf.predict(X_test)

In [None]:
cm = confusion_matrix(y_test, y_pred)

fig = px.imshow(cm,
                text_auto=True,
                color_continuous_scale=px.colors.sequential.Purples,
                title='Matriz de confusão')

fig.update_layout(yaxis={'title':'Reais'}, 
                  xaxis={'title':'Previstos'},
                  coloraxis_showscale=False, 
                  font_size=10,
                  height=700)

fig.update_xaxes(dtick=1)
fig.update_yaxes(dtick=1)

fig.show()

In [None]:
print(metrics.classification_report(y_test, y_pred))

A principal razão que eu consigo pensar para se fazer tal separação seria se caso alguma variável temporal do conjunto apresentasse algum tipo de **sazonalidade** anual que explicasse o cancelamento das reservas. Desta maneira, tal sazonalidade permaneceria íntegra durante os processos de treinamento e teste. <br>
Além do mais, como o conjunto se trata de um conjunto desbalanceado, outra razão válida que pode explicar esse tipo de separação seria o princípio da técnica **filtro de domínio**, que consiste em segmentar os dados para um domínio em específico (como um ano ou tipo de hotel X), a fim de obter amostras mais balanceadas que não violem nenhum princípio de amostragem. <br>
Tendo dito isto, a separação aleatória anterior expressou resultados ligeiramente melhores e a minha indicação é permanecer com ela. 