# Case t√©cnico DHAUZ - Modelagem de cancelamentos
Victor Andrade Martins

**Briefing**: Voc√™ foi contratado pela DHAUZ como cientista de dados para analisar uma base de dados de clientes de uma rede de Hot√©is e sua tarefa √© investigar os dados em busca de insights que possam ajudar a empresa a evitar cancelamentos e tamb√©m construir um modelo preditivo que possa antecipar esses cancelamentos, de modo que a empresa tenha tempo h√°bil para agir com a√ß√µes de reten√ß√£o.

Enquanto leem o estudo, incentivo a tamb√©m darem uma olhada no app que desenvolvi para case: https://victorandmar-case-dhauz-app-dhauz-3n813c.streamlitapp.com

In [None]:
import pandas as pd
import numpy as np

# Visualiza√ß√£o
import plotly.graph_objects as go
from plotly.colors import n_colors
import plotly.express as px
import plotly.offline as pyo
pyo.init_notebook_mode()

# Correla√ß√£o
import association_metrics as am

# Processamento
from sklearn.preprocessing import MinMaxScaler

# Separa√ß√£o
from sklearn.model_selection import train_test_split

# Modelos para classifica√ß√£o
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import LinearSVC

# Afinamento
from sklearn.calibration import CalibratedClassifierCV
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline

# Avalia√ß√£o de modelos
from sklearn import metrics
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import cross_val_score

In [None]:
df = pd.read_csv('cancellation-prediction.csv')

## An√°lise Explorat√≥ria

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.isna().sum()

Para lidar com os valores nulos, ser√° atribu√≠do 0 aos registros que n√£o possuem quantidade de crian√ßas (coluna *num_children*). Em rela√ß√£o aos nulos da coluna pa√≠s, ser√° avaliada a necessidade dessa informa√ß√£o antes de descartar esses registros.

In [None]:
df['num_children'] = df['num_children'].fillna(0)

In [None]:
df.head()

In [None]:
# Listagem de colunas num√©ricas
nums = [
    'days_between_booking_arrival', 'changes_between_booking_arrival',
    'num_adults', 'num_children', 'num_babies', 'num_weekend_nights',
    'num_workweek_nights', 'num_previous_cancellations', 'num_previous_stays',
    'required_car_parking_spaces', 'total_of_special_requests', 'avg_price',
]

df[nums] = df[nums].astype(float)

In [None]:
# Listagem de colunas nominais
noms = [
    'cancellation', 'type', 'year_arrival_date', 'month_arrival_date',
    'week_number_arrival_date', 'day_of_month_arrival_date', 'deposit_policy',
    'country', 'breakfast', 'market_segment', 'distribution_channel',
    'customer_type'
]

In [None]:
df[nums].describe()

    (antes de construir os gr√°ficos interativos, eu montei uma paleta personalizada com algumas cores do site da DHAUZ.     Fiquem √† vontade para anotar os c√≥digos hexadecimais üòâ)

In [None]:
# Paleta com as cores da DHAUZ
paleta_dhauz = [
   '#7b3afa','#4e28a0','#efeef2','#17e5fd', '#a478fc', '#42d0e1', '#46405f'
]

In [None]:
fig = px.pie(df,
             names='cancellation',
             color_discrete_sequence=paleta_dhauz,
             hole=.3,
             template='ggplot2')

fig.update_layout(title='Contagem de cancelamentos', showlegend=False)

fig.update_traces(textinfo='value+percent+label',
                  marker=dict(line=dict(color='white', width=3)))

fig.show()

Ao analisar o gr√°fico acima, percebe-se que o dataset √© desbalanceado. O r√≥tulo 0 (n√£o cancelou) est√° muito mais presente no conjunto.

### Correla√ß√µes

#### Correla√ß√µes nominais

Para analisar a correla√ß√£o entre as vari√°veis nominais do conjunto, ser√° utilizado o m√©todo *Cram√©r's-V* ($œÜc$). Como ressalva, √© importante lembrar que esta f√≥rumula apresenta um problema de simetria, que se resume ao fato de que uma vari√°vel x pode explicar y, mas n√£o o contr√°rio. Informa√ß√µes que expliquem por outra perspectiva como duas vari√°veis se relacionam podem ser perdidas devido √† este problema, portanto analisar a correla√ß√£o entre vari√°veis nominais atrav√©s de outros m√©todos (como *Theil's U*) tamb√©m √© interessante, mas por fins pr√°ticos ser√° aplicado o *Cram√©r's-V*.

In [None]:
df_corr = df[noms][:]

df_corr = df_corr.dropna(subset='country')

df_corr = df_corr.apply(lambda x: pd.factorize(x)[0])

df_corr = df_corr.apply(lambda x: x.astype('str'))

df_corr = df_corr.apply(lambda x: x.astype("category")
                        if x.dtype == "O" else x)

In [None]:
cramers_v = am.CramersV(df_corr)

In [None]:
cfit = cramers_v.fit().round(2)

In [None]:
fig = px.imshow(cfit,
                text_auto=True,
                aspect='auto',
                color_continuous_scale=px.colors.sequential.dense)

fig.update_layout(title='Matriz de correla√ß√£o nominal (Cram√©rs V)')

fig.show()

Pode-se notar que certas informa√ß√µes possuem forte correla√ß√£o com a vari√°vel de cancelamento. A que mais chama aten√ß√£o √© a *deposit_policy* (0.48), o que intuitivamente faz sentido, tendo em vista que esta vari√°vel provavlmente rege as normas de cancelamento e estorno. Qualquer vari√°vel apresentando correla√ß√£o acima de 0.11 ser√° testada nos modelos preditivos, com exce√ß√£o da *distribution_channel*, que por ser bem explicada pela *market_segment*, teria um uso redundante.

In [None]:
nom_vars = list(cfit['cancellation'][1:].loc[lambda x: x > 0.11].index)

In [None]:
nom_vars.remove('distribution_channel')

In [None]:
nom_vars

#### Correla√ß√£o entre vari√°vel nominal x num√©ricas

J√° para medir a correla√ß√£o entre a nossa vari√°vel de interesse e as outras vari√°veis num√©ricas do conjunto, a f√≥rmula *correlation ratio* ($Œ∑$) ser√° utilizada. Em sumo, esse m√©todo observa como as dispers√µes estat√≠sticas se comportam em cada categoria. 

In [None]:
def correlation_ratio(categories, measurements):
    fcat, _ = pd.factorize(categories)
    cat_num = np.max(fcat)+1
    y_avg_array = np.zeros(cat_num)
    n_array = np.zeros(cat_num)
    for i in range(0,cat_num):
        cat_measures = measurements[np.argwhere(fcat == i).flatten()]
        n_array[i] = len(cat_measures)
        y_avg_array[i] = np.average(cat_measures)
    y_total_avg = np.sum(np.multiply(y_avg_array,n_array))/np.sum(n_array)
    numerator = np.sum(np.multiply(n_array,np.power(np.subtract(y_avg_array,y_total_avg),2)))
    denominator = np.sum(np.power(np.subtract(measurements,y_total_avg),2))
    if numerator == 0:
        eta = 0.0
    else:
        eta = np.sqrt(numerator/denominator)
    return eta.round(2)

In [None]:
corrs = {}

for col in nums:
    c = correlation_ratio(df['cancellation'], df[col])
    corrs[col] = c

A maior correla√ß√£o observada foi com a vari√°vel que cont√©m a informa√ß√£o dos dias faltantes at√© a reserva (*days_between_booking_arrival*). Como j√° selecionamos muitas vari√°veis, apenas as principais (corr >= 0.2) desse grupo ser√£o escolhidas. 

In [None]:
num_vars = [
    'days_between_booking_arrival', 'total_of_special_requests',
    'required_car_parking_spaces'
]

Para lidar com os outliers nominais, ser√° removida toda varia√ß√£o de nominais com menos de 130 registros. 

In [None]:
df = df.dropna(subset=['country'])

In [None]:
for col in nom_vars:
    counts = df[col].value_counts().loc[lambda x: x > 130].index
    df = df.loc[df[col].isin(counts)][:]

### Analisando as vari√°veis

#### Segmento de mercado

In [None]:
fig = px.histogram(df,
                   x='market_segment',
                   color='market_segment',
                   color_discrete_sequence=paleta_dhauz,
                   template='plotly_white')

fig.update_layout(title='Distribui√ß√£o dos segmentos de mercado', showlegend=False)

fig.update_xaxes(type='category')

fig.show()

In [None]:
fig = px.histogram(df,
                   x='market_segment',
                   color='cancellation',
                   barnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por segmento de mercado',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.update_xaxes(type='category')

fig.show()

Ao analisar os segmentos de mercado, fica evidente que entre alguns deles h√° uma grande varia√ß√£o das taxas de cancelamento. A diferen√ßa entre o m√≠nimo (38,41%) e o m√°ximo (87,72%) √© de quase 50%. Pode-se afirmar que essa vari√°vel ajuda bastante a explicar o cancelamento, uma vez que a probabilidade de uma reserva ser cancelada no segmento 5 √© muito maior do que no segmento 4, por exemplo. 

#### Pol√≠tica de dep√≥sito (ou reembolso)

In [None]:
fig = px.histogram(df,
                   x='deposit_policy',
                   color='cancellation',
                   barnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por pol√≠tica de dep√≥sito',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.show()

In [None]:
fig = px.histogram(df,
                   x='deposit_policy',
                   color='deposit_policy',
                   color_discrete_sequence=paleta_dhauz,
                   template='plotly_white')

fig.update_layout(title='Distribui√ß√£o das pol√≠ticas de dep√≥sito', showlegend=False)

fig.update_xaxes(type='category')

fig.show()

In [None]:
canceladas = df['deposit_policy'].loc[df['cancellation']==1]
print('Porcentagem das pol√≠ticas de dep√≥sito para reservas canceladas:')
print(round(canceladas.value_counts()/len(canceladas)*100, 2))

Algo interessante a se observar nos gr√°ficos de barras acima √© que dentre as reservas que exigiam dep√≥sito (~11,8%), quase 100% n√£o garantia reembolso e praticamente todas foram canceladas. Al√©m do mais, na parcela fracion√°ria de dep√≥sitos com direito a reembolso, a maioria (80%) n√£o cancelou. Tendo dito isso, a maioria dos cancelamentos (68,4%) n√£o exigia dep√≥sito.

#### Pa√≠s

In [None]:
fig = px.histogram(df,
                   x='country',
                   histnorm='percent',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Distribui√ß√£o dos pa√≠ses',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")
fig.update_xaxes(categoryorder='total descending')

fig.show()

Pode-se notar que existe um c√≥digo ISO com 2 letras correspondente a China (CN). Essa varia√ß√£o ser√° normalizada para corresponder ao c√≥digo ISO da China de 3 letras (CHN) 

In [None]:
df.loc[df['country']=='CN', 'country'] = 'CHN'

In [None]:
fig = px.histogram(df,
                   x='country',
                   color='cancellation',
                   barmode='overlay',
                   histnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Categorias distribu√≠das por pa√≠s',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.show()

In [None]:
fig = px.histogram(df,
                   x='country',
                   color='cancellation',
                   barnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por pa√≠s',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.show()

In [None]:
fig = px.histogram(df,
                   x='country',
                   color='deposit_policy',
                   barnorm='percent',
                   text_auto='.2f',
                   color_discrete_sequence=paleta_dhauz[::-1],
                   template='plotly_white')

fig.update_layout(title='Propor√ß√£o de pol√≠ticas de dep√≥sito por pa√≠s',
                  bargap=0.2)

fig.update_yaxes(ticksuffix="%")

fig.show()

A maioria das reservas (41,25%) est√° concentrada em Portugal, assim como a grande maioria dos cancelamentos (62,25%). Inclsuive, o pa√≠s em quest√£o possui a segunda maior taxa de cancelamento, que √© bem alta quando comparada √†s outras. Al√©m do mais, ao analisar a propor√ß√£o de pol√≠ticas de dep√≥sito de cada pa√≠s, pode-se notar uma alta bastante at√≠pica de pol√≠ticas de n√£o-reembolso em Portugal, indicando que esse tipo de regra seja mais comum nos hot√©is do pa√≠s.

#### Anteced√™ncia do cancelamento

In [None]:
fig = px.histogram(df.loc[df['cancellation']==1],
                   x='days_between_booking_arrival',
                   barmode='overlay',
                   color_discrete_sequence=paleta_dhauz,
                   nbins=600,
                   template='plotly_white')

fig.update_layout(title='Distribui√ß√£o da anteced√™ncia de reservas canceladas',
                  bargap=0.1)

fig.show()

Ao analisar a distribui√ß√£o da anteced√™ncia de cancelamento acima, podemos notar que muito cancelamentos s√£o feitos no mesmo dia ou pr√≥ximos √† reserva, e quanto maior a anteced√™ncia, menor a chance da reserva ser cancelada. Para remover os outliers (anteced√™ncias muito grandes) ser√° utilizado o quantil 95% da vari√°vel em quest√£o. 

In [None]:
q95 = df['days_between_booking_arrival'].quantile(0.95)
q95

In [None]:
df = df.loc[df['days_between_booking_arrival']<=q95]

#### Pedidos especiais

In [None]:
fig = px.histogram(df,
                   x='total_of_special_requests',
                   color='cancellation',
                   barmode='overlay',
                   color_discrete_sequence=paleta_dhauz,
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por n√∫mero de pedidos especiais',
                  bargap=0.2)

fig.show()

De acordo com o gr√°fico de barras acima, reservas com pedidos especiais possuem muito menos chance de serem canceladas.

#### Vagas de carro

In [None]:
fig = px.histogram(df,
                   x='required_car_parking_spaces',
                   color='cancellation',
                   barmode='overlay',
                   color_discrete_sequence=paleta_dhauz,
                   template='plotly_white')

fig.update_layout(title='Taxa de cancelamento por exig√™ncia de vaga de carro',
                  bargap=0.2)

fig.show()

Segundo a distribui√ß√£o acima, como os cancelamentos foram feitos apenas por reservas que n√£o exigiam vaga de carro, a vari√°vel em quest√£o pode ser resumida em uma boleana para explicar as reservas canceladas. 

In [None]:
df['bool_requires_car_parking_spaces'] = 0
df.loc[df['required_car_parking_spaces'] > 0, 'bool_requires_car_parking_spaces'] = 1

nom_vars.append('bool_requires_car_parking_spaces')
num_vars.remove('required_car_parking_spaces')

## Desenvolvimento de modelos

As seguintes vari√°veis ser√£o utilizadas para teinar os classificadores:

In [None]:
print(nom_vars+num_vars)

In [None]:
X = df[nom_vars + num_vars]

X = pd.get_dummies(X, columns=nom_vars)

In [None]:
scaler = MinMaxScaler()
X[num_vars] = scaler.fit_transform(X[num_vars])

In [None]:
y = df['cancellation']

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.2,
                                                    random_state=0)

In [None]:
print('Tamanho dos conjuntos\n', '\nTreino:', len(X_train), '\nTeste:', len(X_test))

### Sele√ß√£o

Ap√≥s processar e separar o conjunto entre teste e treino, os algoritmos de classifica√ß√£o da lista a seguir foram selecionados para fase de teste. Nesta fase, o processo de valida√ß√£o cruzada √© aplicado e o algoritmo com melhores resultados √© selecionado. 

In [None]:
# Lista com os algoritmos a serem testados
models = [
    RandomForestClassifier(random_state=0),
    LinearSVC(random_state=0, class_weight='balanced'),
    MultinomialNB(),
    LogisticRegression(random_state=0, class_weight='balanced', max_iter=3000),
]

CV = 5
cv_df = pd.DataFrame(index=range(CV * len(models)))
entries = []

for model in models:
  model_name = model.__class__.__name__
  accuracies = cross_val_score(model, X, y, scoring='accuracy', cv=CV)    # cross validation
  for fold_idx, accuracy in enumerate(accuracies):
    entries.append((model_name, fold_idx, accuracy))

cv_df = pd.DataFrame(entries, columns=['model_name', 'fold_idx', 'accuracy'])

In [None]:
cv_df['accuracy'] = cv_df['accuracy'].round(2)

In [None]:
fig = px.line(cv_df,
              y='model_name',
              text='accuracy',
              x='accuracy',
              color='model_name',
              color_discrete_sequence=paleta_dhauz,
              template='plotly_white')

fig.update_yaxes(type='category', showgrid=False)
fig.update_xaxes(showgrid=False)
fig.update_layout(title='Compara√ß√£o de acur√°ria dos modelos')
fig.update_traces(textposition="top center")

fig.show()

De modo geral, percebe-se que os algoritmos produziram resultados parecidos. Tanto o SVC Linear quanto a Regress√£o Log√≠stica foram considerados para modelar nossa vari√°vel, uma vez que ambos apresentaram boas acur√°cias com baixa variabilidade. Falando um pouco sobre eles, uma diferen√ßa entre esses dois algoritmos reside em suas abordagens ‚Äì enquanto o SVC Linear se baseia em propriedades geom√©tricas dos dados e tenta maximizar a margem (vetor de suporte) entre as vari√°veis das classes, a Regress√£o Log√≠stica tem como base uma abordagem estat√≠stica e busca otimizar a probabilidade posterior da classe. Nesta case, o *LinearSVC* foi escolhido para seguir com a modelagem.

### Afinamento

A t√©cnica *GridSerchCV* ser√° utilizada para afinar os hiperpar√¢metros. Este m√©todo tamb√©m utiliza a valida√ß√£o cruzada para testar as combina√ß√µes de hiperpar√¢metros, que inclusive ser√£o poucas para essa case em espec√≠fico. 

In [None]:
params = {
    'C': [1, 0.6, 0.2, 0.01],
    'fit_intercept': [True, False],
}

svc = LinearSVC(random_state=0, class_weight='balanced')

clf = GridSearchCV(svc, params, cv=5, verbose=True, n_jobs=-1)

clf = clf.fit(X, y)

In [None]:
clf.best_params_

In [None]:
y_pred = clf.predict(X_test)

### Avalia√ß√£o

In [None]:
cm = confusion_matrix(y_test, y_pred)

fig = px.imshow(cm,
                text_auto=True,
                color_continuous_scale=px.colors.sequential.Purples,
                title='Matriz de confus√£o')

fig.update_layout(yaxis={'title':'Reais'}, 
                  xaxis={'title':'Previstos'},
                  coloraxis_showscale=False, 
                  font_size=10,
                  height=700)

fig.update_xaxes(dtick=1)
fig.update_yaxes(dtick=1)

fig.show()

In [None]:
print(metrics.classification_report(y_test, y_pred))

Ao avaliar o desempenho do modelo, percebe-se que a sua habilidade em classificar reservas que n√£o ser√£o canceladas √© maior. Tendo dito isso, o algoritmo conseguiu prever 73% dos cancelamentos no conjunto de teste. N√£o podemos afirmar que os custos (erros) do modelo para o problema em quest√£o s√£o de natureza muito s√©ria, mas o principal deles √© o falso negativo, que representa justamente reservas que foram canceladas sendo que o modelo classificou o contr√°rio. Algo interessante a se estimar √© o quanto esses erros estariam custando para a empresa (em termos de di√°rias perdidas). Por fim, por mais que existam maneiras de atribuir probabilidade √†s classifica√ß√µes do SVC Linear, ele √© essencialmente determin√≠stico e a perspectiva probabil√≠stica dos resultados n√£o ser√° explorada nesta case.

### Variando o conjunto de treino/teste

Seguindo a sugest√£o da case, os dados de 2016 ser√£o utilizados para treinar o modelo e os de 2017 para test√°-lo. 

In [None]:
X = df.copy()

scaler = MinMaxScaler()
X[num_vars] = scaler.fit_transform(X[num_vars])

train = X.loc[X['year_arrival_date']==2016]
test = X.loc[X['year_arrival_date']==2017]

X_train = pd.get_dummies(train[nom_vars + num_vars], columns=nom_vars)
y_train = train['cancellation']

X_test = pd.get_dummies(test[nom_vars + num_vars], columns=nom_vars)
y_test = test['cancellation']

In [None]:
clf = LinearSVC(random_state=0, C=0.01, fit_intercept=True, class_weight='balanced')

In [None]:
clf = clf.fit(X_train, y_train)

In [None]:
y_pred = clf.predict(X_test)

In [None]:
cm = confusion_matrix(y_test, y_pred)

fig = px.imshow(cm,
                text_auto=True,
                color_continuous_scale=px.colors.sequential.Purples,
                title='Matriz de confus√£o')

fig.update_layout(yaxis={'title':'Reais'}, 
                  xaxis={'title':'Previstos'},
                  coloraxis_showscale=False, 
                  font_size=10,
                  height=700)

fig.update_xaxes(dtick=1)
fig.update_yaxes(dtick=1)

fig.show()

In [None]:
print(metrics.classification_report(y_test, y_pred))

A principal raz√£o que eu consigo pensar para se fazer tal separa√ß√£o seria se caso alguma vari√°vel temporal do conjunto apresentasse algum tipo de **sazonalidade** anual que explicasse o cancelamento das reservas. Desta maneira, tal sazonalidade permaneceria √≠ntegra durante os processos de treinamento e teste. <br>
Al√©m do mais, como o conjunto se trata de um conjunto desbalanceado, outra raz√£o v√°lida que pode explicar esse tipo de separa√ß√£o seria o princ√≠pio da t√©cnica **filtro de dom√≠nio**, que consiste em segmentar os dados para um dom√≠nio em espec√≠fico (como um ano ou tipo de hotel X), a fim de obter amostras mais balanceadas que n√£o violem nenhum princ√≠pio de amostragem. <br>
Tendo dito isto, a separa√ß√£o aleat√≥ria anterior expressou resultados ligeiramente melhores e a minha indica√ß√£o √© permanecer com ela. 