In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
datasets_path = "../datasets_for_ml/"

reservas_futuras = pd.read_csv(datasets_path+'reservas_futuras.csv')
transacoes = pd.read_csv(datasets_path+'transacoes.csv')
cancelados = pd.read_csv(datasets_path+'cancelados.csv')
faltantes = pd.read_csv(datasets_path+'faltantes.csv')

transacoes['Date'] = pd.to_datetime(transacoes['Date'])
cancelados['Booking Date'] = pd.to_datetime(cancelados['Booking Date'])
cancelados['Cancel Date'] = pd.to_datetime(cancelados['Cancel Date'])
faltantes['Date'] = pd.to_datetime(faltantes['Date'])
reservas_futuras['Date'] = pd.to_datetime(reservas_futuras['Date'])

Vimos na análise dos dados que há interseções entre as tabelas de transações, cancelados e faltantes. Entretanto, suspeitamos que essas tabelas deveriam ser mutuamente exclusivas, de tal forma que não deveria haver interseções entre elas.

Vamos tomar a seguinte estratégia para lidar com esse problema:

* Todas as interseções de cancelados e faltantes com transações serão removidos, deixando as instâncias somente na tabela transações. Pois se o cliente está na tabela de transações significa que ele recebeu o serviço, portanto, não cancelou e nem faltou.

* Os clientes que estão na interseção de cancelados e faltantes serão removidos da tabela de faltantes e mantidos na tabela de cancelados. Se o cliente está na lista de cancelados, significa que ele cancelou e, portanto, não faltou.

Criando flags para auxiliar na remoção das instâncias

In [3]:
# Apenas para controle
transacoes.shape , cancelados.shape , faltantes.shape

((1862, 13), (240, 7), (59, 4))

In [4]:
cancelados['to_remove'] = cancelados.index
faltantes['to_remove'] = faltantes.index

In [5]:
remove = pd.merge(left = cancelados[['Booking Date','Code','to_remove']], 
               right = transacoes[['Date','Client']],
               left_on = ['Code','Booking Date'], 
               right_on=['Client','Date'],
               how='inner',
               indicator=True).drop_duplicates()['to_remove']


print(f"Quantidade de interseções entre cancelados e transacoes: {len(remove)}")

cancelados = cancelados.drop(remove)



Quantidade de interseções entre cancelados e transacoes: 56


In [6]:
remove = pd.merge(left = faltantes[['Date','Code','to_remove']], 
               right = transacoes[['Date','Client']],
               left_on = ['Code','Date'], 
               right_on=['Client','Date'],
               how='inner',
               indicator=True).drop_duplicates()['to_remove']


print(f"Quantidade de interseções entre faltantes e transacoes: {len(remove)}")
faltantes = faltantes.drop(remove)

Quantidade de interseções entre faltantes e transacoes: 1


In [7]:
remove = pd.merge(left = cancelados[['Booking Date','Code']], 
               right = faltantes[['Date','Code','to_remove']],
               left_on = ['Code','Booking Date'], 
               right_on=['Code','Date'],
               how='inner',
               indicator=True).drop_duplicates()['to_remove']


print(f"Quantidade de interseções entre cancelados e transacoes: {len(remove)}")
faltantes = faltantes.drop(remove)

Quantidade de interseções entre cancelados e transacoes: 4


In [8]:
cancelados = cancelados.drop('to_remove',axis=1)
faltantes = faltantes.drop('to_remove',axis=1)

In [9]:
# Apenas para controle
transacoes.shape , cancelados.shape , faltantes.shape

((1862, 13), (184, 7), (54, 4))

Nota-se que não há mais interseções entre as tabelas

In [10]:
print('Transações vs cancelados')
display(pd.merge(left = cancelados, 
               right = transacoes,
               left_on = ['Code','Booking Date'], 
               right_on=['Client','Date'],
               how='inner',
               indicator=True))

print("-"*100,'\nTransações vs faltantes')
display(pd.merge(left = faltantes, 
               right = transacoes,
               left_on = ['Code','Date'], 
               right_on=['Client','Date'],
               how='inner',
               indicator=True))

print("-"*100,'\nFaltantes vs cancelados')
display(pd.merge(left = cancelados, 
               right = faltantes,
               left_on = ['Code','Booking Date'], 
               right_on=['Code','Date'],
               how='inner',
               indicator=True))

Transações vs cancelados


Unnamed: 0,Cancel Date,Code,Service,Staff_x,Booking Date,Canceled By,Days,Receipt,Date,Description,...,Staff_y,Quantity,Amount,GST,PST,mes_nome,mes_n,dia_nome,dia_n,_merge


---------------------------------------------------------------------------------------------------- 
Transações vs faltantes


Unnamed: 0,Date,Code,Service,Staff_x,Receipt,Description,Client,Staff_y,Quantity,Amount,GST,PST,mes_nome,mes_n,dia_nome,dia_n,_merge


---------------------------------------------------------------------------------------------------- 
Faltantes vs cancelados


Unnamed: 0,Cancel Date,Code,Service_x,Staff_x,Booking Date,Canceled By,Days,Date,Service_y,Staff_y,_merge


In [34]:
faltantes = faltantes.rename({'Code':'Client'},axis=1)
cancelados = cancelados.rename({'Code':'Client','Booking Date': "Booking_Date"},axis=1)

# **Construção do dataset para treinamento, teste e validação 2**

1. Obter a data mais recente de cada cliente, seja de serviço, falta ou cancelamento

2. Utilizar as datas passadas como histórico e obter informações relevantes desses dados

3. A não existência de um dataset com as reservas adiciona uma dificuldade a mais

In [12]:
cancelados_clientes = cancelados['Client'].unique().tolist()
faltantes_clientes = faltantes['Client'].unique().tolist()
transacoes_clientes = transacoes['Client'].unique().tolist()

clientes = transacoes_clientes

print(len(transacoes_clientes), len(cancelados_clientes), len(faltantes_clientes))

c = 0
for cliente_cancelado in cancelados_clientes:

    if cliente_cancelado not in clientes:
        clientes.append(cliente_cancelado)


for cliente_faltante in clientes:

    if cliente_faltante not in clientes:
        clientes.append(cliente_faltante)



767 120 45


In [13]:
dataset = pd.DataFrame({'Client':clientes})

In [14]:
dataset

Unnamed: 0,Client
0,KERT01
1,COOM01
2,PEDM01
3,BAIS01
4,FRAL01
...,...
793,CARS01
794,SHMS01
795,COLS01
796,ROUT01


In [15]:
aux = transacoes.groupby('Client')['Date'].max().to_frame('Transacao_mais_recente').reset_index()
dataset = pd.merge(dataset,aux,how='left',on='Client')

In [16]:
aux = faltantes.groupby('Client')['Date'].max().to_frame('Falta_mais_recente').reset_index()
dataset = pd.merge(dataset,aux,how='left',on='Client')

In [17]:
aux = cancelados.groupby('Client')['Booking_Date'].max().to_frame('Cancelamento_mais_recente').reset_index()
dataset = pd.merge(dataset,aux,how='left',on='Client')

In [18]:
dataset

Unnamed: 0,Client,Transacao_mais_recente,Falta_mais_recente,Cancelamento_mais_recente
0,KERT01,2018-06-20,NaT,NaT
1,COOM01,2018-06-15,NaT,NaT
2,PEDM01,2018-06-09,NaT,NaT
3,BAIS01,2018-06-09,NaT,NaT
4,FRAL01,2018-06-09,NaT,NaT
...,...,...,...,...
793,CARS01,NaT,NaT,2018-05-25
794,SHMS01,NaT,NaT,2018-07-13
795,COLS01,NaT,NaT,2018-04-22
796,ROUT01,NaT,2018-06-17,2018-05-06


In [19]:
dataset = dataset.fillna(0)
dataset['Transacao_mais_recente'] = pd.to_datetime(dataset['Transacao_mais_recente'])
dataset['Falta_mais_recente'] = pd.to_datetime(dataset['Falta_mais_recente'])
dataset['Cancelamento_mais_recente'] = pd.to_datetime(dataset['Cancelamento_mais_recente'])

Agora estamos aptos a determinar qual foi a data da interação mais recente de cada cliente com o salão

In [20]:
def interacao_mais_recente(transacao,faltante,cancelado):

    if transacao > faltante and transacao > cancelado:
        return transacao,'compareceu'
    
    elif faltante > cancelado and faltante > transacao:
        return faltante,'faltou'

    elif cancelado > faltante and cancelado > transacao:
        return cancelado,'cancelou'

In [21]:
resultado = dataset.apply(lambda x: interacao_mais_recente(x['Transacao_mais_recente'],x['Falta_mais_recente'],x['Cancelamento_mais_recente']),axis=1)

datas = []
evento = []

for i in resultado:
    datas.append(i[0])
    evento.append(i[1])

dataset['data_recente'] = datas
dataset['evento'] = evento

In [22]:
dataset = dataset.drop(['Transacao_mais_recente','Falta_mais_recente','Cancelamento_mais_recente'],axis=1)

Precisamos estabelecer o target

In [59]:
def define_target(evento, qt_dias = None ):
    if evento == 'compareceu':
        return 0
    elif evento == 'faltou':
        return 1
    
    elif evento == 'cancelou':
        if qt_dias < 2:
            return 1
        else:
            return 0

def obtem_dias(cliente,data):

    return cancelados.query(f"Booking_Date == '{data}' and Client == '{cliente}' ")['Days'].mean()

In [62]:
dataset['dias'] = dataset.apply(lambda x: obtem_dias(x['Client'],x['data_recente']) if x['evento'] == 'cancelou' else np.nan, axis=1 )

In [68]:
dataset['target'] = dataset.apply(lambda x: define_target(x['evento'],x['dias']),axis=1)

## (essa solução será removida, considerar a de cima )**Construção do dataset para treinamento, teste e validação**

O objetivo do projeto consiste em desenvolver um classificador que seja capaz de identificar os clientes que não sigam as políticas do salão. Portanto, as únicas informações que teremos acesso para realizar essa predição será o histórico do cliente e as informações passadas por ele no momento da reserva.

Logo, o histórico do cliente será de muita importância para o nosso desenvolvimento. Portanto, não podemos simplesmente elaborar um dataset de treino considerando todas as instâncias das tabelas, uma vez que existe uma relação temporal nos dados mesmo que o problema não se configure com o de uma série temporal.

Dito isso, vamos seguir da seguinte maneira:

> 1. Vamos separar os primeiros quatro meses (Março a Junho) para elaborar o dataset de treino. Os meses subsequentes serão utilizados para teste.

> 2. Com a tabela de faltantes vamos criar uma flag para realizar a contagem de quantas vezes um dado cliente faltou durante os 3 meses de referência. Podemos obter também o staff e serviço mais frequente durante esse histórico de faltas. 

> 3. Com a tabela de cancelados podemos gerar uma flag informando quantas vezes um determinado cliente cancelou. Podemos obter a média/mediana da diferença entre as datas de cancelamento e reserva, o staff mais frequente e o serviço mais frequente.

> 4. Com a tabela transações conseguimos obter as métricas de recência, frequência e valor, o staff e dia mais frequentes além da quantidade de serviços prestado por dia.


O target será composto por um valor binário, o valor zero corresponderá aos clientes que seguiu a política do salão e o valor um corresponderá aos clientes que não seguiram a política do salão.

Desse modo, será atribuído o target igual a 1 para todas as instâncias que  tiverem o número de faltas acima de 0 e/ou as instâncias cujas diferenças entre a data de reserva e de cancelamento são menores que dois dias. Serão atribuídas o valor 0 para as demais instâncias.


Como vimos no EDA, a tabela reservas futuras corresponde justamente às reservas realizadas pelos cientes. A princípio não pretendo utilizar essa tabela, dado que o treino e o teste eu consigo das demais tabelas. Entretanto, o que receberíamos em produção seria justamente a tabela de reservas futuras. Com essa tabela conseguimos rastrear o histórico do cliente e efetuar a predição.

Outro questão se estabelece que a tabela de reservas futuras contabiliza somente os cliente que reservaram e não faltaram, portanto, não vejo muita utilidade em utilizar essa tabela por agora

Um ponto de observação é importante. Clientes que nunca foram ao salão não apresentam histórico, desse modo, precisaríamos lidar com essa situação em produção. Ao meu ver, o mais prudente seria não realizar a estimativa para esses novos clientes, uma vez que não há o histórico deles.

Observação: No EDA concluímos que o nosso intervalo de tempo compreende 136 dias ou pouco mais de 4 meses. Entretanto, esses dias estão distribuídos ao longo de Março a Julho. Esse pequeno detalhe pode gerar algumas dúvidas.

In [24]:
transacoes_train = transacoes[transacoes['Date'].apply(lambda x: x.month <= 6)]
transacoes_test = transacoes[transacoes['Date'].apply(lambda x: x.month > 6)]

cancelados_train = cancelados[cancelados['Booking Date'].apply(lambda x: x.month <= 6)]
cancelados_test =  cancelados[cancelados['Booking Date'].apply(lambda x: x.month >6)]

faltantes_train = faltantes[faltantes['Date'].apply(lambda x: x.month <= 6)]
faltantes_test =  faltantes[faltantes['Date'].apply(lambda x: x.month > 6)]


train = pd.DataFrame()
test = pd.DataFrame()


In [25]:
train['cliente'] = transacoes_train['Client'].unique()

test['cliente'] = transacoes_test['Client'].unique()

In [26]:
train.shape,test.shape

((650, 1), (321, 1))

Conferindo a seguir os meses para os datasets de treino  e teste

In [27]:
transacoes_train['mes_nome'].unique()

array(['March', 'April', 'June', 'May'], dtype=object)

In [28]:
transacoes_test['mes_nome'].unique()

array(['July'], dtype=object)

Vamos iniciar da tabela mais simples para a tabela mais complicada. Vamos começar por faltantes

1. Calcular a quantidade de vezes que houve falta por cliente

2. Staff mais frequente

3. Serviço mais frequente

In [29]:
qt_faltas = faltantes_train.groupby('Code').size().to_frame('qte_faltas').reset_index()
train = pd.merge(left = train,right = qt_faltas, left_on='cliente',right_on='Code',how='left')
train = train.fillna(0)
train = train.drop('Code',axis=1)


qt_faltas = faltantes_test.groupby('Code').size().to_frame('qte_faltas').reset_index()
test = pd.merge(left = test,right = qt_faltas, left_on='cliente',right_on='Code',how='left')
test = test.fillna(0)
test = test.drop('Code',axis=1)


KeyError: 'Code'

In [None]:
service_moda = faltantes_train.groupby('Code').apply(lambda x: x['Service'].mode()[0]).to_frame('moda_servico_faltante').reset_index()
train = pd.merge(left = train,right = service_moda, left_on='cliente',right_on='Code',how='left')
train = train.drop('Code',axis=1)

service_moda = faltantes_test.groupby('Code').apply(lambda x: x['Service'].mode()[0]).to_frame('moda_servico_faltante').reset_index()
test = pd.merge(left = test,right = service_moda, left_on='cliente',right_on='Code',how='left')
test = test.drop('Code',axis=1)

In [None]:
staff_moda = faltantes_train.groupby('Code').apply(lambda x: x['Staff'].mode()[0]).to_frame('moda_staff_faltante').reset_index()
train = pd.merge(left = train,right = staff_moda, left_on='cliente',right_on='Code',how='left')
train = train.drop('Code',axis=1)

staff_moda = faltantes_test.groupby('Code').apply(lambda x: x['Staff'].mode()[0]).to_frame('moda_staff_faltante').reset_index()
test = pd.merge(left = test,right = staff_moda, left_on='cliente',right_on='Code',how='left')
test = test.drop('Code',axis=1)

Vamos para os cancelados

1. Calcular o serviço mais frequente

2. Staff mais frequente

3. Staff que cancelou mais frequente

4. A média da antecedência de cancelamento

5. Quantidade de vezes que cancelou

In [None]:
aux = cancelados_train.groupby('Code').apply(lambda x: x['Service'].mode()[0]).to_frame('moda_servico_cancelado').reset_index()
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Code',how='left')
train = train.drop('Code',axis=1)


aux = cancelados_test.groupby('Code').apply(lambda x: x['Service'].mode()[0]).to_frame('moda_servico_cancelado').reset_index()
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Code',how='left')
test = test.drop('Code',axis=1)


In [None]:
aux = cancelados_train.groupby('Code').apply(lambda x: x['Staff'].mode()[0]).to_frame('moda_staff_cancelado').reset_index()
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Code',how='left')
train = train.drop('Code',axis=1)


aux = cancelados_test.groupby('Code').apply(lambda x: x['Staff'].mode()[0]).to_frame('moda_staff_cancelado').reset_index()
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Code',how='left')
test = test.drop('Code',axis=1)


In [None]:
aux = cancelados_train.groupby('Code').apply(lambda x: x['Service'].mode()[0]).to_frame('moda_staff_cancelador_cancelado').reset_index()
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Code',how='left')
train = train.drop('Code',axis=1)

aux = cancelados_test.groupby('Code').apply(lambda x: x['Service'].mode()[0]).to_frame('moda_staff_cancelador_cancelado').reset_index()
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Code',how='left')
test = test.drop('Code',axis=1)

In [None]:
aux = cancelados_train.groupby('Code')['Days'].mean().to_frame('antecedencia').reset_index()
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Code',how='left')
train = train.drop('Code',axis=1)

aux = cancelados_test.groupby('Code')['Days'].mean().to_frame('antecedencia').reset_index()
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Code',how='left')
test = test.drop('Code',axis=1)

In [None]:
aux = cancelados_train.groupby('Code').size().to_frame('qte_cancelamento').reset_index()
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Code',how='left')
train = train.drop('Code',axis=1)
train['qte_cancelamento'] = train['qte_cancelamento'].fillna(0)

aux = cancelados_test.groupby('Code').size().to_frame('qte_cancelamento').reset_index()
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Code',how='left')
test = test.drop('Code',axis=1)
test['qte_cancelamento'] = train['qte_cancelamento'].fillna(0)

Vamos para a tabela transacoes

1. Calcular a média da quantidade de serviços por dia (receipt)

2. Calcular o Staff mais frequente

3. Calcular recência

4. Calcular frequência

5. Calcular valor

6. Calcular o dia_nome mais frequente

In [None]:
transacoes_train.head()

In [None]:
aux = transacoes_train.groupby(['Client','Date'])['Receipt'].size().groupby('Client').mean().to_frame('qte_servicos_por_dia').reset_index()
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Client',how='left')
train = train.drop('Client',axis=1)

aux = transacoes_test.groupby(['Client','Date'])['Receipt'].size().groupby('Client').mean().to_frame('qte_servicos_por_dia').reset_index()
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Client',how='left')
test = test.drop('Client',axis=1)

In [None]:
aux = transacoes_train.groupby('Client').apply(lambda x: x['Staff'].mode()[0]).to_frame('moda_staff_prestou_servico').reset_index()
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Client',how='left')
train = train.drop('Client',axis=1)

aux = transacoes_test.groupby('Client').apply(lambda x: x['Staff'].mode()[0]).to_frame('moda_staff_prestou_servico').reset_index()
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Client',how='left')
test = test.drop('Client',axis=1)


In [None]:
aux = transacoes_train.groupby('Client').apply(lambda x: x['dia_nome'].mode()[0]).to_frame('moda_dia').reset_index()
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Client',how='left')
train = train.drop('Client',axis=1)


aux = transacoes_test.groupby('Client').apply(lambda x: x['dia_nome'].mode()[0]).to_frame('moda_dia').reset_index()
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Client',how='left')
test = test.drop('Client',axis=1)


Agora resta calcular frequência e valor

In [None]:
#Valor, media, mediana, desvio padrão, max e min
aux = transacoes_train.groupby('Client')['Amount'].agg(['mean','median','std','max','min'])
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Client',how='left')


aux = transacoes_test.groupby('Client')['Amount'].agg(['mean','median','std','max','min'])
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Client',how='left')

In [None]:
# Frequencia

aux = transacoes_train.groupby('Client').size().to_frame('frequencia')
train = pd.merge(left = train,right = aux, left_on='cliente',right_on='Client',how='left')

aux = transacoes_test.groupby('Client').size().to_frame('frequencia')
test = pd.merge(left = test,right = aux, left_on='cliente',right_on='Client',how='left')

In [None]:
train.head()

In [None]:
test.head()