# Feature engineering

Colunas FUNIL_ASSINATURA_PIPEDRIVE_status até ATENDIMENTOS_AGENDA_Datas Atendimento Médico

In [84]:
import pandas as pd

data = pd.read_csv("data/data-preprocessed.csv")

## FUNIL_ASSINATURA_PIPEDRIVE_status

Transforma dados da coluna em one not encoding

In [85]:
data['FUNIL_ASSINATURA_PIPEDRIVE_status'].value_counts()

won     550
lost    435
Name: FUNIL_ASSINATURA_PIPEDRIVE_status, dtype: int64

In [86]:
one_hot_encoded = pd.get_dummies(data['FUNIL_ASSINATURA_PIPEDRIVE_status'], prefix='status')
data = pd.concat([data, one_hot_encoded], axis=1)

## FUNIL_ASSINATURA_PIPEDRIVE_start_of_service

Substitui valores nulos pela data de início do contrato e transforma o tipo em datetime

In [87]:
data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service']

0      2023-01-27
1             NaN
2      2022-06-21
3      2021-07-05
4      2021-06-28
          ...    
980    2023-11-06
981    2023-11-07
982    2023-11-07
983    2023-11-07
984    2023-11-08
Name: FUNIL_ASSINATURA_PIPEDRIVE_start_of_service, Length: 985, dtype: object

In [88]:
data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service'] = pd.to_datetime(data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service'])


for indice, valor in data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service'].items():
    if pd.isnull(valor):
        data.loc[indice, 'FUNIL_ASSINATURA_PIPEDRIVE_start_of_service'] = data.loc[indice, 'PESSOA_PIPEDRIVE_contract_start_date']
        
data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service']




0     2023-01-27
1     2021-04-25
2     2022-06-21
3     2021-07-05
4     2021-06-28
         ...    
980   2023-11-06
981   2023-11-07
982   2023-11-07
983   2023-11-07
984   2023-11-08
Name: FUNIL_ASSINATURA_PIPEDRIVE_start_of_service, Length: 985, dtype: datetime64[ns]

## FUNIL_ASSINATURA_PIPEDRIVE_lost_time

Utilizada para fazer uma nova coluna em conjunto com outras

In [89]:
data['FUNIL_ASSINATURA_PIPEDRIVE_lost_time']

0      2023-08-26
1      2023-08-02
2      2023-09-20
3      2021-09-30
4      2023-10-16
          ...    
980     Em aberto
981     Em aberto
982     Em aberto
983     Em aberto
984     Em aberto
Name: FUNIL_ASSINATURA_PIPEDRIVE_lost_time, Length: 985, dtype: object

## Coluna extra: Tempo de permanência

Coluna "stay_time" criada para calcular tempo total do usuário na plataforma. Utiliza lost_time - start_of_service ou lost_time - contract_start_date, se os dados de start_of_service forem nulos. 

## FUNIL_ASSINATURA_PIPEDRIVE_lost_reason

Faz one hot encoding para motivos de cancelamento de assinatura

In [None]:
data['FUNIL_ASSINATURA_PIPEDRIVE_lost_reason'].value_counts()

Outro                                                         609
[Assinatura] Desligamento                                     212
[Assinatura] Empresa cancelou o benefício da Ana               53
[Assinatura] Não quer seguir com a Ana                         52
[Assinatura] Precisou cortar custos                            25
[Assinatura] Cancelamento por inadimplência                    18
[Assinatura] Está sem tempo para conciliar os atendimentos     16
Name: FUNIL_ASSINATURA_PIPEDRIVE_lost_reason, dtype: int64

In [None]:
lost_reason_dummies = pd.get_dummies(data['FUNIL_ASSINATURA_PIPEDRIVE_lost_reason'], prefix='lost_reason')
data = pd.concat([data, lost_reason_dummies], axis=1)


Unnamed: 0,PESSOA_PIPEDRIVE_id_person,PESSOA_PIPEDRIVE_id_gender,PESSOA_PIPEDRIVE_id_marrital_status,PESSOA_PIPEDRIVE_state,PESSOA_PIPEDRIVE_city,PESSOA_PIPEDRIVE_postal_code,PESSOA_PIPEDRIVE_contract_start_date,PESSOA_PIPEDRIVE_contract_end_date,PESSOA_PIPEDRIVE_Canal de Preferência,PESSOA_PIPEDRIVE_notes_count,...,lost_reason_[Assinatura] Está sem tempo para conciliar os atendimentos,lost_reason_[Assinatura] Não quer seguir com a Ana,lost_reason_[Assinatura] Precisou cortar custos,lost_reason_Outro,lost_reason_[Assinatura] Cancelamento por inadimplência,lost_reason_[Assinatura] Desligamento,lost_reason_[Assinatura] Empresa cancelou o benefício da Ana,lost_reason_[Assinatura] Está sem tempo para conciliar os atendimentos.1,lost_reason_[Assinatura] Não quer seguir com a Ana.1,lost_reason_[Assinatura] Precisou cortar custos.1
0,483,64,80,Minas Gerais,Juiz de Fora,36021-600,2021-01-27,2023-08-26,0,3,...,0,1,0,0,0,0,0,0,1,0
1,654,64,82,Rio de Janeiro,Rio de Janeiro,20710-060,2021-04-25,2023-08-02,0,5,...,0,0,1,0,0,0,0,0,0,1
2,860,63,80,Paraná,Londrina,86020-410,2022-06-21,2023-09-20,239,3,...,0,0,0,1,0,0,0,0,0,0
3,961,63,80,Santa Catarina,Florianópolis,88080-080,2021-07-05,2021-10-01,0,1,...,0,0,0,0,0,0,1,0,0,0
4,972,63,82,Minas Gerais,Uberlândia,38400-438,2021-06-28,2023-09-16,0,2,...,0,0,0,1,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
980,5944,64,80,Paraíba,João Pessoa,58052-310,2023-11-06,,239,0,...,0,0,0,1,0,0,0,0,0,0
981,5948,64,80,Bahia,Salvador,41830-120,2023-11-07,,0,0,...,0,0,0,1,0,0,0,0,0,0
982,5949,64,80,São Paulo,São Paulo,05014-001,2023-11-07,,239,0,...,0,0,0,1,0,0,0,0,0,0
983,5954,63,82,São Paulo,São Paulo,04513-100,2023-11-07,,239,0,...,0,0,0,1,0,0,0,0,0,0


## FUNIL_ONBOARDING_PIPEDRIVE_add_time

Tudo certo por aqui, nada a acrescentar

In [None]:
data['FUNIL_ONBOARDING_PIPEDRIVE_add_time']

0      2021-09-16 18:15:11
1      2021-09-16 18:18:23
2      2022-06-21 23:48:22
3      2021-09-16 18:28:04
4      2021-09-16 18:04:29
              ...         
980    2023-11-06 18:34:05
981    2023-11-07 12:22:13
982    2023-11-07 13:05:44
983    2023-11-07 20:34:02
984    2023-11-08 19:03:40
Name: FUNIL_ONBOARDING_PIPEDRIVE_add_time, Length: 985, dtype: object

## FUNIL_ONBOARDING_PIPEDRIVE_status

One-hot encoding aplicado nessa coluna

In [None]:
data['FUNIL_ONBOARDING_PIPEDRIVE_status'].value_counts()

won             585
lost            261
open             99
Não iniciado     40
Name: FUNIL_ONBOARDING_PIPEDRIVE_status, dtype: int64

In [None]:
data_status_encoded = pd.get_dummies(data['FUNIL_ONBOARDING_PIPEDRIVE_status'], prefix='Status')
data = pd.concat([data, data_status_encoded], axis=1)

## FUNIL_ONBOARDING_PIPEDRIVE_lost_reason

One hot encoding aplicado na coluna

In [91]:
data['FUNIL_ONBOARDING_PIPEDRIVE_lost_reason'].value_counts()

Outro                                                                757
[Onboarding] Não retornou aos contatos de resgate                    198
[Onboarding] Não tem interesse em seguir nas etapas do onboarding     18
[Associade] Cancelou assinatura                                       12
Name: FUNIL_ONBOARDING_PIPEDRIVE_lost_reason, dtype: int64

In [None]:
lost_reason_dummies = pd.get_dummies(data['FUNIL_ONBOARDING_PIPEDRIVE_lost_reason'], prefix='lost_reason')
data = pd.concat([data, lost_reason_dummies], axis=1)


ATENDIMENTOS_AGENDA_Qde Todos Atendimentos

ATENDIMENTOS_AGENDA_Faltas Todos Atendimento

ATENDIMENTOS_AGENDA_Qde Atendimento Médico

ATENDIMENTOS_AGENDA_Faltas Atendimento Médico

ATENDIMENTOS_AGENDA_Datas Atendimento Médico

## FUNIL_ONBOARDING_PIPEDRIVE_activities_count

Tudo certo por aqui, nada a acrescentar

In [92]:
data['FUNIL_ONBOARDING_PIPEDRIVE_activities_count']

0      0
1      2
2      0
3      0
4      2
      ..
980    0
981    0
982    0
983    0
984    0
Name: FUNIL_ONBOARDING_PIPEDRIVE_activities_count, Length: 985, dtype: int64

## ATENDIMENTOS_AGENDA_Qde Todos Atendimentos

Dados não fornecidos pela empresa

In [93]:
data['ATENDIMENTOS_AGENDA_Qde Todos Atendimentos']

0      False
1      False
2      False
3      False
4      False
       ...  
980    False
981    False
982    False
983    False
984    False
Name: ATENDIMENTOS_AGENDA_Qde Todos Atendimentos, Length: 985, dtype: bool