# Feature engineering

Colunas FUNIL_ASSINATURA_PIPEDRIVE_status até ATENDIMENTOS_AGENDA_Datas Atendimento Médico

In [166]:
import pandas as pd

data = pd.read_csv("data/data-preprocessed.csv")

## FUNIL_ASSINATURA_PIPEDRIVE_status

Transforma dados da coluna em one not encoding

In [167]:
data['FUNIL_ASSINATURA_PIPEDRIVE_status'].value_counts()

won     550
lost    435
Name: FUNIL_ASSINATURA_PIPEDRIVE_status, dtype: int64

In [168]:
one_hot_encoded = pd.get_dummies(data['FUNIL_ASSINATURA_PIPEDRIVE_status'], prefix='status')
data = pd.concat([data, one_hot_encoded], axis=1)

## FUNIL_ASSINATURA_PIPEDRIVE_start_of_service

Substitui valores nulos pela data de início do contrato e transforma o tipo em datetime

In [169]:
data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service']

0      2023-01-27
1             NaN
2      2022-06-21
3      2021-07-05
4      2021-06-28
          ...    
980    2023-11-06
981    2023-11-07
982    2023-11-07
983    2023-11-07
984    2023-11-08
Name: FUNIL_ASSINATURA_PIPEDRIVE_start_of_service, Length: 985, dtype: object

In [170]:
data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service'] = pd.to_datetime(data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service'])


for indice, valor in data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service'].items():
    if pd.isnull(valor):
        data.loc[indice, 'FUNIL_ASSINATURA_PIPEDRIVE_start_of_service'] = data.loc[indice, 'PESSOA_PIPEDRIVE_contract_start_date']
        
data['FUNIL_ASSINATURA_PIPEDRIVE_start_of_service']




0     2023-01-27
1     2021-04-25
2     2022-06-21
3     2021-07-05
4     2021-06-28
         ...    
980   2023-11-06
981   2023-11-07
982   2023-11-07
983   2023-11-07
984   2023-11-08
Name: FUNIL_ASSINATURA_PIPEDRIVE_start_of_service, Length: 985, dtype: datetime64[ns]

## FUNIL_ASSINATURA_PIPEDRIVE_lost_time

Utilizada para fazer uma nova coluna em conjunto com outras

In [171]:
data['FUNIL_ASSINATURA_PIPEDRIVE_lost_time']

0      2023-08-26
1      2023-08-02
2      2023-09-20
3      2021-09-30
4      2023-10-16
          ...    
980     Em aberto
981     Em aberto
982     Em aberto
983     Em aberto
984     Em aberto
Name: FUNIL_ASSINATURA_PIPEDRIVE_lost_time, Length: 985, dtype: object

## Coluna extra: Tempo de permanência

Coluna "stay_time" criada para calcular tempo total do usuário na plataforma. Utiliza lost_time - start_of_service ou lost_time - contract_start_date, se os dados de start_of_service forem nulos. 

## FUNIL_ASSINATURA_PIPEDRIVE_lost_reason

Faz one hot encoding para motivos de cancelamento de assinatura

In [172]:
data['FUNIL_ASSINATURA_PIPEDRIVE_lost_reason'].value_counts()

Outro                                                         609
[Assinatura] Desligamento                                     212
[Assinatura] Empresa cancelou o benefício da Ana               53
[Assinatura] Não quer seguir com a Ana                         52
[Assinatura] Precisou cortar custos                            25
[Assinatura] Cancelamento por inadimplência                    18
[Assinatura] Está sem tempo para conciliar os atendimentos     16
Name: FUNIL_ASSINATURA_PIPEDRIVE_lost_reason, dtype: int64

In [173]:
lost_reason_dummies = pd.get_dummies(data['FUNIL_ASSINATURA_PIPEDRIVE_lost_reason'], prefix='lost_reason')
data = pd.concat([data, lost_reason_dummies], axis=1)


## FUNIL_ONBOARDING_PIPEDRIVE_add_time

Tudo certo por aqui, nada a acrescentar

In [174]:
data['FUNIL_ONBOARDING_PIPEDRIVE_add_time']

0      2021-09-16 18:15:11
1      2021-09-16 18:18:23
2      2022-06-21 23:48:22
3      2021-09-16 18:28:04
4      2021-09-16 18:04:29
              ...         
980    2023-11-06 18:34:05
981    2023-11-07 12:22:13
982    2023-11-07 13:05:44
983    2023-11-07 20:34:02
984    2023-11-08 19:03:40
Name: FUNIL_ONBOARDING_PIPEDRIVE_add_time, Length: 985, dtype: object

## FUNIL_ONBOARDING_PIPEDRIVE_status

One-hot encoding aplicado nessa coluna

In [175]:
data['FUNIL_ONBOARDING_PIPEDRIVE_status'].value_counts()

won             585
lost            261
open             99
Não iniciado     40
Name: FUNIL_ONBOARDING_PIPEDRIVE_status, dtype: int64

In [176]:
data_status_encoded = pd.get_dummies(data['FUNIL_ONBOARDING_PIPEDRIVE_status'], prefix='Status')
data = pd.concat([data, data_status_encoded], axis=1)

## FUNIL_ONBOARDING_PIPEDRIVE_lost_reason

One hot encoding aplicado na coluna

In [177]:
data['FUNIL_ONBOARDING_PIPEDRIVE_lost_reason'].value_counts()

Outro                                                                757
[Onboarding] Não retornou aos contatos de resgate                    198
[Onboarding] Não tem interesse em seguir nas etapas do onboarding     18
[Associade] Cancelou assinatura                                       12
Name: FUNIL_ONBOARDING_PIPEDRIVE_lost_reason, dtype: int64

In [178]:
lost_reason_dummies = pd.get_dummies(data['FUNIL_ONBOARDING_PIPEDRIVE_lost_reason'], prefix='lost_reason')
data = pd.concat([data, lost_reason_dummies], axis=1)


## FUNIL_ONBOARDING_PIPEDRIVE_activities_count

Tudo certo por aqui, nada a acrescentar

In [179]:
data['FUNIL_ONBOARDING_PIPEDRIVE_activities_count']

0      0
1      2
2      0
3      0
4      2
      ..
980    0
981    0
982    0
983    0
984    0
Name: FUNIL_ONBOARDING_PIPEDRIVE_activities_count, Length: 985, dtype: int64

## ATENDIMENTOS_AGENDA_Qde Todos Atendimentos

Dados não fornecidos pela empresa, coluna será dropada

In [180]:
data['ATENDIMENTOS_AGENDA_Qde Todos Atendimentos']

0      False
1      False
2      False
3      False
4      False
       ...  
980    False
981    False
982    False
983    False
984    False
Name: ATENDIMENTOS_AGENDA_Qde Todos Atendimentos, Length: 985, dtype: bool

In [181]:
data.drop('ATENDIMENTOS_AGENDA_Qde Todos Atendimentos', axis='columns', inplace=True)

## ATENDIMENTOS_AGENDA_Qde Atendimento Médico

Tudo certo por aqui, nada a acrescentar


In [182]:
data['ATENDIMENTOS_AGENDA_Qde Atendimento Médico']

0      0
1      1
2      1
3      0
4      0
      ..
980    0
981    0
982    0
983    0
984    0
Name: ATENDIMENTOS_AGENDA_Qde Atendimento Médico, Length: 985, dtype: int64

## ATENDIMENTOS_AGENDA_Faltas Atendimento Médico

Tudo certo por aqui, nada a acrescentar

In [183]:
data['ATENDIMENTOS_AGENDA_Faltas Atendimento Médico']


0      0
1      0
2      0
3      0
4      0
      ..
980    0
981    0
982    0
983    0
984    0
Name: ATENDIMENTOS_AGENDA_Faltas Atendimento Médico, Length: 985, dtype: int64

## ATENDIMENTOS_AGENDA_Datas Atendimento Médico

Tudo certo por aqui, nada a acrescentar

In [184]:
data['ATENDIMENTOS_AGENDA_Datas Atendimento Médico']

0            Nunca ocorreu
1      2022-08-10 19:00:00
2      2023-01-12 17:00:00
3            Nunca ocorreu
4            Nunca ocorreu
              ...         
980          Nunca ocorreu
981          Nunca ocorreu
982          Nunca ocorreu
983          Nunca ocorreu
984          Nunca ocorreu
Name: ATENDIMENTOS_AGENDA_Datas Atendimento Médico, Length: 985, dtype: object