# Setup

In [None]:
import pandas as pd

In [None]:
# The following two lines are only necessary to run once.
# Comment out otherwise for speed-up.
from google.cloud.bigquery import Client, QueryJobConfig
client = Client()

query = """SELECT * FROM `hacka-dados.hacka_dados.tabela_dados_hacka`"""
job = client.query(query)
df = job.to_dataframe()

# Carregar dataframe

In [None]:
df.head()

Unnamed: 0,ID,Capacidade_de_Pagamento_7,tempo_desde_primeiro_contrato,tempo_desde_ultimo_contrato,QTD_SEGURO,QTD_OUTROS,QTD_CP_CONSIGNADO,QTD_CDCCG,QTD_CONTA_DIGITAL,QTD_CARTAO,...,GC_OfertaNegociacao_3m,CD_Boleto_3m,CX_Cliente_NaoCompreende_3m,PL_Sem_Condicoes_3m,NV_DC10_Cliente_alega_pagamento_3m,NV_FC_NEGOCIACAO_COM_SUCESSO_3m,NV_BP4_Informa_o_desconto_3m,Duracao_segundos,fl_renovou,VrFinanciamento
0,0,4,1267.0,251.0,5,0,0,1,0,1,...,,,,,,,,,0,-0.323663
1,1,4,1797.0,236.0,4,0,0,1,0,0,...,,,,,,,,52.0,0,0.882514
2,2,4,268.0,18.0,3,0,0,0,0,1,...,,,,,,,,81.0,0,-0.385405
3,3,8,422.0,323.0,3,0,0,0,0,0,...,,,,,,,,97.0,0,-0.707045
4,4,8,5073.0,252.0,3,0,0,0,0,0,...,,,,,,,,276.0,0,1.035186


In [None]:
df.columns

Index(['ID', 'Capacidade_de_Pagamento_7', 'tempo_desde_primeiro_contrato',
       'tempo_desde_ultimo_contrato', 'QTD_SEGURO', 'QTD_OUTROS',
       'QTD_CP_CONSIGNADO', 'QTD_CDCCG', 'QTD_CONTA_DIGITAL', 'QTD_CARTAO',
       ...
       'GC_OfertaNegociacao_3m', 'CD_Boleto_3m', 'CX_Cliente_NaoCompreende_3m',
       'PL_Sem_Condicoes_3m', 'NV_DC10_Cliente_alega_pagamento_3m',
       'NV_FC_NEGOCIACAO_COM_SUCESSO_3m', 'NV_BP4_Informa_o_desconto_3m',
       'Duracao_segundos', 'fl_renovou', 'VrFinanciamento'],
      dtype='object', length=306)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Columns: 306 entries, ID to VrFinanciamento
dtypes: float64(286), int64(13), object(7)
memory usage: 116.7+ MB


# Variavéis Categóricas

In [None]:
list(df.select_dtypes(['object']).columns)

['QTD_SEGURO',
 'NmMotivoContratoFinanceiro',
 'Sub_Produto',
 'CdMarca',
 'FlZeroKm',
 'CdUfNaturalidade',
 'CdOcupacaoCBO']

In [None]:
df.CdUfNaturalidade.unique()

array(['Centro-oeste', 'Sudeste', 'Sul', 'Norte', 'Nordeste', 'nan'],
      dtype=object)

In [None]:
df.CdUfNaturalidade.value_counts()

Sudeste         23228
Sul             10456
Nordeste         6831
Centro-oeste     3976
Norte            3046
nan              2463
Name: CdUfNaturalidade, dtype: int64

In [None]:
df.QTD_SEGURO.nunique()

13

In [None]:
df.QTD_SEGURO.unique()

array(['5', '4', '3', '2', '1', '9', '6', '7', '12', '11', '12 ou +',
       '10', '8'], dtype=object)

In [None]:
df.FlZeroKm.unique()

array(['N', 'S', ''], dtype=object)

In [None]:
df.FlZeroKm.value_counts()

N    49274
S      665
        61
Name: FlZeroKm, dtype: int64

In [None]:
df.CdMarca.unique()

array(['FIAT', 'VOLKSWAGEN', 'NISSAN', 'Outros', 'RENAULT', 'FORD',
       'CHEVROLET', 'PEUGEOT', 'HONDA', 'TOYOTA', 'HYUNDAI', 'KIA',
       'MITSUBISHI', 'CITROEN', '', 'MERCEDES-BENZ', 'JEEP'], dtype=object)

In [None]:
df.CdMarca.value_counts()

VOLKSWAGEN       10441
FIAT              9801
CHEVROLET         8623
FORD              4541
RENAULT           3380
HYUNDAI           3175
TOYOTA            2139
HONDA             2076
CITROEN           1309
PEUGEOT           1040
Outros             824
NISSAN             781
MITSUBISHI         648
KIA                635
JEEP               242
MERCEDES-BENZ      226
                   119
Name: CdMarca, dtype: int64

In [None]:
df.NmMotivoContratoFinanceiro.unique()

array(['FLUXO FINANCEIRO INICIAL', 'CONTRATO CEDIDO (FIDC)',
       'RENEGOCIAÇAO', 'SALDO REMANESCENTE',
       'CORREÇAO DE FLUXO FINANCEIRO / REIMPLANTE'], dtype=object)

In [None]:
df.NmMotivoContratoFinanceiro[df.fl_renovou == 1].value_counts()

FLUXO FINANCEIRO INICIAL                     1190
CONTRATO CEDIDO (FIDC)                        279
RENEGOCIAÇAO                                  106
SALDO REMANESCENTE                             11
CORREÇAO DE FLUXO FINANCEIRO / REIMPLANTE       4
Name: NmMotivoContratoFinanceiro, dtype: int64

In [None]:
df.NmMotivoContratoFinanceiro.value_counts()

FLUXO FINANCEIRO INICIAL                     36390
CONTRATO CEDIDO (FIDC)                        9084
RENEGOCIAÇAO                                  4027
SALDO REMANESCENTE                             420
CORREÇAO DE FLUXO FINANCEIRO / REIMPLANTE       79
Name: NmMotivoContratoFinanceiro, dtype: int64

In [None]:
df.Sub_Produto.unique()

array(['CDC VEICULOS DE PASSEIO', 'REFINANCIAMENTO VEICULOS DE PASSEIO',
       'Outros', 'CDC CAMINHOES', 'PRE APROVADO CDC VEICULOS DE PASSEIO',
       'CDC VANS e MICRO-ONIBUS', 'MOTO', 'CP COM GARANTIA'], dtype=object)

In [None]:
df.Sub_Produto[df.fl_renovou == 1].value_counts()

CDC VEICULOS DE PASSEIO                 1533
REFINANCIAMENTO VEICULOS DE PASSEIO       27
CDC VANS e MICRO-ONIBUS                   12
MOTO                                       9
CDC CAMINHOES                              4
PRE APROVADO CDC VEICULOS DE PASSEIO       3
CP COM GARANTIA                            2
Name: Sub_Produto, dtype: int64

In [None]:
df.Sub_Produto.value_counts()

CDC VEICULOS DE PASSEIO                 47004
REFINANCIAMENTO VEICULOS DE PASSEIO      1560
MOTO                                      540
CDC VANS e MICRO-ONIBUS                   336
PRE APROVADO CDC VEICULOS DE PASSEIO      333
CP COM GARANTIA                           113
CDC CAMINHOES                              83
Outros                                     31
Name: Sub_Produto, dtype: int64

# Taxa de renovação

Objetivo: Dobrar taxa de renovação

In [None]:
print("TAXA DE RENOVAÇÃO",(df['fl_renovou'].sum()/len(df))*100)

TAXA DE RENOVAÇÃO 3.18


# Colunas com muitos valores ausentes

In [None]:
df.isna().sum().sort_values(ascending=False).head(40)

CD_Quitacao_6m                                    49151
NV_CX_Direcionamento_Outro_Canal_3m               49111
CD_Boleto_3m                                      48992
CD_Cartao_3m                                      48977
NV_FC_NEGOCIACAO_COM_SUCESSO_3m                   48935
CX_Oferta_6m                                      48886
NV_P3_Quitacao_6m                                 48867
CX_Busca_Informacoes_6m                           48841
CX_Cliente_NaoCompreende_3m                       48773
NV_CX_Ligar_de_Volta_3m                           48735
NV_CX_Atendimento_Diferenciado_6m                 48686
CD_Seguro_6m                                      48646
NV_P9_Pagamento_parcial__flexibilidade__6m        48646
NV_DC1_Cliente_nao_esta_com_o_valor_em_maos_6m    48550
NV_BP4_Informa_o_desconto_3m                      48509
CX_Cancelamento_6m                                48504
MOT_Informacao_3m                                 48502
CX_Pesquisa_Satisfacao_3m                       

In [None]:
# Listas com os nomes das colunas para facilitar consulta

In [None]:
mailing = ['fl_renovou','Duracao_segundos']

cadastrais = ['CdUfNaturalidade','Grupo_Etario','VrRenda','CdOcupacaoCBO']

contratuais = ['NmMotivoContratoFinanceiro','Sub_Produto','VrContrato','VrFinanciamento','VrEntrada','QtParcelas','AaFabricacaoVeiculo',
'CdMarca','VrMercado','FlZeroKm','QtCilindradaVeiculo','QtQuilometragemVeiculo','QtAnoIdade']

scores = ['Capacidade_de_Pagamento_1','Capacidade_de_Pagamento_2','Capacidade_de_Pagamento_3','Capacidade_de_Pagamento_4',
'Capacidade_de_Pagamento_5','Capacidade_de_Pagamento_6','Capacidade_de_Pagamento_7']

relacionamentoBV = ['tempo_desde_primeiro_contrato','tempo_desde_ultimo_contrato','QTD_SEGURO','QTD_CP_CONSIGNADO','QTD_CDCCG',
'QTD_CONTA_DIGITAL','QTD_CARTAO','QTD_CP','QTD_OUTROS','flmat30conta','flmat60conta','flmat90conta','flmau30conta','flmau60conta',
'flmau90conta']



In [None]:
print(len(mailing)+len(cadastrais)+len(contratuais)+len(scores)+len(relacionamentoBV))

41
