# Requerimentos

In [1]:
import pandas as pd # type: ignore
import numpy as np # type: ignore
import matplotlib.pyplot as plt
pd.options.display.float_format = '{:,.2f}'.format

def isna(value):
    if value == '' or value == np.nan or value=="Null":
        return 1
    else:
        return 0

isna_vec = np.vectorize(isna)

In [2]:
df_operacao = pd.read_csv('dados/dados_operacoes.csv')

In [3]:
df_operacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14895 entries, 0 to 14894
Data columns (total 24 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id                         14895 non-null  object 
 1   contrato                   14895 non-null  int64  
 2   data_operacao              14895 non-null  object 
 3   nascimento                 14895 non-null  object 
 4   idade                      14895 non-null  object 
 5   genero                     14895 non-null  object 
 6   bairro                     14895 non-null  object 
 7   cidade                     14895 non-null  object 
 8   estado                     14895 non-null  object 
 9   cep                        14895 non-null  object 
 10  telefone                   14895 non-null  object 
 11  cartao                     14895 non-null  object 
 12  email                      14895 non-null  object 
 13  ocupacao                   14895 non-null  obj

# Consistência

Existem colunas com valores "Null" que são string, a seguir as colunas e a quantidade desses valores será identificada.

In [4]:
df_operacao['bairro'][6]

'Null'

Abaixo temos a quantidade total desses registros por Coluna. 

In [5]:
# cria dataframe com totais de linhs em cada coluna para valores np.nan, '' ou "Null"
df_nulls = pd.DataFrame([(coluna, sum(isna_vec(df_operacao[coluna]))) for coluna in df_operacao.columns], columns = ['Coluna', 'Qtd "Null"'])
df_nulls['% Qtd "Null"'] = round((df_nulls['Qtd "Null"']/df_operacao.shape[0])*100,2)
df_nulls[df_nulls['Qtd "Null"']>0].sort_values(by='Qtd "Null"', ascending=False)

Unnamed: 0,Coluna,"Qtd ""Null""","% Qtd ""Null"""
11,cartao,5279,35.44
12,email,4667,31.33
10,telefone,4655,31.25
9,cep,3754,25.2
14,empregador,3124,20.97
4,idade,3005,20.17
7,cidade,2831,19.01
6,bairro,2539,17.05
13,ocupacao,2271,15.25
8,estado,2234,15.0


In [6]:
pd.set_option('display.max_columns', None)

df_operacao[df_operacao['id']=='cc777da15c1172bc310f78156006edccd0043c9c']

Unnamed: 0,id,contrato,data_operacao,nascimento,idade,genero,bairro,cidade,estado,cep,telefone,cartao,email,ocupacao,empregador,operacao,valor_principal,parcelas,quantidade_parcelas,parcelas_pagas,quantidade_parcelas_pagas,taxa_contrato,valor_parcela,valor_bruto
3714,cc777da15c1172bc310f78156006edccd0043c9c,7013568926272,2019-09-07,1977-04-22,45,F,Milionario,Null,Paraíba,Null,Null,XXXXXXXXXX6785,Null,Tecnólogo em geoprocessamento,5c57f98f55faf9aef167c3d550b19b50646b8712,Port + Refin,32139.17,60,60,9,9,1.45,805.63,48337.8
9633,cc777da15c1172bc310f78156006edccd0043c9c,6634506928793,2021-05-10,1977-04-22,45,F,Milionario,Null,Paraíba,XXXXX-507,XXXXXXXXXXXXX47-4432,XXXXXXXXXX6785,Null,Null,5c57f98f55faf9aef167c3d550b19b50646b8712,Prod,29021.33,90,90,9,9,1.48,586.23,52760.7
9634,cc777da15c1172bc310f78156006edccd0043c9c,93992351762,2020-11-04,1977-04-22,45,F,Null,da Mota,Paraíba,Null,XXXXXXXXXXXXX47-4432,Null,Null,Null,5c57f98f55faf9aef167c3d550b19b50646b8712,Port + Refin,37388.51,100,100,90,90,0.55,487.78,48778.0
9635,cc777da15c1172bc310f78156006edccd0043c9c,1296720442728,2019-05-21,1977-04-22,45,F,Milionario,da Mota,Paraíba,XXXXX-507,XXXXXXXXXXXXX47-4432,XXXXXXXXXX6785,Null,Tecnólogo em geoprocessamento,5c57f98f55faf9aef167c3d550b19b50646b8712,Prod,19647.66,40,40,2,2,2.36,765.0,30600.0
9636,cc777da15c1172bc310f78156006edccd0043c9c,8868443691900,2022-01-14,1977-04-22,Null,F,Null,da Mota,Paraíba,XXXXX-507,XXXXXXXXXXXXX47-4432,XXXXXXXXXX6785,XXXXXXsis@tXXXXXXXXXXXX,Tecnólogo em geoprocessamento,5c57f98f55faf9aef167c3d550b19b50646b8712,Port + Refin,22644.47,100,100,70,70,3.88,898.45,89845.0
9637,cc777da15c1172bc310f78156006edccd0043c9c,3941624613634,2021-06-14,1977-04-22,45,Null,Null,da Mota,Null,XXXXX-507,XXXXXXXXXXXXX47-4432,Null,XXXXXXsis@oXXXXXXXXXXX,Tecnólogo em geoprocessamento,Null,Prod,35945.18,60,60,9,9,0.98,795.02,47701.2


##### Estratégias para tratamento de valores Null 

Essas estratégias dependem em geral de uma explicação mais afundo sobre o motivo do valor não estar preenchido. 

Para a variável cartão por exemplo, o cliente não possui cartão? É uma falha operacional? Se for null por causa do cliente não possuir cartão é possível criar uma variável derivada indicando se o cliente possui ou não cartão.

Email, telefone e cep são são resultados de tratativas de atualização e consistência de cadastros. Os processos precisam melhorar para se ter essa informação de maneira consistente. É permitido fazer um contrato sem informar um cep? Vale a mesma pergunta para o gênero, a pessoa não precisa apresentar rg no ato de contratação de serviço? Pode-se utilizar algoritmo de classificação para tentar prever valor quando o gênero não vem informado.

Para a variável empregador ou Ocupação, tem-se a pergunta: ou está nulo pois a pessoa estava desempregada no momento da operação ser contratada? Ou a pessoal não tem ocupação? Se for campo opcional é possível criar algoritmo de classificação para dar um valor baseado em base histórica.

Idade, Cidade, Estado e Bairro são variáveis que em geral exigem ETL. Idade, não faz sentido estar vazia. Deveria ser sempre a data da operação, que está totalmente preenchida, menos a data de nascimento, que também está totalmente preenchida. Já as variáveis Cidade, Estado e Bairro integras são consequência da variável CEP integra. É possível fazer ETL através de API opensources para construir informações geoespaciais através do CEP. 
