# Case - Data Cleaning

## Imports

In [7]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
import os

from sklearn.experimental import enable_iterative_imputer 
from sklearn.impute import IterativeImputer
from sklearn.pipeline import Pipeline


from dependencies.auxiliar import aux, remover_duplicatas, converter_tipos

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)

## Descrição do dataset

__Dicionário__

* **idade:** A idade do cliente..
* **numero_de_dependentes:** O número de pessoas dependentes do cliente.
* **salario_mensal:** Salário mensal do cliente.
* **numero_emprestimos_imobiliarios:** Quantidade de empréstimos imobiliários que o
* **cliente possui em aberto.
* **numero_vezes_passou_90_dias:** Número de vezes que o tomador passou mais de 90 dias em atraso.
* **util_linhas_inseguras:** Quanto que o cliente está usando, relativamente ao limite dele, de linhas de crédito que não são seguradas por qualquer bem do tomador e.g: imoveis, carros etc.
* **vezes_passou_de_30_59_dias:** Número de vezes que o cliente atrasou, entre 30 e 59 dias, o pagamento de um empréstimo.
* **razao_debito:** Razão entre as dívidas e o patrimônio do tomador. razão débito = Dividas/Patrimônio
* **numero_linhas_crdto_aberto:** Número de empréstimos em aberto pelo cliente.
* **numero_de_vezes_que_passou_60_89_dias:** Número de vezes que o cliente atrasou, entre 60 e 89 dias, o pagamento de um empréstimo.
* **inadimplente:** Variável resposta, inadimplente(1) ou não(0).


## Ingestão dos dados

In [8]:
DATA_RAW_PATH = os.path.join('..','data','raw')
DATA_RAW_NAME = 'treino.csv'
DATA_RAW_NAME_TEST = 'teste.csv'
DATA_INTER_PATH = os.path.join('..','data','interim')
DATA_INTER_PROCESSED = os.path.join('..', 'data', 'processed')
DATA_INTER_TRAIN_NAME = 'df_train.csv'
DATA_INTER_TEST_NAME = 'df_test.csv'

In [9]:
df_raw = pd.read_csv(os.path.join(DATA_RAW_PATH,DATA_RAW_NAME))
df_raw_test = pd.read_csv(os.path.join(DATA_RAW_PATH, DATA_RAW_NAME_TEST))
df_raw.head()

Unnamed: 0,inadimplente,util_linhas_inseguras,idade,vezes_passou_de_30_59_dias,razao_debito,salario_mensal,numero_linhas_crdto_aberto,numero_vezes_passou_90_dias,numero_emprestimos_imobiliarios,numero_de_vezes_que_passou_60_89_dias,numero_de_dependentes
0,1,0.766127,45,2,0.802982,9120.0,13,0,6,0,2.0
1,0,0.957151,40,0,0.121876,2600.0,4,0,0,0,1.0
2,0,0.65818,38,1,0.085113,3042.0,2,1,0,0,0.0
3,0,0.23381,30,0,0.03605,3300.0,5,0,0,0,0.0
4,0,0.907239,49,1,0.024926,63588.0,7,0,1,0,0.0


In [10]:
aux(df_raw)

Unnamed: 0,colunas,tipo,missing,size,unicos,percentual%
inadimplente,inadimplente,int64,0,110000,2,0.0
util_linhas_inseguras,util_linhas_inseguras,float64,0,110000,92671,0.0
idade,idade,int64,0,110000,86,0.0
vezes_passou_de_30_59_dias,vezes_passou_de_30_59_dias,int64,0,110000,15,0.0
razao_debito,razao_debito,float64,0,110000,86002,0.0
salario_mensal,salario_mensal,float64,21763,110000,12228,19.8
numero_linhas_crdto_aberto,numero_linhas_crdto_aberto,int64,0,110000,57,0.0
numero_vezes_passou_90_dias,numero_vezes_passou_90_dias,int64,0,110000,18,0.0
numero_emprestimos_imobiliarios,numero_emprestimos_imobiliarios,int64,0,110000,28,0.0
numero_de_vezes_que_passou_60_89_dias,numero_de_vezes_que_passou_60_89_dias,int64,0,110000,13,0.0


In [11]:
aux(df_raw_test)

Unnamed: 0,colunas,tipo,missing,size,unicos,percentual%
util_linhas_inseguras,util_linhas_inseguras,float64,0,40000,34211,0.0
idade,idade,int64,0,40000,81,0.0
vezes_passou_de_30_59_dias,vezes_passou_de_30_59_dias,int64,0,40000,14,0.0
razao_debito,razao_debito,float64,0,40000,33800,0.0
salario_mensal,salario_mensal,float64,7968,40000,7879,19.9
numero_linhas_crdto_aberto,numero_linhas_crdto_aberto,int64,0,40000,52,0.0
numero_vezes_passou_90_dias,numero_vezes_passou_90_dias,int64,0,40000,18,0.0
numero_emprestimos_imobiliarios,numero_emprestimos_imobiliarios,int64,0,40000,21,0.0
numero_de_vezes_que_passou_60_89_dias,numero_de_vezes_que_passou_60_89_dias,int64,0,40000,10,0.0
numero_de_dependentes,numero_de_dependentes,float64,1046,40000,12,2.6


## Remoção de linhas/colunas duplicadas

In [12]:
df_raw, list_duplicated_columns = remover_duplicatas(df_raw)

Removendo...
Existem 0 colunas duplicadas e 363 linhas duplicadas
Colunas duplicadas:
[]


### Conversão de Tipos

In [13]:
dict_type = {}
dict_type['inadimplente'] = 'int64'
dict_type['util_linhas_inseguras'] = 'float64'
dict_type['idade'] = 'int64'
dict_type['vezes_passou_de_30_59_dias'] = 'int64'
dict_type['razao_debito'] = 'float64'
dict_type['salario_mensal'] = 'float64'
dict_type['numero_linhas_crdto_aberto'] = 'int64'
dict_type['numero_vezes_passou_90_dias'] = 'int64'
dict_type['numero_emprestimos_imobiliarios'] = 'int64'
dict_type['numero_de_vezes_que_passou_60_89_dias'] = 'int64'
dict_type['numero_de_dependentes'] = 'float64'

In [14]:
df_raw = converter_tipos(df=df_raw, dicionario_tipo=dict_type)

In [15]:
aux(df_raw)

Unnamed: 0,colunas,tipo,missing,size,unicos,percentual%
inadimplente,inadimplente,int64,0,110000,2,0.0
util_linhas_inseguras,util_linhas_inseguras,float64,0,110000,92671,0.0
idade,idade,int64,0,110000,86,0.0
vezes_passou_de_30_59_dias,vezes_passou_de_30_59_dias,int64,0,110000,15,0.0
razao_debito,razao_debito,float64,0,110000,86002,0.0
salario_mensal,salario_mensal,float64,21763,110000,12228,19.8
numero_linhas_crdto_aberto,numero_linhas_crdto_aberto,int64,0,110000,57,0.0
numero_vezes_passou_90_dias,numero_vezes_passou_90_dias,int64,0,110000,18,0.0
numero_emprestimos_imobiliarios,numero_emprestimos_imobiliarios,int64,0,110000,28,0.0
numero_de_vezes_que_passou_60_89_dias,numero_de_vezes_que_passou_60_89_dias,int64,0,110000,13,0.0


## Missing Values

In [16]:
df_raw.describe()

Unnamed: 0,inadimplente,util_linhas_inseguras,idade,vezes_passou_de_30_59_dias,razao_debito,salario_mensal,numero_linhas_crdto_aberto,numero_vezes_passou_90_dias,numero_emprestimos_imobiliarios,numero_de_vezes_que_passou_60_89_dias,numero_de_dependentes
count,110000.0,110000.0,110000.0,110000.0,110000.0,88237.0,110000.0,110000.0,110000.0,110000.0,107122.0
mean,0.066645,5.929979,52.255636,0.424055,354.823589,6637.411,8.445573,0.269955,1.019891,0.243891,0.757482
std,0.249408,252.301965,14.768241,4.24078,2074.140421,13383.95,5.139026,4.217326,1.135989,4.204137,1.11467
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.030054,41.0,0.0,0.175016,3400.0,5.0,0.0,0.0,0.0,0.0
50%,0.0,0.155936,52.0,0.0,0.366682,5400.0,8.0,0.0,1.0,0.0,0.0
75%,0.0,0.562806,63.0,0.0,0.866874,8225.0,11.0,0.0,2.0,0.0,1.0
max,1.0,50708.0,109.0,98.0,329664.0,3008750.0,58.0,98.0,54.0,98.0,20.0


In [17]:
df_raw.dropna(inplace=True)

In [19]:
df_raw_test.dropna(inplace=True)

In [21]:
aux(df_raw)

Unnamed: 0,colunas,tipo,missing,size,unicos,percentual%
inadimplente,inadimplente,int64,0,88237,2,0.0
util_linhas_inseguras,util_linhas_inseguras,float64,0,88237,75896,0.0
idade,idade,int64,0,88237,83,0.0
vezes_passou_de_30_59_dias,vezes_passou_de_30_59_dias,int64,0,88237,15,0.0
razao_debito,razao_debito,float64,0,88237,81704,0.0
salario_mensal,salario_mensal,float64,0,88237,12228,0.0
numero_linhas_crdto_aberto,numero_linhas_crdto_aberto,int64,0,88237,57,0.0
numero_vezes_passou_90_dias,numero_vezes_passou_90_dias,int64,0,88237,18,0.0
numero_emprestimos_imobiliarios,numero_emprestimos_imobiliarios,int64,0,88237,28,0.0
numero_de_vezes_que_passou_60_89_dias,numero_de_vezes_que_passou_60_89_dias,int64,0,88237,13,0.0


In [20]:
aux(df_raw_test)

Unnamed: 0,colunas,tipo,missing,size,unicos,percentual%
util_linhas_inseguras,util_linhas_inseguras,float64,0,32032,27860,0.0
idade,idade,int64,0,32032,79,0.0
vezes_passou_de_30_59_dias,vezes_passou_de_30_59_dias,int64,0,32032,14,0.0
razao_debito,razao_debito,float64,0,32032,30649,0.0
salario_mensal,salario_mensal,float64,0,32032,7879,0.0
numero_linhas_crdto_aberto,numero_linhas_crdto_aberto,int64,0,32032,52,0.0
numero_vezes_passou_90_dias,numero_vezes_passou_90_dias,int64,0,32032,18,0.0
numero_emprestimos_imobiliarios,numero_emprestimos_imobiliarios,int64,0,32032,20,0.0
numero_de_vezes_que_passou_60_89_dias,numero_de_vezes_que_passou_60_89_dias,int64,0,32032,10,0.0
numero_de_dependentes,numero_de_dependentes,float64,0,32032,12,0.0


## Considerações iniciais

* No dataset de treino e teste há valores missing nas colunas **salario_mensal** e **numero_de_depedentes**
* Há pessoas com idade **0** o que podemos considerar outlier.
* Como o dataset é relativamente "grande" para se treinar o modelo, dropei todos os valores NaN. Uma das soluções em produção seria aplicar alguma técnica de imputação e descartando o dado em uma última hipótese.
* O **salário_mensal** vai de 0 até  R$3.008.750,00.


## Salvando datasets

In [22]:
df_raw.to_csv(os.path.join(DATA_INTER_PATH,DATA_INTER_TRAIN_NAME), index=False)
df_raw_test.to_csv(os.path.join(DATA_INTER_PROCESSED,DATA_INTER_TEST_NAME), index=False)