#### A ideia aqui vai ser carregar nossa base da dados, usando o pandas, a fim de tratar valores inconsistentes. 
#### Na nossa base temos idades negativas, o que não faz sentido, e por isso vamos apresentar algumas formas de tratar esse problema

In [1]:
import pandas as pd

In [2]:
base = pd.read_csv('credit_data.csv')

Com nossa base carregada, vamos visualizar ela 

In [3]:
base



Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


#### Observe que temos os campos cliente id, renda, idade, emprestimos, "omissão" (vamos usar no contexto que 0 pagou o emprestimo e 1 nao pagou)
#### O comando a seguir nos traz algumas informações como  minimo (min), contagem (quantos items tem preenchidos na coluna), entre outros 

In [4]:
base.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


#### Olhando essa descricao da base, na coluna das idades, temos itens sem valor, alem disso nosso min e negativo
#### Vamos tratar agoras as idades negativas, para isso vamos usar um comando que pesquisa nossa base com a condição de capturar as idades negativas

## Tratamento de valores inconsistentes

In [5]:
base.loc[base['age'] < 0]

Unnamed: 0,clientid,income,age,loan,default
15,16,50501.726689,-28.218361,3977.287432,0
21,22,32197.620701,-52.42328,4244.057136,0
26,27,63287.038908,-36.496976,9595.286289,0


#### Existem varias formas de lidar com esse problema, vamos discutir quatro formas. A primeira e apagar a coluna, o que em geral nao e bom pois vamos "sacrificar" muitos registros por causa de tres. 

In [6]:
#Apagar a coluna
base.drop('age',1,inplace = True)

In [7]:
base

Unnamed: 0,clientid,income,loan,default
0,1,66155.925095,8106.532131,0
1,2,34415.153966,6564.745018,0
2,3,57317.170063,8020.953296,0
3,4,42709.534201,6103.642260,0
4,5,66952.688845,8770.099235,1
...,...,...,...,...
1995,1996,59221.044874,1926.729397,0
1996,1997,69516.127573,3503.176156,0
1997,1998,44311.449262,5522.786693,1
1998,1999,43756.056605,1622.722598,0


In [8]:
base = pd.read_csv('credit_data.csv')

In [9]:
base


Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


#### Observe que carregamos nossa base novamente pra mostrar a segunda forma, como voce provavelmente ja sabe, poderiamos apenas executar a linha que carrega nossa base, mas para manter o fluxo acho mais agradavel reproduzir esse comando novamente. Nessa segunda forma vamos apagar somente os tres registros com problema. Parece ser uma boa ideia a principio, mas tem que ser usada com cautela, uma vez que voce pode estar excluido informacoes que podem impactar muito nas suas analises futuras

In [10]:
#Apagar somente os 3 registros com problema
base.drop(base[base.age < 0].index, inplace = True)

In [11]:
base


Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


In [12]:
#### De fato nossa base diminui, mas pra ver que nao temos mais idades negativas, fazemos uma busca novamente

In [13]:
base.loc[base['age'] < 0]

Unnamed: 0,clientid,income,age,loan,default


In [14]:
base = pd.read_csv('credit_data.csv') #ja sabemos porque estamos carregando novamente, certo?

#### A terceira forma seria preencher os valores manualmente, buscando uma forma de colocar os valores reais (por exemplo entrando em contato com os clientes), claro que isso e inviavel na maioria dos casos, ainda mais na era do big data, e tudo isso nos leva a quarta forma, que e preencher os valores com as medias

In [15]:
base.mean()
base['age'].mean()

40.80755937840458

In [16]:
base['age'][base.age > 0].mean()

40.92770044906149

#### Preencher dessa quarta forma nao mudou muito a media, mas dependendo o contexto pode ter uma diferenca grande a ponto de inutilizar qualquer analise futura

In [17]:
base.loc[base.age < 0, 'age'] = 40.92

In [18]:
#vamos conferir nossa mudanca
base.loc[base.age == 40.92]


Unnamed: 0,clientid,income,age,loan,default
15,16,50501.726689,40.92,3977.287432,0
21,22,32197.620701,40.92,4244.057136,0
26,27,63287.038908,40.92,9595.286289,0
