# Sessão de pré-processamento na base credit-data 

## Import e carregamento do dataset

In [1]:
# Import das libs a serem utilizadas
import pandas as pd

In [14]:
data = pd.read_csv('credit-data.csv')

In [4]:
# Verificando as estatisticas no dataset
# Na verificação é constada as porcentagens de 25% / 50% / 75%
# Essas porcentagens indicam respectivamente: 1º Quartil / Mediana / 3º Quartil

data.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [None]:
# Ao rodar o comando describe
# Foi notado que a base apresenta inconsistência na coluna de idade por apresentar valores negativos
# Com isso poderemos ter alguma problema de associação ou padrão encontrado pelo algoritmo com essas pessoas

## Verificação de valores inconsistentes (Constatação dos clientes que estão com idades negativas)

In [21]:
# Verificando os clientes que estão com idades negativas no dataset
data.loc[data['age'] < 0]

Unnamed: 0,clientid,income,age,loan,default


## Estratégias para tratamento de valores inconsistentes

### Apagar toda a coluna (Não é tão recomendado, exceto em alguns casos)

In [7]:
# Primeiro passa a coluna que deseja remover
# Segundo parâmetro com valor 1 indica que quer apagar a coluna inteira
# Terceiro parâmetro indica TRUE indica que não haverá retorno e será realiado a função no próprio dataset
data.drop('age', 1, inplace=True)

### Apagar somente os registros que estão inconsistentes (Não é tão recomendado, exceto em alguns casos)

#### Poderá haver registros importantes com outros atributos que influenciará no algoritmo

In [12]:
# Primeiro passa os indices dos registros que deseja remover
# Segunda parâmetro indica TRUE indica que não haverá retorno e será realiado a função no próprio dataset
data.drop(data[data.age < 0].index, inplace=True)

### Preencher os valores manualmente

#### Essa estratégia se torna complicada dependendo do número de registro

### Preencher os valores pela média (Estratégia mais interessante)

In [18]:
# Não pode retirar a média do dataset levando em consideração os registros inconsistentes
# Desta forma abaixo estamos desconsiderando os registros sujos do dataset e trabalhando com a média correta.
data['age'][data.age > 0].mean()

40.92770044906149

## Aplicando a correção nos registros inconsistentes

### Iremos substituir pela média desconsiderando aqueles valores sujos

In [20]:
# Primeiro valor da matriz é a condição
# Segundo valor da matriz indica que iremos substituir naquela coluna

data.loc[data.age < 0, 'age'] = data['age'][data.age > 0].mean()

## Verificação de valores faltantes