# Pré-processamento da base de dados credit_data.csv

**Antes de realizarmos qualquer tipo de operação com a base de dados, devemos realizar o pré-procesamento desses dados, de maneira que os algoritmos de machine learning possam ser otimizados ao máximo.**

Para o tratamento desses dados utilizaremos as seguintes bibliotecas do Python:
* **pandas**: Utilizaremos esta biblioteca para a análise e manipulação de *dataframes*, nela existem diversos métodos de localização, modificação e cálculos, que podem ser aplicados à base de dados.
* **numpy**: Essa biblioteca nos fornece um arsenal de funções-membro para a manipulação de arrays multidimencionais.
* **sklearn.preprocessing**: É um subconjunto do scikit-learn, onde podemos utilizar métodos de pré-processamento específicos de machine learning, como: preenchimento de valores faltantes, codificação e escalonamento.

Agora vamos ao que interessa, Primeiramente devemos importar as bibliotecas pandas e numpy, as abreviações mais utilizadas nessas bibliotecas são pd e np respectivamente.

In [2]:
import pandas as pd
import numpy as np

Agora devemos criar um *dataframe* e armazenar nele à base de dados credit_data.csv

In [3]:
base = pd.read_csv('credit_data.csv')

Esta base de dados contêm 2000 dados bancários de clientes que pagaram ou não pagaram um empréstimo, classificados como 1 e 0 respectivamente. Nela existem 5 atributos: clientid (identificador), income (renda anual), age (idade), loan (empréstimo) e o default (cassificação como 0 ou 1).

Logo abaixo temos os 10 primeiros registro da base:

In [4]:
base.head(10)

Unnamed: 0,clientid,income,age,loan,default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.64226,0
4,5,66952.688845,18.584336,8770.099235,1
5,6,24904.06414,57.471607,15.498598,0
6,7,48430.359613,26.809132,5722.581981,0
7,8,24500.141984,32.897548,2971.00331,1
8,9,40654.892537,55.496853,4755.82528,0
9,10,25075.872771,39.776378,1409.230371,0


Aqui temos a desquição dda base de dados:

In [5]:
base.describe()

Unnamed: 0,clientid,income,age,loan,default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


## Tratamento de valores inconsistentes
Como já sabemos do que se trata a base de dados, agora devemos iniciar a procura por elementos inconsistentes, como por exemplo valores negativos. Para isso utilizaremos a função de localização da biblioteca pandas.

In [6]:
base.loc[base.age < 0]

Unnamed: 0,clientid,income,age,loan,default
15,16,50501.726689,-28.218361,3977.287432,0
21,22,32197.620701,-52.42328,4244.057136,0
26,27,63287.038908,-36.496976,9595.286289,0


Neste dataframe existem valores negativos apenas no atributo "age". Sabendo disso, devemos decidir qual melhor técnica para o tratamento desses valores, onde dependendo do tipo de algoritmo de machine learning que está sendo utilizado, podemos ser obrigados a descartar a coluna "age", retirar a linhas inteira ou apenas substituir os valores incorretos pela média, mediana ou valor mais frequente. Lembrando que o mais indicado, seria entrar em contato com a pessoa que preencheu o dado incorretamente e perguntar a idade correta.

Porém, como não temos acesso a esse tipo de informação, iremos utilizar o método de substituição pela média. Outro ponto a ser destacado, é que quando realizarmos o cálculo da média, devemos lembrar de ignorar os valores negativos.

In [7]:
media = base['age'][base.age > 0].mean()
print(media)

40.92770044906149


In [8]:
base.loc[base.age < 0, 'age'] = media

Após a substituição não existem mais valores negativos.

In [9]:
base.loc[base.age < 0]

Unnamed: 0,clientid,income,age,loan,default


Para que possamos dar continuidade ao pré-processamento e aos demais processos, devemos dividir a base de dados em dois novos arrays, onde o primeiro armazenará os atributos previsores e o segundo os atributos de classificação, no array previsores não iremos armazenar a primeira coluna, pois nela temos apenas um identificador que não será necessário para os cálculos.

Apartir daqui, todas as manipulações e cálculos serão realizadas nestes dois novos arrays. Para a criação deles utilizaremos a função iloc da biblioteca pandas. 

In [10]:
previsores = base.iloc[:, 1:4].values
classe = base.iloc[:, 4].values

Bem, feito isso, o próximo passo será a localização de valores faltantes, por meio dos métodos "loc" e "isnull" da biblioteca pandas.

In [11]:
base.loc[pd.isnull(base['age'])]

Unnamed: 0,clientid,income,age,loan,default
28,29,59417.805406,,2082.625938,0
30,31,48528.852796,,6155.78467,0
31,32,23526.302555,,2862.010139,0


Dessa vez temos dados faltantes no atributo "age", no tratamento desses valores iremos criar um objeto da classe SimpleImputer, que pertence a um subconjunto da biblioteca scikit-learn chamado sklearn.imputer.

In [12]:
from sklearn.impute import SimpleImputer
# Definindo o objeto do tipo SimpleImputer, que irá modificar os valores faltantes utilizando a estratégia da média
imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean')
# Criando o imputer de acordo com o tamanho do array
imputer = imputer.fit(previsores[:, 0:3])
# Transformando os valores faltentes na média de idade
previsores[:, 0:3] = imputer.transform(previsores[:, 0:3])

## Escalonamento
Ao trabalharmos com diferentes tipos de atributos, dependendo do algoritmo de machine learning que estamos utilizando, podem ocorrer problemas onde o algoritimo atribui pesos a certos atributos por eles possuirem uma escala diferente. Pegaremos como exemplo os atributos "age" e "income", onde em alguns casos a diferença entre a idade de dois clientes é igual a 5 e a diferença na renda anual é de 30 mil. Logo quando cálculos forem realizados o atributo "income" tera muito mais influência do que o atributo "age".

Para que cada atributo seja igualmente aproveitado pelo algoritmo devemos realizar o escalonamento. Para isso criaremos um objeto da classe StandardScaler da biblioteca de pré-processamento do scikit-learn.

Dados antes do escalonamento:

In [13]:
print(previsores[0],previsores[1],previsores[2], sep='\n')

[6.61559251e+04 5.90170151e+01 8.10653213e+03]
[34415.15396582    48.1171531   6564.74501768]
[57317.17006303    63.10804949  8020.95329639]


In [14]:
from sklearn.preprocessing import StandardScaler
# Criando objeto da classe StandardScale
scale = StandardScaler()
# Ajustando e transformando todos os valores de previsores para uma mesma escala padronizada
previsores = scale.fit_transform(previsores)

E assim ficaram os dados após o escalonamento:

In [15]:
print(previsores[0],previsores[1],previsores[2], sep='\n')

[1.45393393 1.36538005 1.20281942]
[-0.76217555  0.54265932  0.69642695]
[0.83682073 1.67417101 1.17471147]
