# Pré-Processamento de Dados com Pandas e Scikit-learn
#### Pré-processamento de uma base de dados para corrigir diversos atributos danosos ao aprendizado de uma máquina durante a fase de treinamento.

In [1]:
# importando a biblioteca Pandas do Python
import pandas as pd

Vamos atribuir os dados do documento "Dados Bancarios.csv" a variável do tipo objeto "dataframe". A partir dessa atribuição, vamos fazer toda a manipulação com os dados através da variável.

In [13]:
# importando a base de dados para a variável
dataframe = pd.read_csv("Dados Bancarios.csv", encoding = "UTF-8", sep = ",")

Vamos usar o atributo "describe" da biblioteca "pandas" na variável "dataframe". A partir disso, vamos poder observar inúmeros dados estatísticos sobre essa base de dados. Observe:

In [5]:
# usando o atributo "describe" para analisar informações estatísticas do dataframe
dataframe.describe()

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


Com esse atributo, podemos identificar valores incosistentes presentes em uma base de dados. Desse modo, poderemos fazer as devidas correções de forma mais eficaz.

1. **Count**: quantidade de dados obtidos para cada um dos campos de dados;
> Observe que já conseguimos observar o primeiro problema: há valores faltantes no campo de dados "idade".

2. **Mean**: média dos valores armazenados em cada campo de dados;
> Valores incorretos armazenados podem prejudicar o valor médio real dos dados que, por consequência, prejudicará o nosso algoritmo durante o treinamento com a base de dados.

3. **std**: desvio padrão dos valores armazenados em cada campo de dados;

4. **min**: valor mínimo armazenado em cada campo de dado;

> Observe que há um valor negativo armazenado na idade, devemos concertar esse erro também.

5. **25%**: Valor armazenado para a localização do cliente que está a 25% na base de dados, fazendo uma busca do primeiro ao último valor;

6. **50%**: Valor armazenado para a localização do cliente que está a 50% na base de dados, fazendo uma busca do primeiro ao último valor;

7. **75%**: Valor armazenado para a localização do cliente que está a 75% na base de dados, fazendo uma busca do primeiro ao último valor;

8. **min**: valor mínimo armazenado em cada campo de dado;

Observe abaixo a base de dados que está sendo trabalhada. Nela, há informações de 2000 usuários para os seguintes campos de dados:

|**Dados dos Clientes:**|
|:-----------------------|
|1. Identificação do Cliente|
|2. Renda do Cliente|
|3. Idade do Cliente|
|4. Emprestimo solicitado|
|5. Chance do Valor ser Pago pelo Cliente|

In [7]:
# imprime os dados contidos na variável do tipo objeto "dataframe"
dataframe

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


In [8]:
# visualizando as dimensões do vetor multidimensional "dataframe"
dataframe.shape

(2000, 5)

### Corrigindo valores incosistentes

Foi analisado acima, usando o atributo "describe", uma série de informações estatísticas sobre o banco de dados utilizado. A partir disso, foi possível localizar alguns problemas nos valores armazenados na base de dados, entre eles, valores negativos armazenados no campo de dados "idade".

Vamos usar o atributo "loc" (de localizar) da biblioteca "pandas" na variável dataframe para encontrar os valores negativos. Ou seja, menores que 0.

In [9]:
# Usando o atributo loc para identificar valores menores que 0
dataframe.loc[dataframe["idade"] < 0]

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
15,16,50501.726689,-28.218361,3977.287432,0
21,22,32197.620701,-52.42328,4244.057136,0
26,27,63287.038908,-36.496976,9595.286289,0


Após a varredura, foi encontrado três valores inconsistentes. Vamos analisar três possiblidades para fazer a correção desse problema.

##### Método 1 - Apagar toda a coluna "idade"

Esse método é o menos recomendado, pois estaremos perdendendo todo um campo de dado. Caso esse campo for importante na hora de se treinar algum algoritmo, poderemos prejudicá-lo. Entretanto, em alguns casos, convém apagar toda a coluna defeituosa se for garantido que não teremos nenhum prejuízo ou perda de qualidade em nossa IA.

Vamos usar o atributo "drop" da biblioteca "pandas" na variável dataframe para excluir a coluna defeituosa.

In [15]:
# usando o atributo "drop" para excluir a coluna defeituosa
dataframe.drop("idade", 1, inplace = True)

# obs: o parâmetro 1 indica que queremos trabalhar com colunas;
# obs: inplace = True indica que a alteração feita será permanente;

In [16]:
# usando o atributo "describe" para ver novamente as informações estatísticas da base de dados
dataframe.describe()

Unnamed: 0,clienteID,renda,emprestimo,padrao
count,2000.0,2000.0,2000.0,2000.0
mean,1000.5,45331.600018,4444.369695,0.1415
std,577.494589,14326.327119,3045.410024,0.348624
min,1.0,20014.48947,1.37763,0.0
25%,500.75,32796.459717,1939.708847,0.0
50%,1000.5,45789.117313,3974.719419,0.0
75%,1500.25,57791.281668,6432.410625,0.0
max,2000.0,69995.685578,13766.051239,1.0


Observe que todo o campo de dado "idade" foi excluido permanentemente.

##### Método 2 - Excluir Apenas os Registros Defeituosos

In [17]:
# importando novamente a base de dados para a variável
dataframe = pd.read_csv("Dados Bancarios.csv", encoding = "UTF-8", sep = ",")

Podemos optar também por excluir as entradas defeituosas em nosso banco de dados, sendo esse método mais interessante que o primeiro. Entretanto, ainda haverá valores faltantes na base de dados, continuando a ser prejudicial ao treinamento da nossa IA.

In [18]:
# usando o atributo "drop" para excluir os registros com problemas
dataframe.drop(dataframe[dataframe.idade < 0].index, inplace = True)
# obs: index encotra o exato elemento e retorna a posição dele na lista;
# obs: inplace = True indica que a alteração feita será permanente;

Verifique que os registros negativos não existem mais:

In [21]:
# localizando os registros no campo de dados "idade" que são menores que 0
dataframe.loc[dataframe["idade"] < 0]

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao


In [19]:
# usando o atributo "describe" para ver novamente as informações estatísticas da base de dados
dataframe.describe()

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
count,1997.0,1997.0,1994.0,1997.0,1997.0
mean,1001.970456,45326.59672,40.9277,4442.124566,0.141713
std,576.679293,14327.97155,13.271802,3045.494192,0.348842
min,1.0,20014.48947,18.055189,1.37763,0.0
25%,503.0,32804.904487,29.043284,1936.813257,0.0
50%,1002.0,45788.7471,41.382673,3971.155479,0.0
75%,1501.0,57787.565659,52.6169,6429.593688,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


Observe que não há valores negativos no campo de dados "idade". Entretanto, houve a perda de três dados.

##### Método 3 - Preencher os Valores Manualmente

Dependendo da disposição do programador, os valores podem ser preenchidos manualmente. Entre os métodos acima, esse é o mais seguro, porém menos eficaz.

##### Método 5 - Preencher os valores Incorretos com as Médias das Idades

In [27]:
# importando novamente a base de dados para a variável
dataframe = pd.read_csv("Dados Bancarios.csv", encoding = "UTF-8", sep = ",")

Podemos realizar a média dos valores do campo de dados "idade" e preencher os registros inconsistentes com essa média, mas cuidado! Na hora de realizar o cálculo médio, os valores incorretos não podem participar do cálculo para não produzir valores distópicos da realidade.

In [23]:
# a média de todos os campos de dados 
dataframe.mean()

clienteID      1000.500000
renda         45331.600018
idade            40.807559
emprestimo     4444.369695
padrao            0.141500
dtype: float64

In [24]:
# a média do campo de dados "idade", considerando os valores incorretos
dataframe["idade"].mean()

40.80755937840458

In [28]:
# agora realizando a média do campo de dados "idade", mas sem os registros incorretos
dataframe["idade"][dataframe.idade > 0].mean()

40.92770044906149

Com isso, fazemos a substituição dos registros negativos com a média correta:

In [29]:
# atribuindo aos registros incorretos a média dos valores sem os registros inconsistentes
dataframe.loc[dataframe.idade < 0, "idade"] = 40.92770044906149

Observe que o problema foi resolvido, e não tivemos perda de nenhum dos três registros:

In [31]:
# localizando os registros no campo de dados "idade" que são menores que 0
dataframe.loc[dataframe["idade"] < 0]

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao


In [32]:
# usando o atributo "describe" para analisar os dados estatísticos do nosso banco de dados
dataframe.describe()

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.9277,4444.369695,0.1415
std,577.494589,14326.327119,13.261825,3045.410024,0.348624
min,1.0,20014.48947,18.055189,1.37763,0.0
25%,500.75,32796.459717,29.072097,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


### Tratamento de Valores Faltantes

Temos também alguns valores faltantes no campo de dados "idade". Devemos fazer a correção desse problema.

Observe quais são esse valores usando a função "isnull" da biblioteca "pandas" aplicada na nossa variável do tipo objeto "dataframe".

In [33]:
# usando a função "isnull" da biblioteca "pandas" para visualizar os registros nulos no "dataframe"
pd.isnull(dataframe["idade"])

0       False
1       False
2       False
3       False
4       False
        ...  
1995    False
1996    False
1997    False
1998    False
1999    False
Name: idade, Length: 2000, dtype: bool

Usando o atributo "loc" poderemos visualizar somente os valores armazenados com registros nulos ao invés de uma lista de dados booleanos para todos os registros (se for True o registro é nulo).

In [35]:
# usando o atributo "loc" com a função "isnull" do "pandas" para visualizar os registros nulos em 
# "dataframe"
dataframe.loc[pd.isnull(dataframe["idade"])]

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
28,29,59417.805406,,2082.625938,0
30,31,48528.852796,,6155.78467,0
31,32,23526.302555,,2862.010139,0


Temos exatamente três registros nulos no campo de dados "idade", exatamente como foi previsto quando visualizamos os dados estatísticos usando o atributo "describe".

Não podemos fazer uma atribuição com números flutuantes em um campo de dados "NaN", pois são tipos de dados diferentes (lembre-se do programa 06). Por esse motivo, vamos chamar a biblioteca "sklearn" para fazer esse tratamento de dados.

In [36]:
# importando a biblioteca sklearn do Python
from sklearn.impute import SimpleImputer

Além disso, vamos chamar também a biblioteca "numpy" para identificar os tipos de dados nulos.

In [37]:
# importando a biblioteca numpy do Python
import numpy as np

Anteriormente, foi dito que os dados **previsores** são independentes e a **meta classe** é dependente dos dados previsores. Desse modo, temos que os dados previsores são: "renda", "idade" e "emprestimo", e os dados meta classe são "padrao". "clienteID" não será importante no nosso algoritmo, então vamos descartá-lo.

In [42]:
# atribuindo a variável do tipo objeto "previsores" os dados previsores presentes em "dataframe"
previsores = dataframe.iloc[:, 1:4].values
# obs: "iloc" tem as mesmas propiedades de "loc", exeto que os métodos são somente inteiros
# obs: o atributo "values" permite retornar os registros encontrados através do atributo "iloc"
# obs: foi adicionado todas as linhs (:) e as colunas de 1 a 3 (1:4)

In [43]:
# atribuindo a variável do tipo objeto "classe" os dados meta classe presentes em "dataframe"
classe = dataframe.iloc[:, 4].values

Agora que separamos os dados previsores dos meta classe, podemos usar a função "SimpleImpute" do "sklearn" para corrigir os valores faltantes.

In [48]:
# atribuindo a variável "imputer" os requisitos de busca para corrigir os valores nulos
# estamos criando o objeto "imputer"
imputer = SimpleImputer(missing_values = np.nan, strategy = "mean")
# obs: método "missing_values" recebe "np.nan", indicando que os valores a serem corrigidos são os que 
# estão nulos
# obs: o método "strategy" recebe "mean" indicando que os valores núlos receberam a média dos registros do 
# campo. Poderiamos usar a mediana (median) e a moda (most_frequent)

Agora vamos usar o nosso "imputer" para fazer a carga nos valores nulos presentes nos nossos dados previsores no campo "idade". Em outras palavras, ele é responsável por colocar valores de entrada.

In [49]:
# observando as características da variável "imputer"
imputer

SimpleImputer(add_indicator=False, copy=True, fill_value=None,
              missing_values=nan, strategy='mean', verbose=0)

In [50]:
imputer = imputer.fit(previsores[:, 0:3])
# obs: o atributo "fit" de "imputer" estima a melhor função representativa para os pontos de dados, ela 
# vai encaixar o "imputer" em nossa base de dados

# estamos fazendo essa busca por valores nulos em todos os registros dos nossos dados previsores

In [51]:
# observe as características do objeto "imputer"
imputer

SimpleImputer(add_indicator=False, copy=True, fill_value=None,
              missing_values=nan, strategy='mean', verbose=0)

Agora que nosso "imputer" já está definido e já realizou o tratamento de dados com os valores faltantes, vamos aplicar e atribuir a transformação dos dados nos "previsores".

In [55]:
# atribuindo a todos os dados de "previsores" a transformação dos seus dados, usando o atributo "transform"
# no objeto "imputer"
previsores[:, 0:3] = imputer.transform(previsores[:, 0:3])

In [56]:
# observe que não há mais valores nulos nos dados previsores, todos estão completos
previsores.shape

(2000, 3)

### Alguma dúvida? Entre em contato comigo:


- <a href = "mailto:alyssonmachado388@gmail.com" target = "_blank">Me envie um e-mail</a>;