# Pré-Processamento de Dados com Pandas e Scikit-learn
#### Pré-processamento de uma base de dados para corrigir diversos atributos danosos ao aprendizado de uma máquina durante a fase de treinamento.

In [1]:
# importando a biblioteca Pandas do Python
import pandas as pd

In [2]:
# criando o objeto "dataframe" com todos os registros do banco de dados
dataframe = pd.read_csv("Dados Bancarios.csv", encoding = "UTF-8", sep = ",")

In [3]:
# usando o atributo "describe" para analisar informações estatísticas do dataframe
dataframe.describe()

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [4]:
# imprimindo na saída de dados os registros armazenados no objeto "dataframe"
dataframe

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


In [5]:
# visualizando as dimensões do vetor multidimensional "dataframe"
dataframe.shape

(2000, 5)

In [6]:
# Usando o atributo loc para identificar valores menores que 0
# Observe que ele trabalhrá com essa restrição só nas linhas da base de dados
dataframe.loc[dataframe["idade"] < 0]

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
15,16,50501.726689,-28.218361,3977.287432,0
21,22,32197.620701,-52.42328,4244.057136,0
26,27,63287.038908,-36.496976,9595.286289,0


In [7]:
# usando o atributo "drop" para excluir a coluna defeituosa
dataframe.drop("idade", 1, inplace = True)

# obs: o parâmetro 1 indica que queremos trabalhar com colunas;
# obs: inplace = True indica que a alteração feita será permanente;

In [8]:
# usando o atributo "describe" para ver novamente as informações estatísticas da base de dados
dataframe.describe()

Unnamed: 0,clienteID,renda,emprestimo,padrao
count,2000.0,2000.0,2000.0,2000.0
mean,1000.5,45331.600018,4444.369695,0.1415
std,577.494589,14326.327119,3045.410024,0.348624
min,1.0,20014.48947,1.37763,0.0
25%,500.75,32796.459717,1939.708847,0.0
50%,1000.5,45789.117313,3974.719419,0.0
75%,1500.25,57791.281668,6432.410625,0.0
max,2000.0,69995.685578,13766.051239,1.0


In [9]:
# importando novamente a base de dados para o objeto "dataframe"
dataframe = pd.read_csv("Dados Bancarios.csv", encoding = "UTF-8", sep = ",")

In [10]:
# usando o atributo "drop" para excluir os registros com problemas
dataframe.drop(dataframe[dataframe.idade < 0].index, inplace = True)
# obs: index encotra o exato elemento e retorna a posição dele na lista;
# obs: inplace = True indica que a alteração feita será permanente;

In [11]:
# localizando os registros no campo de dados "idade" que são menores que 0
dataframe.loc[dataframe["idade"] < 0]

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao


In [12]:
# usando o atributo "describe" para ver novamente as informações estatísticas da base de dados
dataframe.describe()

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
count,1997.0,1997.0,1994.0,1997.0,1997.0
mean,1001.970456,45326.59672,40.9277,4442.124566,0.141713
std,576.679293,14327.97155,13.271802,3045.494192,0.348842
min,1.0,20014.48947,18.055189,1.37763,0.0
25%,503.0,32804.904487,29.043284,1936.813257,0.0
50%,1002.0,45788.7471,41.382673,3971.155479,0.0
75%,1501.0,57787.565659,52.6169,6429.593688,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [13]:
# importando novamente a base de dados para a variável
dataframe = pd.read_csv("Dados Bancarios.csv", encoding = "UTF-8", sep = ",")

In [14]:
# a média de todos os campos de dados 
dataframe.mean()

clienteID      1000.500000
renda         45331.600018
idade            40.807559
emprestimo     4444.369695
padrao            0.141500
dtype: float64

In [15]:
# a média do campo de dados "idade", considerando os valores incorretos
dataframe["idade"].mean()

40.80755937840458

In [16]:
# agora realizando a média do campo de dados "idade", mas sem os registros incorretos
dataframe["idade"][dataframe.idade > 0].mean()

40.92770044906149

In [17]:
# atribuindo aos registros incorretos a média dos valores sem os registros inconsistentes
dataframe.loc[dataframe.idade < 0, "idade"] = 40.92770044906149

In [18]:
# localizando os registros no campo de dados "idade" que são menores que 0
dataframe.loc[dataframe["idade"] < 0]

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao


In [19]:
# usando o atributo "describe" para analisar os dados estatísticos do nosso banco de dados
dataframe.describe()

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.9277,4444.369695,0.1415
std,577.494589,14326.327119,13.261825,3045.410024,0.348624
min,1.0,20014.48947,18.055189,1.37763,0.0
25%,500.75,32796.459717,29.072097,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


In [20]:
# usando a função "isnull" da biblioteca "pandas" para visualizar os registros nulos no "dataframe"
pd.isnull(dataframe["idade"])

0       False
1       False
2       False
3       False
4       False
        ...  
1995    False
1996    False
1997    False
1998    False
1999    False
Name: idade, Length: 2000, dtype: bool

In [21]:
# usando o atributo "loc" com a função "isnull" do "pandas" para visualizar os registros nulos em 
# "dataframe"
dataframe.loc[pd.isnull(dataframe["idade"])]

Unnamed: 0,clienteID,renda,idade,emprestimo,padrao
28,29,59417.805406,,2082.625938,0
30,31,48528.852796,,6155.78467,0
31,32,23526.302555,,2862.010139,0


In [22]:
# importando a biblioteca sklearn do Python
from sklearn.impute import SimpleImputer

In [23]:
# importando a biblioteca numpy do Python
import numpy as np

In [24]:
# atribuindo a variável do tipo objeto "previsores" os dados previsores presentes em "dataframe"
previsores = dataframe.iloc[:, 1:4].values
# obs: "iloc" tem as mesmas propiedades de "loc", exeto que os métodos são somente inteiros
# obs: o atributo "values" permite retornar os registros encontrados através do atributo "iloc"
# obs: foi adicionado todas as linhs (:) e as colunas de 1 a 3 (1:4)

In [25]:
# atribuindo a variável do tipo objeto "classe" os dados meta classe presentes em "dataframe"
classe = dataframe.iloc[:, 4].values

In [26]:
# atribuindo a variável "imputer" os requisitos de busca para corrigir os valores nulos
# estamos criando o objeto "imputer"
imputer = SimpleImputer(missing_values = np.nan, strategy = "mean")
# obs: método "missing_values" recebe "np.nan", indicando que os valores a serem corrigidos são os que 
# estão nulos
# obs: o método "strategy" recebe "mean" indicando que os valores núlos receberam a média dos registros do 
# campo. Poderiamos usar a mediana (median) e a moda (most_frequent)

In [27]:
# observando as características da variável "imputer"
imputer

SimpleImputer()

In [28]:
imputer = imputer.fit(previsores[:, 0:3])
# obs: o atributo "fit" de "imputer" estima a melhor função representativa para os pontos de dados, ela 
# vai encaixar o "imputer" em nossa base de dados

# estamos fazendo essa busca por valores nulos em todos os registros dos nossos dados previsores

In [29]:
# observe as características do objeto "imputer"
imputer

SimpleImputer()

In [30]:
# atribuindo a todos os dados de "previsores" a transformação dos seus dados, usando o atributo "transform"
# no objeto "imputer"
previsores[:, 0:3] = imputer.transform(previsores[:, 0:3])

In [31]:
# observe que não há mais valores nulos nos dados previsores, todos estão completos
previsores.shape

(2000, 3)

In [32]:
# importanto a biblioteca sklearn do Python
from sklearn.preprocessing import StandardScaler

In [33]:
# criando o nosso objeto que será usado para escalonar os atributos
scaler = StandardScaler()

In [34]:
# aplicando o escalonamento na variável "previsores"  usando o nosso objeto "scaler"
previsores = scaler.fit_transform(previsores)

In [35]:
# imprimindo na saída de dados os dados previsores
previsores

array([[ 1.45393393,  1.36538005,  1.20281942],
       [-0.76217555,  0.54265932,  0.69642695],
       [ 0.83682073,  1.67417101,  1.17471147],
       ...,
       [-0.07122592, -0.97448606,  0.35420081],
       [-0.11000289,  1.73936652, -0.92675625],
       [ 1.682986  ,  1.14917551,  0.96381038]])

### Alguma Dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br)