# Como preparar e transformar dados usando Python

**Vamos mostrar nessa aula o que fazer ao receber um banco de dados _sujo_**:
- A remoção de linhas que contenham o dado;  
- A alteração dos dados específicos utilizando um número médio que não afete a análise.

**Também vamos aprender como Normalizar e Padronizar os dados**:
- Normalização e Padronização de dados
<a name="intro"></a>
### Sumário
1. [Removendo dados estranhos](#git1)
2. [Substituindo valores](#git2)
3. [Normalização e Padronização de dados](#git3)

Ao receber um conjunto de dados, provavelmente podem ser encontrados erros, inconsistências e informações dobradas. Antes de realizar qualquer análise estatística ou aplicação de algoritmos, devemos realizar uma limpeza na base de dados colhida.

Para a leitura e manipulação de tabelas, utilizaremos a biblioteca _pandas_, que pode ser facilmente instalada através do comando _pip install pandas_.

O banco de dados será o arquivo CSV (que pode ser aberto também no Excel e em outros leitores de planilha).

Também utilizaremos a biblioteca matplotlib, uma das mais utilizadas para visualizar os dados por meio de gráficos.
Vamos importar as bibliotecas!

In [11]:
import random
random.seed(1)

import pandas as pd
import matplotlib.pyplot as plt

### 1. Removendo dados estranhos <a name="git1"></a> [🠡](#intro)

Agora, vamos associar os dados "iris-with-errors.csv" à variável _data_, chamar o _print_ contendo o número de linhas e colunas através do comando shape e exibir as 25 primeiras linhas (incluindo o cabeçalho)

In [12]:
data = pd.read_csv('dados/iris-with-errors.csv', header=(0))
print("Linha, coluna:", data.shape)
data.head(25)

Linha, coluna: (25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


Podemos ver alguns erros:
1. O caractere "?"
2. A expressão _NaN_, quando o computador não sabe de que tipo é a informação
3. Na coluna _species_, são indicadas se as linhas são duplicadas

Precisamos rever os dados ou descartá-los. Aqui, vamos escolher a segunda opção e utilizar o pandas para isso.

In [13]:
data = data.dropna() # Remove os dados NaN
data.duplicated() # Verifica se há dados duplicados

0     False
1      True
2     False
3     False
4      True
6     False
7     False
8      True
10    False
11    False
12    False
13    False
14     True
15    False
16    False
17     True
18    False
19    False
20    False
21    False
22    False
23    False
dtype: bool

Podemos perceber no _Output_ acima que as linhas duplicadas receberam o estado **True**. De duas linhas iguais, somente a que vem depois da primeira é a "duplicada". Vamos descartar essas linhas!

In [14]:
data = data.drop_duplicates()
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa


Agora só falta removermos as interrogações "?". Um dos modos de fazer isso é transformar tal caractere em um _NaN_, e logo em seguida limpar novamente as linhas que contenham _NaN_.

In [15]:
import numpy as np
data = data.replace('?', np.nan) # Usa o comando replace para substituir as interrogações em NaN's
data = data.dropna() # Remove as linhas que contenham NaN
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
3,4.7,3.2,1.3,0.2,setosa
6,5.0,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5.0,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa
16,4.8,3.0,1.4,0.1,setosa


Com os dados limpos, não precisamos mais das classificações da coluna **species**, certo? Vamos remove-la!

In [16]:
print("Vamos remover a coluna:", data.columns[4]) # Para exibir as colunas que serão removidas, use o comando .columns
data = data.drop(data.columns[4], axis=1) # Nesse comando, precisamos indicar o axis=1 que significa coluna
data.head(2) # Pra verificarmos se a coluna foi removida, podemos visualizar apenas poucas linhas.

Vamos remover a coluna: species


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
3,4.7,3.2,1.3,0.2


Caso mais algum dado distoe e você queira remover diretamente uma linha escolhida, podemos utilizar o comando acima com a indicação **axis=0** indicando o número e o tipo linha.

In [17]:
print("Vamos remover as linhas:", data.index[[0, 2]]) # Para exibir as linhas que serão removidas, use o comando .index
data = data.drop(data.index[[0, 2]], axis=0)
data.head(25)

Vamos remover as linhas: Int64Index([0, 6], dtype='int64')


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
3,4.7,3.2,1.3,0.2
7,5.4,3.9,1.7,0.4
10,5.0,3.4,1.5,0.2
11,4.4,2.9,1.4,0.2
12,4.9,3.1,1.5,0.1
13,5.4,3.7,1.5,0.2
15,4.8,3.4,1.6,0.2
16,4.8,3.0,1.4,0.1
18,4.3,3.0,1.1,0.1
19,5.8,4.0,1.2,0.2


Pronto! Removemos as linhas _[0, 2]_, ou seja, a primeira e a terceira linha, de número **0** e **6**.

### 2. Substituindo valores <a name="git2"></a> [🠡](#intro)
 
Se forem constatados valores ausentes, podemos substitui-los facilmente. Vamos utilizar agora a variável _data_ausente_, relacionada aos mesmos dados iniciais.

In [18]:
data_ausente = pd.read_csv('dados/iris-with-errors.csv', header=(0))
print(data_ausente.shape) # Número de linhas e colunas, lembra?
data_ausente.head(50) # Opa! Eu quero agora exibir 50 linhas, o que será que vai acontecer?

(25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


Agora nós estamos com dó de descartar os dados, pois a linha ainda possui informações usáveis. Um jeito inteligente é substituir os valores "?" e os "NaN", colocando no lugar um **valor médio**, ou seja, o valor que seria mais provável naquele lugar. Essa opção é boa para esse caso, pois não possuímos muitas linhas de dados, e removê-las ocasionaria em menos informação.

In [19]:
import numpy as np
data_ausente = data_ausente.replace('?', np.nan) # Transformamos os "?" em NaN


# Vamos usar o comando abaixo para transformar as linhas e colunas em formato Numpy (em Arrays)
X = np.array(data_ausente[data_ausente.columns[0:data_ausente.shape[1]-1]], dtype = float) # Também ignoramos a última coluna

averages = np.nanmean(X, axis = 0) # Usamos a função nanmean que calcula a média (ou mediana em alguns casos) ignorando os Nan
for i in np.arange(0, X.shape[0]):
    for j in np.arange(0, X.shape[1]):
        if(np.isnan(X[i,j]) == True): # Vamos verificar se é um dado NaN
            X[i,j] = averages[j] # Inserimos a média
print(X) # Exibimos o Array que foi construído, calculado e alterado

# Documentação - https://docs.scipy.org/doc/numpy/reference/generated/numpy.nanmean.html

[[5.1        3.5        1.4        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.         1.4        0.2       ]
 [4.7        3.2        1.3        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.1        1.5        0.2       ]
 [5.         3.6        1.4        0.2       ]
 [5.4        3.9        1.7        0.4       ]
 [5.4        3.9        1.7        0.4       ]
 [4.6        3.4        1.4        0.22608696]
 [5.         3.4        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.9        3.1        1.5        0.1       ]
 [5.4        3.7        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.8        3.4        1.6        0.2       ]
 [4.8        3.         1.4        0.1       ]
 [4.4        2.9        1.4        0.2       ]
 [4.3        3.         1.1        0.1       ]
 [5.8        4.         1.2        0.2       ]
 [5.7        4.4        1.5        0.4       ]
 [5.4        

### 3. Normalização e Padronização de dados <a name="git3"></a> [🠡](#intro)
#### 3.1 Normalização
A **Normalização** é o método em que pegamos o maior dado da planilha e transformamos em **1**, e o menor em **0**. Os que estiverem entre eles serão **normalizados**. Para isso vamos utilizar a biblioteca sklearn que já faz isso para nós.

Importamos o banco de dados _iris.csv_ e associamos à variável _data_normalizada_, importamos as bibliotecas _numpy_ e _sklearn_. Transformamos a tabela em Array como da última vez, ignorando a última coluna.

**Atenção!!**: Não esqueça de instalar a nova biblioteca utilizando o comando _pip install sklearn_.

In [27]:
data_normalizada = pd.read_csv('dados/iris.csv', header=(0))

import numpy as np
from sklearn.preprocessing import MinMaxScaler

X = np.array(data_normalizada[data_normalizada.columns[0:data.shape[1]-1]]) # Transformação em Array ignorando última coluna
for i in range(X.shape[1]):
    print("MAIOR valor da coluna", i, "=", max(X[:,i]))
    print("MENOR Valor da coluna", i, "=", min(X[:,i]))
# prepara a função para transformar os dados
scaler = MinMaxScaler(feature_range=(0, 1)) # O mínimo e o máximo aqui será "0" e "1"
# Realiza a normalização e coloca em um novo vetor
X_norm = scaler.fit_transform(X) # A variável X_norm será a matriz criada através do comando .scaler
print(X_norm)

MAIOR valor da coluna 0 = 7.9
MENOR Valor da coluna 0 = 4.3
MAIOR valor da coluna 1 = 4.4
MENOR Valor da coluna 1 = 2.0
MAIOR valor da coluna 2 = 6.9
MENOR Valor da coluna 2 = 1.0
[[0.22222222 0.625      0.06779661]
 [0.16666667 0.41666667 0.06779661]
 [0.11111111 0.5        0.05084746]
 [0.08333333 0.45833333 0.08474576]
 [0.19444444 0.66666667 0.06779661]
 [0.30555556 0.79166667 0.11864407]
 [0.08333333 0.58333333 0.06779661]
 [0.19444444 0.58333333 0.08474576]
 [0.02777778 0.375      0.06779661]
 [0.16666667 0.45833333 0.08474576]
 [0.30555556 0.70833333 0.08474576]
 [0.13888889 0.58333333 0.10169492]
 [0.13888889 0.41666667 0.06779661]
 [0.         0.41666667 0.01694915]
 [0.41666667 0.83333333 0.03389831]
 [0.38888889 1.         0.08474576]
 [0.30555556 0.79166667 0.05084746]
 [0.22222222 0.625      0.06779661]
 [0.38888889 0.75       0.11864407]
 [0.22222222 0.75       0.08474576]
 [0.30555556 0.58333333 0.11864407]
 [0.22222222 0.70833333 0.08474576]
 [0.08333333 0.66666667 0.  

In [28]:
print('Mínimo dos atributos:', np.amin(X_norm, axis=0))
print('Máximo dos atributos:', np.amax(X_norm, axis=0))

Mínimo dos atributos: [0. 0. 0.]
Máximo dos atributos: [1. 1. 1.]


#### 3.1 Padronização
A **Padronização** de dados possui o mesmo objetivo que a **Normalização**, que é o de transformar todos os dados para que fiquem em uma certa ordem de grandeza. A diferença é que na Padronização, **a média é igual a 0** e **o desvio padrão é igual a 1**.