# Como preparar e transformar dados usando Python

**Vamos mostrar nessa aula o que fazer ao receber um banco de dados _sujo_**:
- A remo√ß√£o de linhas que contenham o dado;  
- A altera√ß√£o dos dados espec√≠ficos utilizando um n√∫mero m√©dio que n√£o afete a an√°lise.

**Tamb√©m vamos aprender como Normalizar e Padronizar os dados**:
- Normaliza√ß√£o e Padroniza√ß√£o de dados
<a name="intro"></a>
### Sum√°rio
1. [Removendo dados estranhos](#git1)
2. [Substituindo valores](#git2)
3. [Normaliza√ß√£o e Padroniza√ß√£o de dados](#git3)

Ao receber um conjunto de dados, provavelmente podem ser encontrados erros, inconsist√™ncias e informa√ß√µes dobradas. Antes de realizar qualquer an√°lise estat√≠stica ou aplica√ß√£o de algoritmos, devemos realizar uma limpeza na base de dados colhida.

Para a leitura e manipula√ß√£o de tabelas, utilizaremos a biblioteca _pandas_, que pode ser facilmente instalada atrav√©s do comando _pip install pandas_.

O banco de dados ser√° o arquivo CSV (que pode ser aberto tamb√©m no Excel e em outros leitores de planilha).

Tamb√©m utilizaremos a biblioteca matplotlib, uma das mais utilizadas para visualizar os dados por meio de gr√°ficos.
Vamos importar as bibliotecas!

In [11]:
import random
random.seed(1)

import pandas as pd
import matplotlib.pyplot as plt

### 1. Removendo dados estranhos <a name="git1"></a> [ü†°](#intro)

Agora, vamos associar os dados "iris-with-errors.csv" √† vari√°vel _data_, chamar o _print_ contendo o n√∫mero de linhas e colunas atrav√©s do comando shape e exibir as 25 primeiras linhas (incluindo o cabe√ßalho)

In [12]:
data = pd.read_csv('dados/iris-with-errors.csv', header=(0))
print("Linha, coluna:", data.shape)
data.head(25)

Linha, coluna: (25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


Podemos ver alguns erros:
1. O caractere "?"
2. A express√£o _NaN_, quando o computador n√£o sabe de que tipo √© a informa√ß√£o
3. Na coluna _species_, s√£o indicadas se as linhas s√£o duplicadas

Precisamos rever os dados ou descart√°-los. Aqui, vamos escolher a segunda op√ß√£o e utilizar o pandas para isso.

In [13]:
data = data.dropna() # Remove os dados NaN
data.duplicated() # Verifica se h√° dados duplicados

0     False
1      True
2     False
3     False
4      True
6     False
7     False
8      True
10    False
11    False
12    False
13    False
14     True
15    False
16    False
17     True
18    False
19    False
20    False
21    False
22    False
23    False
dtype: bool

Podemos perceber no _Output_ acima que as linhas duplicadas receberam o estado **True**. De duas linhas iguais, somente a que vem depois da primeira √© a "duplicada". Vamos descartar essas linhas!

In [14]:
data = data.drop_duplicates()
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa


Agora s√≥ falta removermos as interroga√ß√µes "?". Um dos modos de fazer isso √© transformar tal caractere em um _NaN_, e logo em seguida limpar novamente as linhas que contenham _NaN_.

In [15]:
import numpy as np
data = data.replace('?', np.nan) # Usa o comando replace para substituir as interroga√ß√µes em NaN's
data = data.dropna() # Remove as linhas que contenham NaN
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
3,4.7,3.2,1.3,0.2,setosa
6,5.0,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5.0,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa
16,4.8,3.0,1.4,0.1,setosa


Com os dados limpos, n√£o precisamos mais das classifica√ß√µes da coluna **species**, certo? Vamos remove-la!

In [16]:
print("Vamos remover a coluna:", data.columns[4]) # Para exibir as colunas que ser√£o removidas, use o comando .columns
data = data.drop(data.columns[4], axis=1) # Nesse comando, precisamos indicar o axis=1 que significa coluna
data.head(2) # Pra verificarmos se a coluna foi removida, podemos visualizar apenas poucas linhas.

Vamos remover a coluna: species


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
3,4.7,3.2,1.3,0.2


Caso mais algum dado distoe e voc√™ queira remover diretamente uma linha escolhida, podemos utilizar o comando acima com a indica√ß√£o **axis=0** indicando o n√∫mero e o tipo linha.

In [17]:
print("Vamos remover as linhas:", data.index[[0, 2]]) # Para exibir as linhas que ser√£o removidas, use o comando .index
data = data.drop(data.index[[0, 2]], axis=0)
data.head(25)

Vamos remover as linhas: Int64Index([0, 6], dtype='int64')


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
3,4.7,3.2,1.3,0.2
7,5.4,3.9,1.7,0.4
10,5.0,3.4,1.5,0.2
11,4.4,2.9,1.4,0.2
12,4.9,3.1,1.5,0.1
13,5.4,3.7,1.5,0.2
15,4.8,3.4,1.6,0.2
16,4.8,3.0,1.4,0.1
18,4.3,3.0,1.1,0.1
19,5.8,4.0,1.2,0.2


Pronto! Removemos as linhas _[0, 2]_, ou seja, a primeira e a terceira linha, de n√∫mero **0** e **6**.

### 2. Substituindo valores <a name="git2"></a> [ü†°](#intro)
 
Se forem constatados valores ausentes, podemos substitui-los facilmente. Vamos utilizar agora a vari√°vel _data_ausente_, relacionada aos mesmos dados iniciais.

In [18]:
data_ausente = pd.read_csv('dados/iris-with-errors.csv', header=(0))
print(data_ausente.shape) # N√∫mero de linhas e colunas, lembra?
data_ausente.head(50) # Opa! Eu quero agora exibir 50 linhas, o que ser√° que vai acontecer?

(25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


Agora n√≥s estamos com d√≥ de descartar os dados, pois a linha ainda possui informa√ß√µes us√°veis. Um jeito inteligente √© substituir os valores "?" e os "NaN", colocando no lugar um **valor m√©dio**, ou seja, o valor que seria mais prov√°vel naquele lugar. Essa op√ß√£o √© boa para esse caso, pois n√£o possu√≠mos muitas linhas de dados, e remov√™-las ocasionaria em menos informa√ß√£o.

In [19]:
import numpy as np
data_ausente = data_ausente.replace('?', np.nan) # Transformamos os "?" em NaN


# Vamos usar o comando abaixo para transformar as linhas e colunas em formato Numpy (em Arrays)
X = np.array(data_ausente[data_ausente.columns[0:data_ausente.shape[1]-1]], dtype = float) # Tamb√©m ignoramos a √∫ltima coluna

averages = np.nanmean(X, axis = 0) # Usamos a fun√ß√£o nanmean que calcula a m√©dia (ou mediana em alguns casos) ignorando os Nan
for i in np.arange(0, X.shape[0]):
    for j in np.arange(0, X.shape[1]):
        if(np.isnan(X[i,j]) == True): # Vamos verificar se √© um dado NaN
            X[i,j] = averages[j] # Inserimos a m√©dia
print(X) # Exibimos o Array que foi constru√≠do, calculado e alterado

# Documenta√ß√£o - https://docs.scipy.org/doc/numpy/reference/generated/numpy.nanmean.html

[[5.1        3.5        1.4        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.         1.4        0.2       ]
 [4.7        3.2        1.3        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.1        1.5        0.2       ]
 [5.         3.6        1.4        0.2       ]
 [5.4        3.9        1.7        0.4       ]
 [5.4        3.9        1.7        0.4       ]
 [4.6        3.4        1.4        0.22608696]
 [5.         3.4        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.9        3.1        1.5        0.1       ]
 [5.4        3.7        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.8        3.4        1.6        0.2       ]
 [4.8        3.         1.4        0.1       ]
 [4.4        2.9        1.4        0.2       ]
 [4.3        3.         1.1        0.1       ]
 [5.8        4.         1.2        0.2       ]
 [5.7        4.4        1.5        0.4       ]
 [5.4        

### 3. Normaliza√ß√£o e Padroniza√ß√£o de dados <a name="git3"></a> [ü†°](#intro)
#### 3.1 Normaliza√ß√£o
A **Normaliza√ß√£o** √© o m√©todo em que pegamos o maior dado da planilha e transformamos em **1**, e o menor em **0**. Os que estiverem entre eles ser√£o **normalizados**. Para isso vamos utilizar a biblioteca sklearn que j√° faz isso para n√≥s.

Importamos o banco de dados _iris.csv_ e associamos √† vari√°vel _data_normalizada_, importamos as bibliotecas _numpy_ e _sklearn_. Transformamos a tabela em Array como da √∫ltima vez, ignorando a √∫ltima coluna.

**Aten√ß√£o!!**: N√£o esque√ßa de instalar a nova biblioteca utilizando o comando _pip install sklearn_.

In [27]:
data_normalizada = pd.read_csv('dados/iris.csv', header=(0))

import numpy as np
from sklearn.preprocessing import MinMaxScaler

X = np.array(data_normalizada[data_normalizada.columns[0:data.shape[1]-1]]) # Transforma√ß√£o em Array ignorando √∫ltima coluna
for i in range(X.shape[1]):
    print("MAIOR valor da coluna", i, "=", max(X[:,i]))
    print("MENOR Valor da coluna", i, "=", min(X[:,i]))
# prepara a fun√ß√£o para transformar os dados
scaler = MinMaxScaler(feature_range=(0, 1)) # O m√≠nimo e o m√°ximo aqui ser√° "0" e "1"
# Realiza a normaliza√ß√£o e coloca em um novo vetor
X_norm = scaler.fit_transform(X) # A vari√°vel X_norm ser√° a matriz criada atrav√©s do comando .scaler
print(X_norm)

MAIOR valor da coluna 0 = 7.9
MENOR Valor da coluna 0 = 4.3
MAIOR valor da coluna 1 = 4.4
MENOR Valor da coluna 1 = 2.0
MAIOR valor da coluna 2 = 6.9
MENOR Valor da coluna 2 = 1.0
[[0.22222222 0.625      0.06779661]
 [0.16666667 0.41666667 0.06779661]
 [0.11111111 0.5        0.05084746]
 [0.08333333 0.45833333 0.08474576]
 [0.19444444 0.66666667 0.06779661]
 [0.30555556 0.79166667 0.11864407]
 [0.08333333 0.58333333 0.06779661]
 [0.19444444 0.58333333 0.08474576]
 [0.02777778 0.375      0.06779661]
 [0.16666667 0.45833333 0.08474576]
 [0.30555556 0.70833333 0.08474576]
 [0.13888889 0.58333333 0.10169492]
 [0.13888889 0.41666667 0.06779661]
 [0.         0.41666667 0.01694915]
 [0.41666667 0.83333333 0.03389831]
 [0.38888889 1.         0.08474576]
 [0.30555556 0.79166667 0.05084746]
 [0.22222222 0.625      0.06779661]
 [0.38888889 0.75       0.11864407]
 [0.22222222 0.75       0.08474576]
 [0.30555556 0.58333333 0.11864407]
 [0.22222222 0.70833333 0.08474576]
 [0.08333333 0.66666667 0.  

In [28]:
print('M√≠nimo dos atributos:', np.amin(X_norm, axis=0))
print('M√°ximo dos atributos:', np.amax(X_norm, axis=0))

M√≠nimo dos atributos: [0. 0. 0.]
M√°ximo dos atributos: [1. 1. 1.]


#### 3.1 Padroniza√ß√£o
A **Padroniza√ß√£o** de dados possui o mesmo objetivo que a **Normaliza√ß√£o**, que √© o de transformar todos os dados para que fiquem em uma certa ordem de grandeza. A diferen√ßa √© que na Padroniza√ß√£o, **a m√©dia √© igual a 0** e **o desvio padr√£o √© igual a 1**.