# Como preparar e transformar dados usando Python

**Vamos mostrar nessa aula o que fazer ao receber um banco de dados _sujo_**:
- A remo√ß√£o de linhas que contenham o dado;  
- A altera√ß√£o dos dados espec√≠ficos utilizando um n√∫mero m√©dio que n√£o afete a an√°lise.

**Tamb√©m vamos aprender como Normalizar e Padronizar os dados**:
- Normaliza√ß√£o e Padroniza√ß√£o de dados
<a name="intro"></a>
### Sum√°rio
1. [Removendo dados estranhos](#git1)
2. [Substituindo valores](#git2)
3. [Normaliza√ß√£o e Padroniza√ß√£o de dados](#git3)
    1. [Normaliza√ß√£o](#git3.1)
    2. [Padroniza√ß√£o](#git3.2)
4. [Binariza√ß√£o dos dados](#git4)
5. [Transformando vari√°veis nominais em n√∫meros inteiros](#git5)
6. [One-hot encoding: transformando valores em c√≥digos bin√°rios](#git6)
7. [Correlacionando dados](#git7)
8. [Dados desbalanceados: como detectar, analisar e balancear](#git8)
9. [An√°lise de Componentes Principais (PCA)](#git9)
10. [Boxplot: detectando, exibindo e descartando _outliers_](#git10)

Ao receber um conjunto de dados, provavelmente podem ser encontrados erros, inconsist√™ncias e informa√ß√µes dobradas. Antes de realizar qualquer an√°lise estat√≠stica ou aplica√ß√£o de algoritmos, devemos realizar uma limpeza na base de dados colhida.

Para a leitura e manipula√ß√£o de tabelas, utilizaremos a biblioteca _pandas_, que pode ser facilmente instalada atrav√©s do comando _pip install pandas_.

O banco de dados ser√° o arquivo CSV (que pode ser aberto tamb√©m no Excel e em outros leitores de planilha).

Tamb√©m utilizaremos a biblioteca matplotlib, uma das mais utilizadas para visualizar os dados por meio de gr√°ficos.
Vamos importar as bibliotecas!

In [166]:
import random
random.seed(1)

import pandas as pd
import matplotlib.pyplot as plt

### 1. Removendo dados estranhos <a name="git1"></a> [ü†°](#intro)

Agora, vamos associar os dados "iris-with-errors.csv" √† vari√°vel _data_, chamar o _print_ contendo o n√∫mero de linhas e colunas atrav√©s do comando shape e exibir as 25 primeiras linhas (incluindo o cabe√ßalho)

In [167]:
data = pd.read_csv('dados/iris-with-errors.csv', header=(0))
print("Linha, coluna:", data.shape)
data.head(25)

Linha, coluna: (25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


Podemos ver alguns erros:
1. O caractere "?"
2. A express√£o _NaN_, quando o computador n√£o sabe de que tipo √© a informa√ß√£o
3. Na coluna _species_, s√£o indicadas se as linhas s√£o duplicadas

Precisamos rever os dados ou descart√°-los. Aqui, vamos escolher a segunda op√ß√£o e utilizar o pandas para isso.

In [168]:
data = data.dropna() # Remove os dados NaN
data.duplicated() # Verifica se h√° dados duplicados

0     False
1      True
2     False
3     False
4      True
6     False
7     False
8      True
10    False
11    False
12    False
13    False
14     True
15    False
16    False
17     True
18    False
19    False
20    False
21    False
22    False
23    False
dtype: bool

Podemos perceber no _Output_ acima que as linhas duplicadas receberam o estado **True**. De duas linhas iguais, somente a que vem depois da primeira √© a "duplicada". Vamos descartar essas linhas!

In [169]:
data = data.drop_duplicates()
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa


Agora s√≥ falta removermos as interroga√ß√µes "?". Um dos modos de fazer isso √© transformar tal caractere em um _NaN_, e logo em seguida limpar novamente as linhas que contenham _NaN_.

In [170]:
import numpy as np
data = data.replace('?', np.nan) # Usa o comando replace para substituir as interroga√ß√µes em NaN's
data = data.dropna() # Remove as linhas que contenham NaN
data.head(25)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
3,4.7,3.2,1.3,0.2,setosa
6,5.0,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
10,5.0,3.4,1.5,0.2,setosa
11,4.4,2.9,1.4,0.2,duplicada
12,4.9,3.1,1.5,0.1,setosa
13,5.4,3.7,1.5,0.2,setosa
15,4.8,3.4,1.6,0.2,setosa
16,4.8,3.0,1.4,0.1,setosa


Com os dados limpos, n√£o precisamos mais das classifica√ß√µes da coluna **species**, certo? Vamos remove-la!

In [171]:
print("Vamos remover a coluna:", data.columns[4]) # Para exibir as colunas que ser√£o removidas, use o comando .columns
data = data.drop(data.columns[4], axis=1) # Nesse comando, precisamos indicar o axis=1 que significa coluna
data.head(2) # Pra verificarmos se a coluna foi removida, podemos visualizar apenas poucas linhas.

Vamos remover a coluna: species


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
3,4.7,3.2,1.3,0.2


Caso mais algum dado distoe e voc√™ queira remover diretamente uma linha escolhida, podemos utilizar o comando acima com a indica√ß√£o **axis=0** indicando o n√∫mero e o tipo linha.

In [172]:
print("Vamos remover as linhas:", data.index[[0, 2]]) # Para exibir as linhas que ser√£o removidas, use o comando .index
data = data.drop(data.index[[0, 2]], axis=0)
data.head(25)

Vamos remover as linhas: Int64Index([0, 6], dtype='int64')


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
3,4.7,3.2,1.3,0.2
7,5.4,3.9,1.7,0.4
10,5.0,3.4,1.5,0.2
11,4.4,2.9,1.4,0.2
12,4.9,3.1,1.5,0.1
13,5.4,3.7,1.5,0.2
15,4.8,3.4,1.6,0.2
16,4.8,3.0,1.4,0.1
18,4.3,3.0,1.1,0.1
19,5.8,4.0,1.2,0.2


Pronto! Removemos as linhas _[0, 2]_, ou seja, a primeira e a terceira linha, de n√∫mero **0** e **6**.

### 2. Substituindo valores <a name="git2"></a> [ü†°](#intro)
 
Se forem constatados valores ausentes, podemos substitui-los facilmente. Vamos utilizar agora a vari√°vel _data_ausente_, relacionada aos mesmos dados iniciais.

In [173]:
data_ausente = pd.read_csv('dados/iris-with-errors.csv', header=(0))
print(data_ausente.shape) # N√∫mero de linhas e colunas, lembra?
data_ausente.head(50) # Opa! Eu quero agora exibir 50 linhas, o que ser√° que vai acontecer?

(25, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,duplicada
1,5.1,3.5,1.4,0.2,duplicada
2,?,3,1.4,0.2,setosa
3,4.7,3.2,1.3,0.2,setosa
4,5.1,3.5,1.4,0.2,duplicada
5,,3.1,1.5,0.2,setosa
6,5,3.6,1.4,0.2,setosa
7,5.4,3.9,1.7,0.4,duplicada
8,5.4,3.9,1.7,0.4,duplicada
9,4.6,3.4,1.4,,setosa


Agora n√≥s estamos com d√≥ de descartar os dados, pois a linha ainda possui informa√ß√µes us√°veis. Um jeito inteligente √© substituir os valores "?" e os "NaN", colocando no lugar um **valor m√©dio**, ou seja, o valor que seria mais prov√°vel naquele lugar. Essa op√ß√£o √© boa para esse caso, pois n√£o possu√≠mos muitas linhas de dados, e remov√™-las ocasionaria em menos informa√ß√£o.

In [174]:
import numpy as np
data_ausente = data_ausente.replace('?', np.nan) # Transformamos os "?" em NaN


# Vamos usar o comando abaixo para transformar as linhas e colunas em formato Numpy (em Arrays)
X = np.array(data_ausente[data_ausente.columns[0:data_ausente.shape[1]-1]], dtype = float) # Tamb√©m ignoramos a √∫ltima coluna

averages = np.nanmean(X, axis = 0) # Usamos a fun√ß√£o nanmean que calcula a m√©dia (ou mediana em alguns casos) ignorando os Nan
for i in np.arange(0, X.shape[0]):
    for j in np.arange(0, X.shape[1]):
        if(np.isnan(X[i,j]) == True): # Vamos verificar se √© um dado NaN
            X[i,j] = averages[j] # Inserimos a m√©dia
print(X) # Exibimos o Array que foi constru√≠do, calculado e alterado

# Documenta√ß√£o - https://docs.scipy.org/doc/numpy/reference/generated/numpy.nanmean.html

[[5.1        3.5        1.4        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.         1.4        0.2       ]
 [4.7        3.2        1.3        0.2       ]
 [5.1        3.5        1.4        0.2       ]
 [5.02272727 3.1        1.5        0.2       ]
 [5.         3.6        1.4        0.2       ]
 [5.4        3.9        1.7        0.4       ]
 [5.4        3.9        1.7        0.4       ]
 [4.6        3.4        1.4        0.22608696]
 [5.         3.4        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.9        3.1        1.5        0.1       ]
 [5.4        3.7        1.5        0.2       ]
 [4.4        2.9        1.4        0.2       ]
 [4.8        3.4        1.6        0.2       ]
 [4.8        3.         1.4        0.1       ]
 [4.4        2.9        1.4        0.2       ]
 [4.3        3.         1.1        0.1       ]
 [5.8        4.         1.2        0.2       ]
 [5.7        4.4        1.5        0.4       ]
 [5.4        

### 3. Normaliza√ß√£o e Padroniza√ß√£o de dados <a name="git3"></a> [ü†°](#intro)
#### 3.1 Normaliza√ß√£o <a name="git3.1"></a> [ü†°](#intro)
A **Normaliza√ß√£o** √© o m√©todo em que pegamos o maior dado da planilha e transformamos em **1**, e o menor em **0**. Os que estiverem entre eles ser√£o **normalizados**. Para isso vamos utilizar a biblioteca sklearn que j√° faz isso para n√≥s.

Importamos o banco de dados _iris.csv_ e associamos √† vari√°vel _data_normalizada_, importamos as bibliotecas _numpy_ e _sklearn_. Transformamos a tabela em Array como da √∫ltima vez, ignorando a √∫ltima coluna.

**Aten√ß√£o!!**: N√£o esque√ßa de instalar a nova biblioteca utilizando o comando _pip install sklearn_.

In [175]:
data_normalizada = pd.read_csv('dados/iris.csv', header=(0))

import numpy as np
from sklearn.preprocessing import MinMaxScaler

X = np.array(data_normalizada[data_normalizada.columns[0:data.shape[1]-1]]) # Transforma√ß√£o em Array ignorando √∫ltima coluna
for i in range(X.shape[1]):
    print("MAIOR valor da coluna", i, "=", max(X[:,i]))
    print("MENOR Valor da coluna", i, "=", min(X[:,i]))
# prepara a fun√ß√£o para transformar os dados
scaler = MinMaxScaler(feature_range=(0, 1)) # O m√≠nimo e o m√°ximo aqui ser√° "0" e "1"
# Realiza a normaliza√ß√£o e coloca em um novo vetor
X_norm = scaler.fit_transform(X) # A vari√°vel X_norm ser√° a matriz criada atrav√©s do comando .scaler
print(X_norm)

MAIOR valor da coluna 0 = 7.9
MENOR Valor da coluna 0 = 4.3
MAIOR valor da coluna 1 = 4.4
MENOR Valor da coluna 1 = 2.0
MAIOR valor da coluna 2 = 6.9
MENOR Valor da coluna 2 = 1.0
[[0.22222222 0.625      0.06779661]
 [0.16666667 0.41666667 0.06779661]
 [0.11111111 0.5        0.05084746]
 [0.08333333 0.45833333 0.08474576]
 [0.19444444 0.66666667 0.06779661]
 [0.30555556 0.79166667 0.11864407]
 [0.08333333 0.58333333 0.06779661]
 [0.19444444 0.58333333 0.08474576]
 [0.02777778 0.375      0.06779661]
 [0.16666667 0.45833333 0.08474576]
 [0.30555556 0.70833333 0.08474576]
 [0.13888889 0.58333333 0.10169492]
 [0.13888889 0.41666667 0.06779661]
 [0.         0.41666667 0.01694915]
 [0.41666667 0.83333333 0.03389831]
 [0.38888889 1.         0.08474576]
 [0.30555556 0.79166667 0.05084746]
 [0.22222222 0.625      0.06779661]
 [0.38888889 0.75       0.11864407]
 [0.22222222 0.75       0.08474576]
 [0.30555556 0.58333333 0.11864407]
 [0.22222222 0.70833333 0.08474576]
 [0.08333333 0.66666667 0.  

In [176]:
print('M√≠nimo dos atributos:', np.amin(X_norm, axis=0))
print('M√°ximo dos atributos:', np.amax(X_norm, axis=0))

M√≠nimo dos atributos: [0. 0. 0.]
M√°ximo dos atributos: [1. 1. 1.]


#### 3.2 Padroniza√ß√£o <a name="git3.2"></a> [ü†°](#intro)
A **Padroniza√ß√£o** de dados possui o mesmo objetivo que a **Normaliza√ß√£o**, que √© o de transformar todos os dados para que fiquem em uma certa ordem de grandeza. A diferen√ßa √© que na Padroniza√ß√£o, **a m√©dia √© igual a 0** e **o desvio padr√£o √© igual a 1**.

Vamos utilizar a biblioteca **sklearn** para padronizar nossos dados!

In [177]:
from sklearn.preprocessing import StandardScaler

data = pd.read_csv('dados/iris.csv', header=(0))
data_matriz = np.array(data[data.columns[0:data.shape[1]-1]]) # arquivo CSV transformado em matriz (array)
padronizador = StandardScaler().fit(data_matriz) # m√©dia = 0, desvio padr√£o = 1
matriz_padronizada = padronizador.transform(data_matriz)

print(matriz_padronizada)

[[-9.00681170e-01  1.03205722e+00 -1.34127240e+00 -1.31297673e+00]
 [-1.14301691e+00 -1.24957601e-01 -1.34127240e+00 -1.31297673e+00]
 [-1.38535265e+00  3.37848329e-01 -1.39813811e+00 -1.31297673e+00]
 [-1.50652052e+00  1.06445364e-01 -1.28440670e+00 -1.31297673e+00]
 [-1.02184904e+00  1.26346019e+00 -1.34127240e+00 -1.31297673e+00]
 [-5.37177559e-01  1.95766909e+00 -1.17067529e+00 -1.05003079e+00]
 [-1.50652052e+00  8.00654259e-01 -1.34127240e+00 -1.18150376e+00]
 [-1.02184904e+00  8.00654259e-01 -1.28440670e+00 -1.31297673e+00]
 [-1.74885626e+00 -3.56360566e-01 -1.34127240e+00 -1.31297673e+00]
 [-1.14301691e+00  1.06445364e-01 -1.28440670e+00 -1.44444970e+00]
 [-5.37177559e-01  1.49486315e+00 -1.28440670e+00 -1.31297673e+00]
 [-1.26418478e+00  8.00654259e-01 -1.22754100e+00 -1.31297673e+00]
 [-1.26418478e+00 -1.24957601e-01 -1.34127240e+00 -1.44444970e+00]
 [-1.87002413e+00 -1.24957601e-01 -1.51186952e+00 -1.44444970e+00]
 [-5.25060772e-02  2.18907205e+00 -1.45500381e+00 -1.31297673e

√â interessante notar que agora possu√≠mos valores **negativos** em nossa matriz padronizada. Isso acontece pois **a m√©dia √© igual a zero**, al√©m do desvio padr√£o igual a **um**.

Vamos calcular a m√©dia de cada coluna da nossa matriz padronizada!

In [178]:
for i in np.arange(0,matriz_padronizada.shape[1]):
    print('A M√©dia da coluna', i, '√©:', np.mean(matriz_padronizada[:,i]))
    print('O desvio padr√£o da coluna', i, '√©:', np.std(matriz_padronizada[:,i]), '\n')

A M√©dia da coluna 0 √©: -4.736951571734001e-16
O desvio padr√£o da coluna 0 √©: 1.0 

A M√©dia da coluna 1 √©: -6.631732200427602e-16
O desvio padr√£o da coluna 1 √©: 0.9999999999999999 

A M√©dia da coluna 2 √©: 3.315866100213801e-16
O desvio padr√£o da coluna 2 √©: 0.9999999999999998 

A M√©dia da coluna 3 √©: -2.842170943040401e-16
O desvio padr√£o da coluna 3 √©: 1.0 



Podemos interpretar **e-16** como sendo **muito pr√≥ximo de zero**

### 4. Binariza√ß√£o dos dados <a name="git4"></a> [ü†°](#intro)
Utilizamos dados bin√°rios para casos em que certo valor = 0 e um outro valor = 1, normalmente indicando "n√£o" e "sim", ou "desligado" e "ligado".

Ao receber dados de exame de sangue de diversas pessoas, n√≥s gostar√≠amos de saber se essa pessoa est√° **deficiente de ferro**. Para isso, diremos que:
1. Deficiente de ferro se a ferritina est√° **abaixo** de 30 microgramas\L;
2. N√£o deficiente se a ferritina est√° **acima** de 30 microgramas\L.

Atente para o fato de que **n√£o estar deficiente** de ferro N√ÉO significa que ela est√° normalizada, pois uma grande quantidade de ferro pode representar outro tipo de doen√ßa.

Sendo assim, os valores ser√£o **binarizados**:
1. Deficiente de ferro ser√° **0**;
2. N√£o deficiente de ferro ser√° **1**.

Vamos **criar uma tabela fict√≠cia** utilizando a biblioteca nativa **csv**. 

Depois vamos transformar os dados utilizando a biblioteca **sklearn** e suas etiquetas **Binarizer** e **MinMaxScaler**:

In [179]:
from sklearn.preprocessing import Binarizer
from sklearn.preprocessing import MinMaxScaler
import csv

#Criando uma tabela com dados fict√≠cios
with open('dados/dados_ferritina_sangue.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    
    writer.writerow(["C√≥digo", "Ferritina em microgramas\L"])
    writer.writerow([32.8, "PACIENTE A"])       
    writer.writerow([30.1, "PACIENTE B"])
    writer.writerow([29.9, "PACIENTE C"])
    writer.writerow([27.6, "PACIENTE D"])
    writer.writerow([64.3, "PACIENTE E"])
    writer.writerow([45.1, "PACIENTE F"])

    
data_ferritina = pd.read_csv('dados/dados_ferritina_sangue.csv', header=(0), encoding = "ISO-8859-1")

# Transformando a tabela em matriz (array) e considerando apenas os atributos da coluna 1.
X = np.array(data_ferritina[data_ferritina.columns[0:1]])

T = 30 # valor do Limiar / Treshold
print('Limiar:', T)
print("-------------------")

# Binariza√ß√£o dos dados considerando o limiar T (threshhold)
binarizer = Binarizer(threshold=T).fit(X) #.fit(X_padronizado)
X_binarizado = binarizer.transform(X) #(X_padronizado)

for i in np.arange(0, X_padronizado.shape[0]):
    print("Antes:", X[i,])
    print("Depois:", X_binarizado[i, ])
    print("-------------------")

Limiar: 30
-------------------


NameError: name 'X_padronizado' is not defined

### 5. Transformando vari√°veis nominais em n√∫meros inteiros <a name="git5"></a> [ü†°](#intro)
Esse √© mais simples. Caso queira transformar algum tipo de vari√°vel nominal em n√∫meros inteiros, basta indicar **o termo a ser substitu√≠do** e **em que ele se transformar√°**:

In [None]:
data = pd.read_csv('dados/iris.csv', header=(0))

classes = np.unique(data[data.columns[-1]])
number = 0 # valor que a classe ser√° transformada

for i in classes:
    data = data.replace(i, number) # cada classe corresponder√° a um valor, respectivamente
    number = number + 1 # esperamos que seja setosa = 0, versicolor = 1 e virginica = 2

classes_novas = np.unique(data[data.columns[-1]])

print("Dados antigos:", classes)
print("Novos dados:", classes_novas)

Tamb√©m √© poss√≠vel fazer o processo contr√°rio! Vamos pegar os dados de ferritina no sangue e, se o n√∫mero for menor do que 30, ele ser√° transformado em **DEFICIENTE EM FERRITINA**. Se for maior ou igual a 30, **N√ÉO DEFICIENTE EM FERRITINA**.

In [None]:
data_ferritina = pd.read_csv('dados/dados_ferritina_sangue.csv', header=(0), encoding = "ISO-8859-1")
classes_ferritina = np.unique(data_ferritina[data_ferritina.columns[0]])

deficiente = "DEFICIENTE EM FERRITINA" # valor STRING em que a classe ser√° transformada
nao_deficiente = "N√ÉO DEFICIENTE EM FERRITINA" # valor STRING em que a classe ser√° transformada
number = 30.0

print(data_ferritina)

for i in classes_ferritina:
    if i < 30:
        data_ferritina = data_ferritina.replace(i, deficiente)
    else:
        data_ferritina = data_ferritina.replace(i, nao_deficiente)



classes_ferritina_novas = np.unique(data_ferritina[data_ferritina.columns[0]])

#print("\nDados antigos:", classes_ferritina,)
#print("Novos dados:", classes_ferritina_novas)

print("\nAgora a tabela ficou assim:\n")
print(data_ferritina)

### 6. One-hot encoding: transformando valores em c√≥digos bin√°rios <a name="git6"></a> [ü†°](#intro)
O **one-hot encoding** √© uma outra forma de trabalhar com bin√°rios. Pode ser feito de maneira autom√°tica com poucas linhas de c√≥digo. Basicamente, contar√° o n√∫mero de vari√°veis diferentes, atribuindo valor bin√°rio com mais de uma coluna.

Com o exemplo, ficar√° muito mais compreens√≠vel:

In [None]:
import pandas as pd

# Vamos criar um DataFrame com o pandas
df = pd.DataFrame ({'A':['a', 'b', 'c', 'd'],}) # Podemos contar QUATRO vari√°veis diferentes aqui: a, b, c, d
df.head()

In [None]:
df = pd.get_dummies(df) # Vamos usar o one-hot encoding
df.head()

Viu como transformamos os diferentes atributos em **c√≥digos bin√°rios**?
- O **a** agora √© 1 0 0 0
- O **d** agora √© 0 0 0 1

### 7. Correlacionando dados <a name="git7"></a> [ü†°](#intro)
**Correlacionar dados** significa identificar, dentre variantes, colunas ou qualquer outro tipo de atributo, **quais os atributos que possuem maior ou menor correla√ß√£o**, e medi-la.

Para exemplificar, vamos correlacionas os dados da base de dados **BostonHousing**, que √© bem conhecida e que relaciona Casas com Pre√ßos 

In [None]:
data_housing = pd.read_csv('dados/BostonHousing.csv', header=(0))
data_housing.head(5)

In [None]:
corr = data_housing.corr()  # corr √© o m√©todo de correla√ß√£o do Pandas. Acabamos de correlacionar os dados!

# Daqui para baixo, estaremos gerando o gr√°fico de correla√ß√£o
plt.figure(figsize=(7,7))
plt.imshow(corr, cmap='Blues', interpolation='none', aspect='auto') # imshow exibe data como uma imagem
plt.colorbar() # gera a barra do lado direito

# Vamos incluir o nome de todas as vari√°veis
plt.xticks(range(len(corr)), corr.columns, rotation='vertical') # adiciona as vari√°veis na linha X
plt.yticks(range(len(corr)), corr.columns); # adiciona as vari√°veis na linha Y
plt.suptitle('Correlation between variables', fontsize=15, fontweight='bold') # adiciona um t√≠tulo
plt.grid(False)
plt.show()

Analisar o gr√°fico pode n√£o ser t√£o intuitivo assim. Se voc√™ ainda n√£o sabe como fazer, √© bem simples! A correla√ß√£o est√° sendo contada de **0** a **1**, como mostra a barra lateral direita.

Nessa mesma barra lateral, podemos ver que:
- Quanto **mais clara** a cor, **menos correla√ß√£o** entre vari√°veis x e y temos, ou seja, correla√ß√£o se aproxima de **0**;
- Quanto **mais escura** a cor, **mais correla√ß√£o** entre vari√°veis x e y temos, ou seja, correla√ß√£o se aproxima de **1**.

N√≥s geramos um gr√°fico para que seja melhor de entender o que est√° ocorrendo nesse _dataset_, por√©m saiba que os dados est√£o armazenados em uma matriz:

In [None]:
print(corr)

Percebeu que o **n√∫mero m√°ximo** √© **1**? Isso est√° ocorrendo por conta do m√©todo utilizar a **Correla√ß√£o de Pearson**. Aqui est√° a descri√ß√£o do Wikipedia:

Em estat√≠stica descritiva, o coeficiente de correla√ß√£o de Pearson, tamb√©m chamado de "coeficiente de correla√ß√£o produto-momento" ou simplesmente de "œÅ de Pearson" mede o grau da correla√ß√£o (e a direc√ß√£o dessa correla√ß√£o - se positiva ou negativa) entre duas vari√°veis de escala m√©trica (intervalar ou de r√°cio/raz√£o).

Este coeficiente, normalmente representado por œÅ assume apenas valores entre -1 e 1:
- **œÅ = 1** significa uma **correla√ß√£o positiva perfeita** entre as duas vari√°veis;
- **œÅ = -1** significa uma **correla√ß√£o negativa perfeita** entre as duas vari√°veis. **Se uma aumenta, a outra sempre diminui**;
- **œÅ = 0** significa que as duas vari√°veis **n√£o dependem linearmente uma da outra**. No entanto, pode existir uma depend√™ncia n√£o linear. Assim, o resultado **œÅ = 0** deve ser investigado por outros meios."


Vamos agora identificar quais as vari√°veis que possuem **maior correla√ß√£o**:

In [None]:
p = 0.75 # Essa √© a correla√ß√£o m√≠nima que estamos considerando
var = []
for i in corr.columns: # percorre toda a tabela para cara elemento "i"
    for j in corr.columns: # percorre novamente toda a tabela para cada elemento "j"
        if(i != j):
            if np.abs(corr[i][j]) > p: # Se a correla√ß√£o for maior que "p"
                var.append([i,j]) # Coloca na lista "var"
                
print('As vari√°veis com maior correla√ß√£o:\n', var)

Esse tipo de m√©todo √© muito importante pois tamb√©m nos ajuda a filtrar melhor o _dataset_. Se dois dados s√£o muito correlacionados, um deles pode ser removido, pois podem ter um significado muito pr√≥ximo e interferir em outros dados.

### 8. Dados desbalanceados: como detectar, analisar e balancear <a name="git8"></a> [ü†°](#intro)
Em uma amostragem de dados, possivelmente alguns deles podem estar **desbalanceados**. Isso ocorre quando o _dataset_ possui quantidades diferentes de elementos por classe. Quanto **maior a dist√¢ncia** entre a quantidade de elementos entre classes, **maior o desbalanceamento**. Vamos entender melhor com o pr√≥ximo exemplo.

Para calcularmos quantas classes possui um _dataset_, basta contarmos atrav√©s da coluna de classes. No _dataset_ abaixo, a coluna de classes √© a √∫ltima, que indica qual o tipo de ve√≠culo da linha correspondente.

In [None]:
import pandas as pd

data_veiculo = pd.read_csv('dados/Vehicle.csv', header=(0))
data_veiculo.head(10)

In [None]:
coluna_class = data_veiculo[data_veiculo.columns[-1]] # Vamos colocar a coluna "class" em uma vari√°vel
print(coluna_class)

Agora vamos separar a coluna class por elementos e contar a ocorr√™ncia de cada um deles.

In [None]:
tipos_de_classe = np.unique(coluna_class) # Vamos pegar o nome dos diferentes elementos da coluna "class"
print(tipos_de_classe)
print(tipos_de_classe[2])

In [None]:
# Vamos pegar o n√∫mero de ocorr√™ncia de cada uma das quatro diferentes classes guardadas na vari√°vel acima
numero_de_classes = np.zeros(len(tipos_de_classe)) # pega qual a quantidade de classes diferentes, que √© quatro


for i in np.arange(0, len(tipos_de_classe)): # para os elementos "i" de "0" at√© "quantidade de classes diferentes"
    a = coluna_class == tipos_de_classe[i] # "a" √© vari√°vel da coluna_class, que √© equivalente ao tipo de classe "i"
    numero_de_classes[i] = len(coluna_class[a]) # quantidade de apari√ß√£o do elemento "i"
    
print(numero_de_classes)

Uma boa forma de analisar visualmente √© utilizando o gr√°fico do tipo **Histograma**, que exibir√° a quantidade de ocorr√™ncia por elemento (por tipo de ve√≠culo).

In [None]:
import matplotlib.pyplot as plt

numbers = np.arange(0, len(tipos_de_classe))
plt.bar(numbers, numero_de_classes, alpha=.75)

# Agora vamos exibir o nome das classes ao inv√©s de exibir n√∫meros
plt.xticks(numbers, tipos_de_classe)
plt.title('N√∫mero de elementos por classe')
plt.show(True)

Ao obter a quantidade de elementos por classe, e ao analisar o Histograma acima, √© poss√≠vel concluir que **as classes est√£o bem distribu√≠das**, possuindo pouca dist√¢ncia entre quantidades. 

Por√©m, ainda assim podemos realizar uma redistribui√ß√£o de dados para que tenhamos um **balanceamento perfeito**. O resultado ser√° cada classe com o mesmo n√∫mero de elementos.

In [None]:
N = 3 # Vamos selecionar apenas tr√™s ocorr√™ncias de cada classe e seus respectivos atributos.

# classes
cl = np.unique(coluna_class) #pega o n√∫mero de diferentes classes
X = np.array(data_veiculo) #transforma o dataset em uma matriz/array
Xnew = [] # este ser√° o array que receber√° appends, por enquanto est√° vazio
cls = np.array(data_veiculo[data_veiculo.columns[-1]])

for i in np.arange(0, len(cl)): # de 0 at√© o tamanho(n√∫mero de diferentes classes)
    a = np.argwhere(cls == cl[i])
    inds = np.random.choice(a[:,0], N, replace=False) # Aleatoriamente, seleciona um elemento "a" qualquer "N" vezes
    Xnew.append(X[inds,:]) # append do valor armazenado na vari√°vel inds
    
Xnew = np.array(Xnew) # transforma Xnew em array estruturado

print('Dados obtidos a partir da amostragem')
print(Xnew)

### 9. An√°lise de Componentes Principais (PCA) <a name="git9"></a> [ü†°](#intro)
A **An√°lise de Componentes Principais** ou **Principal Components Analisis (PCA)** envolve teoria de **espectro de matrizes**, o que foge da √°lgebra linear. Por fugir muito das an√°lises vistas aqui nesse guia, a teoria n√£o ser√° passada POR ENQUANTO.

Ele √© utilizado com a finalidade de analisar dados eliminando sobreposi√ß√µes e utilizando as formas mais representativas dos dados.

Vamos realizar essa an√°lise atrav√©s de poucas linhas de c√≥digo! O mais interessante √© o resultado gr√°fico.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('dados/Iris.csv', header=(0))
coluna_class = np.unique(data[data.columns[-1]]) # Vamos guardar a √∫ltima coluna, 'Class'
print(data.shape) # Atrav√©s desse print, vemos que possui 150 linhas e 5 colunas
list_labels = list(data.columns)
data.head(10)

In [None]:
data = data.to_numpy() # Transformando o dataset em formato NumPy
nrow,ncol = data.shape
y = data[:,-1] 
X = data[:,0:ncol-1] # '-1' para ignorar a √∫ltima coluna, que √© a de Classes

Vamos **padronizar** os dados utilizando o **sklearn**:

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(X)
X = scaler.transform(X)

Agora vamos finalmente realizar a **PCA**:

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2) # N√∫mero de componentes
pca_resultado = pca.fit_transform(X)

# Vamos alterar os atributos do gr√°fico e exibi-lo utilizando o matplotlib
plt.figure(figsize=(8,5))
plt.scatter(pca_resultado[:,0], pca_resultado[:,1], s=50, color = 'blue') # primeiro '0' e segundo eixo '1'
plt.xlabel("Primeiro componente", fontsize=20)
plt.ylabel("Segundo componente", fontsize=20)
plt.xticks(color='k', size=20)
plt.yticks(color='k', size=20)
plt.show(True)

In [None]:
# Agora vamos colorir de acordo com a classe dos dados, o que facilita muito na hora de analisar!
colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'w']
aux = 0

plt.figure(figsize=(8,5))

for c in coluna_class:
    nodes = np.where(y == c)
    plt.scatter(pca_resultado[nodes,0], pca_resultado[nodes,1], s=50, color = colors[aux], label = c)
    aux = aux + 1
    
plt.legend()   
plt.xlabel("Primeiro componente", fontsize=20)
plt.ylabel("Segundo componente", fontsize=20)
plt.xticks(color='k', size=20)
plt.yticks(color='k', size=20)
plt.show(True)

√â poss√≠vel perceber como fica f√°cil, atrav√©s da an√°lise **PCA**, o qu√£o pr√≥ximas ou distantes est√£o as classes:
1. A setosa √© muito diferente da versicolor e da virginica;
2. A versicolor e virginica s√£o diferentes;
3. Entre a versicolor e a virginica, alguns valores se confundem.

### 10. Boxplot: detectando, exibindo e descartando _outliers_ <a name="git10"></a> [ü†°](#intro)
Vamos verificar se h√° a presen√ßa de **outliers** em nossos _datasets_! Para isso, utilizaremos o gr√°fico do tipo **Boxplot**. 

Os **outliers** s√£o dados que possuem diferen√ßas significativas em rela√ß√£o √† maioria. Eles podem prejudicar muito o c√°lculo da **M√©dia** de um conjunto de dados.

Para gerar o tal gr√°fico **Boxplot**, s√£o necess√°rios alguns elementos, que ser√£o calculados apenas na pr√≥xima aula!
1. A **Mediana** de um conjunto de dados;
1. **1¬∫ e 3¬∫ Quartil** de um conjunto de dados;
2. Um valor arbitr√°rio de M√≠nimo e M√°ximo. Quem estiver fora dessa defini√ß√£o √© considerado um **outlier**.

Vamos importar o _dataset_ "iris.csv" e exibir o Boxplot dele.

In [None]:
import seaborn as sns # √â uma biblioteca de exibi√ß√£o gr√°fica
import pandas as pd
import matplotlib.pyplot as plt

data_iris = pd.read_csv('dados/iris.csv', header=(0))
print(data_iris) # Vamos exibir o print para compararmos com o gr√°fico

plt.figure(figsize=(8, 8))

# Vamos alterar a exibi√ß√£o dos elementos do Boxplot e exibi-lo
sns.boxplot(x="species", y="petal_length", data=data_iris) # √â aqui que definimos o que ser√° o atributo "x" e o "y"
plt.xlabel('Esp√©cie', fontsize=18)
plt.ylabel('Comprimento da p√©tala', fontsize=16)
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)
plt.show(True)

Perceba como conseguimos gerar o Boxplot da variante **petal_length** de cada uma das classes existentes em **species**. A linha do c√≥digo que realizou essa defini√ß√£o foi essa:

``sns.boxplot(x="species", y="petal_length", data=data_iris) # √â aqui que definimos o que ser√° o atributo "x" e o "y"``

Na pr√≥xima aula, aprenderemos muito mais sobre como funcionam os c√°lculos. Aqui estamos apenas indicando uma forma f√°cil de encontrar esses dados e exibi-los graficamente.

Vamos agora detectar a dist√¢ncia interquantil (Q3 - Q1) para encontrar os **outliers** e exibilos graficamente!

In [None]:
import pandas as pd

# Vamos gerar dados de forma rand√¥mica valores de '1' a '200' para as vari√°veis 'a', 'b' e 'c'
data = pd.DataFrame({'a': np.random.randint(1, 200, 20),
                    'b': np.random.randint(1, 200, 20),
                    'c': np.random.randint(1, 200, 20)})

# Vamos agora gerar alguns outliers. Os valores acima de 150 ser√£o multiplicados em 10.
data[data > 150] = data[data > 150]*10
print(data)

Vamos exibir um gr√°fico do _dataset_ criado utilizando a biblioteca **seaborn**.

In [None]:
import seaborn
seaborn.pairplot(data)
plt.show()

Agora vamos detectar os outliers utilizando a **dist√¢ncia interquartil** (**IQR**).

In [None]:
Q1 = data.quantile(0.25) #primeiro quartil, ou seja 25% do dataset
Q3 = data.quantile(0.75) #terceiro quartil, ou seja, 75% do dataset
IQR = Q3 - Q1

print(((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))))

True s√£o os valores **menores que (Q1 - 1.5 * IQR) e maiores que (Q3 + 1.5 * IQR)**, ou seja, s√£o os os elementos **outliers**, que ultrapassam os limites do gr√°fico **Boxplot**, visto anteriormente. O Boxplot **exclui** os dados outliers da an√°lise, para n√£o interferir na exibi√ß√£o e leitura gr√°fica.

Novamente, se restaram d√∫vidas, n√£o se preocupe pois trataremos desse dados **outliers** na pr√≥xima aula.

Por fim, **vamos deletar** as linhas que contenham algum dado outlier, para que ele n√£o interfira em outros tipos de an√°lise:

In [None]:
v = ((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1) # axis=1 significa linha, axis=0 significa coluna
data = data.drop(data.index[list(v)], axis=0) # Vamos deletar os valores 'v' utilizando data.drop
data.head(10)

Perceba como agora s√≥ ficaram as linhas em que todos os atributos tinham classifica√ß√£o **False** para outlier.

**Basicamente, essas s√£o as formas mais utilizadas de exibi√ß√£o e tratamento de dados na Ci√™ncia de Dados.** At√© o pr√≥ximo guia!