# Aula sobre pré processamento de dados
Nasta aula, vamos praticar alguns conceitos sobre o pré processamento de dados para aplicações de aprendizado de máquina.
Vamos ver o carregamento dos dados, o tratamento de dados ausentes, e por último, algumas correções de escala.
Este exemplo é meramente ilustrativo!

## Importando bibliotecas

In [None]:
import pandas as pd
import numpy as np

## Carregando base de dados
Usando a função de leitura de arquivos Excel da biblioteca Pandas

In [None]:
dados = pd.read_excel('Dados_PreProcessing.xlsx', index_col=None)

Para ter uma boa visualização, basta digitar o nome do dataframe

In [None]:
dados

## Anonimização dos dados
Para anonimizar os dados, basta remover a coluna de identificação dos grupos.

In [None]:
dados_tratados = dados.drop(columns=['Grupo'])
dados_tratados

## Trabalhando com dados ausentes
O tratamento dos dados ausentes deve ser feito caso a caso.
Para a característica "Instrumento de medida" faz sentido inserir um valor fixo. Neste caso, vamos adicionar o valor referente ao pior caso, como uma decisão conservadora.

In [None]:
dados_tratados['Instrumento de medida'] = dados_tratados['Instrumento de medida'].fillna(value='Trena')
dados_tratados

Para o caso da característica "Ângulo de abertura", o mais conservador é adotar a mediana dos valore presentes.

In [None]:
dados_tratados["Ângulo de abertura"] = dados_tratados["Ângulo de abertura"].fillna(dados_tratados["Ângulo de abertura"].median())
dados_tratados

Já para o caso do "Comprimento do fio", inserimos a média.

In [None]:
dados_tratados['Comprimento do fio'] = dados_tratados['Comprimento do fio'].fillna(dados_tratados['Comprimento do fio'].median())
dados_tratados

## Transformação de dados
Um ponto importante é a cosntrução de atributos. Neste exemplo, vamos criar os atributos referentes aos "Instrumento de medida". Note que textos têm restrição nos algoritmos.
Vamos utilizar a ferramento OneHotEncoder da biblioteca do Scikit-Learn.

In [None]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
encoder = OneHotEncoder()
#encoder = OneHotEncoder(categories=[['Régua','Trena','Paquímetro']])
encoder.fit_transform(dados_tratados['Instrumento de medida'].values.reshape(-1,1))

Aqui temos um problema. Você conseguiu identificar qual é?

In [None]:
buffer = encoder.transform(dados_tratados['Instrumento de medida'].values.reshape(-1,1)).toarray()

In [None]:
buffer

Transformando de volta em um Pandas DataFrame:

In [None]:
dados_provisorio = pd.DataFrame(data=buffer, columns=['Régua','Trena','Paquímetro'])
dados_provisorio

Juntando o resultado no DataFrame original:

In [None]:
dados_tratados = dados_tratados.join(dados_provisorio)
dados_tratados

Removendo dados redundantes:

In [None]:
dados_tratados = dados_tratados.drop(columns=['Instrumento de medida'])
dados_tratados

Agora vamos utilizar uma transformação de escala. Vamos utilizar a ferramenta MinMaxScaler da biblioteca do Scikit-Learn.

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
dados_tratados['Comprimento do fio'] = scaler.fit_transform(dados_tratados[['Comprimento do fio']])
dados_tratados

Você consegue repetir o procedimento para a característica "Período de oscilação" e utilizando a ferramenta StandardScaler?