# Especialização em Ciência de Dados - PUC-Rio
# Machine Learning
## Pré-processamento de Dados
### Preparação de Dados

## Preparando os Dados para Machine Learning

**Referências:** https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing

In [0]:
# Carrega arquivo csv usando Pandas usando uma URL

# Importa  todo o pacote Pandas
import pandas as pd

# Informa a URL de importação do dataset
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"

# Informa o cabeçalho das colunas
colunas = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

# Lê o arquivo utilizando as colunas informadas
dataset = pd.read_csv(url, names=colunas, skiprows=0, delimiter=',')

## Normalização - Método 1

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html

In [0]:
# Transformando os dados para a mesma escala (entre 0 e 1)

# Import da função
from sklearn.preprocessing import MinMaxScaler

# Pegando apenas os dados do dataset e guardando em um array
array = dataset.values

# Separando o array em componentes de input (X) e output (Y)
X = array[:,0:8]
Y = array[:,8]

# Gerando a nova escala (normalizando os dados)
scaler = MinMaxScaler(feature_range = (0, 1))
rescaledX = scaler.fit_transform(X)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", dataset.values)
print("\nDados Normalizados: \n\n", rescaledX[0:5,:])

## Normalização - Método 2

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html

No scikit-learn, normalização se refere a ajustar a escala de cada observação (linha) de modo que ela tenha comprimento igual a 1 (chamado vetor de comprimento 1 em álgebra linear). Este método de pré-processamento é útil quando temos datasets esparsos (com muitos zeros) e atributos com escala muito variada.

In [0]:
# Normalizando os dados (comprimento igual a 1)

# Import da função
from sklearn.preprocessing import Normalizer

# Pegando apenas os dados do dataset e guardando em um array
array = dataset.values

# Separando o array em componentes de input e output
X = array[:,0:8]
Y = array[:,8]

# Gerando os dados normalizados
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", dataset.values)
print("\nDados Normalizados: \n\n", normalizedX[0:5,:])

## Padronização

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

In [0]:
# Padronizando os dados (média 0 e desvio padrão 1)

# Import da função
from sklearn.preprocessing import StandardScaler

# Pegando apenas os dados do dataset e guardando em um array
array = dataset.values

# Separando o array em componentes de input e output
X = array[:,0:8]
Y = array[:,8]

# Gerando o novo padrão
scaler = StandardScaler().fit(X)
standardX = scaler.transform(X)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", dataset.values)
print("\nDados Padronizados: \n\n", standardX[0:5,:])

## Binarização (Transformar os Dados em Valores Binários)

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Binarizer.html

Podemos definir um valor em nossos dados (threshold) e definimos que todos os valores acima do threshold serão marcados como sendo 1 e todos valores iguais ou abaixo do threshold serão marcados como sendo 0. Isso é útil quando temos probabilidades e queremos transformar os dados em algo com mais significado.

In [0]:
# Binarização

# Import da função
from sklearn.preprocessing import Binarizer

# Pegando apenas os dados do dataset e guardando em um array
array = dataset.values

# Separando o array em componentes de input e output
X = array[:,0:8]
Y = array[:,8]

# Gerando a binarização
# acima de 0.2 converte para 1, abaixo para 0 (útil para conversão de saídas de probabilidades para classes)
binarizer = Binarizer(threshold = 0.2).fit(X)
binaryX = binarizer.transform(X)

# Sumarizando os dados transformados
print("Dados Originais: \n\n", dataset.values)
print("\nDados Binarizados: \n\n", binaryX[0:5,:])