# Livro Engenharia de Software para Ciência de Dados

---

## Capítulo 4. Machine Learning
### 4.2. Pré-Processamento de Dados

In [None]:
# Importação de pacotes
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler # normalização
from sklearn.preprocessing import StandardScaler # padronização
from sklearn.preprocessing import OrdinalEncoder # ordinal encoding
from sklearn.preprocessing import OneHotEncoder # one-hot encoding e dummy encoding

## Limpeza - Tratamento de Missings

In [None]:
# importando dados uma url para um dataframe

# url a importar
url_dados = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'

# labels dos atributos do dataset
labels_atributos = ['comprimento_sepala', 'largura_sepala', 'comprimento_petala', 'largura_petala', 'especie']

# carga do dataset através da url
iris = pd.read_csv(url_dados, names=labels_atributos)

# exibindo as últimas linhas
iris.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [None]:
# criando um novo dataframe com iris + uma nova linha com um valor missing para o próximo exemplo
df = iris.append({'largura_sepala': 4.0, 
                  'comprimento_petala': 5.0, 
                  'largura_petala': 0.4, 
                  'especie': 'Iris-setosa'},
                  ignore_index=True)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa


In [None]:
# eliminando linhas que tenham ALGUM valor missing

df = df.dropna(how='any')
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


In [None]:
# criando (novamente) um novo dataframe com iris + uma nova linha com um valor missing para o próximo exemplo
df = iris.append({'largura_sepala': 4.0, 
                  'comprimento_petala': 5.0, 
                  'largura_petala': 0.4, 
                  'especie': 'Iris-setosa'},
                  ignore_index=True)

# adicionando uma nova linha com todos os valores missing para o próximo exemplo
df = df.append({}, ignore_index=True)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa
151,,,,,


In [None]:
# eliminando linhas que tenham TODOS os valores missing
df = df.dropna(how='all')
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa


In [None]:
# definindo valores para o preenchimento de missings
values = {'comprimento_sepala': iris['comprimento_sepala'].median(), 
          'largura_sepala': 5.0, 
          'comprimento_petala': 4.0, 
          'largura_petala': 0.1, 
          'especie': 'Iris-setosa'}

# fazendo o preenchimento
df = df.fillna(value=values)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,5.8,4.0,5.0,0.4,Iris-setosa


## Transformações Numéricas

In [None]:
# dados que iremos usar nos exemplos
data = np.asarray([[100, 0.001],
				   [8,   0.05],
				   [50,  0.005],
				   [88,  0.07],
				   [4,   0.1]])
print(data)

[[1.0e+02 1.0e-03]
 [8.0e+00 5.0e-02]
 [5.0e+01 5.0e-03]
 [8.8e+01 7.0e-02]
 [4.0e+00 1.0e-01]]


### Normalização

In [None]:
# Normalização

# definindo o transformador como min max scaler
scaler = MinMaxScaler()

# transformando os dados
scaled = scaler.fit_transform(data)
print(scaled)

[[1.         0.        ]
 [0.04166667 0.49494949]
 [0.47916667 0.04040404]
 [0.875      0.6969697 ]
 [0.         1.        ]]


### Padronização


In [None]:
# Padronização

# definindo o transformador como standard scaler
scaler = StandardScaler()

# transformando os dados
scaled = scaler.fit_transform(data)
print(scaled)

[[ 1.26398112 -1.16389967]
 [-1.06174414  0.12639634]
 [ 0.         -1.05856939]
 [ 0.96062565  0.65304778]
 [-1.16286263  1.44302493]]


## Transformações Categóricas

In [None]:
# dados que iremos usar nos exemplos
data = np.asarray([['castanhos'], ['verdes'], ['azuis'], ['azuis'], ['castanhos'], ['azuis']])
print(data)

[['castanhos']
 ['verdes']
 ['azuis']
 ['azuis']
 ['castanhos']
 ['azuis']]


### One Hot Encoding

In [None]:
# definindo o transformador como one hot encoding
encoder = OneHotEncoder(sparse=False)

# transformando os dados
onehot = encoder.fit_transform(data)
print(onehot)

[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]]


### Dummy Variable Encoding

In [None]:
# definindo o transformador como one hot encoding (com Dummy variable encoder)
encoder = OneHotEncoder(drop='first', sparse=False)

# transformando os dados
dummy = encoder.fit_transform(data)
print(dummy)

[[1. 0.]
 [0. 1.]
 [0. 0.]
 [0. 0.]
 [1. 0.]
 [0. 0.]]
