<a href="https://colab.research.google.com/github/tatianaesc/livroescd/blob/main/livro_ESCD_pre_processamento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Livro Engenharia de Software para Ciência de Dados (Ed. Casa do Código)
Marcos Kalinowski, Tatiana Escovedo, Hugo Villamizar e Hélio Lopes

### Exemplo Prático de Pré-Processamento de Dados em Python

Para exemplificar como funciona a etapa de Pré-Processamento de Dados iremos utilizar novamente o dataset Iris, que utilizamos na prática anterior, para ilustrar a limpeza de dados, em especial, o tratamento de missings. Em seguida, iremos utilizar alguns datasets artificiais para falarmos sobre as operações de Transformação de Dados, como a Normalização, Padronização, One-hot encoding e Dummy encoding. 

Iniciaremos esta prática importando os pacotes que utilizaremos:

In [1]:
# Importação de pacotes
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler # normalização
from sklearn.preprocessing import StandardScaler # padronização
from sklearn.preprocessing import OrdinalEncoder # ordinal encoding
from sklearn.preprocessing import OneHotEncoder # one-hot encoding e dummy encoding

Agora iremos importar o dataset Iris a partir de um link, e armazenaremos os dados em um dataframe, da mesma forma que fizemos na prática anterior. Exibiremos também as 5 últimas linhas do dataframe:

In [2]:
# importando dados uma url para um dataframe

# url a importar
url_dados = 'https://raw.githubusercontent.com/tatianaesc/datascience/main/iris.data'

# labels dos atributos do dataset
labels_atributos = ['comprimento_sepala', 'largura_sepala', 'comprimento_petala', 'largura_petala', 'especie']

# carga do dataset através da url
iris = pd.read_csv(url_dados, names=labels_atributos)

# exibindo as últimas linhas
iris.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


Como vimos na prática anterior, o dataset Iris não possui valores faltantes (missings). Agora, iremos criar uma cópia deste dataframe, adicionando uma nova linha que contém um valor missing. Exibiremos novamente as 5 últimas linhas para verificar a nova linha que inserimos:

In [3]:
# criando um novo dataframe com iris + uma nova linha com um valor missing para o próximo exemplo
df = iris.append({'largura_sepala': 4.0, 
                  'comprimento_petala': 5.0, 
                  'largura_petala': 0.4, 
                  'especie': 'Iris-setosa'},
                  ignore_index=True)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa


Em seguida, iremos executar um comando para eliminar deste dataframe as linhas que tiverem qualquer valor missing. Neste caso, será a última linha que adicionamos:

In [4]:
# eliminando linhas que tenham ALGUM valor missing

df = df.dropna(how='any')
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


Agora iremos criar novamente um novo dataframe com a cópia do dataframe original. Em seguida, adicionamos uma nova linha com um valor missing, e uma nova linha com todos os valores missing:

In [5]:
# criando (novamente) um novo dataframe com iris + uma nova linha com um valor missing para o próximo exemplo
df = iris.append({'largura_sepala': 4.0, 
                  'comprimento_petala': 5.0, 
                  'largura_petala': 0.4, 
                  'especie': 'Iris-setosa'},
                  ignore_index=True)

# adicionando uma nova linha com todos os valores missing para o próximo exemplo
df = df.append({}, ignore_index=True)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa
151,,,,,


Agora iremos eliminar deste dataframe as linhas que tiverem todos os valores missing. Neste caso, será removida a última linha que adicionamos, mas não a anterior:

In [6]:
# eliminando linhas que tenham TODOS os valores missing
df = df.dropna(how='all')
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,,4.0,5.0,0.4,Iris-setosa


Iremos em seguida definir valores para o preenchimento de missings, e realizar o preenchimento dos missings com estes valores definidos:

In [7]:
# definindo valores para o preenchimento de missings
values = {'comprimento_sepala': iris['comprimento_sepala'].median(), 
          'largura_sepala': 5.0, 
          'comprimento_petala': 4.0, 
          'largura_petala': 0.1, 
          'especie': 'Iris-setosa'}

# fazendo o preenchimento
df = df.fillna(value=values)
df.tail()

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,especie
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica
150,5.8,4.0,5.0,0.4,Iris-setosa


## Transformações Numéricas

Podemos utilizar as operações de normalização e padronização usando o módulo de pré-processamento da biblioteca Scikit-learn (https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing):
* Para normalizar os dados, usamos o MinMaxScaler;
* Para padronizar os dados, usamos o StandardScaler.


**Observação:** Quando normalizar e quando padronizar?
* Se a distribuição é normal, padronize. Caso contrário, normalize.
* Os problemas de modelagem preditiva são muitas vezes complexos, não sendo clara a melhor transformação para realizar. Na dúvida, use a normalização. Se tiver tempo, explore os modelos com os dados sem transformação, com a padronização e com a normalização e veja se os resultados são significativamente diferentes e se o custo x benefício vale a pena.
* Como a padronização resulta em valores positivos e negativos, pode ser interessante normalizar os dados após a padronização.
* É possível definir os valores de mínimo e máximo de acordo com o conhecimento no negócio (e não simplesmente se ater aos valores observados).

Para exemplificar as transformações numéricas, utilizaremos um dataset pequeno e artificial, para que seja fácil notar as transformações realizadas:

In [8]:
# dados que iremos usar nos exemplos
data = np.asarray([[100, 0.001],
				   [8,   0.05],
				   [50,  0.005],
				   [88,  0.07],
				   [4,   0.1]])
print(data)

[[1.0e+02 1.0e-03]
 [8.0e+00 5.0e-02]
 [5.0e+01 5.0e-03]
 [8.8e+01 7.0e-02]
 [4.0e+00 1.0e-01]]


A seguir, iremos normalizar os dados originais, e em seguida, padronizar os dados originais. Os comentários nos blocos de código auxiliam no seu entendimento.

### Normalização

In [9]:
# Normalização

# definindo o transformador como min max scaler
scaler = MinMaxScaler()

# transformando os dados
scaled = scaler.fit_transform(data)
print(scaled)

[[1.         0.        ]
 [0.04166667 0.49494949]
 [0.47916667 0.04040404]
 [0.875      0.6969697 ]
 [0.         1.        ]]


### Padronização


In [10]:
# Padronização

# definindo o transformador como standard scaler
scaler = StandardScaler()

# transformando os dados
scaled = scaler.fit_transform(data)
print(scaled)

[[ 1.26398112 -1.16389967]
 [-1.06174414  0.12639634]
 [ 0.         -1.05856939]
 [ 0.96062565  0.65304778]
 [-1.16286263  1.44302493]]


## Transformações Categóricas

Podemos utilizar as operações one hot encoding e dummy encoding usando o módulo de pré-processamento da biblioteca Scikit-learn (https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing):
* Para o one hot encoding, usamos o OneHotEncoder;
* Para o dummy encoding, também usamos o OneHotEncoder, mas usando o parâmetro drop para indicar qual categoria receberá todos os valores zero.

O OneHotEncoder ordena as categorias alfabeticamente antes de aplicar a transformação. É possível especificar a lista de categorias através do parâmetro categories. Espera-se que o conjunto de treinamento contenha pelo menos um exemplo de cada categoria se as categorias não forem explicitamente definidas. Se os novos dados (conjunto de teste, por exemplo) tiverem categorias não vistas no treinamento, é possível configurar o parâmetro handle_unknown como ignore para que não ocorra um erro.

Para exemplificar as transformações categóricas, utilizaremos um dataset pequeno e artificial, para que seja fácil notar as transformações realizadas:


In [11]:
# dados que iremos usar nos exemplos
data = np.asarray([['castanhos'], ['verdes'], ['azuis'], ['azuis'], ['castanhos'], ['azuis']])
print(data)

[['castanhos']
 ['verdes']
 ['azuis']
 ['azuis']
 ['castanhos']
 ['azuis']]


A seguir, iremos aplicar o one hot encoding nos dados originais, e em seguida, aplicar o dummy encoding nos dados originais. Os comentários nos blocos de código auxiliam no seu entendimento. 

### One Hot Encoding

In [12]:
# definindo o transformador como one hot encoding
encoder = OneHotEncoder(sparse=False)

# transformando os dados
onehot = encoder.fit_transform(data)
print(onehot)

[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]]


### Dummy Variable Encoding

In [13]:
# definindo o transformador como one hot encoding (com Dummy variable encoder)
encoder = OneHotEncoder(drop='first', sparse=False)

# transformando os dados
dummy = encoder.fit_transform(data)
print(dummy)

[[1. 0.]
 [0. 1.]
 [0. 0.]
 [0. 0.]
 [1. 0.]
 [0. 0.]]
