### Prepara√ß√£o de dados

No contexto de machine learning, o pr√©-processamento de dados √© uma etapa fundamental que antecede a constru√ß√£o e o treinamento de modelos. Raramente os dados brutos coletados de fontes reais est√£o prontos para uso imediato: eles costumam conter valores ausentes, ru√≠dos, inconsist√™ncias, escalas distintas e formatos inadequados para os algoritmos de aprendizado.

O objetivo do pr√©-processamento √© transformar esses dados brutos em um conjunto mais limpo, consistente e informativo, capaz de representar adequadamente o problema a ser resolvido. Entre as principais tarefas dessa etapa est√£o a limpeza dos dados, o tratamento de valores faltantes, a normaliza√ß√£o ou padroniza√ß√£o de atributos, a codifica√ß√£o de vari√°veis categ√≥ricas e a sele√ß√£o ou extra√ß√£o de caracter√≠sticas relevantes.

Alguns exemplos de t√©cnicas de pr√©-processamento amplamente utilizadas incluem:

- Tratamento de valores ausentes, como remo√ß√£o de registros incompletos ou imputa√ß√£o usando m√©dia, mediana, moda ou modelos preditivos.
- Normaliza√ß√£o e padroniza√ß√£o, por meio de t√©cnicas como Min-Max Scaling e Standardization (z-score), que ajustam as escalas das vari√°veis num√©ricas.
- Codifica√ß√£o de vari√°veis categ√≥ricas, utilizando m√©todos como One-Hot Encoding ou Label Encoding.
- Detec√ß√£o e tratamento de outliers, com t√©cnicas estat√≠sticas (como IQR e desvio padr√£o) ou m√©todos baseados em modelos.
- Sele√ß√£o de atributos, empregando filtros estat√≠sticos, wrapper methods ou t√©cnicas embutidas (embedded methods), a fim de reduzir dimensionalidade e ru√≠do.
- Extra√ß√£o de caracter√≠sticas, como Principal Component Analysis (PCA), que transforma os dados em um novo espa√ßo de menor dimens√£o.

Um bom pr√©-processamento impacta diretamente o desempenho dos modelos de machine learning, pois algoritmos aprendem padr√µes com base na qualidade das informa√ß√µes fornecidas. Dados mal preparados podem levar a modelos imprecisos, enviesados ou inst√°veis, enquanto um pr√©-processamento adequado contribui para maior efici√™ncia, melhor generaliza√ß√£o e resultados mais confi√°veis.

#### 1. Import de bibliotecas

In [42]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import normalize, StandardScaler, OneHotEncoder, LabelEncoder

#### 2. Cria√ß√£o de um df de exemplo

In [8]:
df = pd.DataFrame({"nome": ['Peter', 'Bruce', "T'Challa"],
                    "simbolo": ['aranha', ',morcego', 'pantera'],
                    "idade": [22, pd.NaT, 25]                    
                    })

df

Unnamed: 0,nome,simbolo,idade
0,Peter,aranha,22
1,Bruce,",morcego",NaT
2,T'Challa,pantera,25


#### 3. Valores ausentes

Op√ß√µes para tratar:
* remo√ß√£o: eliminar linhas ou colunas com valores ausentes, caso a quantidade seja significativa
* imputa√ß√£o: preencher os valores ausentes com valores estimados, como m√©dia, mediana ou valores previstos por um modelo auxiliar

##### 3.1 Remo√ß√£o

In [5]:
df.dropna() #n√£o altera o df, s√≥ visualiza

Unnamed: 0,nome,simbolo,idade
0,Peter,aranha,22
2,T'Challa,pantera,25


In [None]:
df.dropna(inplace=True) #altera o df

##### 3.2 Imputa√ß√£o 

In [9]:
#Dados com valores ausentes 
dados = np.array([[1,2,3,np.nan],
                [4,np.nan,6,7],
                [8,2,5,7],
                [8,11,10,10]
                ])

dados

array([[ 1.,  2.,  3., nan],
       [ 4., nan,  6.,  7.],
       [ 8.,  2.,  5.,  7.],
       [ 8., 11., 10., 10.]])

In [15]:
#Cria imputador com estrat√©gia de substituir pela m√©dia - por coluna/feature
imputador1 = SimpleImputer(strategy='mean')

dados_imputados1 = imputador1.fit_transform(dados)

#Note que os valores vazios foram substituidos pela m√©dia
dados_imputados1

array([[ 1.,  2.,  3.,  8.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  2.,  5.,  7.],
       [ 8., 11., 10., 10.]])

In [16]:
#Cria imputador com estrat√©gia de substituir pelo valor mais frequente - por coluna/feature
imputador2 = SimpleImputer(strategy='most_frequent')

dados_imputados2 = imputador2.fit_transform(dados)

#Note que os valores vazios foram substituidos pela m√©dia
dados_imputados2

array([[ 1.,  2.,  3.,  7.],
       [ 4.,  2.,  6.,  7.],
       [ 8.,  2.,  5.,  7.],
       [ 8., 11., 10., 10.]])

#### 4. Identifica√ß√£o de Outliers

A dist√¢ncia interquart√≠lica (IQR ‚Äì Interquartile Range) √© uma m√©trica estat√≠stica amplamente utilizada para detec√ß√£o de outliers em conjuntos de dados. Ela se baseia na distribui√ß√£o dos quartis, que dividem os dados em quatro partes iguais.

Como funciona:

1. Calcular os quartis:
ùëÑ1 = 1¬∫ quartil (25% dos dados est√£o abaixo deste valor)
Q3 = 3¬∫ quartil (75% dos dados est√£o abaixo deste valor)

2. Calcular a dist√¢ncia interquart√≠lica (IQR):
IQR=ùëÑ3‚àíùëÑ1

3. Definir limites para detec√ß√£o de outliers:
Os outliers s√£o valores que ficam fora do intervalo:
Limite Inferior=ùëÑ1‚àí1.5√óIQR
Limite Superior = ùëÑ3+1.5√óIQR 

Qualquer ponto fora desses limites √© considerado um outlier.

Vantagens do IQR:
- Baseado em quartis, menos sens√≠vel a valores extremos do que m√©dia e desvio padr√£o.
- Simples de calcular e interpretar.
- Funciona bem para distribui√ß√µes assim√©tricas.

Limita√ß√µes:
- Assumindo o fator 1.5, pode n√£o detectar outliers em distribui√ß√µes muito assim√©tricas ou com caudas pesadas.
- N√£o fornece informa√ß√£o sobre a gravidade do outlier, apenas indica que ele √© extremo em rela√ß√£o √† distribui√ß√£o central.

Contexto estat√≠stico:

O fator 1.5 usado na regra da dist√¢ncia interquart√≠lica (IQR) tem um fundamento estat√≠stico relacionado √† distribui√ß√£o normal. Em uma distribui√ß√£o aproximadamente normal, cerca de 50% dos dados est√£o dentro do intervalo definido pelos quartis (Q1 a Q3). Multiplicar o IQR por 1.5 estende esse intervalo para cobrir a maior parte dos dados t√≠picos, mas ainda marca como outliers os valores muito afastados da mediana, que s√£o raros nessa distribui√ß√£o.

Na pr√°tica, isso significa que, para dados que seguem uma distribui√ß√£o normal, o fator 1.5 identifica como outliers valores que est√£o aproximadamente al√©m de 2 desvios padr√£o do centro dos 50% centrais. Esse valor foi escolhido porque representa um bom equil√≠brio: ele √© suficientemente sens√≠vel para detectar pontos extremos, mas n√£o t√£o r√≠gido a ponto de classificar como outliers varia√ß√µes naturais do conjunto de dados.

Essa regra se tornou um padr√£o porque funciona bem em muitas situa√ß√µes, mesmo quando os dados n√£o s√£o perfeitamente normais, e √© a base do boxplot, onde os ‚Äúbigodes‚Äù estendem-se at√© 1.5√óIQR e os pontos fora dele s√£o considerados outliers.

In [18]:
dados = np.array([1,2,3,4,5,100])
dados

array([  1,   2,   3,   4,   5, 100])

In [22]:
q1 = np.percentile(dados, 25)
q3 = np.percentile(dados, 75)
iqr = q3 - q1 

print(f'Com q1 = {q1} e q3 = {q3}, IQR = {iqr}')

limite_inf = q1 - 1.5 * iqr
limite_sup = q3 + 1.5 * iqr

print(f'Os limites inferiores e superiores foram, respectivamente, de {limite_inf} e {limite_sup}')


Com q1 = 2.25 e q3 = 4.75, IQR = 2.5
Os limites inferiores e superiores foram, respectivamente, de -1.5 e 8.5


In [26]:
outliers = np.where((dados < limite_inf) | (dados > limite_sup))[0]
outliers 

array([5], dtype=int64)

In [30]:
#posicao do elemento em dados
outliers[0]

5

In [31]:
#Valor do elemento em dados
dados[outliers[0]]

100

In [32]:
#Remo√ß√£o do outlier
np.delete(dados, 5)

array([1, 2, 3, 4, 5])

#### 5. Normaliza√ß√£o dos dados

A normaliza√ß√£o de dados √© uma etapa fundamental, especialmente quando os atributos possuem escalas diferentes. O objetivo da normaliza√ß√£o √© transformar os dados para uma mesma escala, sem distorcer suas distribui√ß√µes, permitindo que algoritmos que dependem de dist√¢ncia ou gradiente ‚Äî como KNN, SVM, redes neurais e regress√£o log√≠stica ‚Äî funcionem corretamente.

Por que normalizar os dados?
- Muitos algoritmos assumem que todas as vari√°veis t√™m igual import√¢ncia. Se uma vari√°vel varia de 0 a 1.000 e outra de 0 a 1, a primeira dominar√° o aprendizado se os dados n√£o forem normalizados.
- Facilita a converg√™ncia de algoritmos de otimiza√ß√£o, como o gradiente descendente.
- Ajuda na interpreta√ß√£o e compara√ß√£o de diferentes atributos.

Principais t√©cnicas de normaliza√ß√£o:

**Min-Max Scaling**: 
- Transforma os valores para um intervalo fixo, normalmente entre 0 e 1, usando o valor m√≠nimo e m√°ximo de cada atributo.
- Valores extremos s√£o ajustados ao limite do intervalo.
- Muito usada quando os dados t√™m limites conhecidos.


**Z-score (Padroniza√ß√£o ou Standardization)**
- Centraliza os dados em torno da m√©dia e ajusta pela vari√¢ncia, de forma que os atributos tenham m√©dia zero e desvio padr√£o 1.
- Ideal para dados com distribui√ß√µes aproximadamente normais.
- Reduz impacto de escalas diferentes sem necessariamente limitar os valores a um intervalo fixo.

    
**Robust Scaling**
- Usa mediana e IQR em vez de m√©dia e desvio padr√£o, tornando a transforma√ß√£o menos sens√≠vel a outliers.

!! Observa√ß√µes importantes:
- Nem todos os algoritmos precisam de normaliza√ß√£o: √°rvores de decis√£o e random forests, por exemplo, n√£o s√£o afetadas por escalas diferentes.
- A escolha da t√©cnica depende do tipo de dados e do algoritmo que ser√° usado.

In [34]:
dados = np.array([2,3,5,6,7,8,7,6,0])
dados

array([2, 3, 5, 6, 7, 8, 7, 6, 0])

In [35]:
dados_normalizados = normalize([dados], norm = 'max')
dados_normalizados

array([[0.25 , 0.375, 0.625, 0.75 , 0.875, 1.   , 0.875, 0.75 , 0.   ]])

1. Normaliza√ß√£o L1 --> Tamb√©m chamada de norma Manhattan ou norma da soma absoluta. Cada valor do vetor √© dividido pela soma dos valores absolutos de todos os elementos do vetor.
2. Normaliza√ß√£o L2 --> Tamb√©m chamada de norma Euclidiana. Cada valor do vetor √© dividido pela raiz quadrada da soma dos quadrados de todos os elementos do vetor.
3. Normaliza√ß√£o max --> Cada valor do vetor √© dividido pelo maior valor absoluto do vetor. Resultado: o maior valor do vetor normalizado √© 1 (ou -1, se negativo).

| Tipo    | O que faz                                   | Resultado         |
| ------- | ------------------------------------------- | ----------------- |
| **L1**  | Divide pelo somat√≥rio dos valores absolutos | Soma absoluta = 1 |
| **L2**  | Divide pela raiz da soma dos quadrados      | Magnitude = 1     |
| **Max** | Divide pelo valor m√°ximo do vetor           | Maior valor = 1   |


#### 6. Padroniza√ß√£o dos dados

A padroniza√ß√£o de dados √© uma t√©cnica de pr√©-processamento usada para transformar os atributos de um conjunto de dados de forma que eles tenham m√©dia zero e desvio padr√£o igual a um. Cada valor do atributo √© transformado subtraindo-se a m√©dia e dividindo-se pelo desvio padr√£o do atributo.

Por que padronizar os dados?
- Muitos algoritmos de aprendizado de m√°quina, como regress√£o linear, SVM, K-means e redes neurais, funcionam melhor quando os atributos t√™m mesma escala e distribui√ß√£o centralizada.
- Evita que vari√°veis com valores grandes dominem o aprendizado em rela√ß√£o a vari√°veis com valores menores.
- Facilita a converg√™ncia de algoritmos que usam gradiente descendente, tornando o treinamento mais est√°vel.

In [39]:
dados = np.array([[1,2,3],[4,5,6],[7,8,9]])
dados

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [40]:
padronizador = StandardScaler()

In [41]:
dados_padronizados = padronizador.fit_transform(dados)
dados_padronizados

array([[-1.22474487, -1.22474487, -1.22474487],
       [ 0.        ,  0.        ,  0.        ],
       [ 1.22474487,  1.22474487,  1.22474487]])

7. Codifica√ß√£o de vari√°veis categ√≥ricas

A codifica√ß√£o de vari√°veis categ√≥ricas √© uma t√©cnica de pr√©-processamento de dados usada em aprendizado de m√°quina para transformar vari√°veis n√£o num√©ricas (categ√≥ricas) em valores num√©ricos, que os algoritmos conseguem interpretar.

Por que codificar?
- A maioria dos algoritmos de machine learning n√£o consegue trabalhar diretamente com textos ou categorias (como ‚Äúvermelho‚Äù, ‚Äúazul‚Äù, ‚Äúverde‚Äù).
- A codifica√ß√£o permite que essas informa√ß√µes sejam representadas numericamente, sem perder o significado das categorias.

##### 7.1 One-Hot Encoding

In [43]:
dados_categoricos = np.array(['A', 'B', 'C', 'A', 'B'])
dados_categoricos

array(['A', 'B', 'C', 'A', 'B'], dtype='<U1')

In [44]:
codific_one_hot = OneHotEncoder()

In [48]:
dados_one_hot = codific_one_hot.fit_transform(dados_categoricos.reshape(-1,1))
print(dados_one_hot.toarray())

#Note que A, B e C viraram colunas e 1 representa que aquela variavel se aplica e 0 que n√£o se aplica

[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]]


##### 7.2 Label Encoding

In [50]:
codific_label = LabelEncoder()

In [52]:
dados_label = codific_label.fit_transform(dados_categoricos.reshape(-1,1))
print(dados_label)

[0 1 2 0 1]
