# Data Prep

## Outliers

Outliers são dados que se diferenciam drasticamente dos demais.
Ex: suponha que um conjunto de dados possue informações de habilidades futebolisticas de alunos da sexta serie e um desses alunos foi computado as habilidades do Ronaldinho Gaucho. Esse aluno é um outlier, uma vez que se diferencia muito dos demais.


<img src= 'imagens_dataprep/outlier.png'>

Os outliers podem ser encontrados via:

- Graficos
- Show medians, show top 100, **boxplot**
- via histograma
- **Z-Score** $ = \frac{dado-media}{desv_padrao}$ ou desvios padroes (2,5 ou 3)
- **percentil**

Mas principalmente via **distancia interquartil (IQR)**

$$
outlier = Q1 - 1,5*IQR
$$

$$
ou
$$

$$
outlier = Q3 + 1,5*IQR
$$

sendo que

$$
IQR = Q3 - Q1
$$

Outliers podem ser excluidos, modificados ou clusterizados dependendo do objetivo do projeto.

Ex: Para detecção de gasto de energia, provavelmente os outliers são justamente os fraudadores




## Normalização

Normalização das features é muito importante, pois, dependendo da diferença da aplitude entre as features, pode ser que um algorítimo coloque mais peso para features com maiores amplitudes, o que pode gerar uma performance errada dos algorítimos.

Ex: age x fare 

<img src= 'imagens_dataprep/normalizacao1.png'>

Enquanto os dados de 'Age' variam entre 0 à 80, 'Fare' varia entre 0 e 500.


### Padronização por Z-Score

Padronizar os dados utilizando Z-Score faz com que os novos valores variem entre -1 à 1, o que pode ser bem útil, uma vez que todas as colunas estarão na mesma escala. Um ponto muito ruim é que como o Z-Score utiliza a média e o desvio padrão, é sensitível à outliers

$$
x' = \frac{x-media}{desv_padrao}
$$


### Padronização Linear

Padronização linear seria a normalização dos dados entre 0 à 1, levando em conta, o valor máximo da amostra e o mínimo, sendo sensivel à outliers

$$
x' = \frac{x-min(x)}{max(x)-min(x)}
$$



### Escalonamento Robusto (RobustScaler)

**É o melhor método de normalização dos dados, uma vez que utiliza a distância interquartil, sendo menos sensível a outlier, mesmo utilizando a mediana**

$$
x' = \frac{x-mediana}{IQR}
$$



# Encoding

Quando obtemos algum conjunto de dados brutos, algumas colunas não estão em valores contínuos, mas em algumas categorias de categorias binárias e múltiplas. Portanto, para torná-los em valores inteiros, usamos métodos de codificação. Existem alguns métodos de codificação fornecidos abaixo:


## Label encoding

É usado para codificar categorias binárias em valores numéricos hieráquicos

ex:

Categoria | Encoded 
:----|:----:
Muito Baixo | 0
Baixo | 1
Medio | 2
Alto | 3
Muito Alto | 4


## Target encoding

**Supervisionado**, pois utiliza a saida como codificador, pegando a média das saidas para esse valor.

ex:

Categoria | Target 
:----:|:----:
A| 0
A | 1
B | 1
A | 1
C | 0
C | 0
B | 1
A | 0

Codificado temos que pegar a média de cada categoria, resultando

Categoria | Target 
:----:|:----:
A| 0.5
B | 1
C | 0


## Weight of Evidence

**Supervisionado**, pois utiliza a saida como codificador, utilizando o logaritmo natural ( ln ) da probabilidade de que o alvo seja igual a 1 dividido pela probabilidade do alvo ser igual a 0. No qual temos:

$$
WoE = \ln\frac{\%P}{\%Q}
$$

- Onde P é a probabilidade do alvo ser 1 e Q é a probabilidade do alvo ser 0.


O WOE é maior do que 0 se a probabilidade do alvo ser 0 for mais significativa e menor do que 0 quando a probabilidade do alvo ser 1 for mais significativa.

ex:

<img src= 'imagens_dataprep/woe.png'>


## One Hot

Para decodificação one hot, basicamente pega-se cada categoria da classe e transforma essa categoria em uma nova classe, colocando valores 1 para onde esse argumento aparece e 0 para onde não aparece, binarizando essa features em outras features.
**O lado ruim é que dependendo da quantidade de categorias, acaba gerando muitas colunas**

Ex:

<img src= 'imagens_dataprep/one_hot.png'>