# Aula 5 - KNN - outra abordagem

<img src="images/knn_intuição.png"  style="width: 700px" />

### Funcionamento do KNN
<img src="images/algoritmo_passo_a_passo.png"  style="width: 700px" />


Fonte: https://cambridgecoding.wordpress.com/

### 2D

<img src="images/knn_regressão_x_classificação.png"  style="width: 700px" />

<br>

Fonte: https://realpython.com/knn-python/

## Medidas de distância

<img src="images/9_distance_metrics.png" width="600px" text="https://towardsdatascience.com/9-distance-measures-in-data-science-918109d069fa">

### Distância euclidiana
$$ D(x,y) = \sqrt{\sum_{i=1}^{n}{(x_i - y_i)^2}}$$
__Vantagens:__
- Muito fácil de entender e aplicar
- É a menor distância entre dois pontos em um plano cartesiano
- Tem resultados muito bons em dados com baixa dimensionalidade e quando a magnitude do vetor é importante

__Desvantagens:__
- Não é invariante à escala (as distâncias computadas podem estar skewed dependendo das unidades das features - solução: normalizar os dados)
- Quanto maior a dimensionalidade dos seus dados, menos útil é essa distância (devido à Maldição da Dimensionalidade)
- Não é recomendada quando o dataset possui atributos discretos e/ou binários

### Distância de Manhattan 
$$ D(x,y) = \sum_{i=1}^{n}{|x_i - y_i|}$$
__Vantagens:__
- Utilizada quando podemos apenas se mover em ângulos de 90º como em um tabuleiro de xadrez ou uma cidade. Nesse caso, não há movimentação na diagonal
- Não sofre com a maldição da dimensionalidade
- Quando o dataset possui atributos discretos e/ou binários

__Desvantagens:__
- É menos intuitiva, principalmente em grandes dimensões
- Fornece distâncias maiores que a Euclidiana (não necessariamente ruim)

### Distância de Minkowski
$$ D(x,y) = \begin{pmatrix}\sum_{i=1}^{n}{|x_i - y_i|^p}\end{pmatrix}^{1/p}$$

- p=1 — Distância de Manhattan
- p=2 — Distância euclidiana
- p=∞ — Distância de Chebyshev

## Maldição da Dimensionalidade
<img src="images/The-effect-of-the-curse-of-dimensionality-when-projected-in-1-one-dimension-2-two.png" width="600px" text="www.researchgate.net/figure/The-effect-of-the-curse-of-dimensionality-when-projected-in-1-one-dimension-2-two_fig3_342638066">

## Normalização / Padronização / Escalas
Importante normalizar para que os dados fiquem sempre na mesma escala
* Evita que certos algoritmos entendam que determinados atributos tenham mais pesos e sejam considerados mais importantes que outros
* Facilita cálculos internos de determinados algoritmos como redes neurais

<img src="images/normalization.png"  style="width: 400px" />

* Normalização/Standarization

1. Min-Max: $$y = (x – min) / (max – min)$$
2. Standarization: escalar valores de forma que a média seja igual a zero e o desvio padrão igual a 1, seguindo uma distribuição normal
$$y = (x – mean) / standard\_deviation$$
3. RobustScaler: remove outliers seguindo os quartis dos dados e aplica os métodos 1 ou 2 posteriormente <br> <br>

OBS 1: $x - mean$ é chamado também de centralização <br>
OBS 2: $x/standard\_deviation$ também é chamado de escala <br>
OBS 3: esses métodos devem ser aplicados no dataset de *treinamento* e replicados no teste e validação. Chama-se aplicar a normalização de "fit" e replicar seus resultados em outras bases de "transform". <br>

É considerado **ERRADO** aplicar das formas abaixo: <br>
- Normalizar antes de particionar o dataset, aplicando-se a normalização em todos os dados disponíveis <br>
- Normalizar treino e teste ao invés de aplicar no teste a normalização realizada no treino <br>

## Pipeline

[Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html) é uma classe do sklearn que permite aplicar uma sequência de transformações em um estimador final. <br>
Para isso, os passos intermediários devem ter implementados métodos de `fit` e `transform` enquanto o estimador final só precisa ter o `fit` implementado. <br>
O propósito do `pipeline` é:
- reunir várias etapas para serem validadas de forma cruzada (cross-validation) ao definir parâmetros diferentes
- ajudar a criar códigos que possuam um padrão que possa ser facilmente entendido e compartilhando entre times de cientista e engenheiro de dados.

<img src="images/pipeline.png" text="https://nbviewer.org/github/rasbt/python-machine-learning-book/blob/master/code/ch06/ch06.ipynb#Combining-transformers-and-estimators-in-a-pipeline">
