# **K Nearest Neighbours**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use('ggplot')
import seaborn as sns
sns.set_style("darkgrid")

from sklearn.datasets import load_boston, load_iris, load_breast_cancer

from sklearn.neighbors import KNeighborsRegressor, KNeighborsClassifier
from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split, StratifiedKFold, KFold

from sklearn.metrics.pairwise import euclidean_distances
from sklearn.metrics import accuracy_score, mean_squared_error


from IPython.core.display import display, HTML

In [2]:
from Utils import prepareData, plot2Dimensions, plot_Kneighbors, my_final_plot_comparison, plot_decision_boundary_k

## **TOC:**
Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) [Setup](#setup)
- 2) [Um pouco de teoria](#teoria)
- 3) [Intuição do algoritmo](#algo)
- 4) [Implementação do algoritmo](#implementacao)
- 5) [Sklearn Classifier](#sklearn_classifier)


# **Setup** <a class="anchor" id="intro"></a>

In [3]:
#Data Frame para classificação
iris_df, description_clas = prepareData(load_iris)
cancer_df, description_clas = prepareData(load_breast_cancer)
#Select your data-set
df = iris_df
#Data Frame para regressão
df_regr, description_regr = prepareData(load_boston)

## **Um pouco de teoria** <a class="anchor" id="intro"></a>

***Pontos Gerais:***

- Usado para problemas de **classificação** e **regressão**.

- Usado normalmente como benchmark para algoritmos mais complexos, isto é, antes de rodar o algoritmo mais complexo você roda o KNN.

- Usado normalmente como benchmark para algoritmos mais complexos.

- Possuí bons resultados em diversas áreas como econometria, compressão de dados e genética.


***Sobre o Algoritmo:***

- É um algoritmo supervisionado, isto é, precisamos de labels.

- Cada exemplo é representado por um vetor no $\mathbb{R}^n$ e seu label.

- O algoritmo pode ser resumido em dois passos:
  - Calcula a **distância** do *exemplo test* para todos os exemplos do dataset.
  
  - Seleciona os $K$ vizinhos mais próximos e calcula o resultado.


***Detalhes do Algoritmo:***

- É uma técnica não paramétrica, isto é, a gente não assume nenhuma distribuição para treinar o algoritmo.

- **Não** possui uma fase explícita de treinamento (lazy).


## **Intuição do algoritmo** <a class="anchor" id="algo"></a>

Quantas features existem no nosso dataset?

Temos 4 features: ['feature_1', 'feature_2', 'feature_3', 'feature_4']



Visando simplificar o entendimento vamos aprensentar o algoritmo em duas dimensões.

### **Visualizando as duas dimensẽos**

### **Visualizando a posição de exemplos teste**

## **Implementação do algoritmo** <a class="anchor" id="implementacao"></a>

Precisamos de uma forma de medir a distância entre dois pontos, isto é, precisamos de uma métrica de distância:

-  Distância de Minkowski:
$$D(X,Y) = (\sum_{i=1}^{n} |x_i - y_i|^p)^{\frac{1}{p}}$$

-  Distância Euclidiana ($p=2$):

$$D(X,Y) = (\sum_{i=1}^{n} |x_i - y_i|^2)^{\frac{1}{2}} = \sqrt{\sum_{i=1}^{n} |x_i - y_i|^2}$$
  
Obs: Como estamos trabalhando com distâncias, caso a escala das variáveis seja muito diferente é importante realizar **normalização** das features (variáveis)!!!

## **Sklearn - KNeighborsClassifier** <a class="anchor" id="sklearn_classifier"></a>

### **Procedimento Usual** 

### **E se $K$ for igual ao número de exemplos no Treino?** 

Resumindo, não estou levando as features em consideração, estamos prevendo utilizando simplesmente a probabilidade a priori.

### **Como selecionar o K correto ?** 

Função para plot de fronteira de decisão baseado no seguinte site:

https://scikit-learn.org/stable/auto_examples/neighbors/plot_classification.html#sphx-glr-auto-examples-neighbors-plot-classification-py

#### **Como o k influencia na fronteira de decisão?**

- Maior: $K \rightarrow $ underfitting
- Menor: $K \rightarrow $ overfitting.

#### **Cross Validation**

<details><summary><b>Open</b></summary>
<center><img style="width: 400px;" src="figures/cross_val.png"></center>
    
https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation

## **Regressão**

### **Procedimento Padrão**

### **Será que a gente consegue fazer melhor?**

## **Extra**

Pontos Importantes para se lembrar:

- Como não tem uma fase de treinamento é útil para testar um dataset e assim ter um benchmark inicial.

- Pode ser usado tanto para regressão (***KNeighborsRegressor***) quanto classificação (***KNeighborsClassifier***). **Não esquecer de utilizar a métrica correta para avaliar o modelo.**

- Quanto menor o valor de k mais provável é que seu modelo está overfitando os dados. Utilizar cross validation para escolher o melhor K.

- Se os dados tem escalas diferentes normalização pode melhorar a performance do seu modelo.

Próximos passos:

- Como técnicas de redução dimensional podem melhorar os resultados?

- Qual a métrica de distância correta a ser utilizada?

- Quais são os algoritmos utilizados para calcular os $K$ vizinhos mais próximos?