# <font color='#0C509E' style='font-size: 40px;'>K-Nearest Neighbors (KNN)</font>

# <font color='#000' style='font-size: 30px;'>Importando as bibliotecas</font>
<hr style='border: 1px solid #000;'>

In [85]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [86]:
params = {'legend.fontsize': 'x-large',
          'figure.figsize': (15, 5),
         'axes.labelsize': 'x-large',
         'axes.titlesize':'x-large',
         'xtick.labelsize':'x-large',
         'ytick.labelsize':'x-large'}
plt.rcParams.update(params)

# <font color='#000' style='font-size: 30px;'>Importando o dataset</font>
<hr style='border: 1px solid #000;'>

Source: https://www.kaggle.com/rakeshrau/social-network-ads

### Excluindo a coluna 'User ID'

### Renomeando as colunas

### Deixando as opções de gênero em Português

### Convertendo a variável 'Comprado' em Categórica (apenas para facilitar a análise exploratória)

# <font color='#000' style='font-size: 30px;'>Informações básicas do Dataset</font>
<hr style='border: 1px solid #000;'>

# <font color='#000' style='font-size: 30px;'>Exploratory Data Analysis (EDA)</font>
<hr style='border: 1px solid #000;'>

### Proporção de Gêneros

### Proporção de Produtos/Serviços Comprados

### Proporção de Produtos/Serviços Comprados por Gênero

### Distribuição de Salários

#### Distribuição de Salários por Gênero

### Distribuição de Salários por Idade

# <font color='#000' style='font-size: 30px;'>Preprocessamento de dados</font>
<hr style='border: 1px solid #000;'>

### Convertendo o Gênero em Dummy Variable

Como a variável categórica 'Gênero' é **binária**, não precisamos criar _duas colunas_ para representá-la. Basta transformar o valor de um gênero para Zero e o outro para 1 que é suficiente. <br/>
Note que isso também já resolve o **Dummy Variable Trap**.

# <font color='#000' style='font-size: 30px;'>K-Nearest Neighbors</font>
<hr style='border: 1px solid #000;'>

## Data sampling – Amostrando o conjunto de dados

#### Separando as variáveis independentes e dependente (classe)

#### Amostrando a base de dados (de forma balanceada)

#### Conferindo o balanceamento das classes

## Feature scaling

A escala de valores para o atributo _'Idade'_ é muito menor (com menores valores também) do que o _'Salario'_. Desta forma, na hora que o KNN computar a distância Euclideana entre as amostras no espaço de características, os _salários_ dominarão o cômputo da distância: a distância ficará **_enviesada_** para os valores dos _salários_. <br/>
Para resolver isso, precisamos **normalizar** os dados.

#### 'Treinando' o Feature Scaler

As duas principais técnicas de _Feature Scaling_ são: _**Normalization (MinMax Scaler)**_ e _**Standardization**_. Nesse exemplo, usaremos a primeira.

**IMPORTANTE:** A fim de evitar qualquer problema de overfitting, precisamos 'treinar' nosso escalador **apenas** com o _conjunto de treinamento_.

#### Escalando os dados de Treino e Teste

Apesar de, aparentemente, a normalização não ter mudado muito a 'cara' da distribuição dos dados nas visualizações, seu papel é crucial durante o cômputo das distâncias.

## "Treinando" o modelo KNN

## Classificando/estimando/predizendo um novo resultado

## Classificando/estimando/predizendo o conjunto de testes

## Métricas de avaliação

### ==> Matriz de confusão

<img src='images/confusion_matrix.png' width=250px/>

### ==> Precision / Recall

<img src='images/Precisionrecall.svg'/>

_Selected elements_ são amostradas classificadas como da **_Classe Positiva_**.

_Relevant elements_ são amostradas cuja classe verdadeira é a **_Classe Positiva_**.

<div style="font-size: 20pt">$Precision = \frac{TP}{TP+FP}$</div>

_Dos itens classificados como positivo, quantos de fato são **verdadeiros positivos**?_ <br/>
_O quão preciso o classificador é ao classificar amostras como **positivas**?_ <br/>
_Ex: O quão preciso o classificador é nos pacientes que ele classificou com cancer?_

<div style="font-size: 20pt">$Recall = Sensitivity = True Positive Rate = \frac{TP}{FN+TP}$</div>

_Quantos **verdadeiros positivos** (proporção) foram classificados corretamente?_ <br/>
_Ex: O quão sensível o classificador é para classificar corretamente os pacientes que estão com cancer?_

### ==> Sensitivity / Specificity

<img src='images/Sensitivity_and_specificity.png'/>

<div style="font-size: 20pt">$Sensitivity = Recall = True Positive Rate = \frac{TP}{FN+TP}$</div>

_Quantos **verdadeiros positivos** (proporção) foram classificados corretamente?_ <br/>
_Ex: O quão sensível o classificador é para classificar corretamente os pacientes que estão com cancer?_

<div style="font-size: 20pt">$Specificity = True Negative Rate = \frac{TN}{FN+TN}$</div>

_Quantas amostras classificadas como **negativas** são realmente **negativas**?_ <br/>
_Ex: Quantos pacientes saudáveis são identificados como não tendo cancer?_

### ==> Acurácia

<div style="font-size: 20pt">$Accuracy = \frac{TP+TN}{TN+FN+FP+TP}$</div>

_Qual foi a taxa de acerto (geral) da classificação?_

Foca nos **True Positives e True Negatives**. Não leva muito em conta os erros de classificação (FP e FN).

### ==> F1-Score (ou Dice score)

Média harmonica da _Precision_ e _Recall_. Leva mais em consideração os **erros de classificação (FP e FN)** do que a _Acurácia_.

<div style="font-size: 20pt">$F1 = 2 * \frac{precision * recall}{precision + recall}$</div>

#### Accuracy vs F1-Score

- _Accuracy_ é usada quando as taxas de **Verdadeiros Positivos** e **Verdadeiros Negativos** são mais importantes (taxas de acerto), enquanto _F1-score_ é usado quando as taxas de **Falsos Positivos** e **Falsos Negativos** são _cruciais_;
- _Accuracy_ pode ser usada quando a distribuição de classes das amostras de teste é _similar_, enquanto a _F1-score_ é uma métrica melhor quando há desbalanceamento de classes nas amostras de teste;
- Em problemas de classificação do "mundo real", o desbalanceamento de classes é comum, logo a _F1-score_ tende a ser uma métrica de avaliação mais interessante do que a _Accuracy_.

https://medium.com/analytics-vidhya/accuracy-vs-f1-score-6258237beca2#:~:text=Accuracy%20is%20used%20when%20the,as%20in%20the%20above%20case.

## Justando todas as métricas

# <font color='#000' style='font-size: 30px;'>Buscando o melhor valor para K</font>
<hr style='border: 1px solid #000;'>

## Analisando os resultados para um conjunto de valores para K

## Busca de valores por Grid Seach