# KNN (K-Vizinhos Próximos)
Eh um algoritmo de aprendizagem supervisionada utilizado em problemas de classificacao e regressao.

**Util nas seguintes situacoes:**
- Eh uma otima escolha quando o nosso problema possui padroes claros em seus grupos.

- Tambem se mostra muito util quando os dados nao precisam de muito treinamento, pois eh um algoritmo "preguicoso", ou seja, ele nao cria um modelo explicito durante o treinamento. Isso pode ser bom quando queremos que seja gasto mais poder computacional nas predicoes.

- Funciona muito bem em dados com pouca dimensionalidade, ou seja, quanto mais dimensionalidade nos dados, pior sera seu desempenho.

Realiza a **classificacao** dos dados com base em grupo de dados semelhantes. Para definir a qual grupo pertence o dado, realiza calculos de distancia.

Para **regressao** ele calcula a media dos valores de saida dos vizinhos.

**Obs:**
- Eh recomendavel utilizar um numero de K-vizinhos que seja impar, para evitar empates na hora de decidir a qual classe o novo dado pertence.

**Exemplo:**

Vamos supor que possuimos 4 classes, e queremos realizar a classificacao dos nossos clientes. Por exemplo, tendo informacoes demograficas, de salario, situacao empregaticia, etc... Podemos classificar e recomendar qual o servico mais adequado a se ofertar para o cliente.

O algoritmo KNN trabalha verificando a distancia do dados desconhecidos com relacao aos conhecidos. Mas quantos pontos de dados proximos sao necessarios para realizar uma classificacao?

Para isso, definimos a quantidade de "vizinhos proximos" que queremos verificar para realizar a classificacao. Suponha que definimos 5 vizinhos proximos, sendo assim, o algoritmo ira verificar qual eh a classe majoritaria desses 5 e, apos, ira classificar o novo dado de acordo com essa informacao.

<br>

**Como o algoritmo funciona**
- Definimos um K valor.
- Calcula-se a distancia do novo dado com relacao aos dados conhecidos.
- Selecionamos as K-observacoes nos dados de treino que sao proximas ao dado desconhecido.
- Realizamos a predicao do dado desconhecido usando o valor mais frequente dos K-vizinhos proximos.

<br>

As distancias utilizadas pelo KNN sao:
- Euclideana:    **sqrt(sum((x - y) ^ 2))**
- Manhattan:     **sum(|x - y|)**
- Chebyshev:     **max(|x - y|)**
- Minkowski:     **sum(w * |x - y|^p) ^(1/p)**
- WMinkowski:    **sum(|w * (x - y)|^p) ^(1/p)**
- SEuclidean:    **sqrt(sum((x - y) ^ 2 / V))**
- Manhalanobis:  **sqrt((x - y)' V^-1 (x - y))**

**Vantagens:**
- Facil implementacao
- Facil interpretacao
- Se adapta bem a dados multiclasses, pois pode lidar facilmente com problemas onde temos mais de duas classes.
- Eh um modelo **nao parametrico**, ou seja, nao faz suposicoes fortes sobre a distribuicao dos dados.

**Desvantagens:**
- Alto custo computacional na predicao.
- Eh sensivel a caracteristicas irrelevantes, pois considera todas as caracteristicas da mesma forma ao calcular a distancia.
- Eh necessario realizar **normalizacao dos dados** pois como ele calcula distancias, caso as features estejam em escalas diferentes, as variaveis com maior valor podem dominar a distancia.
- Nao lida bem com problemas de alta dimensionalidade
- Sensivel a outliers
- Parametro K eh ajustado conforme tentativa e erro
- Necessita transformar dados categoricos em numericos.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
import warnings
warnings.filterwarnings('ignore')
plt.style.use('ggplot')

from sklearn.model_selection import train_test_split, KFold, cross_val_score, GridSearchCV
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.neighbors import KNeighborsClassifier

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
alvo = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas manualmente, sem escalonamento
previsores = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart2.pkl')

# previsores_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart3.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder.
previsores2 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart4.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder e OneHotEncoder, sem escalonamento.
previsores3 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart5.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas pelo LabelEncoder e OHE, com escalonamento.
previsores3_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart6.pkl')

In [4]:
# Divisao entre treino e teste
X_tr, X_ts, y_tr, y_ts = train_test_split(previsores3_esc, alvo, test_size=.2, shuffle=True, random_state=1)

In [22]:
# Instanciar o modelo
knn = KNeighborsClassifier()

# Ajuste do modelo aos dados
knn.fit(X_tr, y_tr)

In [23]:
# Formato dos dados de treino
X_tr.shape, y_tr.shape

((733, 20), (733,))

In [24]:
# Formato dos dados de teste
X_ts.shape, y_ts.shape

((184, 20), (184,))

In [25]:
# Fazer previsoes com o modelo
previsoes_knn = knn.predict(X_ts)

In [26]:
previsoes_knn

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0,
       0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1,
       0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1,
       1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1,
       0, 1, 1, 1, 1, 1, 0, 1])

In [27]:
y_ts.values

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0,
       0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1,
       1, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1,
       0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1,
       0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1,
       0, 1, 1, 0, 1, 1, 0, 1])

In [28]:
print(f"Acuracia: {accuracy_score(y_ts, previsoes_knn)*100:.2f}%")

Acuracia: 85.33%


In [29]:
confusion_matrix(y_ts, previsoes_knn)

array([[69, 15],
       [12, 88]])

In [30]:
print(classification_report(y_ts, previsoes_knn))

              precision    recall  f1-score   support

           0       0.85      0.82      0.84        84
           1       0.85      0.88      0.87       100

    accuracy                           0.85       184
   macro avg       0.85      0.85      0.85       184
weighted avg       0.85      0.85      0.85       184



# Validacao cruzada

In [31]:
# KFold
kfold = KFold(n_splits=10, shuffle=True, random_state=1)

In [32]:
resultado = cross_val_score(knn, previsores3_esc, alvo, cv=kfold)

print(f"Acuracia media: {resultado.mean()*100:.2f}%")
print(f"Desvio padrao: {resultado.std()*100:.2f}%")

Acuracia media: 85.06%
Desvio padrao: 3.66%


# Teste de diferentes parametros

In [33]:
# Dados de Treino

# Valores a serem testados
valores_k = np.array([3, 5, 7, 9, 11, 13, 15, 17, 19])
weights = ['uniform', 'distance']
metric = ['euclidean', 'manhattan', 'minkowski', 'chebyshev']
valores_p = [1, 2, 3, 4, 5]

# Dicionario para passar para o GridSearchCV
valores_grid = {'n_neighbors': valores_k, 'weights': weights, 'metric': metric, 'p': valores_p}

# Criacao dos grids a testar
grid_knn = GridSearchCV(estimator=knn, param_grid=valores_grid, cv=kfold)

# Ajuste dos dados
grid_knn.fit(X_tr, y_tr)

In [34]:
# Exibicao dos melhores resultados para os dados de treino
print(f"Melhor acuracia: {grid_knn.best_score_*100:.2f}%")
print(f"Melhor configuracao: {grid_knn.best_params_}")

Melhor acuracia: 86.75%
Melhor configuracao: {'metric': 'manhattan', 'n_neighbors': 7, 'p': 1, 'weights': 'uniform'}


# Confirmando a configuracao ideal

In [38]:
# Aplicando os melhores parametros dos dados de treino aos dados de teste
best_knn = KNeighborsClassifier(metric='manhattan', n_neighbors=13, p=1, weights='uniform')
best_knn.fit(X_tr, y_tr)

# Avaliacao nos dados de TESTE
y_pred = best_knn.predict(X_ts)

print(f"Acuracia nos dados de teste usando as configuracoes do treinamento: {accuracy_score(y_ts, y_pred)*100:.2f}%")

Acuracia nos dados de teste usando as configuracoes do treinamento: 86.41%
