### Aula 03 - KNN

---


In [1]:
import numpy as np
import pandas as pd

df_dataset = pd.read_csv('iris.csv', sep=',', index_col=None) 

---

Na aula anterior, descobrimos as regras que separam as classes das iris utilizando análise exploratória. Nessa aula, vamos introduzir os algoritmos de aprendizagem automática que vão detectar automaticamente a classe para uma determinada amostra. O primeiro algoritmo a ser tratado é o algoritmos dos vizinhos próximos.

---

Para validar o modelo, antes é necessário separar quais amostras serão de treino e quais serão de teste. Vamos embaralhar as amostras e depois separar 100 amostras para treino e 50 para teste.

In [2]:
from sklearn.utils import shuffle
df_dataset = shuffle(df_dataset,random_state=2020)

In [3]:
df_dataset.head(n=5)

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,classe
104,6.5,3.0,5.8,2.2,Iris-virginica
8,4.4,2.9,1.4,0.2,Iris-setosa
61,5.9,3.0,4.2,1.5,Iris-versicolor
54,6.5,2.8,4.6,1.5,Iris-versicolor
78,6.0,2.9,4.5,1.5,Iris-versicolor


In [4]:
treino = df_dataset[:100].values
teste = df_dataset[100:].values

print(treino.shape)
print(teste.shape)

(100, 5)
(50, 5)


---

Agora, vamos começar a estruturar o código que permite o KNN funcionar. O algoritmo funciona basicamente nas seguintes etapas:

- Calcular a distância de uma amostra para todas as demais;
- Pegar as n amostras mais próximas;
- Computar qual a classe mais frequente.

In [5]:
amostra_teste = teste[0,:4]
amostra_treino = treino[0,:4]

distancia = np.sum((amostra_treino - amostra_teste) ** 2)
print(distancia)

1.0599999999999998


---

A distância foi calculada utilizando a norma 2, ou também chamada de euclidiana. No entanto, é necessário calcular a distância para todas as amostras. Podemos fazer isso para o vetor todo de uma vez, ou podemos fazer isso utilizando um laço.

In [6]:
distancias = np.sum((amostra_teste - treino[:,:4]) ** 2, axis=1)
print(distancias)

[1.0599999999999998 34.980000000000004 6.469999999999997 3.63
 5.019999999999999 3.9599999999999986 1.859999999999999 15.29
 27.849999999999998 28.86 1.2899999999999994 9.169999999999996
 31.230000000000004 3.4699999999999993 3.74 32.35000000000001
 9.139999999999999 4.229999999999999 1.3999999999999995 35.45 34.41
 2.1800000000000006 4.299999999999999 31.14999999999999 1.899999999999999
 7.990000000000002 5.219999999999999 2.0699999999999994 32.52
 29.179999999999993 0.27999999999999986 32.9 31.14 31.460000000000008
 2.149999999999999 31.729999999999997 32.02 10.889999999999997
 33.949999999999996 4.449999999999998 30.369999999999997
 1.3699999999999992 7.339999999999997 26.779999999999994 5.459999999999999
 0.8599999999999991 1.2900000000000005 2.67 3.049999999999998
 15.649999999999999 26.970000000000006 2.8599999999999994
 8.939999999999998 31.160000000000004 3.759999999999999 7.989999999999999
 1.4899999999999989 5.059999999999999 29.810000000000002 5.219999999999998
 31.779999999

---

Em seguida, escolhemos quantos vizinhos vamos considerar e escolhemos os mais próximos da amostra avaliada.
A partir dos índices encontrados, calculamos qual é a classe mais frequente e atribuímos à amostra.

In [7]:
k = 5
indices = distancias.argsort()[:k]
print(indices)

from collections import Counter

vizinhos = treino[indices,4]
classe = Counter(vizinhos).most_common(1)[0][0]
print(classe)

[75 30 84 87 91]
Iris-virginica


---

Para verificar se a classe está correta, basta comparar o valor encontrado com o rótulo da amostra.

In [8]:
classe_certa = teste[0, 4]
if classe_certa == classe:
    print("Correto")
else:
    print("Errado")

Correto


---

### Exercício 1: Agora que você conhece o processo, transforme-o em função ou organize o código para calcular a classe de cada amostra do conjunto de teste. Em seguida, calcule a acurácia verificando quantas amostras você acertou. Finalmente, realize o mesmo experimento para 1-NN, 3-NN e 5-NN e reporte qual quantidade de vizinhos próximos deu a melhor acurácia.

In [9]:
# Resultados obtidos:
  
# 1-NN:   %
# 3-NN:   %
# 5-NN:   %


### Exercício 2: Implemente a variação de KNN por remoção ou inserção e verifique quantas amostras você consegue reduzir da base de treino sem prejuízo no seu julgamento.

In [10]:
## dica:

## para adicionar uma linha
## np.append(nome_vetor, item_novo, axis = 0)

## para remover uma linha
## np.delete(nome_vetor, indice_elemento, axis = 0)