### Aula 03 - KNN

---


In [None]:
import numpy as np
import pandas as pd

df_dataset = pd.read_csv('iris.csv', sep=',', index_col=None) 

---

Na aula anterior, descobrimos as regras que separam as classes das iris utilizando análise exploratória. Nessa aula, vamos introduzir os algoritmos de aprendizagem automática que vão detectar automaticamente a classe para uma determinada amostra. O primeiro algoritmo a ser tratado é o algoritmos dos vizinhos próximos.

---

Para validar o modelo, antes é necessário separar quais amostras serão de treino e quais serão de teste. Vamos embaralhar as amostras e depois separar 100 amostras para treino e 50 para teste.

In [None]:
from sklearn.utils import shuffle
df_dataset = shuffle(df_dataset,random_state=2020)

In [None]:
df_dataset.head(n=5)

In [None]:
treino = df_dataset[:100].values
teste = df_dataset[100:].values

print(treino.shape)
print(teste.shape)

---

Agora, vamos começar a estruturar o código que permite o KNN funcionar. O algoritmo funciona basicamente nas seguintes etapas:

- Calcular a distância de uma amostra para todas as demais;
- Pegar as n amostras mais próximas;
- Computar qual a classe mais frequente.

In [None]:
amostra_teste = teste[0,:4]
amostra_treino = treino[0,:4]
distancia = np.sum((amostra_treino - amostra_teste) ** 2) ** 0.5
print(distancia)

---

A distância foi calculada utilizando a norma 2, ou também chamada de euclidiana. No entanto, é necessário calcular a distância para todas as amostras. Podemos fazer isso para o vetor todo de uma vez, ou podemos fazer isso utilizando um laço.

In [None]:
distancias = np.sum(((amostra_teste - treino[:,:4]) ** 2) ** 0.5, axis=1)
print(distancias)

---

Em seguida, escolhemos quantos vizinhos vamos considerar e escolhemos os mais próximos da amostra avaliada.
A partir dos índices encontrados, calculamos qual é a classe mais frequente e atribuímos à amostra.

In [None]:
k = 5
indices = distancias.argsort()[:k]
print(indices)

from collections import Counter

vizinhos = treino[indices,4]
classe = Counter(vizinhos).most_common(1)[0][0]
print(classe)

---

Para verificar se a classe está correta, basta comparar o valor encontrado com o rótulo da amostra.

In [None]:
classe_certa = teste[0, 4]
if classe_certa == classe:
    print("Correto")
else:
    print("Errado")

---

### Exercício 1: Agora que você conhece o processo, transforme-o em função ou organize o código para calcular a classe de cada amostra do conjunto de teste. Em seguida, calcule a acurácia verificando quantas amostras você acertou. Finalmente, realize o mesmo experimento para 1-NN, 3-NN e 5-NN e reporte qual quantidade de vizinhos próximos deu a melhor acurácia.

In [9]:
def knn(teste, treino, k):
    
    acerto = 0
    
    for i in range(0,len(teste)):
        distancias = np.sum(((teste[i,:4] - treino[:,:4]) ** 2) ** 0.5, axis=1) # Calcula as distancias de cada treino
        indices = distancias.argsort()[:k] # Organiza de forma crescente

        vizinhos = treino[indices,4]
        classe = Counter(vizinhos).most_common(1)[0][0]
        
        classe_certa = teste[i, 4]
        if classe_certa == classe:
            acerto = acerto + 1 # Acertou
            
    return acerto/len(teste) #acerto/total
    
if __name__ == "__main__":
    import numpy as np
    import pandas as pd
    from sklearn.utils import shuffle
    from collections import Counter

    df_dataset = pd.read_csv('iris.csv', sep=',', index_col=None) #Excel para df_dataset
    df_dataset = shuffle(df_dataset,random_state=2020) #Misturar os dados

    treino = df_dataset[:100].values # Separando dados do treino
    teste = df_dataset[100:].values # Separando dados do teste
    
    knnResultado = []
    
    for k in range(1,6,2):
        knnResultado.append(knn(teste, treino, k) * 100)
        print(str(k)+"-NN " + str(knnResultado[-1]) + "%")

1-NN 94.0%
3-NN 98.0%
5-NN 98.0%


In [3]:
maximo = max(knnResultado, key=int)
j = 1
for i in knnResultado:
    if i == maximo:
        print(str(j)+"-NN ["+str(i)+"%] tem o melhor indice de acerto.")
        break

    j = j + 2

3-NN [98.0%] tem o melhor indice de acerto.


In [None]:
# Resultados obtidos:
  
# 1-NN 94.0%
# 3-NN 98.0%
# 5-NN 98.0%

#3-NN [98.0%] tem o melhor indice de acerto.

### Exercício 2: Implemente a variação de KNN por remoção ou inserção e verifique quantas amostras você consegue reduzir da base de treino sem prejuízo no seu julgamento.

In [None]:
## dica:

## para adicionar uma linha
## np.append(nome_vetor, item_novo, axis = 0)

## para remover uma linha
## np.delete(nome_vetor, indice_elemento, axis = 0)