### Aula 03 - KNN

---


In [2]:
import numpy as np
import pandas as pd

df_dataset = pd.read_csv('iris.csv', sep=',', index_col=None) 

---

Na aula anterior, descobrimos as regras que separam as classes das iris utilizando análise exploratória. Nessa aula, vamos introduzir os algoritmos de aprendizagem automática que vão detectar automaticamente a classe para uma determinada amostra. O primeiro algoritmo a ser tratado é o algoritmos dos vizinhos próximos.

---

Para validar o modelo, antes é necessário separar quais amostras serão de treino e quais serão de teste. Vamos embaralhar as amostras e depois separar 100 amostras para treino e 50 para teste.

In [3]:
from sklearn.utils import shuffle
df_dataset = shuffle(df_dataset,random_state=2020)

In [4]:
df_dataset.head(n=5)

Unnamed: 0,comprimento_sepala,largura_sepala,comprimento_petala,largura_petala,classe
104,6.5,3.0,5.8,2.2,Iris-virginica
8,4.4,2.9,1.4,0.2,Iris-setosa
61,5.9,3.0,4.2,1.5,Iris-versicolor
54,6.5,2.8,4.6,1.5,Iris-versicolor
78,6.0,2.9,4.5,1.5,Iris-versicolor


In [5]:
treino = df_dataset[:100].values
teste = df_dataset[100:].values

print(treino.shape)
print(teste.shape)

(100, 5)
(50, 5)


---

Agora, vamos começar a estruturar o código que permite o KNN funcionar. O algoritmo funciona basicamente nas seguintes etapas:

- Calcular a distância de uma amostra para todas as demais;
- Pegar as n amostras mais próximas;
- Computar qual a classe mais frequente.

In [6]:
amostra_teste = teste[0,:4]
amostra_treino = treino[0,:4]
distancia = np.sum((amostra_treino - amostra_teste) ** 2) ** 0.5
print(distancia)

1.0295630140987


---

A distância foi calculada utilizando a norma 2, ou também chamada de euclidiana. No entanto, é necessário calcular a distância para todas as amostras. Podemos fazer isso para o vetor todo de uma vez, ou podemos fazer isso utilizando um laço.

In [7]:
distancias = np.sum(((amostra_teste - treino[:,:4]) ** 2) ** 0.5, axis=1)
print(distancias)

[1.8 9.4 3.8999999999999995 2.9000000000000004 3.3999999999999995
 3.5999999999999996 2.1999999999999993 6.7 8.5 8.6 1.6999999999999997
 4.699999999999999 9.1 2.6999999999999997 3.0 9.5 5.199999999999999 3.3
 1.9999999999999998 9.9 9.5 2.6000000000000005 3.1999999999999997
 9.299999999999999 2.1999999999999993 4.5 3.8 2.0999999999999996 9.0 8.8
 0.9999999999999998 9.4 9.2 9.200000000000001 2.6999999999999993 9.1 9.2
 5.699999999999999 9.299999999999999 3.499999999999999 9.1
 2.299999999999999 4.3999999999999995 8.6 3.5999999999999996
 1.7999999999999992 2.1000000000000005 2.5 2.6999999999999993
 6.699999999999999 8.9 2.8 5.0 9.0 3.1999999999999993 4.699999999999999
 1.8999999999999995 3.3999999999999995 9.3 3.9999999999999996
 9.799999999999999 9.2 9.3 5.1 4.4 2.5999999999999996 9.1 9.4
 2.999999999999999 2.9000000000000004 2.0999999999999996 9.299999999999999
 9.1 1.7000000000000002 9.5 0.5000000000000007 1.7 8.7 3.3999999999999995
 9.0 9.999999999999998 6.8 8.899999999999999 9.399999

---

Em seguida, escolhemos quantos vizinhos vamos considerar e escolhemos os mais próximos da amostra avaliada.
A partir dos índices encontrados, calculamos qual é a classe mais frequente e atribuímos à amostra.

In [8]:
k = 5
indices = distancias.argsort()[:k]
print(indices)

from collections import Counter

vizinhos = treino[indices,4]
classe = Counter(vizinhos).most_common(1)[0][0]
print(classe)

[75 30 84 91 87]
Iris-virginica


---

Para verificar se a classe está correta, basta comparar o valor encontrado com o rótulo da amostra.

In [9]:
classe_certa = teste[0, 4]
if classe_certa == classe:
    print("Correto")
else:
    print("Errado")

Correto


---

### Exercício 1: Agora que você conhece o processo, transforme-o em função ou organize o código para calcular a classe de cada amostra do conjunto de teste. Em seguida, calcule a acurácia verificando quantas amostras você acertou. Finalmente, realize o mesmo experimento para 1-NN, 3-NN e 5-NN e reporte qual quantidade de vizinhos próximos deu a melhor acurácia.

In [34]:
def knn(teste, treino, k):
    
    acerto = 0
    
    for i in range(0,len(teste)):
        distancias = np.sum(((teste[i,:4] - treino[:,:4]) ** 2) ** 0.5, axis=1) # Calcula as distancias de cada treino
        indices = distancias.argsort()[:k] # Organiza de forma crescente

        vizinhos = treino[indices,4]
        classe = Counter(vizinhos).most_common(1)[0][0]
        
        classe_certa = teste[i, 4]
        if classe_certa == classe:
            acerto = acerto + 1 # Acertou
            
    return acerto/len(teste) #acerto/total
    
if __name__ == "__main__":
    import numpy as np
    import pandas as pd
    from sklearn.utils import shuffle
    from collections import Counter

    df_dataset = pd.read_csv('iris.csv', sep=',', index_col=None) #Excel para df_dataset
    df_dataset = shuffle(df_dataset,random_state=2020) #Misturar os dados

    treino = df_dataset[:100].values # Separando dados do treino
    teste = df_dataset[100:].values # Separando dados do teste
    
    knnResultado = []
    
    for k in range(1,6,2):
        knnResultado.append(knn(teste, treino, k) * 100)
        print(str(k)+"-NN " + str(knnResultado[-1]) + "%")

1-NN 94.0%
3-NN 98.0%
5-NN 98.0%


In [5]:
maximo = max(knnResultado, key=int)
j = 1
for i in knnResultado:
    if i == maximo:
        print(str(j)+"-NN ["+str(i)+"%] tem o melhor indice de acerto.")
        break

    j = j + 2

3-NN [98.0%] tem o melhor indice de acerto.


In [6]:
# Resultados obtidos:
  
# 1-NN 94.0%
# 3-NN 98.0%
# 5-NN 98.0%

#3-NN [98.0%] tem o melhor indice de acerto.

### Exercício 2: Implemente a variação de KNN por remoção ou inserção e verifique quantas amostras você consegue reduzir da base de treino sem prejuízo no seu julgamento.

In [7]:
## dica:

## para adicionar uma linha
## np.append(nome_vetor, item_novo, axis = 0)

## para remover uma linha
## np.delete(nome_vetor, indice_elemento, axis = 0)

In [108]:

import numpy as np
import pandas as pd
from sklearn.utils import shuffle
from collections import Counter

df_dataset = pd.read_csv('iris.csv', sep=',', index_col=None) #Excel para df_dataset
df_dataset = shuffle(df_dataset,random_state=2020) #Misturar os dados

treino = df_dataset[:100].values # Separando dados do treino
teste = df_dataset[100:].values # Separando dados do teste
    

In [109]:
treino.shape

(100, 5)

In [110]:
def EliminacaoSequencial(teste, treino, k):
    
    for i in range(len(teste)):
        distancias = np.sum(((teste[i,:4] - treino[:,:4]) ** 2) ** 0.5, axis=1) # Calcula as distancias de cada treino
        indices = distancias.argsort()[:k] # Organiza de forma crescente

        vizinhos = treino[indices,4]
        classe = Counter(vizinhos).most_common(1)[0][0]
        
        classe_certa = teste[i, 4]
        
        if classe_certa == classe:
            #print("verdade")
            treino = np.delete(treino, i, axis = 0)
            
    return treino

In [111]:
treino = EliminacaoSequencial(teste, treino, k)

In [112]:
knnResultadoExerc2 = []
    
for k in range(1,6,2):
    knnResultadoExerc2.append(knn(teste, treino, k) * 100)
    print(str(k)+"-NN " + str(knnResultadoExerc2[-1]) + "%")
        

1-NN 92.0%
3-NN 98.0%
5-NN 96.0%


In [113]:
treino.shape

(51, 5)

In [114]:
def InsercaoSequencial(teste, treino, k):
    
    for i in range(len(teste)):
        distancias = np.sum(((teste[i,:4] - treino[:,:4]) ** 2) ** 0.5, axis=1) # Calcula as distancias de cada treino
        indices = distancias.argsort()[:k] # Organiza de forma crescente

        vizinhos = treino[indices,4]
        classe = Counter(vizinhos).most_common(1)[0][0]
        
        classe_certa = teste[i, 4]
        
        if classe_certa != classe:
            
            treino = np.append(treino, np.array([teste[i]]), axis = 0)
            
    return treino

In [115]:
treino = InsercaoSequencial(teste, treino, k)

In [116]:
knnResultadoExerc2 = []
    
for k in range(1,6,2):
    knnResultadoExerc2.append(knn(teste, treino, k) * 100)
    print(str(k)+"-NN " + str(knnResultadoExerc2[-1]) + "%")
        

1-NN 98.0%
3-NN 94.0%
5-NN 96.0%


In [117]:
treino.shape

(54, 5)