# Algoritmo KNN

In [28]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

from scipy.spatial import distance
from sklearn.neighbors import KNeighborsClassifier

#data = pd.read_csv('data/vertebralcolumn-3C.csv')
#data = pd.read_csv('data/BreastCancer.csv')
data = pd.read_csv('data/Iris.csv')
#data = pd.read_csv('data/Vehicle.csv')

data = data.dropna(axis = 'rows') 
classes = np.array(pd.unique(data[data.columns[-1]]), dtype = str)  
nrow, ncol = data.shape
data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [29]:
data = data.to_numpy()
y = data[:, -1]
X = data[:, 0:ncol-1]

scaler = MinMaxScaler().fit(X)
X = scaler.transform(X)

x_train, x_test, y_train, y_test = train_test_split(X, y, train_size = 0.80, random_state = 5)

In [34]:
# Algoritmo KNN
def KNN(x_train, x_test, y_train, y_test, k):

    resultado = []
    for i in range(len(x_test)): # i = 0,..., len(x_test) 
        distancias = []          # lista para armazenar as distâncias calculadas. 
        # Loop aninhado, para cada i haverá j de 0 a len(x_train)
        for j in range(len(x_train)) :                                           
            dist = distance.euclidean(x_test[i] , x_train[j]) # dist receberá o valor da distância entre os vetores de atributos. 
            # Adiciona o item anterior à lista, contendo a distância calculada e o valor da classe do dado de treino.
            distancias.append([dist, y_train[j]])     
        
        # Ordena a lista em ordem crescente de distâncias.   
        distancias.sort()
        # Obtém os k vizinhos mais próximos.
        knn = distancias[:k]
        
        # Moda entre as classes dos k vizinhos mais próximos. 
        def moda(item):
            val = []
            for i in range(len(knn)):
                val.append(item[i][1])
            class_val = max(set(val), key = val.count) 
            return class_val

        # A lista resultado recebe a classe em que x_test[i] foi classificado. 
        resultado.append(moda(knn))
    return resultado

#### Experimental 

In [35]:
k = 5
y_test_pred = KNN(x_train, x_test, y_train, y_test, k)
y_test_prediction = np.asarray(y_test_pred)
y_test_prediction

array(['versicolor', 'versicolor', 'virginica', 'setosa', 'virginica',
       'versicolor', 'setosa', 'virginica', 'setosa', 'versicolor',
       'versicolor', 'versicolor', 'virginica', 'virginica', 'setosa',
       'setosa', 'virginica', 'virginica', 'setosa', 'setosa',
       'versicolor', 'virginica', 'setosa', 'versicolor', 'versicolor',
       'virginica', 'versicolor', 'versicolor', 'versicolor', 'virginica'],
      dtype='<U10')

#### Framework 

In [36]:
k = 5 
modelo = KNeighborsClassifier(n_neighbors=k, metric = 'euclidean')
modelo.fit(x_train,y_train)
y_pred = modelo.predict(x_test) 
y_pred

array(['versicolor', 'versicolor', 'virginica', 'setosa', 'virginica',
       'versicolor', 'setosa', 'virginica', 'setosa', 'versicolor',
       'versicolor', 'versicolor', 'virginica', 'virginica', 'setosa',
       'setosa', 'virginica', 'virginica', 'setosa', 'setosa',
       'versicolor', 'virginica', 'setosa', 'versicolor', 'versicolor',
       'virginica', 'versicolor', 'versicolor', 'versicolor', 'virginica'],
      dtype=object)

In [37]:
# Comparando os resultados do modelo contruído vs o modelo do sklearn. 
y_test_prediction == y_pred

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True])

**Autor**: Alan Gomes 

**E-mail**: gomes-alan@hotmail.com 

#### Referências 

[1] Curso de ciência de dados do professor Dr. Francisco Rodrigues - USP
- https://www.youtube.com/watch?v=lm2IagDGDAU&list=PLSc7xcwCGNh1PJrPfLaH4MMjfDl48tmGM

[2] Curso Machine Learning - Data Science Academy 