<a href="https://colab.research.google.com/github/JamileSantos/Modelos_Ciencia_de_Dados/blob/master/SR_KNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Algoritmo k-Nearest Neighbors**

---

O algoritmo usa similaridade de recurso para prever valores de quaisquer novos pontos de dados. O KNN pode ser usado para problemas preditivos de classificação e regressão. No entanto, é mais amplamente utilizado em problemas de classificação na indústria.

Podemos implementar um modelo KNN seguindo as etapas abaixo:

```
# Modelo KNN

1. Carregar os dados
2. Inicialize o valor de k
3. Para obter a classe prevista, itere de 1 para o número total de pontos de dados de treinamento
  1. Calcule a distância entre os dados de teste e cada linha de dados de treinamento.
     Aqui, usaremos a distância euclidiana como nossa métrica de distância, pois é o método mais popular.
  2. Classifique as distâncias calculadas em ordem crescente com base nos valores da distância
  3. Obter as k linhas principais da matriz classificada
  4. Obter a classe mais frequente dessas linhas
  5. Retornar a classe prevista

```




In [20]:
from google.colab import files
uploaded = files.upload()

In [0]:
# The following code is for the KNN Clustering from Scratch
# Created by - Jamile Santos

# Importing libraries
import pandas as pd
import numpy as np
import math
import operator


#### Passo 1 #####
# Importando os dados 
df_data = pd.read_csv('iris.csv')


In [3]:
print(df_data.head(10)) 

   SepalLength  SepalWidth  PetalLength  PetalWidth         Name
0          5.1         3.5          1.4         0.2  Iris-setosa
1          4.9         3.0          1.4         0.2  Iris-setosa
2          4.7         3.2          1.3         0.2  Iris-setosa
3          4.6         3.1          1.5         0.2  Iris-setosa
4          5.0         3.6          1.4         0.2  Iris-setosa
5          5.4         3.9          1.7         0.4  Iris-setosa
6          4.6         3.4          1.4         0.3  Iris-setosa
7          5.0         3.4          1.5         0.2  Iris-setosa
8          4.4         2.9          1.4         0.2  Iris-setosa
9          4.9         3.1          1.5         0.1  Iris-setosa


In [0]:
#### Passo 3 #####

# Definindo uma função que calcula a distância euclidiana entre dois pontos de dados
def euclideanDistance(x1, y1, length):
    dis = 0
    for x in range(length):
        dis += np.square(x1[x] - y1[x])
    return np.sqrt(dis)

# Definindo o Modelo KNN
def sr_knn(train, test, k):
 
    distances = {} # Lista pra guardar as distâncias
    sort = {}
 
    length = test.shape[1] # Tamanho do conjunto de Teste
    
    #### Passo 3
    # Cálcula a distância euclidiana entre cada linha de dados de treinamento e dados de teste
    for x in range(len(train)):
        #### Passo 3.1
        dist = euclideanDistance(test, train.iloc[x], length)
        distances[x] = dist[0]  
 
    #### Passo 3.2
    # Classificando-os com base na distância
    sorted_d = sorted(distances.items(), key =operator.itemgetter(1))
    
 
    neighbors = []
    
    #### Passo 3.3
    # Extraindo os principais k vizinhos
    for x in range(k):
        neighbors.append(sorted_d[x][0])
        
    classVotes = {}
    
    #### Passo 3.4
    # Cálculo da classe de vizinhos mais frequentes
    for x in range(len(neighbors)):
        response = train.iloc[neighbors[x]][-1]
 
        if response in classVotes:
            classVotes[response] += 1
        else:
            classVotes[response] = 1

    #### Passo 3.5
    sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
    return(sortedVotes[0][0], neighbors)

In [25]:
          ### Conjunto de Dados de Teste #####

testSet = [[9.2, 2.6, 7.1, 2.5]]
test = pd.DataFrame(testSet)

            ### Testando no Modelo KNN #####

                  #### Passo 2 #####

      ###### Definindo N° de Vizinhos = 1 ########

print('\n\n**** Com k = 1 vizinhos mais próximos **** \n')
k = 1
result, neigh = sr_knn(df_data, test, k)
# Predicted class
print('\n Classe prevista do conjunto de dados = ', result)
# Nearest neighbor
print('\n Vizinho mais próximo do conjunto de dados  = ',neigh)

      ###### Definindo N° de Vizinhos = 3 ########

print('\n\n**** Com k = 3 vizinhos mais próximos ****\n')
k = 3 
result,neigh = sr_knn(df_data, test, k) 
print('\n Classe prevista do conjunto de dados = ',result)
print('\n Vizinho mais próximo do conjunto de dados = ',neigh)

        #### Definindo N° de Vizinhos = 5 #######

print('\n\n **** Com k = 5 vizinhos mais próximos ****\n')
k = 5
# Running KNN model 
result,neigh = sr_knn(df_data, test, k) 
print('\nClasse prevista do conjunto de dados = ',result)
print('\n Vizinho mais próximo do conjunto de dados = ',neigh)



**** Com k = 1 vizinhos mais próximos **** 


 Classe prevista do conjunto de dados =  Iris-virginica

 Vizinho mais próximo do conjunto de dados  =  [118]


**** Com k = 3 vizinhos mais próximos ****


 Classe prevista do conjunto de dados =  Iris-virginica

 Vizinho mais próximo do conjunto de dados =  [118, 122, 105]


 **** Com k = 5 vizinhos mais próximos ****


Classe prevista do conjunto de dados =  Iris-virginica

 Vizinho mais próximo do conjunto de dados =  [118, 122, 105, 135, 131]
