<img src = "https://images2.imgbox.com/a5/72/7ZbDUHlf_o.jpg" width="200">

# KNN
---
O KNN (K-nearest neighbors ou “K-vizinhos mais próximos”) é um dos algoritmos mais utilizados em machine learning e possui um conceito bastante simplista assumindo que coisas semelhantes existem nas proximidades ou que coisas semelhantes estão próximas umas das outras.

O K é um parâmetro a ser usado no modelo que define o tamanho da vizinhança a ser considerada. A seguir existe uma das possíveis implementações para tal algoritmo, considerando K = 1, fixo. Você alterará o código de tal forma que:

i) O K seja um parâmetro a ser passado na função, podendo assumir qualquer valor maior ou igual a 1.

ii) Exista um outro parâmetro, chamado `tipo`, que receberá os valores `"r"` ou `"c"` para realizar o KNN regressor ou o KNN classificador.

In [1]:
# função para calcular a distância dos vizinhos
def calcula_distancia(p1, p2):
    
    if len(p1) != len(p2):
        raise Exception('p1 e p2 devem ter o mesmo tamanho.')
    
    s = 0
    for i in range(len(p1)):
        s = s + (p1[i] - p2[i])**2

    distancia = s**0.5
    
    return distancia

In [2]:
# função para prever o vizinho mais próximo
def predicao_knn(d_conhecidos, d_desconhecidos, resposta, k, tipo):
    
    if k <= 0:
        raise Exception('k deve ser maior ou igual a 1.')
        
    distancia = []
    
    for index, elem in d_conhecidos.iterrows():
        distancia.append(calcula_distancia(elem.drop(resposta), d_desconhecidos))
    
    d_conhecidos_copy = d_conhecidos.copy()
    d_conhecidos_copy['distancia'] = distancia
    d_conhecidos_copy.sort_values(by = 'distancia', inplace = True)
    
    vizinhos = d_conhecidos_copy[:k]  
    valores_vizinhos = [linha[resposta] for i, linha in vizinhos.iterrows()]
    
    # classificador
    if tipo == 'c': 
        previsao = mode(valores_vizinhos)
        print('Para o conjunto de dados com uma vizinhança de tamanho k =', k, ', temos que a', resposta, 'é', previsao)  
        
    # regressor     
    elif tipo == 'r':   
        previsao = max(set(valores_vizinhos), key=valores_vizinhos.count) 
        print('Para o conjunto de dados com uma vizinhança de tamanho k =', k, ', temos que a', resposta, 'é', previsao) 
        
    else:
        raise Exception('Os tipos de dados não correspondem.')

In [3]:
# importando bibliotecas
import pandas as pd
from statistics import mode
from sklearn.model_selection import train_test_split

In [4]:
# carregando dados
dados = pd.read_csv('iris.csv')

In [5]:
# primeiras cinco observações do dataset
dados.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [6]:
# separação das variáveis explicativas e resposta
var_expl = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
var_resp = 'species'

In [7]:
# separação dos dados de treino e teste
df_treino, df_teste = train_test_split(dados, test_size = 0.3, random_state = 42)

x_treino = df_treino[var_expl]
x_teste  = df_teste[var_expl]

y_treino = df_treino[var_resp]
y_teste  = df_teste[var_resp]

In [8]:
# separação dos dados conhecidos 
conhecidos = df_treino

### Teste do Classificador

In [9]:
# separação dos dados desconhecidos 
desconhecidos = x_teste.iloc[0:1].squeeze()

In [10]:
predicao_knn(conhecidos, desconhecidos, var_resp, 5, 'c')

Para o conjunto de dados com uma vizinhança de tamanho k = 5 , temos que a species é versicolor


In [11]:
# separação dos dados desconhecidos 
desconhecidos = x_teste.iloc[30:31].squeeze()

In [12]:
predicao_knn(conhecidos, desconhecidos, var_resp, 25, 'c')

Para o conjunto de dados com uma vizinhança de tamanho k = 25 , temos que a species é setosa


In [13]:
# separação dos dados desconhecidos 
desconhecidos = x_teste.iloc[19:20].squeeze()

In [14]:
predicao_knn(conhecidos, desconhecidos, var_resp, 50, 'c')

Para o conjunto de dados com uma vizinhança de tamanho k = 50 , temos que a species é virginica


### Teste do Regressor

In [15]:
# separação das variáveis explicativas e resposta
var_expl = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
var_resp = 'species'

In [16]:
# separação dos dados de treino e teste
df_treino, df_teste = train_test_split(dados, test_size = 0.3, random_state = 42)

x_treino = df_treino[var_expl]
x_teste  = df_teste[var_expl]

y_treino = df_treino[var_resp]
y_teste  = df_teste[var_resp]

In [17]:
# separação dos dados conhecidos 
conhecidos = df_treino

In [18]:
# separação dos dados desconhecidos 
desconhecidos = x_teste.iloc[0:1].squeeze()

In [19]:
predicao_knn(conhecidos, desconhecidos, var_resp, 5, 'r')

Para o conjunto de dados com uma vizinhança de tamanho k = 5 , temos que a species é versicolor


In [20]:
# separação dos dados desconhecidos 
desconhecidos = x_teste.iloc[30:31].squeeze()

In [21]:
predicao_knn(conhecidos, desconhecidos, var_resp, 25, 'r')

Para o conjunto de dados com uma vizinhança de tamanho k = 25 , temos que a species é setosa


In [22]:
# separação dos dados desconhecidos 
desconhecidos = x_teste.iloc[19:20].squeeze()

In [23]:
predicao_knn(conhecidos, desconhecidos, var_resp, 50, 'r')

Para o conjunto de dados com uma vizinhança de tamanho k = 50 , temos que a species é virginica


---