# KNN - K-nearest neighbor

### Importando as bibliotecas

In [8]:
import pandas as pd
import math

### O que é o KNN?

O __KNN__ é um modelo de machine learning que utiliza como métrica de avaliação principal a distância euclidiana entre os pontos. Isto é, graficamente, podemos analisar um gráfico de dispersão e concluir que aqueles itens mais próximos em distância, também são mais próximos em suas demais características.

Um exemplo de aplicação empírica de __KNN__ é a localização geográfica comparada com a média salarial das famílias daquela região. Quando comparamos regiões próximas, a média salarial também tende a ser mais próxima.

A fórmula de distância pode ser calculada por meio da seguinte forma:

### $$d(x_i, x_j) = \sqrt{\sum_l (x_i^l - y_j^l)^2} $$

###  <font color=yellow>Exercício - Criando um KNN para o database Iris</font>

In [2]:
df = pd.read_csv('iris.csv')


In [16]:
df.iloc[0]

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         setosa
Name: 0, dtype: object

In [9]:
def dist_euclid(obs1, obs2):
    dist = math.sqrt((obs1[0] - obs2[0])^2 + (obs1[1] - obs2[1])^2 + (obs1[1] - obs2[1])^2 + (obs1[1] - obs2[1])^2)
    return dist

In [10]:
dist_euclid(df.iloc[0], df.iloc[5])

TypeError: ufunc 'bitwise_xor' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

In [17]:
math.sqrt((df.iloc[0][0] - df.iloc[5][0])^2 + (df.iloc[0][1] - df.iloc[5][1])^2 + (df.iloc[0][1] - df.iloc[5][1])^2 + (df.iloc[0][1] - df.iloc[5][1])^2)

TypeError: ufunc 'bitwise_xor' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

In [25]:
math.sqrt((df.iloc[0][0] - df.iloc[5][0])**2 + (df.iloc[0][1] - df.iloc[5][1])**2 + (df.iloc[0][2] - df.iloc[5][2])**2 + (df.iloc[0][3] - df.iloc[5][3])**2)

0.6164414002968979

In [26]:
math.sqrt((df.iloc[0][0] - df.iloc[55][0])**2 + (df.iloc[0][1] - df.iloc[55][1])**2 + (df.iloc[0][2] - df.iloc[55][2])**2 + (df.iloc[0][3] - df.iloc[55][3])**2)

3.416138170507745

In [28]:
math.sqrt((df.iloc[0][1] - df.iloc[5][1])**2 + (df.iloc[0][3] - df.iloc[5][3])**2)

0.44721359549995787

In [29]:
math.sqrt((df.iloc[0][1] - df.iloc[55][1])**2 + (df.iloc[0][3] - df.iloc[55][3])**2)

1.30384048104053

In [32]:
from sklearn.model_selection import train_test_split

In [39]:
df_treino, df_teste = train_test_split(df, test_size = 15, random_state = 1)

In [42]:
df_teste.species.value_counts(1)

versicolor    0.400000
setosa        0.333333
virginica     0.266667
Name: species, dtype: float64

In [117]:
def Vizinho_Mais_Proximo(treino, teste, var_resp):
    '''
    Dado um conjunto de dados chamado de treino, calcula a predição da classe para a nova instância.
    '''
    dist_euclid = []
    for lin in range(len(treino)):
        distancia = 0
        for col in range(len(teste.columns)-1):
            distancia += (treino.iloc[lin][col] - teste.iloc[0][col])**2
        dist_euclid.append([distancia, lin, treino.iloc[lin]['species']])

    return min(dist_euclid)
    

In [118]:
len(df_teste)

15

In [128]:
Vizinho_Mais_Proximo(df_treino, df_teste[4:100], 'species')

[0.17000000000000004, 37, 'virginica']

In [114]:
print(dist_euclid)

<function dist_euclid at 0x000002A25C2138B8>


###  <font color=yellow>Fim do Exercício - Criando um KNN para o database Iris</font>

#  <font color=pink>Ponto de atenção!!! Normalização dos dados</font>

Quando existem dados de sistemas numéricos diferentes, como a mensuração de temperatura (em Celsius) e a altura (em metros) de uma observação, é importante realizar uma normalização das categorias, a fim de impedir um enviesamento do modelo em direção aos sistemas numéricos representados com um menor valor aritmético. Isto pode ser facilmente realizado por meio da seguinte fórmula:

$$x_{norm} = \frac{x - x_{min}}{x_{max} - x_{min}} $$

Em que:

$x_{norm}$ = observação normalizada;

$x$ = valor observado antes da normalização;

$x_{min}$ = menor valor observado desta variável antes da normalização;

$x_{max}$ = maior valor observado desta variável antes da normalização;