## Fazendo o KNN usando numpy e pandas

In [1]:
import numpy as np
import pandas as pd

In [2]:
# temos 2 vetores e queremos saber a distancia euclidiana entre eles
x_vetor = np.array([5,7,9])
y_vetor = np.array([5,5,5])

    # Qual a fórmula da distãncia euclidiana?

$$DE (x,y) = \sqrt{\sum_{i}^{p}(x_{i}-y_{i})^{2} }$$

DE = Distancia Euclidiana

    # Como fazer a subtração de cada posição do vetor (iteração)?

$(x_{i}-y_{i})$

$(x_{0}-y_{0}) = (5-5)$

$(x_{1}-y_{1}) = (7-5)$

$(x_{2}-y_{2}) = (9-5)$

In [3]:
# subtração de cada posição do vetor
de = x_vetor - y_vetor
de

array([0, 2, 4])

    # Como elevar ao quadrado cada valor?
   
$(x_{i}-y_{i})^{2}$

$(0)^{2}$

$(2)^{2}$

$(5)^{2}$

In [4]:
# elevação ao quadrado
de = de**2
de

array([ 0,  4, 16])

        # Como fazer o somatório dos elementos?
$(0) + (4) + (16) = (?)$

In [5]:
# somatório dos elementos
de = de.sum()
de

20

        # Como tirar a raiz quadrada?
$\sqrt{(20)} = 4.47...$

In [6]:
de = np.sqrt(de)
de

4.47213595499958

## Exemplo usando Pandas DataFrame

In [7]:
# construindo o DataFrame
# rotulos y
filmes = np.array(['Invocacao do Mal','Floresta Maldita','Meu Passado Me Condena', 'Vizinhos 2', 'Deadpool', 'Tirando o Atraso'])
filmes

array(['Invocacao do Mal', 'Floresta Maldita', 'Meu Passado Me Condena',
       'Vizinhos 2', 'Deadpool', 'Tirando o Atraso'], dtype='<U22')

In [8]:
# rotulos x
tipos = np.array(['Violencia', 'Romance', 'Acao', 'Comedia'])
tipos

array(['Violencia', 'Romance', 'Acao', 'Comedia'], dtype='<U9')

In [9]:
# valores dos atributos
valores = np.array([[0.6,0.0,0.3,0.0],
                    [0.9,0.0,0.5,0.1],
                    [0.1,0.2,0.1,0.9],
                    [0.0,0.1,0.2,0.8],
                    [0.5,0.0,0.7,0.1],
                    [0.0,0.2,0.2,0.8]])
valores

array([[0.6, 0. , 0.3, 0. ],
       [0.9, 0. , 0.5, 0.1],
       [0.1, 0.2, 0.1, 0.9],
       [0. , 0.1, 0.2, 0.8],
       [0.5, 0. , 0.7, 0.1],
       [0. , 0.2, 0.2, 0.8]])

In [10]:
df = pd.DataFrame(data=valores, columns=tipos, index=filmes)
df

Unnamed: 0,Violencia,Romance,Acao,Comedia
Invocacao do Mal,0.6,0.0,0.3,0.0
Floresta Maldita,0.9,0.0,0.5,0.1
Meu Passado Me Condena,0.1,0.2,0.1,0.9
Vizinhos 2,0.0,0.1,0.2,0.8
Deadpool,0.5,0.0,0.7,0.1
Tirando o Atraso,0.0,0.2,0.2,0.8


In [11]:
# Criando funcão KNN
def dist_euclid(vetor1, vetor2):
    de = vetor1 - vetor2
    de = de**2
    de = de.sum()
    de = np.sqrt(de)
    return de

In [12]:
dist_euclid(df.iloc[0], df.iloc[1])

0.37416573867739417

In [13]:
def knn(dataframe):
    array = np.zeros([dataframe.shape[0],dataframe.shape[0]])
    for i in range(dataframe.shape[0]):
        for j in range(dataframe.shape[0]):
            if i == j:
                continue
            if i > j:
                array[i][j] = array[j][i]
            array[i][j] = dist_euclid(df.iloc[i], df.iloc[j])
    return np.round(array, 2)

In [14]:
array = knn(df)
array

array([[0.  , 0.37, 1.07, 1.01, 0.42, 1.02],
       [0.37, 0.  , 1.22, 1.18, 0.45, 1.2 ],
       [1.07, 1.22, 0.  , 0.2 , 1.1 , 0.17],
       [1.01, 1.18, 0.2 , 0.  , 1.  , 0.1 ],
       [0.42, 0.45, 1.1 , 1.  , 0.  , 1.01],
       [1.02, 1.2 , 0.17, 0.1 , 1.01, 0.  ]])

In [15]:
df_distancias = pd.DataFrame(array, index=filmes, columns=filmes)
df_distancias

Unnamed: 0,Invocacao do Mal,Floresta Maldita,Meu Passado Me Condena,Vizinhos 2,Deadpool,Tirando o Atraso
Invocacao do Mal,0.0,0.37,1.07,1.01,0.42,1.02
Floresta Maldita,0.37,0.0,1.22,1.18,0.45,1.2
Meu Passado Me Condena,1.07,1.22,0.0,0.2,1.1,0.17
Vizinhos 2,1.01,1.18,0.2,0.0,1.0,0.1
Deadpool,0.42,0.45,1.1,1.0,0.0,1.01
Tirando o Atraso,1.02,1.2,0.17,0.1,1.01,0.0


In [16]:
minval = np.min(array[np.nonzero(array)])
minval

0.1

## Os filmes mais próximos de acordo com a tabela são:

### Vizinhos 2 e Tirando o Atraso:

Caso alguém assista algum desses filmes é sugerível recomendar o filme com menor distância euclidiana