# K Nearest Neighbors

## Introdução

Vamos neste notebook ver uma aplicação do algoritmo de "K vizinhos mais próximos" (KNN) no conjunto Iris, frequentemente usado. A grosso modo, definimos previamente o número de vizinhos próximos e com base nisso consideramos, para cada ponto dos dados de teste, a que classe pertence esse ponto.

No caso do conjunto Iris, tomando por exemplo $n = 3$ (número de vizinhos próximos), se o ponto novo possui 2 vizinhos do tipo Setosa e 1 de outro tipo, então o algoritmo concluirá que o ponto em questão é do tipo Setosa, e assim por diante.

## Dados Iniciais

Aqui vale ressaltar que não usaremos a biblioteca pandas, pois no caso do Iris vamos carregar os dados do módulo ```datasets``` da biblioteca sklearn

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score

from sklearn import datasets

Como temos novos dados a serem avaliados, então gastaremos um pouco mais de tempo nessa seção. Para carregar os dados do Iris, usamos a função ```load_iris```.

In [4]:
iris = datasets.load_iris()

Assim, para vizualizá-lo, podemos digitar apenas

In [5]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

Contudo, como podemos ver, é bem difícil entender o que está acontecendo nesta tabela. Para visualizar melhor os dados, podemos mudar o parâmetro ```as_frame``` para ```True```, pois por padrão está ```False```, e assim as variáveis da instância ficam no formato de ```DataFrame``` ao invés de ```array```.

Com isso, é só usar a variável ```frame``` que teremos como retorno uma tabela com as mesmas informações, mas de uma maneira bem mais legível.

In [19]:
iris2 = datasets.load_iris(as_frame=True)

iris2.frame

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


A última coluna representa a classificação de cada pétala. Para sabermos que número representa qual tipo - Virginica, Setosa e Versicolor - usamos a variável (de instância) ```target_names```.

In [20]:
iris2.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

Assim, 0, 1, 2 representam Setosa, Versicolor e Virginica respectivamente.

Como queremos separar os dados entre instância e classe, usamos variáveis ```data``` e ```target```.

In [21]:
previsores = iris.data

classe = iris.target

Agora vamos fazer a partição dos dados da mesma forma que nos outros modelos, deixando 30% dos dados como teste.

In [22]:
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 0)

## ```KNeighborsClassifier```

Agora que já fizemos a leitura e particionamento dos dados, vamos falar do modelo propriamente dito. Para tal, devemos criar uma instância da classe ```KNeighborsClassifier```. 

In [23]:
from sklearn.neighbors import KNeighborsClassifier

A sintaxe que usaremos daqui em diante será muito semelhante com respeito aos outros modelos. A única diferença é que inserimos como parâmetro o número de vizinhos. No demais, é "só" treinar e depois fazer previsões com o modelo. No caso, esse parâmetro se chama ```n_neighbors```, que vamos deixar como igual a 3.

In [24]:
knn = KNeighborsClassifier(n_neighbors = 3)

Com isso, treinamos o modelo com o método ```fit```, inserindo primeiro o conjunto de dados com as características, e depois a classe.

In [25]:
knn.fit(X_treinamento, y_treinamento)

KNeighborsClassifier(n_neighbors=3)

Para realizar uma previsão com os dados de teste, usamos o método ```predict```, e inserimos como entrada o conjunto de dados que queremos testar.

In [26]:
previsoes = knn.predict(X_teste)
previsoes

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2, 1, 1, 2, 0, 2, 0,
       0])

## Precisão do modelo

Agora que temos as previsões em mãos, vamos comparar com os dados reais e avaliar a acurácia do modelo. Para isso, usamos o procedimento usual da matriz de confusão e a taxa de acertos.

In [27]:
confusao = confusion_matrix(y_teste, previsoes)
confusao

array([[16,  0,  0],
       [ 0, 17,  1],
       [ 0,  0, 11]])

In [28]:
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.9777777777777777

Como podemos ver, o modelo teve uma precisão bem alta, mas devemos tomar esse resultado com certo cuidado pois o número de amostras não é grande, são só um pouco mais de 100 linhas de tabela.