# Disciplina de Mineração de Dados

Universidade Federal de Sergipe, Campus Prof. Alberto Carvalho - Itabaiana

Professores:

- Raphael Silva Fontes

- Prof. Dr. Methanias Colaço Rodrigues Júnior

## KNN em Python

O KNN (K-Nearest Neighbor) é um algoritmo que pode ser usado tanto para classificação, como regressão. Seu objetivo é determinar a qual grupo uma determinada amostra vai pertencer com base nas amostras vizinhas.

Ele é um algoritmo simples e de fácil implementação, os exemplos de treinamento são armazenados e a previsão é feita somente quando um novo registro precisa ser classificado.

Ao contrário dos outros algoritmos ele não constrói um modelo, como no Naive Bayes, ele analisa os dados é gera um modelo que será uma tabela de probabilidade, efetuando somente o cálculo de distância.

Por conta dessa característica, ele é considerado um método do tipo preguiçoso (_lazy_).

## Funcionamento
![](https://miro.medium.com/max/591/0*R9rZrJsoTrBbMOjl.png)


De modo geral, o algoritmo deve prever características desejadas para um item, seguindo os passos:

1. Calcula a distância entre o item a ser classificado e todos os outros itens do dataset;
1. Identifica os _K_ itens próximos do item que está sendo classificados (vizinhos). Esse número K é dado pelo usuário do algorimo. 
1. Calcula a moda entre as características, sendo a classificação final para o item com característica desconhecida.

## Cálculo das Distâncias

![](https://upload.wikimedia.org/wikipedia/commons/thumb/0/08/Manhattan_distance.svg/1200px-Manhattan_distance.svg.png)

### Distância Euclidiana

![](https://miro.medium.com/max/553/1*TczpRk2VIQBnWLMsrLN2-A.png)

### Distância de Manhattan

A Distância de Manhattan é uma simplificação da Distância Euclidiana e, por isso, é uma medida mais simples e de fácil implementação, sendo utilizada em aplicações que precisam de uma resposta em tempo real.

Ela recebeu esse nome pois define a menor distância possível de deslocamento numa malha urbana reticulada ortogonal como é possível encontrar em zonas como Manhattan


### Similaridade do Cosseno

![](https://miro.medium.com/max/700/1*2WLJd2nAIi2PexqgB6KCPA.png)

A medida utiliza o ângulo formado pelos vetores correspondentes aos documentos, no espaço dimensional reduzido, para calcular o cosseno deste ângulo e medir a similaridade entre duas cadeias de palavras-chave (tokens).

![](https://miro.medium.com/max/496/1*eY3qq6qkkPbVSlXlONPoow.png)

---



Para que todo o mecanismo de comparação entre itens e o estudo de similaridade e de dissimilaridade ocorra, é necessário transformar, de alguma maneira, as informações e características presentes no _dataset_, em elementos matematicamente manipuláveis, ou seja, normalizar.

## Utilizando o KNN em uma Base de Vinhos

In [2]:
!pip install scikit-learn



In [3]:
import pandas as pd
import plotly.graph_objects as go

from sklearn import datasets # vai pegar um datasets de teste
from sklearn import metrics  # medida de avaliação dos nossos modelos
from sklearn.model_selection import train_test_split # modelo de seleção para ver o que é de teste e o que é de treino

from sklearn.neighbors import KNeighborsClassifier # implementação do KNN (Vizinhos próximos)

In [4]:
vinhos = datasets.load_wine()
df_vinhos = pd.DataFrame(data=vinhos.data, columns=vinhos.feature_names)

In [5]:
df_vinhos

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0


In [6]:
df_vinhos['alvo'] = vinhos.target

In [7]:
df_vinhos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   alcohol                       178 non-null    float64
 1   malic_acid                    178 non-null    float64
 2   ash                           178 non-null    float64
 3   alcalinity_of_ash             178 non-null    float64
 4   magnesium                     178 non-null    float64
 5   total_phenols                 178 non-null    float64
 6   flavanoids                    178 non-null    float64
 7   nonflavanoid_phenols          178 non-null    float64
 8   proanthocyanins               178 non-null    float64
 9   color_intensity               178 non-null    float64
 10  hue                           178 non-null    float64
 11  od280/od315_of_diluted_wines  178 non-null    float64
 12  proline                       178 non-null    float64
 13  alvo 

In [8]:
df_vinhos.describe()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,alvo
count,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0,178.0
mean,13.000618,2.336348,2.366517,19.494944,99.741573,2.295112,2.02927,0.361854,1.590899,5.05809,0.957449,2.611685,746.893258,0.938202
std,0.811827,1.117146,0.274344,3.339564,14.282484,0.625851,0.998859,0.124453,0.572359,2.318286,0.228572,0.70999,314.907474,0.775035
min,11.03,0.74,1.36,10.6,70.0,0.98,0.34,0.13,0.41,1.28,0.48,1.27,278.0,0.0
25%,12.3625,1.6025,2.21,17.2,88.0,1.7425,1.205,0.27,1.25,3.22,0.7825,1.9375,500.5,0.0
50%,13.05,1.865,2.36,19.5,98.0,2.355,2.135,0.34,1.555,4.69,0.965,2.78,673.5,1.0
75%,13.6775,3.0825,2.5575,21.5,107.0,2.8,2.875,0.4375,1.95,6.2,1.12,3.17,985.0,2.0
max,14.83,5.8,3.23,30.0,162.0,3.88,5.08,0.66,3.58,13.0,1.71,4.0,1680.0,2.0


In [9]:
df_vinhos.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,168,169,170,171,172,173,174,175,176,177
alcohol,14.23,13.2,13.16,14.37,13.24,14.2,14.39,14.06,14.83,13.86,...,13.58,13.4,12.2,12.77,14.16,13.71,13.4,13.27,13.17,14.13
malic_acid,1.71,1.78,2.36,1.95,2.59,1.76,1.87,2.15,1.64,1.35,...,2.58,4.6,3.03,2.39,2.51,5.65,3.91,4.28,2.59,4.1
ash,2.43,2.14,2.67,2.5,2.87,2.45,2.45,2.61,2.17,2.27,...,2.69,2.86,2.32,2.28,2.48,2.45,2.48,2.26,2.37,2.74
alcalinity_of_ash,15.6,11.2,18.6,16.8,21.0,15.2,14.6,17.6,14.0,16.0,...,24.5,25.0,19.0,19.5,20.0,20.5,23.0,20.0,20.0,24.5
magnesium,127.0,100.0,101.0,113.0,118.0,112.0,96.0,121.0,97.0,98.0,...,105.0,112.0,96.0,86.0,91.0,95.0,102.0,120.0,120.0,96.0
total_phenols,2.8,2.65,2.8,3.85,2.8,3.27,2.5,2.6,2.8,2.98,...,1.55,1.98,1.25,1.39,1.68,1.68,1.8,1.59,1.65,2.05
flavanoids,3.06,2.76,3.24,3.49,2.69,3.39,2.52,2.51,2.98,3.15,...,0.84,0.96,0.49,0.51,0.7,0.61,0.75,0.69,0.68,0.76
nonflavanoid_phenols,0.28,0.26,0.3,0.24,0.39,0.34,0.3,0.31,0.29,0.22,...,0.39,0.27,0.4,0.48,0.44,0.52,0.43,0.43,0.53,0.56
proanthocyanins,2.29,1.28,2.81,2.18,1.82,1.97,1.98,1.25,1.98,1.85,...,1.54,1.11,0.73,0.64,1.24,1.06,1.41,1.35,1.46,1.35
color_intensity,5.64,4.38,5.68,7.8,4.32,6.75,5.25,5.05,5.2,7.22,...,8.66,8.5,5.5,9.899999,9.7,7.7,7.3,10.2,9.3,9.2


In [10]:
df_vinhos['alvo'].value_counts()

1    71
0    59
2    48
Name: alvo, dtype: int64

In [35]:
X_train, X_test, Y_train, Y_test = train_test_split(df_vinhos.iloc[1:].drop('alvo', axis=1), df_vinhos.iloc[1:]['alvo'], test_size=0.3)

In [36]:
knn = KNeighborsClassifier(n_neighbors=3)

In [37]:
knn.fit(X_train, Y_train)

KNeighborsClassifier(n_neighbors=3)

In [38]:
resultado = knn.predict(X_test)

In [39]:
print(pd.crosstab(Y_test, resultado, rownames=['Real'], colnames=['Predito'], margins=True))

Predito   0   1   2  All
Real                    
0        18   1   5   24
1         0  16   6   22
2         0   4   4    8
All      18  21  15   54


In [16]:
print(metrics.classification_report(Y_test, resultado, target_names=vinhos.target_names))

              precision    recall  f1-score   support

     class_0       0.80      1.00      0.89         4
     class_1       0.75      0.75      0.75         8
     class_2       0.80      0.67      0.73         6

    accuracy                           0.78        18
   macro avg       0.78      0.81      0.79        18
weighted avg       0.78      0.78      0.77        18



In [40]:
df_vinhos.iloc[0]

alcohol                           14.23
malic_acid                         1.71
ash                                2.43
alcalinity_of_ash                 15.60
magnesium                        127.00
total_phenols                      2.80
flavanoids                         3.06
nonflavanoid_phenols               0.28
proanthocyanins                    2.29
color_intensity                    5.64
hue                                1.04
od280/od315_of_diluted_wines       3.92
proline                         1065.00
alvo                               0.00
Name: 0, dtype: float64

In [41]:
knn.predict([df_vinhos.iloc[152].drop('alvo').values])

  "X does not have valid feature names, but"


array([1])

In [42]:
knn.predict_proba([df_vinhos.iloc[152].drop('alvo').values])

  "X does not have valid feature names, but"


array([[0.        , 0.66666667, 0.33333333]])

In [43]:
knn.predict([df_vinhos.iloc[152].drop('alvo').values])

  "X does not have valid feature names, but"


array([1])