# Introdução ao KNN

**Objetivos**

* Exemplificar a distância Euclidiana
* Demonstração do KNN para classificação usando fruit_data_with_colors
* Demonstração de pré-processamento de dados para o KNN
* Demonstração do KNN para regressão usando load_boston

**Características do Data Set 1**

* Linhas: 59
* Colunas: 7
* Formato do arquivo: txt

**Características do Data Set 2**

* Linhas: 506
* Colunas: 14

In [1]:
# Distância Euclidiana é usada no KNN
# Não pode ser negativa
# É sensível a outliers
2-5
(2-5)**2
((2-5)**2)**(0.5)

3.0

In [2]:
# Exemplo de distância entre dois pontos
a = [5,0.75]
b = [2,0.50]
((5-2)**2 + (0.75 - 0.50)**2)**0.5

3.010398644698074

### KNN para classificação (rótulos de classes)

In [3]:
# Importando a classe
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
import matplotlib.pyplot as plt

In [4]:
# Instanciando o método numa variável
# Cada novo elemento será comparado aos 3 vizinhos mais próximos (escolha sempre k ímpar para evitar empate)
knn = KNeighborsClassifier(n_neighbors=3)

In [5]:
# Vamos trabalhar novamente com as frutas
data = pd.read_table('fruit_data_with_colors.txt')
data.head()

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192,8.4,7.3,0.55
1,1,apple,granny_smith,180,8.0,6.8,0.59
2,1,apple,granny_smith,176,7.4,7.2,0.6
3,2,mandarin,mandarin,86,6.2,4.7,0.8
4,2,mandarin,mandarin,84,6.0,4.6,0.79


In [6]:
# Atributos
X = data[['mass','height','width','color_score']]

# Label(rótulos)
y = data['fruit_label']

In [7]:
from sklearn.model_selection import train_test_split

In [8]:
# Na matemática utilizamos letras maiúsculas para representar matrizes
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [9]:
knn.fit(X_train,y_train)

KNeighborsClassifier(n_neighbors=3)

In [10]:
# Para avaliar o modelo
# A divisão de treino e teste divide os dados de maneira aleatória
# Um bom acerto é acima de 70% ou 80%
# A ordem de grandeza dos dados vai influenciar na distância no knn
knn.score(X_test,y_test)

0.6

### Pré-processando os dados para o KNN

In [11]:
# Função para conversão de escala
from sklearn.preprocessing import MinMaxScaler

In [12]:
# Armazenando a função
mm = MinMaxScaler()

In [13]:
# Transforma os dados de treino de acordo com os valores máximos e mínimos armazenados
X_train = mm.fit_transform(X_train)

X_train

array([[0.26428571, 0.6       , 0.38235294, 0.54054054],
       [0.24285714, 0.52307692, 0.29411765, 0.54054054],
       [0.27142857, 0.69230769, 0.20588235, 0.45945946],
       [0.23571429, 0.58461538, 0.52941176, 0.54054054],
       [0.15      , 0.61538462, 0.02941176, 0.45945946],
       [0.30714286, 0.47692308, 0.5       , 0.75675676],
       [0.27857143, 0.53846154, 0.38235294, 0.62162162],
       [0.14285714, 0.56923077, 0.14705882, 0.45945946],
       [0.27857143, 0.49230769, 0.41176471, 0.72972973],
       [0.19285714, 0.64615385, 0.05882353, 0.43243243],
       [0.30714286, 0.49230769, 0.47058824, 0.81081081],
       [0.        , 0.        , 0.        , 0.7027027 ],
       [0.14285714, 0.53846154, 0.05882353, 0.45945946],
       [0.28571429, 0.52307692, 0.47058824, 0.78378378],
       [0.36428571, 0.58461538, 0.38235294, 1.        ],
       [0.37142857, 0.64615385, 0.52941176, 0.64864865],
       [0.5       , 0.95384615, 0.44117647, 0.43243243],
       [0.22857143, 0.47692308,

In [14]:
# Transforma os dados de teste de treino de acordo com os valores máximos e mínimos armazenados
# É usado apenas transform, pois estamos transformando apenas os dados de acordo com a escala efetuada dos dados de treino
X_test = mm.transform(X_test)

X_test

array([[0.29285714, 0.58461538, 0.41176471, 0.59459459],
       [0.39285714, 0.8       , 0.41176471, 0.45945946],
       [0.32142857, 0.50769231, 0.32352941, 1.02702703],
       [0.40714286, 0.63076923, 0.5       , 0.51351351],
       [0.45714286, 0.8       , 0.5       , 0.59459459],
       [0.02857143, 0.09230769, 0.05882353, 0.64864865],
       [0.14285714, 0.63076923, 0.02941176, 0.48648649],
       [1.02142857, 0.8       , 1.11764706, 0.51351351],
       [0.28571429, 0.53846154, 0.52941176, 0.32432432],
       [0.32857143, 0.55384615, 0.5       , 0.48648649],
       [0.15714286, 0.67692308, 0.05882353, 0.51351351],
       [0.35      , 0.93846154, 0.44117647, 0.45945946],
       [0.3       , 0.53846154, 0.5       , 0.83783784],
       [0.47857143, 0.61538462, 0.58823529, 0.72972973],
       [0.14285714, 0.69230769, 0.08823529, 0.43243243]])

In [15]:
# Retreinando o knn
knn = KNeighborsClassifier(n_neighbors=3)

In [16]:
knn.fit(X_train,y_train)

KNeighborsClassifier(n_neighbors=3)

In [17]:
# Ao comparar os dados de teste e os seus rótulos ao resultado destes dados de teste no modelo
# O modelo conseguiu predizer a classe de cada um dos dados de teste
knn.score(X_test,y_test)

0.8666666666666667

In [18]:
# Para predizer apenas os resultados
knn.predict(X_test)

array([3, 4, 1, 3, 4, 2, 4, 3, 1, 1, 4, 4, 1, 1, 4], dtype=int64)

In [19]:
y_test

38    3
45    4
10    1
33    3
27    3
4     2
56    4
26    3
16    1
17    1
53    4
48    4
20    1
31    3
54    4
Name: fruit_label, dtype: int64

### KNN para Regressão (rótulos são números ordenáveis)

In [20]:
# Média dos rótulos dos vizinhos mais próximos 
from sklearn.neighbors import KNeighborsRegressor

In [21]:
knn = KNeighborsRegressor(n_neighbors=3)

In [22]:
# O conjuntos de dados de frutas é um dataset para classificação, portanto usaremos este novo para exemplo
from sklearn.datasets import load_boston

In [23]:
# Preço de casas de diferentes regiões de Boston
data = load_boston()

In [24]:
# Já separa os atributos e os rótulos
X, y = load_boston(return_X_y=True)

In [25]:
# 506 rótulos, que seriam os preços das casas de cada região (a média do preço das casas de cada região)
y.shape

(506,)

In [26]:
# Para entender melhor
print(load_boston()['DESCR'])

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [27]:
from sklearn.model_selection import train_test_split

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [29]:
# A partir desse momento a execução do knn para regressão é igual a execução do knn para classificação
# O knn pra regressão armazenou os valores de treino 
knn.fit(X_train,y_train)

KNeighborsRegressor(n_neighbors=3)

In [30]:
# Resultado da regressão em cima deste conjunto de dados
knn.score(X_test,y_test)

0.6013840478349314

In [31]:
# Vamos usar o minmaxscaler e testar k número de vizinhos
mm = MinMaxScaler()

In [32]:
X_train = mm.fit_transform(X_train)

X_train

array([[0.15782951, 0.        , 0.64662757, ..., 0.80851064, 0.0824839 ,
        0.53536755],
       [0.11985032, 0.        , 0.64662757, ..., 0.80851064, 0.10279426,
        0.61192788],
       [0.00201535, 0.        , 0.23643695, ..., 0.56382979, 1.        ,
        0.33925104],
       ...,
       [0.06105715, 0.        , 0.64662757, ..., 0.80851064, 0.89449262,
        0.43855756],
       [0.0010052 , 0.        , 0.9233871 , ..., 0.69148936, 0.95557584,
        0.43439667],
       [0.00892071, 0.        , 0.28152493, ..., 0.89361702, 0.72638065,
        0.27101248]])

In [33]:
X_test = mm.transform(X_test)

X_test

array([[1.08354613e-04, 8.50000000e-01, 1.35263930e-01, ...,
        5.63829787e-01, 9.88665754e-01, 1.23162275e-01],
       [5.16033223e-04, 0.00000000e+00, 1.73387097e-01, ...,
        8.08510638e-01, 1.00000000e+00, 2.16920943e-01],
       [8.24798909e-04, 3.00000000e-01, 1.63856305e-01, ...,
        4.25531915e-01, 9.55651909e-01, 1.23162275e-01],
       ...,
       [7.94900229e-04, 4.00000000e-01, 2.18108504e-01, ...,
        5.31914894e-01, 1.00000000e+00, 1.46185853e-01],
       [1.71736891e-01, 0.00000000e+00, 6.46627566e-01, ...,
        8.08510638e-01, 9.14093007e-01, 5.91400832e-01],
       [1.09198969e-01, 0.00000000e+00, 6.46627566e-01, ...,
        8.08510638e-01, 9.72260257e-01, 4.88210818e-01]])

In [34]:
# Retreinando o knn
knn = KNeighborsRegressor(n_neighbors=3)

In [35]:
knn.fit(X_train,y_train)

KNeighborsRegressor(n_neighbors=3)

In [36]:
knn.score(X_test,y_test)

0.7661308828145639

In [37]:
# Acima de k = 3, o acerto começa a diminuir
knn = KNeighborsRegressor(n_neighbors=4)
knn.fit(X_train,y_train)
knn.score(X_test,y_test)

0.7446848555509833