# Introdução ao KNN

**Objetivos**

* Exemplificar a distância Euclidiana
* Demonstração do KNN para classificação usando fruit_data_with_colors
* Demonstração de pré-processamento de dados para o KNN
* Demonstração do KNN para regressão usando load_boston

**Características do Data Set 1**

* Linhas: 59
* Colunas: 7
* Formato do arquivo: txt

**Características do Data Set 2**

* Linhas: 506
* Colunas: 14

In [1]:
# Distância Euclidiana é usada no KNN
# Não pode ser negativa
# É sensível a outliers
2-5
(2-5)**2
((2-5)**2)**(0.5)

3.0

In [2]:
# Exemplo de distância entre dois pontos
a = [5,0.75]
b = [2,0.50]
((5-2)**2 + (0.75 - 0.50)**2)**0.5

3.010398644698074

### KNN para classificação (rótulos de classes)

In [3]:
# Importando a classe
from sklearn.neighbors import KNeighborsClassifier
import pandas as pd
import matplotlib.pyplot as plt

In [4]:
# Instanciando o método numa variável
# Cada novo elemento será comparado aos 3 vizinhos mais próximos (escolha sempre k ímpar para evitar empate)
knn = KNeighborsClassifier(n_neighbors=3)

In [5]:
# Vamos trabalhar novamente com as frutas
data = pd.read_table('fruit_data_with_colors.txt')
data.head()

Unnamed: 0,fruit_label,fruit_name,fruit_subtype,mass,width,height,color_score
0,1,apple,granny_smith,192,8.4,7.3,0.55
1,1,apple,granny_smith,180,8.0,6.8,0.59
2,1,apple,granny_smith,176,7.4,7.2,0.6
3,2,mandarin,mandarin,86,6.2,4.7,0.8
4,2,mandarin,mandarin,84,6.0,4.6,0.79


In [6]:
# Atributos
X = data[['mass','height','width','color_score']]

# Label(rótulos)
y = data['fruit_label']

In [7]:
from sklearn.model_selection import train_test_split

In [8]:
# Na matemática utilizamos letras maiúsculas para representar matrizes
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [9]:
knn.fit(X_train,y_train)

KNeighborsClassifier(n_neighbors=3)

In [10]:
# Para avaliar o modelo
# A divisão de treino e teste divide os dados de maneira aleatória
# Um bom acerto é acima de 70% ou 80%
# A ordem de grandeza dos dados vai influenciar na distância no knn
knn.score(X_test,y_test)

0.5333333333333333

### Pré-processando os dados para o KNN

In [11]:
# Função para conversão de escala
from sklearn.preprocessing import MinMaxScaler

In [12]:
# Armazenando a função
mm = MinMaxScaler()

In [13]:
# Transforma os dados de treino de acordo com os valores máximos e mínimos armazenados
X_train = mm.fit_transform(X_train)

X_train

array([[0.01398601, 0.04615385, 0.        , 0.57894737],
       [0.29370629, 0.55384615, 0.34210526, 0.55263158],
       [0.32867133, 0.6       , 0.47368421, 0.86842105],
       [0.22377622, 0.47692308, 0.39473684, 0.84210526],
       [0.14685315, 0.63076923, 0.07894737, 0.39473684],
       [0.03496503, 0.10769231, 0.10526316, 0.65789474],
       [0.26573427, 0.50769231, 0.47368421, 0.36842105],
       [0.15384615, 0.67692308, 0.05263158, 0.5       ],
       [0.        , 0.        , 0.        , 0.68421053],
       [0.41258741, 0.96923077, 0.36842105, 0.39473684],
       [0.27272727, 0.50769231, 0.39473684, 0.63157895],
       [0.43356643, 1.        , 0.39473684, 0.44736842],
       [0.13986014, 0.63076923, 0.02631579, 0.47368421],
       [0.34965035, 0.49230769, 0.42105263, 0.13157895],
       [0.31468531, 0.50769231, 0.28947368, 1.        ],
       [0.28671329, 0.58461538, 0.36842105, 0.57894737],
       [0.27972028, 0.53846154, 0.47368421, 0.31578947],
       [0.02797203, 0.09230769,

In [14]:
# Transforma os dados de teste de treino de acordo com os valores máximos e mínimos armazenados
# É usado apenas transform, pois estamos transformando apenas os dados de acordo com a escala efetuada dos dados de treino
X_test = mm.transform(X_test)

X_test

array([[0.3986014 , 0.63076923, 0.44736842, 0.5       ],
       [0.32167832, 0.55384615, 0.44736842, 0.47368421],
       [0.38461538, 0.8       , 0.36842105, 0.44736842],
       [0.33566434, 0.55384615, 0.34210526, 0.97368421],
       [0.14685315, 0.61538462, 0.02631579, 0.44736842],
       [0.13986014, 0.56923077, 0.13157895, 0.44736842],
       [0.29370629, 0.53846154, 0.44736842, 0.81578947],
       [0.27272727, 0.53846154, 0.34210526, 0.60526316],
       [0.48951049, 0.95384615, 0.39473684, 0.42105263],
       [0.46853147, 0.61538462, 0.52631579, 0.71052632],
       [0.28671329, 0.53846154, 0.34210526, 0.63157895],
       [0.1958042 , 0.72307692, 0.        , 0.47368421],
       [0.27272727, 0.49230769, 0.36842105, 0.71052632],
       [0.22377622, 0.47692308, 0.23684211, 0.44736842],
       [0.27272727, 0.47692308, 0.31578947, 0.86842105]])

In [15]:
# Retreinando o knn
knn = KNeighborsClassifier(n_neighbors=3)

In [16]:
knn.fit(X_train,y_train)

KNeighborsClassifier(n_neighbors=3)

In [17]:
# Ao comparar os dados de teste e os seus rótulos ao resultado destes dados de teste no modelo
# O modelo conseguiu predizer a classe de cada um dos dados de teste
knn.score(X_test,y_test)

0.9333333333333333

In [18]:
# Para predizer apenas os resultados
knn.predict(X_test)

array([3, 1, 4, 1, 4, 4, 1, 3, 4, 1, 3, 4, 3, 3, 1], dtype=int64)

In [19]:
y_test

33    3
17    1
45    4
11    1
52    4
55    4
20    1
40    3
46    4
31    3
30    3
49    4
42    3
28    3
12    1
Name: fruit_label, dtype: int64

### KNN para Regressão (rótulos são números ordenáveis)

In [20]:
# Média dos rótulos dos vizinhos mais próximos 
from sklearn.neighbors import KNeighborsRegressor

In [21]:
knn = KNeighborsRegressor(n_neighbors=3)

In [22]:
# O conjuntos de dados de frutas é um dataset para classificação, portanto usaremos este novo para exemplo
from sklearn.datasets import load_boston

In [23]:
# Preço de casas de diferentes regiões de Boston
data = load_boston()


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [24]:
# Já separa os atributos e os rótulos
X, y = load_boston(return_X_y=True)

In [25]:
# 506 rótulos, que seriam os preços das casas de cada região (a média do preço das casas de cada região)
y.shape

(506,)

In [26]:
# Para entender melhor
# Atributo B, é sério isso, professor? B é um atributo racista.
print(load_boston()['DESCR'])

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

In [27]:
from sklearn.model_selection import train_test_split

In [28]:
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [29]:
# A partir desse momento a execução do knn para regressão é igual a execução do knn para classificação
# O knn pra regressão armazenou os valores de treino 
knn.fit(X_train,y_train)

KNeighborsRegressor(n_neighbors=3)

In [30]:
# Resultado da regressão em cima deste conjunto de dados
knn.score(X_test,y_test)

0.45744105784821276

In [31]:
# Vamos usar o minmaxscaler e testar k número de vizinhos
mm = MinMaxScaler()

In [32]:
X_train = mm.fit_transform(X_train)

X_train

array([[1.65551034e-02, 0.00000000e+00, 6.97777778e-01, ...,
        2.23404255e-01, 9.15603409e-01, 8.11347518e-02],
       [7.26500923e-03, 2.00000000e-01, 1.19629630e-01, ...,
        4.25531915e-02, 9.83357708e-01, 4.05673759e-02],
       [8.27415162e-03, 0.00000000e+00, 2.02222222e-01, ...,
        5.10638298e-01, 1.00000000e+00, 1.66524823e-01],
       ...,
       [7.50002244e-03, 0.00000000e+00, 7.83333333e-01, ...,
        9.14893617e-01, 9.94376923e-01, 4.32056738e-01],
       [8.17378139e-04, 0.00000000e+00, 1.22592593e-01, ...,
        4.25531915e-01, 9.85803621e-01, 1.47234043e-01],
       [1.25353982e-03, 0.00000000e+00, 9.22592593e-01, ...,
        6.91489362e-01, 9.55822280e-01, 4.49645390e-01]])

In [33]:
X_test = mm.transform(X_test)

X_test

array([[5.20891560e-04, 2.50000000e-01, 1.52592593e-01, ...,
        6.80851064e-01, 9.96797620e-01, 1.55744681e-01],
       [7.01367565e-04, 1.25000000e-01, 1.97407407e-01, ...,
        6.70212766e-01, 9.98260124e-01, 1.80709220e-01],
       [1.11378312e-02, 2.00000000e-01, 1.19629630e-01, ...,
        4.25531915e-02, 9.91224974e-01, 2.70070922e-01],
       ...,
       [7.78595519e-02, 0.00000000e+00, 6.42962963e-01, ...,
        8.08510638e-01, 9.95915074e-01, 1.49787234e-01],
       [3.77544378e-03, 0.00000000e+00, 2.45925926e-01, ...,
        7.44680851e-01, 9.85450603e-01, 2.83971631e-01],
       [3.98271238e-03, 2.00000000e-01, 2.30370370e-01, ...,
        6.38297872e-01, 9.79197136e-01, 3.19716312e-01]])

In [34]:
# Retreinando o knn
knn = KNeighborsRegressor(n_neighbors=3)

In [35]:
knn.fit(X_train,y_train)

KNeighborsRegressor(n_neighbors=3)

In [36]:
knn.score(X_test,y_test)

0.7701491719483432

In [37]:
# Acima de k = 3, o acerto começa a diminuir
knn = KNeighborsRegressor(n_neighbors=4)
knn.fit(X_train,y_train)
knn.score(X_test,y_test)

0.7569690450030546