### conceito

O KNN Classifier tenta resolver um problema de classificação. O objetivo é, dado um dado não observado, encontrar os dados mais próximos (existem algumas métricas de distância utilizadas para encontrar os pontos mais póximos) a ele no dataset, de forma que o novo dado seja atribuido à classe mais frequente entre as k observações mais próximas.

Não existe um método "correto" para a escolha do k. É importante ter em mente que valores grandes ou pequenos de k podem alterar totalmente o resultado da classificação, uma vez que valores muito pequenos são extremamente sensíveis a outliers e não generalizam bem e valores muito grande não capturam as diferenças entre os dados. É comum utilizar $\sqrt{n}$ para o tamanho do k, mas não é uma regra. O valor de k também pode ser escolhido utilizando um algoritmo de busca de hiper-parâmetros (grid search, por exemplo) e testando diferentes valores de k com o objetivo de maximizar uma métrica específica.

Existem alguns algoritmos utilizados no KNN que particionam os pontos no espaço e os alocam em certas regiões:

No **Ball Tree**, um centroide para todo o dataset é criado, o ponto mais distante do centróide se torna o centro do primeiro cluster e o ponto mais distante do centro do primeiro cluster se torna o centro do segundo. Em seguida, cada ponto do dataset é associado ao cluster em que a distância do ponto ao centróide do cluster é menor. A média dos pontos pertencentes a cada cluster se torna o novo centróide e os pontos mais próximos são associados a ele. O processo se repete até que se atinja a profundidade desejada.

No **KD Tree**, é feita a distribuição dos pontos nos eixos x e y, define-se (normalmente) a mediana dos valores do eixo x e é feita a primeira separação. Em seguida, para os dois novos clusters criados, é feita a separação pela mediana do eixo y.

In [1]:
import pandas as pd
import numpy as np
from sklearn import preprocessing

In [2]:
# importando dados

df_01 = pd.read_csv('../bases/car.csv', names = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'class'], header = None)
df_01.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1728 entries, 0 to 1727
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   buying    1728 non-null   object
 1   maint     1728 non-null   object
 2   doors     1728 non-null   object
 3   persons   1728 non-null   object
 4   lug_boot  1728 non-null   object
 5   safety    1728 non-null   object
 6   class     1728 non-null   object
dtypes: object(7)
memory usage: 94.6+ KB


In [3]:
df_01.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety,class
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


In [4]:
# inicializa o LabelEncoder
le  = preprocessing.LabelEncoder()

# transforma as variáveis categóricas de texto em variáveis numéricas
df_01['Buying_1'] = le.fit_transform(df_01['buying'])
df_01['Maint_1'] = le.fit_transform(df_01['maint'])
df_01['doors_1'] = le.fit_transform(df_01['doors'])
df_01['persons_1'] = le.fit_transform(df_01['persons'])
df_01['lug_boot_1'] = le.fit_transform(df_01['lug_boot'])
df_01['safety_1'] = le.fit_transform(df_01['safety'])

In [5]:
df_01.head()

Unnamed: 0,buying,maint,doors,persons,lug_boot,safety,class,Buying_1,Maint_1,doors_1,persons_1,lug_boot_1,safety_1
0,vhigh,vhigh,2,2,small,low,unacc,3,3,0,0,2,1
1,vhigh,vhigh,2,2,small,med,unacc,3,3,0,0,2,2
2,vhigh,vhigh,2,2,small,high,unacc,3,3,0,0,2,0
3,vhigh,vhigh,2,2,med,low,unacc,3,3,0,0,1,1
4,vhigh,vhigh,2,2,med,med,unacc,3,3,0,0,1,2


In [6]:
# variáveis explicativas
X = df_01.iloc[:,[7,8,9,10,11,12]]

# variável resposta
Y = df_01.iloc[:,6]

In [7]:
# dividir o dataset em dados de treino e teste

from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4)

In [8]:
# inicializando e rodando algoritmo (como será resolvido um problema de classificação, importar o Classifier)

from sklearn.neighbors import KNeighborsClassifier

classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)
classifier.fit(X_train, Y_train)

Y_pred = classifier.predict(X_test)

In [9]:
# métricas

from sklearn import metrics

print(metrics.accuracy_score(Y_test, Y_pred))
print(metrics.f1_score(Y_test, Y_pred, average = 'weighted'))

0.8945086705202312
0.8881085256868616
