# Parte 3 - Classificação multi-classe

### _k-Nearest Neighbors_

A célula seguinte define função necessárias para o algoritmo de k-NN. O primeiro método utiliza a técnica de validação-cruzada _holdout_, o segundo método serve para calcular a distância Euclidiana, o método seguinte utiliza a distância calculada e pega os $K$ vizinhos mais próximos. Por fim, os últimos métodos definidos fazem o cálculo dos votos para definição da classe final da instância $x_{ij}$, bem como a acurácia do modelo para $K$ arbitrário.

In [1]:
import operator
import math
import random
import pandas as pd
import numpy as np
random.seed(42)

# Função de divisão do conjunto de dados em forma de holdout
def split_data(data, split, X_training = [], X_test = []):
    for x in range(len(data)):
        if random.random() < split:
            X_training.append(data[x])
        else:
            X_test.append(data[x])
                     
# Função de cálculo da distância Euclidiana
def dist_euclidian(x1, x2, length):
    dist = 0.0
    for i in range(length):
        dist += pow(float(x1[i])- float(x2[i]),2)
    return math.sqrt(dist)

# Função que calcula os K vizinhos mais próximos do padrão de teste segundo a distância Euclidiana
def k_neighbors(X_training, instance, k):
    distances = []
    length = len(instance)-1
    for x in range(len(X_training)):
        dist = dist_euclidian(instance, X_training[x], length)
        distances.append((X_training[x], dist))
    distances.sort(key=operator.itemgetter(1))
    neighbors = []
    for x in range(k):
        neighbors.append(distances[x][0])
    return neighbors

# Função de cálculo dos votos para definição da classe final da instância de teste
def votes(neighbors):
    classVotes = {}
    for x in range(len(neighbors)):
        response = neighbors[x][-1]
        if response in classVotes:
            classVotes[response] += 1
        else:
            classVotes[response] = 1
    sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
    return sortedVotes[0][0] 

# Função de cálculo da acurácia
def accuracy_func(X_test, predictions):
    n = 0
    for x in range(len(X_test)):
        if X_test[x][-1] == predictions[x]:
            n += 1
    return (n/float(len(X_test))) * 100.0

- Separação dos dados com o método de _holdout_, separando o conjunto de dados aleatoriamente em 70% para o conjunto de treino, e 30% para o conjunto de teste:

In [2]:
data_vehicle = pd.read_csv('dataset_vehicle.csv')
df = data_vehicle.values.tolist()
X_training = []
X_test = []
split = 0.7
split_data(df, split, X_training, X_test)

- Criação de um _dataframe_ nulo que será utilizado para visualização da matriz de confusão:

In [3]:
confusion_matrix = pd.DataFrame(
    {
        "bus": [0, 0, 0, 0],
        "van": [0, 0, 0, 0],
        "opel": [0, 0, 0, 0],
        "saab": [0, 0, 0, 0],
    }
)

confusion_matrix = confusion_matrix.rename(index = {0: "bus", 1: "van", 2: "opel", 3: "saab"})
confusion_matrix

Unnamed: 0,bus,van,opel,saab
bus,0,0,0,0
van,0,0,0,0
opel,0,0,0,0
saab,0,0,0,0


- Soma as predições feitas, populando a matriz de confusão para um conjunto de $K \in \{1, 2, 3, \cdots, 9\}$. O _output_ da célula seguinte deve ser $K$ matrizes de confusão, juntamente com a sua taxa de acerto (acurácia):

In [4]:
for k in range (1,10):
    predictions = []
    cf_matrix = confusion_matrix.copy()
    for x in range(len(X_test)):
        neighbors = k_neighbors(X_training, X_test[x], k)
        result = votes(neighbors)
        if X_test[x][-1] == 'bus':
            cf_matrix.iloc[0][result]+=1
            
        elif X_test[x][-1] == 'van':
            cf_matrix.iloc[1][result]+=1
            
        elif X_test[x][-1] == 'opel':
            cf_matrix.iloc[2][result]+=1
            
        else:
            cf_matrix.iloc[3][result]+=1
        
        predictions.append(result)
    #print('> predicted=' + repr(result) + ', actual=' + repr(X_test[x][-1]))
    accuracy = accuracy_func(X_test, predictions)
    print('Matriz de confusão (k-NN) para K =',k)
    print('Acurácia:',accuracy)
    print(cf_matrix,'\n'+'-'*30)

Matriz de confusão (k-NN) para K = 1
Acurácia: 63.52941176470588
      bus  van  opel  saab
bus    55    1     4    10
van     4   57     0     0
opel    3    4    20    25
saab    5    5    32    30 
------------------------------
Matriz de confusão (k-NN) para K = 2
Acurácia: 63.52941176470588
      bus  van  opel  saab
bus    55    1     4    10
van     4   57     0     0
opel    3    4    20    25
saab    5    5    32    30 
------------------------------
Matriz de confusão (k-NN) para K = 3
Acurácia: 65.09803921568627
      bus  van  opel  saab
bus    56    1     4     9
van     3   57     0     1
opel    3    5    21    23
saab    5    4    31    32 
------------------------------
Matriz de confusão (k-NN) para K = 4
Acurácia: 61.1764705882353
      bus  van  opel  saab
bus    53    1     2    14
van     5   54     1     1
opel    3    5    21    23
saab    8    3    33    28 
------------------------------
Matriz de confusão (k-NN) para K = 5
Acurácia: 62.745098039215684
      b

A título de **comparação**, utilizaremos a função de KNeighborsClassifier pronta do _Scikit-Learn_ para obtermos a acurácia dos mesmos $K$'s:

In [5]:
from sklearn.neighbors import KNeighborsClassifier

colnames_numeric = data_vehicle.columns[0:18]

trainingSet2 = pd.DataFrame(np.array(X_training).reshape(len(X_training),19), columns = data_vehicle.columns)
testSet2 = pd.DataFrame(np.array(X_test).reshape(len(X_test),19), columns = data_vehicle.columns)

trainingSet2[colnames_numeric] = trainingSet2[colnames_numeric].apply(pd.to_numeric, errors = 'coerce', axis = 0)
testSet2[colnames_numeric] = testSet2[colnames_numeric].apply(pd.to_numeric, errors = 'coerce', axis = 0)

for k in range(1,10):
    knn_sklearn = KNeighborsClassifier(n_neighbors = k, metric='euclidean', algorithm='kd_tree')
    x_train,y_train = trainingSet2.loc[:,trainingSet2.columns != 'Class'], trainingSet2.loc[:,'Class']
    x_test,y_test = testSet2.loc[:,testSet2.columns != 'Class'], testSet2.loc[:,'Class']
    knn_sklearn.fit(x_train,y_train)
    acc = knn_sklearn.score(x_test,y_test)
    print('Acurácia do k-NN com K = {} : {:.1f}%'.format(k, acc*100))

Acurácia do k-NN com K = 1 : 63.5%
Acurácia do k-NN com K = 2 : 59.6%
Acurácia do k-NN com K = 3 : 63.5%
Acurácia do k-NN com K = 4 : 60.0%
Acurácia do k-NN com K = 5 : 62.7%
Acurácia do k-NN com K = 6 : 62.7%
Acurácia do k-NN com K = 7 : 62.4%
Acurácia do k-NN com K = 8 : 60.0%
Acurácia do k-NN com K = 9 : 62.0%


Logo, a máxima taxa de acerto da classificação utilizando o método do **k-NN** é dada quando $K = 3$. Percebemos que essa acurácia varia em torno de 60%, e a diferença entre o classificador construído e da função pronta pode ser explicada por a última levar em considerações mais parâmetros e fatores, o que podem tornar o classificador mais sensível e preciso.