Implemente os classificadores k-NN, com e sem peso, e o k-NN adaptativo; use distância Euclidiana. Avalie os três classificadores em duas bases de dados do repositório Promise (ver link abaixo). Essas bases devem conter apenas atributos numéricos. Varie o parâmetro k = {1,2,3,5,7,9,11,13,15} e construa um gráfico que mostre o comportamento da taxa de acerto à medida que o valor de k muda para os três classificadores. Analise os resultados em relação ao tempo de processamento e à taxa de acerto, e construa uma argumentação que indique as melhores escolhas para as bases de dados avaliadas. (dica: observe o valor de k, o acerto/erro por classe, o tempo de treinamento e o tempo de teste).

Promise repository: http://promise.site.uottawa.ca/SERepository/datasets-page.html. Na avaliação dos algoritmos, use o k-fold cross-validation. O relatório deve conter informações de forma que seja possível replicar os experimentos (metodologia dos experimentos), além dos resultados e suas análises.

In [3]:
import pandas as pd
import numpy as np
kc1Dataset = pd.read_csv('datasets/kc1.csv')
kc1Dataset.head()

Unnamed: 0,loc,v(g),ev(g),iv(g),n,v,l,d,i,e,...,lOCode,lOComment,lOBlank,lOCodeAndComment,uniq_Op,uniq_Opnd,total_Op,total_Opnd,branchCount,problems
0,1.1,1.4,1.4,1.4,1.3,1.3,1.3,1.3,1.3,1.3,...,2,2,2,2,1.2,1.2,1.2,1.2,1.4,False
1,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,1,1,1,1,1.0,1.0,1.0,1.0,1.0,True
2,83.0,11.0,1.0,11.0,171.0,927.89,0.04,23.04,40.27,21378.61,...,65,10,6,0,18.0,25.0,107.0,64.0,21.0,True
3,46.0,8.0,6.0,8.0,141.0,769.78,0.07,14.86,51.81,11436.73,...,37,2,5,0,16.0,28.0,89.0,52.0,15.0,True
4,25.0,3.0,1.0,3.0,58.0,254.75,0.11,9.35,27.25,2381.95,...,21,0,2,0,11.0,10.0,41.0,17.0,5.0,True


In [4]:
# tratando os dados
kc1Dataset['problems'] = kc1Dataset['problems'].astype(int)
kc1Dataset.head()

Unnamed: 0,loc,v(g),ev(g),iv(g),n,v,l,d,i,e,...,lOCode,lOComment,lOBlank,lOCodeAndComment,uniq_Op,uniq_Opnd,total_Op,total_Opnd,branchCount,problems
0,1.1,1.4,1.4,1.4,1.3,1.3,1.3,1.3,1.3,1.3,...,2,2,2,2,1.2,1.2,1.2,1.2,1.4,0
1,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,1,1,1,1,1.0,1.0,1.0,1.0,1.0,1
2,83.0,11.0,1.0,11.0,171.0,927.89,0.04,23.04,40.27,21378.61,...,65,10,6,0,18.0,25.0,107.0,64.0,21.0,1
3,46.0,8.0,6.0,8.0,141.0,769.78,0.07,14.86,51.81,11436.73,...,37,2,5,0,16.0,28.0,89.0,52.0,15.0,1
4,25.0,3.0,1.0,3.0,58.0,254.75,0.11,9.35,27.25,2381.95,...,21,0,2,0,11.0,10.0,41.0,17.0,5.0,1


In [5]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import time

variacoes_k = [1,2,3,5,7,9,11,13,15]
SEED = 5
np.random.seed(SEED)
x = kc1Dataset.loc[:, kc1Dataset.columns != 'problems']
y = kc1Dataset['problems']
treino_x, teste_x, treino_y, teste_y = train_test_split(x, y, test_size = 0.25,
                                                         stratify = y)
print("Treinaremos com %d elementos e testaremos com %d elementos" % (len(treino_x), len(teste_x)))

Treinaremos com 1581 elementos e testaremos com 528 elementos


In [18]:
for k in variacoes_k:
    neigh = KNeighborsClassifier(n_neighbors=k, weights='uniform', metric='euclidean')

    inicioTreino = time.time()
    neigh.fit(treino_x, treino_y)
    fimTreino = time.time()
    tempoTreino = fimTreino - inicioTreino

    inicioTeste = time.time()
    previsoes = neigh.predict(teste_x)
    fimTeste = time.time()
    tempoTeste = fimTeste - inicioTeste

    #calculando a acuracia
    acuracia = accuracy_score(teste_y, previsoes) * 100
    print(f"A acurácia com k={k} foi %.2f%%" % acuracia)
    print("Tempo de treino: %.4g s" % tempoTreino)
    print("Tempo de teste: %.4g s" % tempoTeste)


A acurácia com k=1 foi 81.63%
Tempo de treino: 0.0025 s
Tempo de teste: 0.02352 s
A acurácia com k=2 foi 82.95%
Tempo de treino: 0.001501 s
Tempo de teste: 0.01947 s
A acurácia com k=3 foi 80.68%
Tempo de treino: 0.001502 s
Tempo de teste: 0.02 s
A acurácia com k=5 foi 83.90%
Tempo de treino: 0.00147 s
Tempo de teste: 0.02352 s
A acurácia com k=7 foi 84.09%
Tempo de treino: 0.001 s
Tempo de teste: 0.02298 s
A acurácia com k=9 foi 84.85%
Tempo de treino: 0.001501 s
Tempo de teste: 0.02303 s
A acurácia com k=11 foi 85.23%
Tempo de treino: 0.001513 s
Tempo de teste: 0.02296 s
A acurácia com k=13 foi 85.80%
Tempo de treino: 0.002024 s
Tempo de teste: 0.02397 s
A acurácia com k=15 foi 85.61%
Tempo de treino: 0.001531 s
Tempo de teste: 0.02497 s


In [7]:
for k in variacoes_k:
    neigh = KNeighborsClassifier(n_neighbors=k, weights='distance', metric='euclidean')
    neigh.fit(treino_x, treino_y)
    previsoes = neigh.predict(teste_x)

    #calculando a acuracia
    acuracia = accuracy_score(teste_y, previsoes) * 100
    print(f"A acurácia com k={k} foi %.2f%%" % acuracia)

A acurácia com k=1 foi 81.63%
A acurácia com k=2 foi 81.63%
A acurácia com k=3 foi 81.44%
A acurácia com k=5 foi 82.95%
A acurácia com k=7 foi 83.71%
A acurácia com k=9 foi 83.52%
A acurácia com k=11 foi 84.85%
A acurácia com k=13 foi 85.23%
A acurácia com k=15 foi 84.85%
