# Importando as bibliotecas

In [14]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn import metrics
from sklearn.metrics import confusion_matrix
import pandas as pd
import numpy as np
from collections import Counter
import os
import sys
sys.path.insert(0, os.path.abspath('../Util'))
from dados import ProcessarDados

In [15]:
# Dataset

In [16]:
procData = ProcessarDados("../dataset/norm_bin_10_FEATURES_M17_CM6b_TH199.csv")

In [17]:
# Funções

In [18]:
# funcção que treina e testa o modelo armazenando as métricas
# retorna um dicionário cotendo os valores das métricas de cada rodada
def treinamento_teste(epocas = 10, k_folds = 5, exibir_matriz_confusao=False, exibir_metricas=False):
    
    #array para armazenar as das métricas de cada rodada
    resultados_accuracy = []
    resultados_precision = []
    resultados_recall = []
    resultados_specificity = [] # taxa de verdadeiros negativos ou especificidade
    resultados_f2 = []
    resultados_parametros = []
    
    #dicionário das métricas
    resultados_gerais = {}

    for i in range(epocas):
        # divisão os dados 
        seed = i
        X_train, X_test, y_train, y_test = procData.holdout(0.2, seed)
        #print(Counter(y_test))

        # realizando o grid search para encontrar a melhor K-Vizinhos e pesos, 
        # considerando a acurácia (taxa de acerto)
        # aqui o método GridSearchCV é configurado para subdividir os dados de treino em k_folds
        clf = KNeighborsClassifier()
        grid_knn = GridSearchCV(clf, param_grid, cv=k_folds, scoring='accuracy', verbose=0, n_jobs=-1)
        grid_knn.fit(X_train, y_train)
        
        # Treinando do modelo com os melhores parametros encontrados
        grid_knn.best_params_
        Kvizinhos_best = int(grid_knn.best_params_['n_neighbors']) 
        p_best = grid_knn.best_estimator_.p
        KNN = KNeighborsClassifier(n_neighbors=Kvizinhos_best, p=p_best, metric='minkowski')
        KNN.fit(X_train, y_train)

        #testando o modelo
        y_pred = KNN.predict(X_test)
        cm  = confusion_matrix(y_test, y_pred)
        if exibir_matriz_confusao:
            print(cm)

        # calculado as metricas
        accuracy = metrics.accuracy_score(y_test, y_pred)
        precision = metrics.precision_score(y_test, y_pred)
        recall = metrics.recall_score(y_test, y_pred)
        # f2-score
        # Fbeta = ((1 + beta^2) * Precision * Recall) / (beta^2 * Precision + Recall)
        beta = 0.5
        f2_score = (1 + beta**2) * (precision * recall) / (beta**2 * precision + recall)
        tn, fp, fn, tp = cm.ravel()
        specificity = tn / (tn+fp)

        # armazenando as métricas
        resultados_accuracy.append(accuracy)
        resultados_precision.append(precision)
        resultados_recall.append(recall)
        resultados_specificity.append(specificity)
        resultados_f2.append(f2_score)

        best_parametros = {'n_neighbors': Kvizinhos_best, 'p': p_best};
        resultados_parametros.append(best_parametros)


        if exibir_metricas:
            print("Rodada: #",i)
            print(best_parametros)
            print("Accuracy:",accuracy)
            print("Precision:",precision)
            print("Recall:",recall)
            print("Specificity:",specificity)
            print("fb-Score:",f2_score)
            print("\n")

            
    resultados_gerais['accuracy'] = resultados_accuracy
    resultados_gerais['precision'] = resultados_precision
    resultados_gerais['recall'] = resultados_recall
    resultados_gerais['specificity'] = resultados_specificity
    resultados_gerais['f2'] = resultados_f2
    resultados_gerais['params'] = resultados_parametros
    
    return resultados_gerais

In [19]:
def tabelaMetricas(nome_modelo, dict_metricas, rodadas=False, salvarResultados=True):
        
    print ("============================================== "+nome_modelo+" =================================================")
    print ("=================================== TABELA DE MÉTRICAS DO MODELO ===================================")
    
    if(rodadas==False):
        print ("\t Accuracy \t|\t Precision \t|\t Recall \t|\tSpecificity \t|\t fb-Score")
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['accuracy'], axis=0), np.std(dict_metricas['accuracy'], axis=0)),end=' ')
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['precision'], axis=0), np.std(dict_metricas['precision'], axis=0)),end='  ')
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['recall'], axis=0), np.std(dict_metricas['recall'], axis=0)),end=' ')
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['specificity'], axis=0), np.std(dict_metricas['specificity'], axis=0)),end='   ')
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['f2'], axis=0), np.std(dict_metricas['f2'], axis=0)))
        print ("====================================================================================================")
        
    if(salvarResultados):
        # save to npy file
        np.save('../resultados/resultados_'+nome_modelo+'.npy', dict_metricas)

# Definindo os parâmetros

In [20]:
#K-Vizinhos
n_neighbors = np.arange(1,25)
#'uniforme': Todos os pontos em cada vizinho têm o mesmo peso.
#'distância': Inverso de sua distância, os vizinhos mais próximos de um ponto de consulta terão uma influência maior do que os vizinhos mais distantes.
pesos = [1,2]
param_grid = {'n_neighbors': n_neighbors, 'p': pesos}
epocas = 50
k_folds = 5
exibir_matriz_confusao = True
exibir_metricas = True

# Treinando e obtendo as métricas do modelo

In [21]:
# treinando o modelo
dict_metricas = treinamento_teste(epocas, k_folds, exibir_matriz_confusao, exibir_metricas)
tabelaMetricas('KNN',dict_metricas)

[[22  6]
 [ 7 85]]
Rodada: # 0
{'n_neighbors': 1, 'p': 2}
Accuracy: 0.8916666666666667
Precision: 0.9340659340659341
Recall: 0.9239130434782609
Specificity: 0.7857142857142857
fb-Score: 0.9320175438596493


[[20 13]
 [ 5 82]]
Rodada: # 1
{'n_neighbors': 1, 'p': 2}
Accuracy: 0.85
Precision: 0.8631578947368421
Recall: 0.9425287356321839
Specificity: 0.6060606060606061
fb-Score: 0.8779443254817988


[[13  9]
 [ 7 91]]
Rodada: # 2
{'n_neighbors': 7, 'p': 1}
Accuracy: 0.8666666666666667
Precision: 0.91
Recall: 0.9285714285714286
Specificity: 0.5909090909090909
fb-Score: 0.9136546184738956


[[25  7]
 [ 2 86]]
Rodada: # 3
{'n_neighbors': 3, 'p': 2}
Accuracy: 0.925
Precision: 0.9247311827956989
Recall: 0.9772727272727273
Specificity: 0.78125
fb-Score: 0.9347826086956521


[[25  3]
 [ 5 87]]
Rodada: # 4
{'n_neighbors': 1, 'p': 2}
Accuracy: 0.9333333333333333
Precision: 0.9666666666666667
Recall: 0.9456521739130435
Specificity: 0.8928571428571429
fb-Score: 0.9623893805309733


[[19 13]
 [ 5 83]

[[20 10]
 [ 0 90]]
Rodada: # 42
{'n_neighbors': 9, 'p': 2}
Accuracy: 0.9166666666666666
Precision: 0.9
Recall: 1.0
Specificity: 0.6666666666666666
fb-Score: 0.9183673469387754


[[18  7]
 [ 4 91]]
Rodada: # 43
{'n_neighbors': 7, 'p': 2}
Accuracy: 0.9083333333333333
Precision: 0.9285714285714286
Recall: 0.9578947368421052
Specificity: 0.72
fb-Score: 0.9342915811088297


[[24  9]
 [ 6 81]]
Rodada: # 44
{'n_neighbors': 3, 'p': 1}
Accuracy: 0.875
Precision: 0.9
Recall: 0.9310344827586207
Specificity: 0.7272727272727273
fb-Score: 0.906040268456376


[[25  8]
 [ 1 86]]
Rodada: # 45
{'n_neighbors': 1, 'p': 2}
Accuracy: 0.925
Precision: 0.9148936170212766
Recall: 0.9885057471264368
Specificity: 0.7575757575757576
fb-Score: 0.9287257019438445


[[20  5]
 [ 4 91]]
Rodada: # 46
{'n_neighbors': 5, 'p': 1}
Accuracy: 0.925
Precision: 0.9479166666666666
Recall: 0.9578947368421052
Specificity: 0.8
fb-Score: 0.9498956158663883


[[16  8]
 [ 3 93]]
Rodada: # 47
{'n_neighbors': 6, 'p': 2}
Accuracy: 0.908