# Importando as bibliotecas

In [90]:
from sklearn import svm
from sklearn.model_selection import GridSearchCV
from sklearn import metrics
from sklearn.metrics import confusion_matrix
import pandas as pd
import numpy as np
from collections import Counter
import os
import sys
sys.path.insert(0, os.path.abspath('../Util'))
from dados import ProcessarDados
from sklearn.multiclass import OneVsRestClassifier
from sklearn.metrics import classification_report

# Dataset

In [98]:
procData = ProcessarDados("../dataset/bin_norm_10_features_m73_n4.csv", sep = ',')

# Funções

In [169]:
# funcção que treina e testa o modelo armazenando as métricas
# retorna um dicionário cotendo os valores das métricas de cada rodada
def treinamento_teste(epocas = 10, k_folds = 5, exibir_matriz_confusao=False, exibir_metricas=False):
    
    #array para armazenar as das métricas de cada rodada
    resultados_accuracy = []
    resultados_precision = []
    resultados_recall = []
    resultados_specificity = [] # taxa de verdadeiros negativos ou especificidade
    resultados_f2 = []
    resultados_parametros = []
    
    #dicionário das métricas
    resultados_gerais = {}

    for i in range(epocas):
        # divisão os dados 
        seed = i
        X_train, X_test, y_train, y_test = procData.holdout2(0.20, seed)
        #print(Counter(y_test))

        # realizando o grid search para encontrar a melhor combinação entre o C, gamma e Kernel, 
        # considerando a acurácia (taxa de acerto)
        # aqui o método GridSearchCV é configurado para subdividir os dados de treino em k_folds
        clf = svm.SVC(random_state = seed)
        grid_svm = GridSearchCV(clf, param_grid, cv=k_folds, scoring='accuracy', verbose=0)
        grid_svm.fit(X_train, y_train)

        # Treinando do modelo com os melhores parametros encontrados
        C_best = grid_svm.best_estimator_.C
        gamma_best = grid_svm.best_estimator_.gamma
        kernel_best = grid_svm.best_estimator_.kernel

        SVM = svm.SVC(random_state = seed, C = C_best, gamma = gamma_best, kernel = kernel_best)
        SVM.fit(X_train, y_train)

        #testando o modelo
        y_pred = SVM.predict(X_test)
        cm  = confusion_matrix(y_test, y_pred)
        if exibir_matriz_confusao:
            print(cm)

        # calculado as metricas
        accuracy = metrics.accuracy_score(y_test, y_pred)
        precision = metrics.precision_score(y_test, y_pred)
        recall = metrics.recall_score(y_test, y_pred)
        # f2-score
        # Fbeta = ((1 + beta^2) * Precision * Recall) / (beta^2 * Precision + Recall)
        beta = 0.5
        f2_score = (1 + beta**2) * (precision * recall) / (beta**2 * precision + recall)
        tn, fp, fn, tp = cm.ravel()
        specificity = tn / (tn+fp)

        # armazenando as métricas
        resultados_accuracy.append(accuracy)
        resultados_precision.append(precision)
        resultados_recall.append(recall)
        resultados_specificity.append(specificity)
        resultados_f2.append(f2_score)

        best_parametros = {"C": C_best, "Gamma": gamma_best, "Kernel": kernel_best};
        resultados_parametros.append(best_parametros)
        


        if exibir_metricas:
            print("Rodada: #",i+1)
            print(best_parametros)
            print("Accuracy:",accuracy)
            print("Precision:",precision)
            print("Recall:",recall)
            print("Specificity:",specificity)
            print("f2-Score:",f2_score)
            print("\n")

            
    resultados_gerais['accuracy'] = resultados_accuracy
    resultados_gerais['precision'] = resultados_precision
    resultados_gerais['recall'] = resultados_recall
    resultados_gerais['specificity'] = resultados_specificity
    resultados_gerais['f2'] = resultados_f2
    resultados_gerais['params'] = resultados_parametros
    
    return resultados_gerais

In [184]:
import csv
def writeResultsCsv(dict_results, name_file):
    keys = list(resultados_svm.item().keys())
    keys.insert(0,'Rodada')
    with open('mycsvfile.csv', 'w') as f:  # You will need 'wb' mode in Python 2.x
        w = csv.writer(f)
        #w.writeheader()
        row = []
        w.writerow(keys)
        for i in range(epocas):
            row = []
            acc = resultados_svm.item().get('accuracy')[i]
            prec = resultados_svm.item().get('precision')[i]
            sen = resultados_svm.item().get('recall')[i]
            spe = resultados_svm.item().get('specificity')[i]
            fscore = resultados_svm.item().get('f2')[i]
            param = resultados_svm.item().get('params')[i]

            row.append(i+1)
            row.append(acc)
            row.append(prec)
            row.append(sen)
            row.append(spe)
            row.append(fscore)
            row.append(param)

            w.writerow(row)
    

In [170]:
def tabelaMetricas(nome_modelo, dict_metricas, rodadas=False, salvarResultados=True):
        
    print ("============================================== "+nome_modelo+" =================================================")
    print ("=================================== TABELA DE MÉTRICAS DO MODELO ===================================")
    
    if(rodadas==False):
        print ("\t Accuracy \t|\t Precision \t|\t Recall \t|\tSpecificity \t|\t fb-Score")
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['accuracy'], axis=0), np.std(dict_metricas['accuracy'], axis=0)),end=' ')
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['precision'], axis=0), np.std(dict_metricas['precision'], axis=0)),end='  ')
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['recall'], axis=0), np.std(dict_metricas['recall'], axis=0)),end=' ')
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['specificity'], axis=0), np.std(dict_metricas['specificity'], axis=0)),end='   ')
        print ("      %.4f +- %.4f" % (np.mean(dict_metricas['f2'], axis=0), np.std(dict_metricas['f2'], axis=0)))
        print ("====================================================================================================")
        
    if(salvarResultados):
        # save to npy file
        np.save('../resultados/resultados_'+nome_modelo+'.npy', dict_metricas)

# Definindo os parâmetros

In [171]:
c_range = [10, 20, 30, 40, 50]
gammas = [0.01, 0.02, 0.03, 0.04, 0.05]
kernels = ["rbf"]
param_grid = {'C': c_range, 'gamma': gammas, 'kernel': kernels}

epocas = 50
k_folds = 5
exibir_matriz_confusao = True
exibir_metricas = True
salvarResultados = True
rodadas=False

# Treinando e obtendo as métricas do modelo

In [172]:
# treinando o modelo
dict_metricas = treinamento_teste(epocas, k_folds, exibir_matriz_confusao, exibir_metricas)
tabelaMetricas('SVM',dict_metricas, rodadas, salvarResultados)

[[18  2]
 [ 1 49]]
Rodada: # 1
{'C': 20, 'Gamma': 0.05, 'Kernel': 'rbf'}
Accuracy: 0.9571428571428572
Precision: 0.9607843137254902
Recall: 0.98
Specificity: 0.9
f2-Score: 0.9645669291338583


[[18  2]
 [ 3 47]]
Rodada: # 2
{'C': 20, 'Gamma': 0.02, 'Kernel': 'rbf'}
Accuracy: 0.9285714285714286
Precision: 0.9591836734693877
Recall: 0.94
Specificity: 0.9
f2-Score: 0.9552845528455283


[[18  2]
 [ 0 50]]
Rodada: # 3
{'C': 30, 'Gamma': 0.05, 'Kernel': 'rbf'}
Accuracy: 0.9714285714285714
Precision: 0.9615384615384616
Recall: 1.0
Specificity: 0.9
f2-Score: 0.9689922480620154


[[17  3]
 [ 2 48]]
Rodada: # 4
{'C': 10, 'Gamma': 0.05, 'Kernel': 'rbf'}
Accuracy: 0.9285714285714286
Precision: 0.9411764705882353
Recall: 0.96
Specificity: 0.85
f2-Score: 0.9448818897637795


[[17  3]
 [ 4 46]]
Rodada: # 5
{'C': 50, 'Gamma': 0.05, 'Kernel': 'rbf'}
Accuracy: 0.9
Precision: 0.9387755102040817
Recall: 0.92
Specificity: 0.85
f2-Score: 0.9349593495934959


[[16  4]
 [ 3 47]]
Rodada: # 6
{'C': 10, 'Gamma':

In [174]:
# load array
from numpy import load
array_accuracy = []
array_f2 = []

resultados_svm = load('../resultados/resultados_svm.npy', allow_pickle=True)

array_accuracy.append(resultados_svm.item().get('accuracy'))

['Rodada', 'accuracy', 'precision', 'recall', 'specificity', 'f2', 'params']

[1, 0.9571428571428572, 0.9607843137254902, 0.98, 0.9, 0.9645669291338583, {'C': 20, 'Gamma': 0.05, 'Kernel': 'rbf'}]
[2, 0.9285714285714286, 0.9591836734693877, 0.94, 0.9, 0.9552845528455283, {'C': 20, 'Gamma': 0.02, 'Kernel': 'rbf'}]
[3, 0.9714285714285714, 0.9615384615384616, 1.0, 0.9, 0.9689922480620154, {'C': 30, 'Gamma': 0.05, 'Kernel': 'rbf'}]
[4, 0.9285714285714286, 0.9411764705882353, 0.96, 0.85, 0.9448818897637795, {'C': 10, 'Gamma': 0.05, 'Kernel': 'rbf'}]
[5, 0.9, 0.9387755102040817, 0.92, 0.85, 0.9349593495934959, {'C': 50, 'Gamma': 0.05, 'Kernel': 'rbf'}]
[6, 0.9, 0.9215686274509803, 0.94, 0.8, 0.9251968503937007, {'C': 10, 'Gamma': 0.04, 'Kernel': 'rbf'}]
[7, 0.9571428571428572, 0.9607843137254902, 0.98, 0.9, 0.9645669291338583, {'C': 10, 'Gamma': 0.05, 'Kernel': 'rbf'}]
[8, 0.9142857142857143, 0.8928571428571429, 1.0, 0.7, 0.9124087591240876, {'C': 10, 'Gamma': 0.04, 'Kernel': 'rbf'}]
[9, 0.9285714285714286, 0.9411764705882353, 0.96, 0.85, 0.9448818897637795, {'C': 50, 