In [2]:
'''
Universidade Federal Fluminense
Programa de Pós-Graduação em Computação
Aprendizado de Máquina (EAD) - 2020.1
Autor: Eliseu Paz e Silva de Guimarães
Trabalho Prático
Descrição: este script tem o objetivo de fazer a classificação e calcular as medidas de desempenho para o trabalho prático da
disciplina de AM (EAD)
'''
import pandas as pd
import numpy as np
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score, accuracy_score
from statistics import mean

#Configura os parâmetros dos classificadores e da validação cruzada
skf = StratifiedKFold(n_splits=10)
svc_clf = SVC(kernel='linear')
lr_clf = LogisticRegression(max_iter = 10000)
svc_accur = []
lr_accur = []
svc_f1 = []
lr_f1 = []

#Carrega os embeddings dos reviews e suas classes
print("Carregando o arquivo de dados...")
df_data = pd.read_csv("reviews_emb.csv", header=None)
X = df_data.iloc[:, :len(df_data.columns)-2].to_numpy()
y = df_data[len(df_data.columns)-1].to_numpy()

#Calcula as medidas de desempenho com 10-fold cross-validation
print("Calculando as medidas de desempenho usando 10-fold cross-validation")
for train_index, test_index in skf.split(X, y):
    #Treina os classificadores
    svc_clf.fit(X[train_index], y[train_index])
    lr_clf.fit(X[train_index], y[train_index])
    
    #Prediz as classes
    svc_predict = svc_clf.predict(X[test_index])
    lr_predict = lr_clf.predict(X[test_index])
    
    #Calcula as medidas de desempenho para este fold
    svc_accur.append(accuracy_score(y[test_index], svc_predict))
    lr_accur.append(accuracy_score(y[test_index], lr_predict))
    svc_f1.append(f1_score(y[test_index], svc_predict, average='macro'))
    lr_f1.append(f1_score(y[test_index], lr_predict, average='macro'))

print("Algoritmo SVM")
print("Acurácia: "+"{:6.4f}".format(mean(svc_accur))+"\nF-measure: "+"{:6.4f}".format(mean(svc_f1)))
print("Algoritmo Logistic Regression")
print("Acurácia: "+"{:6.4f}".format(mean(lr_accur))+"\nF-measure: "+"{:6.4f}".format(mean(lr_f1)))

Carregando o arquivo de dados...
Calculando as medidas de desempenho usando 10-fold cross-validation
Algoritmo SVM
Acurácia: 0.7401
F-measure: 0.7393
Algoritmo Logistic Regression
Acurácia: 0.7244
F-measure: 0.7241
