# Machine Learning Methods

In [20]:
import pandas as pd
import numpy as np
import pickle
import random
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer
from tqdm import tqdm
import xmltodict
from dicttoxml import dicttoxml
from xml.dom.minidom import parseString

In [2]:
%run ../funcoes.py

Loading functions...


In [16]:
f = open("data/aspectsTest.xml","r")
xml = f.read()
aspectsTest = xmltodict.parse(xml, process_namespaces=True)['datasets']

## Pre Processing

In [6]:
dfCamera = pd.read_csv('data/domain_camera_IOB.csv', sep='\t', quoting=3)
dfCameraTest = pd.read_csv('data/domain_camera_IOB_test.csv', sep='\t', quoting=3)
dfCameraTrain = pd.read_csv('data/domain_camera_IOB_train.csv', sep='\t', quoting=3)

dfCamera = dfCamera.fillna(method='ffill')
dfCameraTest = dfCameraTest.fillna(method='ffill')
dfCameraTrain = dfCameraTrain.fillna(method='ffill')

X_camera = dfCamera.drop('Tag', axis=1)
X_camera_train = dfCameraTrain.drop('Tag', axis=1)
X_camera_test = dfCameraTest.drop('Tag', axis=1)

v = DictVectorizer(sparse=False)
v.fit(X_camera.to_dict('records'))

X_camera = v.transform(X_camera.to_dict('records'))
X_camera_train = v.transform(X_camera_train.to_dict('records'))
X_camera_test = v.transform(X_camera_test.to_dict('records'))

y_camera = dfCamera.Tag.values
y_camera_train = dfCameraTrain.Tag.values
y_camera_test = dfCameraTest.Tag.values

X_camera_train.shape, y_camera_train.shape, X_camera_test.shape, y_camera_test.shape

((3386, 1590), (3386,), (1289, 1590), (1289,))

In [7]:
classes = np.unique(y_camera)
classes = classes.tolist()
classes

['B-asp', 'I-asp', 'O']

In [8]:
new_classes = classes.copy()
new_classes.pop()
new_classes

['B-asp', 'I-asp']

In [9]:
dfLivro = pd.read_csv('data/domain_livro_IOB.csv', sep='\t', quoting=3)
dfLivroTest = pd.read_csv('data/domain_livro_IOB_test.csv', sep='\t', quoting=3)
dfLivroTrain = pd.read_csv('data/domain_livro_IOB_train.csv', sep='\t', quoting=3)

dfLivro = dfLivro.fillna(method='ffill')
dfLivroTest = dfLivroTest.fillna(method='ffill')
dfLivroTrain = dfLivroTrain.fillna(method='ffill')

X_livro = dfLivro.drop('Tag', axis=1)
X_livro_train = dfLivroTrain.drop('Tag', axis=1)
X_livro_test = dfLivroTest.drop('Tag', axis=1)

v = DictVectorizer(sparse=False)
v.fit(X_livro.to_dict('records'))

X_livro = v.transform(X_livro.to_dict('records'))
X_livro_train = v.transform(X_livro_train.to_dict('records'))
X_livro_test = v.transform(X_livro_test.to_dict('records'))

y_livro = dfLivro.Tag.values
y_livro_train = dfLivroTrain.Tag.values
y_livro_test = dfLivroTest.Tag.values

X_livro_train.shape, y_livro_train.shape, X_livro_test.shape, y_livro_test.shape

((4743, 2046), (4743,), (1546, 2046), (1546,))

In [10]:
dfSmartphone = pd.read_csv('data/domain_smartphone_IOB.csv', sep='\t', quoting=3)
dfSmartphoneTest = pd.read_csv('data/domain_smartphone_IOB_test.csv', sep='\t', quoting=3)
dfSmartphoneTrain = pd.read_csv('data/domain_smartphone_IOB_train.csv', sep='\t', quoting=3)

dfSmartphone = dfSmartphone.fillna(method='ffill')
dfSmartphoneTest = dfSmartphoneTest.fillna(method='ffill')
dfSmartphoneTrain = dfSmartphoneTrain.fillna(method='ffill')

X_smartphone = dfSmartphone.drop('Tag', axis=1)
X_smartphone_train = dfSmartphoneTrain.drop('Tag', axis=1)
X_smartphone_test = dfSmartphoneTest.drop('Tag', axis=1)

v = DictVectorizer(sparse=False)
v.fit(X_smartphone.to_dict('records'))

X_smartphone = v.transform(X_smartphone.to_dict('records'))
X_smartphone_train = v.transform(X_smartphone_train.to_dict('records'))
X_smartphone_test = v.transform(X_smartphone_test.to_dict('records'))

y_smartphone = dfSmartphone.Tag.values
y_smartphone_train = dfSmartphoneTrain.Tag.values
y_smartphone_test = dfSmartphoneTest.Tag.values

X_smartphone_train.shape, y_smartphone_train.shape, X_smartphone_test.shape, y_smartphone_test.shape

((4655, 2207), (4655,), (2523, 2207), (2523,))

In [11]:
dfHotel = pd.read_csv('data/domain_hotel_IOB.csv', sep='\t', quoting=3)
dfHotelTest = pd.read_csv('data/domain_hotel_IOB_test.csv', sep='\t', quoting=3)
dfHotelTrain = pd.read_csv('data/domain_hotel_IOB_train.csv', sep='\t', quoting=3)

dfHotel = dfHotel.fillna(method='ffill')
dfHotelTest = dfHotelTest.fillna(method='ffill')
dfHotelTrain = dfHotelTrain.fillna(method='ffill')

X_hotel = dfHotel.drop('Tag', axis=1)
X_hotel_test = dfHotelTest.drop('Tag', axis=1)
X_hotel_train = dfHotelTrain.drop('Tag', axis=1)

v = DictVectorizer(sparse=False)
v.fit(X_hotel.to_dict('records'))

X_hotel = v.transform(X_hotel.to_dict('records'))
X_hotel_test = v.transform(X_hotel_test.to_dict('records'))
X_hotel_train = v.transform(X_hotel_train.to_dict('records'))

y_hotel = dfHotel.Tag.values
y_hotel_test = dfHotelTest.Tag.values
y_hotel_train = dfHotelTrain.Tag.values

X_hotel_train.shape, y_hotel_train.shape, X_hotel_test.shape, y_hotel_test.shape

((11402, 3946), (11402,), (4671, 3946), (4671,))

In [13]:
def result2aspecList(y_pred, dfTest):
    aspectsList = []
    aspect = []
    for tag, token in zip(y_pred, dfTest['Word']):
        if tag != 'O':
            if tag == 'B-asp' and aspect:
                aspectsList.append(" ".join(aspect).lower())
                aspect = []
            aspect.append(token)
    aspectsList = list(set(aspectsList))
    aspectsList.sort()    
    return aspectsList

## Perceptron

In [41]:
params = {
    "alpha" : [0.0001, 0.001, 0.01, 0.1],
    "penalty" : ["l2", "l1", "elasticnet", "none"],
}
model = Perceptron(verbose=0, n_jobs=-1, max_iter=2000)
per = GridSearchCV(model, param_grid=params,  n_jobs=-1, scoring='f1_macro')

### Camera

In [90]:
# carregandao tipos
domain='camera'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [91]:
#per = Perceptron(verbose=0, n_jobs=-1, max_iter=1500)
per.fit(X_camera_train, y_camera_train)
print("Best parameters from gridsearch: {}".format(per.best_params_))
print("CV score=%0.3f" % per.best_score_)
y_camera_pred=per.predict(X_camera_test)
aspectsCamera = result2aspecList(y_camera_pred, dfCameraTest)
resCamera = calculaMetricas(
    aspectsCamera, 
    aspectsTest['camera'], 
    tipos,
    lemma=False, 
    output=False
)
resCamera

Best parameters from gridsearch: {'alpha': 0.0001, 'penalty': 'none'}
CV score=0.546


{'totalAspects': 104,
 'pred': 32,
 'tp': 47,
 'fp': 11,
 'fn': 57,
 'precisao': 0.8103448275862069,
 'precisaoLaplace': 0.8,
 'revocacao': 0.4519230769230769,
 'medidaf': 0.5802469135802469,
 'totalExplicitos': 91,
 'explicitosOk': 20,
 'pExplicitos': 0.21978021978021978,
 'explicitsList': ['custo-benefício',
  'funções',
  'investimento',
  'visor',
  'máquina',
  'recursos',
  'zoom',
  'camera',
  'produto',
  'lente',
  'preço',
  'fotos',
  'resolução',
  'manuseio',
  'vídeos',
  'tela',
  'câmera',
  'flash',
  'acessórios',
  'bateria'],
 'totalImplicitos': 13,
 'implicitosOk': 1,
 'pImplicitos': 0.07692307692307693,
 'implicitsList': ['compacta'],
 'tipos': {'Qualification': {'Adjective': 4}}}

In [92]:
xml = dicttoxml(resCamera, attr_type=False, custom_root='resultados')
with open('../resultados/perceptron_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Livro

In [45]:
# carregando tipos
domain='livro'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [46]:
#per = Perceptron(verbose=0, n_jobs=-1, max_iter=1500)
per.fit(X_livro_train, y_livro_train)
print("Best parameters from gridsearch: {}".format(per.best_params_))
print("CV score=%0.3f" % per.best_score_)
y_livro_pred=per.predict(X_livro_test)
aspectsListLivro = result2aspecList(y_livro_pred, dfLivroTest)
resLivro = calculaMetricas(aspectsListLivro, aspectsTest['livro'], tipos, lemma=False, output=False)
resLivro

Best parameters from gridsearch: {'alpha': 0.0001, 'penalty': 'elasticnet'}
CV score=0.601


{'totalAspects': 87,
 'pred': 1,
 'tp': 14,
 'fp': 0,
 'fn': 73,
 'precisao': 1.0,
 'precisaoLaplace': 0.9375,
 'revocacao': 0.16091954022988506,
 'medidaf': 0.2772277227722772,
 'totalExplicitos': 82,
 'explicitosOk': 1,
 'pExplicitos': 0.012195121951219513,
 'explicitsList': ['livro'],
 'totalImplicitos': 5,
 'implicitosOk': 0,
 'pImplicitos': 0.0,
 'implicitsList': [],
 'tipos': {}}

In [47]:
xml = dicttoxml(resLivro, attr_type=False, custom_root='resultados')
with open('../resultados/perceptron_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Smartphone

In [48]:
# carregando tipos
domain='smartphone'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [49]:
#per = Perceptron(verbose=0, n_jobs=-1, max_iter=1500)
per.fit(X_smartphone_train, y_smartphone_train)
print("Best parameters from gridsearch: {}".format(per.best_params_))
print("CV score=%0.3f" % per.best_score_)
y_smartphone_pred=per.predict(X_smartphone_test)
aspectsListSmartphone = result2aspecList(y_smartphone_pred, dfSmartphoneTest)
resSmartphone = calculaMetricas(aspectsListSmartphone, aspectsTest['smartphone'], tipos, lemma=False, output=False)
resSmartphone

Best parameters from gridsearch: {'alpha': 0.0001, 'penalty': 'none'}
CV score=0.518


{'totalAspects': 158,
 'pred': 56,
 'tp': 73,
 'fp': 20,
 'fn': 85,
 'precisao': 0.7849462365591398,
 'precisaoLaplace': 0.7789473684210526,
 'revocacao': 0.4620253164556962,
 'medidaf': 0.5816733067729084,
 'totalExplicitos': 134,
 'explicitosOk': 29,
 'pExplicitos': 0.21641791044776118,
 'explicitsList': ['design',
  'praticidade',
  'custo-benefício',
  'marca',
  'aparelho',
  'camera digital',
  'wi-fi',
  'funções',
  'memoria interna',
  'sinal',
  'visor',
  'recursos',
  'camera',
  'produto',
  'tamanho',
  'fabricante',
  'nokia',
  'memoria',
  'motorola',
  'mp3',
  'modelo',
  'preço',
  'celular',
  'manuseio',
  'touch',
  'menu',
  'botões',
  'memória interna',
  'bateria'],
 'totalImplicitos': 24,
 'implicitosOk': 7,
 'pImplicitos': 0.2916666666666667,
 'implicitsList': ['pesado',
  'bonito',
  'pequeno',
  'moderno',
  'prático',
  'trava',
  'leve'],
 'tipos': {'Qualification': {'Adjective': 6}, 'Event': {'Verb': 2}}}

In [50]:
domain='smartphone'
xml = dicttoxml(resSmartphone, attr_type=False, custom_root='resultados')
with open('../resultados/perceptron_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Hotel 

In [54]:
# carregando tipos
domain='hotel'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [55]:
#per = Perceptron(verbose=0, n_jobs=-1, max_iter=1500)
per.fit(X_hotel_train, y_hotel_train)
print("Best parameters from gridsearch: {}".format(per.best_params_))
print("CV score=%0.3f" % per.best_score_)
y_hotel_pred=per.predict(X_hotel_test)
aspectsListHotel = result2aspecList(y_hotel_pred, dfHotelTest)
resHotel = calculaMetricas(aspectsListHotel, aspectsTest['hotel'], tipos, lemma=False, output=False)
resHotel

Best parameters from gridsearch: {'alpha': 0.0001, 'penalty': 'none'}
CV score=0.648


{'totalAspects': 518,
 'pred': 85,
 'tp': 331,
 'fp': 23,
 'fn': 187,
 'precisao': 0.9350282485875706,
 'precisaoLaplace': 0.9325842696629213,
 'revocacao': 0.638996138996139,
 'medidaf': 0.7591743119266056,
 'totalExplicitos': 292,
 'explicitosOk': 33,
 'pExplicitos': 0.11301369863013698,
 'explicitsList': ['localização',
  'estabelecimento',
  'apartamento',
  'lavanderia',
  'limpeza',
  'piscina',
  'elevador',
  'lojas',
  'estacionamento',
  'shopping',
  'pia',
  'frigobar',
  'carpete',
  'portaria',
  'funcionários',
  'preço',
  'tv',
  'rua',
  'recepção',
  'aeroporto',
  'padrão',
  'cozinha',
  'aparência',
  'cidade',
  'conforto',
  'chuveiro',
  'hotel',
  'instalações',
  'serviço',
  'quarto',
  'atendimento',
  'rodoviária',
  'telefone'],
 'totalImplicitos': 226,
 'implicitosOk': 41,
 'pImplicitos': 0.18141592920353983,
 'implicitsList': ['localização',
  'perto',
  'recepcionistas',
  'cama',
  'apartamento',
  'sujos',
  'barulho',
  'limpeza',
  'room service',


In [56]:
xml = dicttoxml(resHotel, attr_type=False, custom_root='resultados')
with open('../resultados/perceptron_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Resultados

In [29]:
resultados = []
resultados.append(resCamera)
resultados.append(resLivro)
resultados.append(resSmartphone)

print(f'Câmera     & Perceptron & {resultados[0]["precisao"]:.2f} & {resultados[0]["revocacao"]:.2f} & {resultados[0]["medidaf"]:.2f} & {resultados[0]["pExplicitos"]*100:.2f} & {resultados[0]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Livro      & Perceptron & {resultados[1]["precisao"]:.2f} & {resultados[1]["revocacao"]:.2f} & {resultados[1]["medidaf"]:.2f} & {resultados[1]["pExplicitos"]*100:.2f} & {resultados[1]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Smartphone & Perceptron & {resultados[2]["precisao"]:.2f} & {resultados[2]["revocacao"]:.2f} & {resultados[2]["medidaf"]:.2f} & {resultados[2]["pExplicitos"]*100:.2f} & {resultados[2]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))

Câmera     & Perceptron & 0,81 & 0,45 & 0,58 & 21,98 & 7,69 \\
Livro      & Perceptron & 1,00 & 0,16 & 0,28 & 1,22 & 0,00 \\
Smartphone & Perceptron & 0,78 & 0,46 & 0,58 & 21,64 & 29,17 \\


In [178]:
resultados = []
resultados.append(resCamera)
resultados.append(resLivro)
resultados.append(resSmartphone)

print(f'Câmera     & Perceptron & {resultados[0]["precisao"]:.2f} & {resultados[0]["revocacao"]:.2f} & {resultados[0]["medidaf"]:.2f} & {resultados[0]["pExplicitos"]*100:.2f} & {resultados[0]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Livro      & Perceptron & {resultados[1]["precisao"]:.2f} & {resultados[1]["revocacao"]:.2f} & {resultados[1]["medidaf"]:.2f} & {resultados[1]["pExplicitos"]*100:.2f} & {resultados[1]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Smartphone & Perceptron & {resultados[2]["precisao"]:.2f} & {resultados[2]["revocacao"]:.2f} & {resultados[2]["medidaf"]:.2f} & {resultados[2]["pExplicitos"]*100:.2f} & {resultados[2]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))

Câmera     & Perceptron & 0,62 & 0,42 & 0,50 & 16,48 & 15,38 \\
Livro      & Perceptron & 0,94 & 0,53 & 0,68 & 14,63 & 0,00 \\
Smartphone & Perceptron & 0,81 & 0,41 & 0,55 & 17,91 & 25,00 \\


## Linear classifiers with SGD training

In [93]:
params = {
    "loss" : ["hinge", "log", "squared_hinge", "modified_huber"],
    "alpha" : [0.0001, 0.001, 0.01, 0.1],
    "penalty" : ["l2", "l1", "none"],
}
model = SGDClassifier(max_iter=4000)
sgd_gs = GridSearchCV(model, param_grid=params,  n_jobs=-1, scoring='f1_macro')

### Camera

In [94]:
# carregando tipos
domain='camera'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [95]:
sgd_gs.fit(X_camera_train, y_camera_train)
print("Best parameters from gridsearch: {}".format(sgd_gs.best_params_))
print("CV score=%0.3f" % sgd_gs.best_score_)
y_camera_pred=sgd_gs.predict(X_camera_test)
aspectsCamera = result2aspecList(y_camera_pred, dfCameraTest)
resCamera = calculaMetricas(
    aspectsCamera, 
    aspectsTest['camera'], 
    tipos, 
    lemma=False, 
    output=False
)
resCamera



Best parameters from gridsearch: {'alpha': 0.0001, 'loss': 'hinge', 'penalty': 'l2'}
CV score=0.545


{'totalAspects': 104,
 'pred': 33,
 'tp': 46,
 'fp': 13,
 'fn': 58,
 'precisao': 0.7796610169491526,
 'precisaoLaplace': 0.7704918032786885,
 'revocacao': 0.4423076923076923,
 'medidaf': 0.5644171779141105,
 'totalExplicitos': 91,
 'explicitosOk': 19,
 'pExplicitos': 0.2087912087912088,
 'explicitsList': ['custo-benefício',
  'funções',
  'investimento',
  'visor',
  'máquina',
  'recursos',
  'zoom',
  'camera',
  'produto',
  'lente',
  'preço',
  'fotos',
  'resolução',
  'manuseio',
  'vídeos',
  'câmera',
  'flash',
  'acessórios',
  'bateria'],
 'totalImplicitos': 13,
 'implicitosOk': 1,
 'pImplicitos': 0.07692307692307693,
 'implicitsList': ['compacta'],
 'tipos': {'Qualification': {'Adjective': 4}}}

In [96]:
xml = dicttoxml(resCamera, attr_type=False, custom_root='resultados')
with open('../resultados/sgd_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Livro

In [97]:
# carregando tipos
domain='livro'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [98]:
sgd_gs.fit(X_livro_train, y_livro_train)
print("Best parameters from gridsearch: {}".format(sgd_gs.best_params_))
print("CV score=%0.3f" % sgd_gs.best_score_)
y_livro_pred=sgd_gs.predict(X_livro_test)
aspectsLivro = result2aspecList(y_livro_pred, dfLivroTest)



Best parameters from gridsearch: {'alpha': 0.001, 'loss': 'modified_huber', 'penalty': 'none'}
CV score=0.592


In [99]:
resLivro = calculaMetricas(
    aspectsLivro, 
    aspectsTest['livro'], 
    tipos, 
    lemma=False, 
    output=False
)
resLivro

{'totalAspects': 87,
 'pred': 15,
 'tp': 48,
 'fp': 1,
 'fn': 39,
 'precisao': 0.9795918367346939,
 'precisaoLaplace': 0.9607843137254902,
 'revocacao': 0.5517241379310345,
 'medidaf': 0.7058823529411765,
 'totalExplicitos': 82,
 'explicitosOk': 14,
 'pExplicitos': 0.17073170731707318,
 'explicitsList': ['começo',
  'livro',
  'personagem',
  'romance',
  'história',
  'trama',
  'personagens',
  'historia',
  'final',
  'obra',
  'fim',
  'leitura',
  'palavra',
  'início'],
 'totalImplicitos': 5,
 'implicitosOk': 0,
 'pImplicitos': 0.0,
 'implicitsList': [],
 'tipos': {}}

In [100]:
xml = dicttoxml(resLivro, attr_type=False, custom_root='resultados')
with open('../resultados/sgd_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Smartphone

In [101]:
# carregando tipos
domain='smartphone'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [102]:
sgd_gs.fit(X_smartphone_train, y_smartphone_train)
print("Best parameters from gridsearch: {}".format(sgd_gs.best_params_))
print("CV score=%0.3f" % sgd_gs.best_score_)
y_smartphone_pred=sgd_gs.predict(X_smartphone_test)
aspectsSmartphone = result2aspecList(y_smartphone_pred, dfSmartphoneTest)
resSmartphone = calculaMetricas(
    aspectsSmartphone, 
    aspectsTest['smartphone'], 
    tipos, 
    lemma=False, 
    output=False
)
resSmartphone



Best parameters from gridsearch: {'alpha': 0.0001, 'loss': 'hinge', 'penalty': 'l2'}
CV score=0.539


{'totalAspects': 158,
 'pred': 50,
 'tp': 65,
 'fp': 18,
 'fn': 93,
 'precisao': 0.7831325301204819,
 'precisaoLaplace': 0.7764705882352941,
 'revocacao': 0.41139240506329117,
 'medidaf': 0.5394190871369295,
 'totalExplicitos': 134,
 'explicitosOk': 26,
 'pExplicitos': 0.19402985074626866,
 'explicitsList': ['design',
  'praticidade',
  'custo-benefício',
  'marca',
  'aparelho',
  'camera digital',
  'wi-fi',
  'funções',
  'sinal',
  'visor',
  'recursos',
  'camera',
  'produto',
  'fabricante',
  'nokia',
  'memoria',
  'motorola',
  'modelo',
  'preço',
  'celular',
  'manuseio',
  'touch',
  'menu',
  'durabilidade',
  'botões',
  'bateria'],
 'totalImplicitos': 24,
 'implicitosOk': 6,
 'pImplicitos': 0.25,
 'implicitsList': ['bonito', 'pequeno', 'moderno', 'prático', 'trava', 'leve'],
 'tipos': {'Qualification': {'Adjective': 5}, 'Event': {'Verb': 2}}}

In [103]:
xml = dicttoxml(resSmartphone, attr_type=False, custom_root='resultados')
with open('../resultados/sgd_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Hotel

In [104]:
# carregando tipos
domain='hotel'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [105]:
sgd_gs.fit(X_hotel_train, y_hotel_train)
print("Best parameters from gridsearch: {}".format(sgd_gs.best_params_))
print("CV score=%0.3f" % sgd_gs.best_score_)
y_hotel_pred=sgd_gs.predict(X_hotel_test)
aspectsHotel = result2aspecList(y_hotel_pred, dfHotelTest)
resHotel = calculaMetricas(
    aspectsHotel, 
    aspectsTest['hotel'], 
    tipos, 
    lemma=False, 
    output=False
)
resHotel



Best parameters from gridsearch: {'alpha': 0.0001, 'loss': 'modified_huber', 'penalty': 'l2'}
CV score=0.635


{'totalAspects': 518,
 'pred': 58,
 'tp': 300,
 'fp': 8,
 'fn': 218,
 'precisao': 0.974025974025974,
 'precisaoLaplace': 0.9709677419354839,
 'revocacao': 0.5791505791505791,
 'medidaf': 0.7263922518159807,
 'totalExplicitos': 292,
 'explicitosOk': 32,
 'pExplicitos': 0.1095890410958904,
 'explicitsList': ['shopping',
  'localização',
  'recepção',
  'estabelecimento',
  'aeroporto',
  'frigobar',
  'padrão',
  'serviço',
  'apartamento',
  'cozinha',
  'carpete',
  'quarto',
  'lavanderia',
  'rua',
  'atendimento',
  'telefone',
  'cidade',
  'portaria',
  'conforto',
  'funcionários',
  'chuveiro',
  'preço',
  'limpeza',
  'piscina',
  'hotel',
  'rodoviária',
  'elevador',
  'lojas',
  'tv',
  'estacionamento',
  'corredor',
  'instalações'],
 'totalImplicitos': 226,
 'implicitosOk': 30,
 'pImplicitos': 0.13274336283185842,
 'implicitsList': ['comida',
  'localização',
  'perto',
  'limpos',
  'transfer',
  'wi-fi',
  'limpo',
  'recepcionistas',
  'apartamento',
  'cozinha',
  'p

In [106]:
xml = dicttoxml(resHotel, attr_type=False, custom_root='resultados')
with open('../resultados/sgd_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Resultados

In [107]:
resultados = []
resultados.append(resCamera)
resultados.append(resLivro)
resultados.append(resSmartphone)

print(f'Câmera     & SGD & {resultados[0]["precisao"]:.2f} & {resultados[0]["revocacao"]:.2f} & {resultados[0]["medidaf"]:.2f} & {resultados[0]["pExplicitos"]*100:.2f} & {resultados[0]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Livro      & SGD & {resultados[1]["precisao"]:.2f} & {resultados[1]["revocacao"]:.2f} & {resultados[1]["medidaf"]:.2f} & {resultados[1]["pExplicitos"]*100:.2f} & {resultados[1]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Smartphone & SGD & {resultados[2]["precisao"]:.2f} & {resultados[2]["revocacao"]:.2f} & {resultados[2]["medidaf"]:.2f} & {resultados[2]["pExplicitos"]*100:.2f} & {resultados[2]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))

Câmera     & SGD & 0,78 & 0,44 & 0,56 & 20,88 & 7,69 \\
Livro      & SGD & 0,98 & 0,55 & 0,71 & 17,07 & 0,00 \\
Smartphone & SGD & 0,78 & 0,41 & 0,54 & 19,40 & 25,00 \\


## Naive Bayes classifier for multinomial models

In [125]:
params = {
    "alpha" : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]
}
model = MultinomialNB()
nb = GridSearchCV(model, param_grid=params,  n_jobs=-1, scoring='f1_macro')

### Cameras

In [126]:
# carregando tipos
domain='camera'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [127]:
nb.fit(X_camera_train, y_camera_train)
print("Best parameters from gridsearch: {}".format(nb.best_params_))
print("CV score=%0.3f" % nb.best_score_)
y_camera_pred=nb.predict(X_camera_test)
aspectsCamera = result2aspecList(y_camera_pred, dfCameraTest)
resCamera = calculaMetricas(aspectsCamera, aspectsTest['camera'], tipos, lemma=False, output=False)
resCamera

Best parameters from gridsearch: {'alpha': 1}
CV score=0.467


{'totalAspects': 104,
 'pred': 149,
 'tp': 71,
 'fp': 107,
 'fn': 33,
 'precisao': 0.398876404494382,
 'precisaoLaplace': 0.4,
 'revocacao': 0.6826923076923077,
 'medidaf': 0.5035460992907802,
 'totalExplicitos': 91,
 'explicitosOk': 38,
 'pExplicitos': 0.4175824175824176,
 'explicitsList': ['funções',
  'botão',
  'camera',
  'lente',
  'resolução',
  'peso',
  'camara',
  'flash',
  'acessórios',
  'custo-benefício',
  'visor',
  'recursos',
  'zoom',
  'produto',
  'conectividade',
  'presets',
  'preço',
  'video',
  'memória',
  'display',
  'menu',
  'câmera',
  'custo',
  'bateria',
  'investimento',
  'máquina',
  'imagens',
  'armazenamento',
  'fotos',
  'manuseio',
  'design',
  'praticidade',
  'vídeo',
  'processador',
  'foco',
  'vídeos',
  'tela',
  'fotografia'],
 'totalImplicitos': 13,
 'implicitosOk': 4,
 'pImplicitos': 0.3076923076923077,
 'implicitsList': ['volume', 'medidas', 'versátil', 'compacta'],
 'tipos': {'Qualification': {'Nominal form': 0, 'Adjective': 5},

In [128]:
xml = dicttoxml(resCamera, attr_type=False, custom_root='resultados')
with open('../resultados/mnb_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Livros

In [129]:
# carregando tipos
domain='livro'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [130]:
nb.fit(X_livro_train, y_livro_train)
print("Best parameters from gridsearch: {}".format(nb.best_params_))
print("CV score=%0.3f" % nb.best_score_)
y_livro_pred=nb.predict(X_livro_test)
aspectsLivro = result2aspecList(y_livro_pred, dfLivroTest)
resLivro = calculaMetricas(aspectsLivro, aspectsTest['livro'], tipos, lemma=False, output=False)
resLivro

Best parameters from gridsearch: {'alpha': 1}
CV score=0.470


{'totalAspects': 87,
 'pred': 143,
 'tp': 65,
 'fp': 114,
 'fn': 22,
 'precisao': 0.36312849162011174,
 'precisaoLaplace': 0.36464088397790057,
 'revocacao': 0.7471264367816092,
 'medidaf': 0.48872180451127817,
 'totalExplicitos': 82,
 'explicitosOk': 28,
 'pExplicitos': 0.34146341463414637,
 'explicitsList': ['situação',
  'obra',
  'leituras',
  'final',
  'fim',
  'narrador',
  'narrativa',
  'crepúsculo',
  'personagem',
  'crítica',
  'começo',
  'escritor',
  'romance',
  'casos',
  'personagens',
  'suspense',
  'livro',
  'leitura',
  'início',
  'trama',
  'cenário',
  'história',
  'historia',
  'escritoras',
  'palavra',
  'estilo',
  'detalhe',
  'protagonista'],
 'totalImplicitos': 5,
 'implicitosOk': 1,
 'pImplicitos': 0.2,
 'implicitsList': ['mocinha'],
 'tipos': {'Feature': {'Is-a': 1, 'Equivalence': 0}}}

In [131]:
xml = dicttoxml(resLivro, attr_type=False, custom_root='resultados')
with open('../resultados/mnb_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Smartphones

In [132]:
# carregando tipos
domain='smartphone'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [133]:
nb.fit(X_smartphone_train, y_smartphone_train)
print("Best parameters from gridsearch: {}".format(nb.best_params_))
print("CV score=%0.3f" % nb.best_score_)
y_smartphone_pred=nb.predict(X_smartphone_test)
aspectsSmartphone = result2aspecList(y_smartphone_pred, dfSmartphoneTest)
resSmartphone = calculaMetricas(aspectsSmartphone, aspectsTest['smartphone'], tipos, lemma=False, output=False)
resSmartphone

Best parameters from gridsearch: {'alpha': 0.0001}
CV score=0.442


{'totalAspects': 158,
 'pred': 150,
 'tp': 53,
 'fp': 129,
 'fn': 105,
 'precisao': 0.29120879120879123,
 'precisaoLaplace': 0.29347826086956524,
 'revocacao': 0.33544303797468356,
 'medidaf': 0.31176470588235294,
 'totalExplicitos': 134,
 'explicitosOk': 18,
 'pExplicitos': 0.13432835820895522,
 'explicitsList': ['camera digital',
  'funções',
  'internet',
  'sinal',
  'visor',
  'produto',
  'cartão de mémoria',
  'modelo',
  'preço',
  'câmera',
  'bateria',
  'aparelho',
  'wi-fi',
  'celular',
  'design',
  'volume de áudio',
  'touch',
  'tela'],
 'totalImplicitos': 24,
 'implicitosOk': 3,
 'pImplicitos': 0.125,
 'implicitsList': ['fácil de mexer', 'pequeno', 'moderno'],
 'tipos': {'Qualification': {'Adjective': 2}, 'Event': {'Verb': 1}}}

In [134]:
xml = dicttoxml(resSmartphone, attr_type=False, custom_root='resultados')
with open('../resultados/mnb_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Hotel

In [135]:
# carregando tipos
domain='hotel'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [136]:
nb.fit(X_hotel_train, y_hotel_train)
print("Best parameters from gridsearch: {}".format(nb.best_params_))
print("CV score=%0.3f" % nb.best_score_)
y_hotel_pred=nb.predict(X_hotel_test)
aspectsHotel = result2aspecList(y_hotel_pred, dfHotelTest)
resHotel = calculaMetricas(
    aspectsHotel, 
    aspectsTest['hotel'], 
    tipos, 
    lemma=False, 
    output=False)
resHotel

Best parameters from gridsearch: {'alpha': 0.01}
CV score=0.491


{'totalAspects': 518,
 'pred': 346,
 'tp': 291,
 'fp': 304,
 'fn': 227,
 'precisao': 0.4890756302521008,
 'precisaoLaplace': 0.48911222780569513,
 'revocacao': 0.5617760617760618,
 'medidaf': 0.522911051212938,
 'totalExplicitos': 292,
 'explicitosOk': 20,
 'pExplicitos': 0.0684931506849315,
 'explicitsList': ['elevador',
  'estacionamento',
  'telefone',
  'localização',
  'limpeza',
  'shopping',
  'padrão',
  'chuveiro',
  'serviço',
  'quarto',
  'recepção',
  'aeroporto',
  'atendimento',
  'lojas',
  'frigobar',
  'cozinha',
  'cidade',
  'conforto',
  'hotel',
  'rodoviária'],
 'totalImplicitos': 226,
 'implicitosOk': 31,
 'pImplicitos': 0.13716814159292035,
 'implicitsList': ['estrutura',
  'elevador',
  'estacionamento',
  'dormir',
  'proximidade',
  'box',
  'apartamentos',
  'telefone',
  'localização',
  'limpeza',
  'transfer',
  'localizado no centro',
  'limpo',
  'chuveiro',
  'quarto',
  'cheiro de mofo',
  'valor',
  'custo',
  'sujo',
  'próximo',
  'atendimento',
 

In [137]:
xml = dicttoxml(resHotel, attr_type=False, custom_root='resultados')
with open('../resultados/mnb_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Resultados

In [138]:
resultados = []
resultados.append(resCamera)
resultados.append(resLivro)
resultados.append(resSmartphone)

print(f'Câmera     & NB Multinomial & {resultados[0]["precisao"]:.2f} & {resultados[0]["revocacao"]:.2f} & {resultados[0]["medidaf"]:.2f} & {resultados[0]["pExplicitos"]*100:.2f} & {resultados[0]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Livro      & NB Multinomial & {resultados[1]["precisao"]:.2f} & {resultados[1]["revocacao"]:.2f} & {resultados[1]["medidaf"]:.2f} & {resultados[1]["pExplicitos"]*100:.2f} & {resultados[1]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Smartphone & NB Multinomial & {resultados[2]["precisao"]:.2f} & {resultados[2]["revocacao"]:.2f} & {resultados[2]["medidaf"]:.2f} & {resultados[2]["pExplicitos"]*100:.2f} & {resultados[2]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))

Câmera     & NB Multinomial & 0,40 & 0,68 & 0,50 & 41,76 & 30,77 \\
Livro      & NB Multinomial & 0,36 & 0,75 & 0,49 & 34,15 & 20,00 \\
Smartphone & NB Multinomial & 0,29 & 0,34 & 0,31 & 13,43 & 12,50 \\


## Passive Aggressive Classifier

In [139]:
params = {
    'C' : [0.003, 0.01, 0.03, 0.1, 0.3, 1], 
    'loss': ['hinge', 'squared_hinge'], 
    }
 
model = PassiveAggressiveClassifier(max_iter=1000)
pa = GridSearchCV(model, param_grid=params,  n_jobs=-1, scoring='f1_macro')

### Camera

In [140]:
# carregando tipos
domain='camera'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [141]:
pa.fit(X_camera_train, y_camera_train)
print("Best parameters from gridsearch: {}".format(pa.best_params_))
print("CV score=%0.3f" % pa.best_score_)
y_camera_pred=pa.predict(X_camera_test)
aspectsCamera = result2aspecList(y_camera_pred, dfCameraTest)
resCamera = calculaMetricas(
    aspectsCamera, 
    aspectsTest['camera'], 
    tipos,
    lemma=False, 
    output=False)
resCamera

Best parameters from gridsearch: {'C': 0.1, 'loss': 'hinge'}
CV score=0.558


{'totalAspects': 104,
 'pred': 33,
 'tp': 46,
 'fp': 13,
 'fn': 58,
 'precisao': 0.7796610169491526,
 'precisaoLaplace': 0.7704918032786885,
 'revocacao': 0.4423076923076923,
 'medidaf': 0.5644171779141105,
 'totalExplicitos': 91,
 'explicitosOk': 19,
 'pExplicitos': 0.2087912087912088,
 'explicitsList': ['custo-benefício',
  'funções',
  'investimento',
  'visor',
  'máquina',
  'recursos',
  'zoom',
  'camera',
  'produto',
  'lente',
  'preço',
  'fotos',
  'resolução',
  'manuseio',
  'vídeos',
  'câmera',
  'flash',
  'acessórios',
  'bateria'],
 'totalImplicitos': 13,
 'implicitosOk': 1,
 'pImplicitos': 0.07692307692307693,
 'implicitsList': ['compacta'],
 'tipos': {'Qualification': {'Adjective': 4}}}

In [142]:
xml = dicttoxml(resCamera, attr_type=False, custom_root='resultados')
with open('../resultados/passiveagressive_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Livro

In [143]:
# carregando tipos
domain='livro'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [144]:
pa.fit(X_livro_train, y_livro_train)
print("Best parameters from gridsearch: {}".format(pa.best_params_))
print("CV score=%0.3f" % pa.best_score_)
y_livro_pred=pa.predict(X_livro_test)
aspectsLivro = result2aspecList(y_livro_pred, dfLivroTest)
resLivro = calculaMetricas(
    aspectsLivro, 
    aspectsTest['livro'], 
    tipos,
    lemma=False, 
    output=False)
resLivro

Best parameters from gridsearch: {'C': 0.01, 'loss': 'squared_hinge'}
CV score=0.593


{'totalAspects': 87,
 'pred': 17,
 'tp': 50,
 'fp': 2,
 'fn': 37,
 'precisao': 0.9615384615384616,
 'precisaoLaplace': 0.9444444444444444,
 'revocacao': 0.5747126436781609,
 'medidaf': 0.7194244604316546,
 'totalExplicitos': 82,
 'explicitosOk': 15,
 'pExplicitos': 0.18292682926829268,
 'explicitsList': ['começo',
  'livro',
  'personagem',
  'romance',
  'história',
  'trama',
  'crítica',
  'final',
  'historia',
  'personagens',
  'obra',
  'fim',
  'leitura',
  'palavra',
  'início'],
 'totalImplicitos': 5,
 'implicitosOk': 0,
 'pImplicitos': 0.0,
 'implicitsList': [],
 'tipos': {}}

In [145]:
xml = dicttoxml(resLivro, attr_type=False, custom_root='resultados')
with open('../resultados/passiveagressive_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Smartphone

In [146]:
# carregando tipos
domain='smartphone'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [147]:
pa.fit(X_smartphone_train, y_smartphone_train)
print("Best parameters from gridsearch: {}".format(pa.best_params_))
print("CV score=%0.3f" % pa.best_score_)
y_smartphone_pred=pa.predict(X_smartphone_test)
aspectsSmartphone = result2aspecList(y_smartphone_pred, dfSmartphoneTest)
resSmartphone = calculaMetricas(
    aspectsSmartphone, 
    aspectsTest['smartphone'], 
    tipos,
    lemma=False, 
    output=False)
resSmartphone

Best parameters from gridsearch: {'C': 0.1, 'loss': 'hinge'}
CV score=0.535


{'totalAspects': 158,
 'pred': 52,
 'tp': 68,
 'fp': 19,
 'fn': 90,
 'precisao': 0.7816091954022989,
 'precisaoLaplace': 0.7752808988764045,
 'revocacao': 0.43037974683544306,
 'medidaf': 0.5551020408163265,
 'totalExplicitos': 134,
 'explicitosOk': 27,
 'pExplicitos': 0.20149253731343283,
 'explicitsList': ['design',
  'praticidade',
  'custo-benefício',
  'marca',
  'aparelho',
  'camera digital',
  'wi-fi',
  'funções',
  'sinal',
  'visor',
  'recursos',
  'camera',
  'produto',
  'tamanho',
  'fabricante',
  'nokia',
  'memoria',
  'motorola',
  'modelo',
  'preço',
  'celular',
  'manuseio',
  'touch',
  'menu',
  'durabilidade',
  'botões',
  'bateria'],
 'totalImplicitos': 24,
 'implicitosOk': 6,
 'pImplicitos': 0.25,
 'implicitsList': ['bonito', 'pequeno', 'moderno', 'prático', 'trava', 'leve'],
 'tipos': {'Qualification': {'Adjective': 5}, 'Event': {'Verb': 2}}}

In [148]:
xml = dicttoxml(resSmartphone, attr_type=False, custom_root='resultados')
with open('../resultados/passiveagressive_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Hotel

In [149]:
# carregando tipos
domain='hotel'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [150]:
pa.fit(X_hotel_train, y_hotel_train)
print("Best parameters from gridsearch: {}".format(pa.best_params_))
print("CV score=%0.3f" % pa.best_score_)
y_hotel_pred=pa.predict(X_hotel_test)
aspectsHotel = result2aspecList(y_hotel_pred, dfHotelTest)
resHotel = calculaMetricas(
    aspectsHotel, 
    aspectsTest['hotel'], 
    tipos,
    lemma=False, 
    output=False)
resHotel

Best parameters from gridsearch: {'C': 0.3, 'loss': 'hinge'}
CV score=0.641


{'totalAspects': 518,
 'pred': 68,
 'tp': 330,
 'fp': 6,
 'fn': 188,
 'precisao': 0.9821428571428571,
 'precisaoLaplace': 0.9792899408284024,
 'revocacao': 0.637065637065637,
 'medidaf': 0.7728337236533958,
 'totalExplicitos': 292,
 'explicitosOk': 34,
 'pExplicitos': 0.11643835616438356,
 'explicitsList': ['shopping',
  'localização',
  'pia',
  'estabelecimento',
  'aeroporto',
  'recepção',
  'frigobar',
  'padrão',
  'serviço',
  'apartamento',
  'cozinha',
  'carpete',
  'quarto',
  'lavanderia',
  'rua',
  'atendimento',
  'aparência',
  'cidade',
  'telefone',
  'portaria',
  'conforto',
  'funcionários',
  'chuveiro',
  'preço',
  'limpeza',
  'piscina',
  'hotel',
  'rodoviária',
  'elevador',
  'lojas',
  'tv',
  'estacionamento',
  'corredor',
  'instalações'],
 'totalImplicitos': 226,
 'implicitosOk': 40,
 'pImplicitos': 0.17699115044247787,
 'implicitsList': ['comida',
  'localizado',
  'localização',
  'perto',
  'custo',
  'limpos',
  'transfer',
  'wi-fi',
  'limpo',
  

In [151]:
xml = dicttoxml(resHotel, attr_type=False, custom_root='resultados')
with open('../resultados/passiveagressive_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Resultados

In [152]:
resultados = []
resultados.append(resCamera)
resultados.append(resLivro)
resultados.append(resSmartphone)

print(f'Câmera     & Passive Aggressive & {resultados[0]["precisao"]:.2f} & {resultados[0]["revocacao"]:.2f} & {resultados[0]["medidaf"]:.2f} & {resultados[0]["pExplicitos"]*100:.2f} & {resultados[0]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Livro      & Passive Aggressive & {resultados[1]["precisao"]:.2f} & {resultados[1]["revocacao"]:.2f} & {resultados[1]["medidaf"]:.2f} & {resultados[1]["pExplicitos"]*100:.2f} & {resultados[1]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Smartphone & Passive Aggressive & {resultados[2]["precisao"]:.2f} & {resultados[2]["revocacao"]:.2f} & {resultados[2]["medidaf"]:.2f} & {resultados[2]["pExplicitos"]*100:.2f} & {resultados[2]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))

Câmera     & Passive Aggressive & 0,78 & 0,44 & 0,56 & 20,88 & 7,69 \\
Livro      & Passive Aggressive & 0,96 & 0,57 & 0,72 & 18,29 & 0,00 \\
Smartphone & Passive Aggressive & 0,78 & 0,43 & 0,56 & 20,15 & 25,00 \\


## Conditional Random Fields (CRFs)

In [168]:
import sklearn_crfsuite
from sklearn_crfsuite import scorers
from sklearn_crfsuite import metrics
from collections import Counter
import scipy

In [159]:
class SentenceGetter(object):
    
    def __init__(self, data):
        self.n_sent = 1
        self.data = data
        self.empty = False
        agg_func = lambda s: [(w, p, t) for w, p, t in zip(s['Word'].values.tolist(), 
                                                           s['POS'].values.tolist(), 
                                                           s['Tag'].values.tolist())]
        self.grouped = self.data.groupby('Sentence #').apply(agg_func)
        self.sentences = [s for s in self.grouped]
        
    def get_next(self):
        try: 
            s = self.grouped['Sentence: {}'.format(self.n_sent)]
            self.n_sent += 1
            return s 
        except:
            return None

In [160]:
def word2features(sent, i):
    word = sent[i][0]
    postag = sent[i][1]
    
    features = {
        'bias': 1.0, 
        'word.lower()': word.lower(), 
        'word[-3:]': word[-3:],
        'word[-2:]': word[-2:],
        #'word.isupper()': word.isupper(),
        #'word.istitle()': word.istitle(),
        #'word.isdigit()': word.isdigit(),
        'postag': postag,
        'postag[:2]': postag[:2],
    }
    if i > 0:
        word1 = sent[i-1][0]
        postag1 = sent[i-1][1]
        features.update({
            '-1:word.lower()': word1.lower(),
            #'-1:word.istitle()': word1.istitle(),
            #'-1:word.isupper()': word1.isupper(),
            '-1:postag': postag1,
            '-1:postag[:2]': postag1[:2],
        })
    else:
        features['BOS'] = True
    if i < len(sent)-1:
        word1 = sent[i+1][0]
        postag1 = sent[i+1][1]
        features.update({
            '+1:word.lower()': word1.lower(),
            #'+1:word.istitle()': word1.istitle(),
            #'+1:word.isupper()': word1.isupper(),
            '+1:postag': postag1,
            '+1:postag[:2]': postag1[:2],
        })
    else:
        features['EOS'] = True
    return features

def sent2features(sent):
    return [word2features(sent, i) for i in range(len(sent))]

def sent2labels(sent):
    return [label for token, postag, label in sent]

def sent2tokens(sent):
    return [token for token, postag, label in sent]

In [161]:
dfCamera = pd.read_csv('data/domain_camera_IOB.csv', sep='\t', quoting=3)
dfCameraTest = pd.read_csv('data/domain_camera_IOB_test.csv', sep='\t', quoting=3)
dfCameraTrain = pd.read_csv('data/domain_camera_IOB_train.csv', sep='\t', quoting=3)

dfCamera = dfCamera.fillna(method='ffill')
dfCameraTest = dfCameraTest.fillna(method='ffill')
dfCameraTrain = dfCameraTrain.fillna(method='ffill')

getter = SentenceGetter(dfCamera)
sentences = getter.sentences
X = [sent2features(s) for s in sentences]
y = [sent2labels(s) for s in sentences]
X_camera_train, X_camera_test, y_camera_train, y_camera_test = train_test_split(X, y, test_size=0.33, random_state=0)

getterTrain = SentenceGetter(dfCameraTrain)
sentences = getterTrain.sentences
X_camera_train = [sent2features(s) for s in sentences]
y_camera_train = [sent2labels(s) for s in sentences]

getterTest = SentenceGetter(dfCameraTest)
sentences = getterTest.sentences
X_camera_test = [sent2features(s) for s in sentences]
y_camera_test = [sent2labels(s) for s in sentences]

In [163]:
dfLivro = pd.read_csv('data/domain_livro_IOB.csv', sep='\t', quoting=3)
dfLivroTest = pd.read_csv('data/domain_livro_IOB_test.csv', sep='\t', quoting=3)
dfLivroTrain = pd.read_csv('data/domain_livro_IOB_train.csv', sep='\t', quoting=3)

dfLivro = dfLivro.fillna(method='ffill')
dfLivroTest = dfLivroTest.fillna(method='ffill')
dfLivroTrain = dfLivroTrain.fillna(method='ffill')

getter = SentenceGetter(dfLivro)
sentences = getter.sentences
X = [sent2features(s) for s in sentences]
y = [sent2labels(s) for s in sentences]
X_livro_train, X_livro_test, y_livro_train, y_livro_test = train_test_split(X, y, test_size=0.33, random_state=0)

getterTrain = SentenceGetter(dfLivroTrain)
sentences = getterTrain.sentences
X_livro_train = [sent2features(s) for s in sentences]
y_livro_train = [sent2labels(s) for s in sentences]

getterTest = SentenceGetter(dfLivroTest)
sentences = getterTest.sentences
X_livro_test = [sent2features(s) for s in sentences]
y_livro_test = [sent2labels(s) for s in sentences]

In [164]:
dfSmartphone = pd.read_csv('data/domain_smartphone_IOB.csv', sep='\t', quoting=3)
dfSmartphoneTest = pd.read_csv('data/domain_smartphone_IOB_test.csv', sep='\t', quoting=3)
dfSmartphoneTrain = pd.read_csv('data/domain_smartphone_IOB_train.csv', sep='\t', quoting=3)

dfSmartphone = dfSmartphone.fillna(method='ffill')
dfSmartphoneTest = dfSmartphoneTest.fillna(method='ffill')
dfSmartphoneTrain = dfSmartphoneTrain.fillna(method='ffill')

getter = SentenceGetter(dfSmartphone)
sentences = getter.sentences
X = [sent2features(s) for s in sentences]
y = [sent2labels(s) for s in sentences]
X_smartphone_train, X_smartphone_test, y_smartphone_train, y_smartphone_test = train_test_split(X, y, test_size=0.33, random_state=0)

getterTrain = SentenceGetter(dfSmartphoneTrain)
sentences = getterTrain.sentences
X_smartphone_train = [sent2features(s) for s in sentences]
y_smartphone_train = [sent2labels(s) for s in sentences]

getterTest = SentenceGetter(dfSmartphoneTest)
sentences = getterTest.sentences
X_smartphone_test = [sent2features(s) for s in sentences]
y_smartphone_test = [sent2labels(s) for s in sentences]

In [165]:
dfHotel = pd.read_csv('data/domain_hotel_IOB.csv', sep='\t', quoting=3)
dfHotelTest = pd.read_csv('data/domain_hotel_IOB_test.csv', sep='\t', quoting=3)
dfHotelTrain = pd.read_csv('data/domain_hotel_IOB_train.csv', sep='\t', quoting=3)

dfHotel = dfHotel.fillna(method='ffill')
dfHotelTest = dfHotelTest.fillna(method='ffill')
dfHotelTrain = dfHotelTrain.fillna(method='ffill')

getter = SentenceGetter(dfHotel)
sentences = getter.sentences
X = [sent2features(s) for s in sentences]
y = [sent2labels(s) for s in sentences]
X_hotel_train, X_hotel_test, y_hotel_train, y_hotel_test = train_test_split(X, y, test_size=0.33, random_state=0)

getterTrain = SentenceGetter(dfHotelTrain)
sentences = getterTrain.sentences
X_hotel_train = [sent2features(s) for s in sentences]
y_hotel_train = [sent2labels(s) for s in sentences]

getterTest = SentenceGetter(dfHotelTest)
sentences = getterTest.sentences
X_hotel_test = [sent2features(s) for s in sentences]
y_hotel_test = [sent2labels(s) for s in sentences]

In [166]:
def crf_result2aspecList(y_pred, X_test):
    aspectsList = []
    aspect = []
    for sent, sent_pred in zip(X_test, y_pred):
        #print(len(sent),len(sent_pred))
        for token, tag in zip(sent, sent_pred):
            if tag != 'O':
                #print(tag, token['word.lower()'])
                if tag == 'B-asp' and aspect:
                    aspectsList.append(" ".join(aspect).lower())
                    aspect = []
                aspect.append(token['word.lower()'])

    aspectsList = list(set(aspectsList))
    aspectsList.sort()    
    return aspectsList

In [169]:
params = {
    'c1': scipy.stats.expon(scale=0.5),
    'c2': scipy.stats.expon(scale=0.05),
}

### Camera

In [172]:
# carregando tipos
domain='camera'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [173]:
c1 = 0.1
c2 = 0.2
resCamera = {'medidaf': 0}
maxC1 = 0
maxC1 = 0
for x in tqdm(range(0,1000)):
    crf = sklearn_crfsuite.CRF(
        algorithm='lbfgs',
        c1=c1,
        c2=params['c2'].rvs(),
        max_iterations=1000,
        all_possible_transitions=True
    )
    crf.fit(X_camera_train, y_camera_train)
    y_pred = crf.predict(X_camera_test)
    aspectsCamera = crf_result2aspecList(y_pred, X_camera_test)
    res = calculaMetricas(
        aspectsCamera, 
        aspectsTest['camera'], 
        tipos,
        lemma=False, 
        output=False)
    if res['medidaf'] > resCamera['medidaf']:
        resCamera = res
        maxC1 = c1
        maxC2 = c2
    c1 = params['c1'].rvs()
    c2 = params['c2'].rvs()
resCamera, maxC1, maxC2

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [26:40<00:00,  1.60s/it]


({'totalAspects': 104,
  'pred': 46,
  'tp': 63,
  'fp': 15,
  'fn': 41,
  'precisao': 0.8076923076923077,
  'precisaoLaplace': 0.8,
  'revocacao': 0.6057692307692307,
  'medidaf': 0.6923076923076924,
  'totalExplicitos': 91,
  'explicitosOk': 28,
  'pExplicitos': 0.3076923076923077,
  'explicitsList': ['custo-benefício',
   'redução de olhos vermelhos',
   'funções',
   'investimento',
   'visor',
   'máquina',
   'recursos',
   'zoom',
   'camera',
   'produto',
   'manual de instruções',
   'navegação nas fotos',
   'preço',
   'memória',
   'cartão de memória',
   'resolução',
   'fotos',
   'vídeos',
   'manuseio',
   'menu',
   'qualidade de imagem',
   'qualidade das fotos',
   'câmera',
   'flash',
   'fotografia',
   'memória interna',
   'custo',
   'bateria'],
  'totalImplicitos': 13,
  'implicitosOk': 3,
  'pImplicitos': 0.23076923076923078,
  'implicitsList': ['compacta', 'facilidade de uso', 'versátil'],
  'tipos': {'Qualification': {'Adjective': 5},
   'Event': {'Non-ver

In [174]:
xml = dicttoxml(resCamera, attr_type=False, custom_root='resultados')
with open('../resultados/crf_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Livro

In [175]:
# carregando tipos
domain='livro'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [176]:
c1 = 0.1
c2 = 0.2
resLivro = {'medidaf': 0}
maxC1 = 0
maxC1 = 0
for x in tqdm(range(0,1000)):
    crf = sklearn_crfsuite.CRF(
        algorithm='lbfgs',
        c1=c1,
        c2=params['c2'].rvs(),
        max_iterations=1000,
        all_possible_transitions=True
    )
    crf.fit(X_livro_train, y_livro_train)
    y_pred = crf.predict(X_livro_test)
    aspectsLivro = crf_result2aspecList(y_pred, X_livro_test)
    res = calculaMetricas(
        aspectsLivro, 
        aspectsTest['livro'], 
        tipos,
        lemma=False, 
        output=False)
    if res['medidaf'] > resLivro['medidaf']:
        resLivro = res
        maxC1 = c1
        maxC2 = c2
    c1 = params['c1'].rvs()
    c2 = params['c2'].rvs()
resLivro, maxC1, maxC2

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [31:57<00:00,  1.92s/it]


({'totalAspects': 87,
  'pred': 20,
  'tp': 51,
  'fp': 4,
  'fn': 36,
  'precisao': 0.9272727272727272,
  'precisaoLaplace': 0.9122807017543859,
  'revocacao': 0.5862068965517241,
  'medidaf': 0.7183098591549294,
  'totalExplicitos': 82,
  'explicitosOk': 16,
  'pExplicitos': 0.1951219512195122,
  'explicitsList': ['personagens',
   'obra',
   'leitura',
   'início',
   'trama',
   'livro',
   'personagem',
   'história',
   'crítica',
   'final',
   'historia',
   'palavra',
   'começo',
   'escritor',
   'estilo',
   'romance'],
  'totalImplicitos': 5,
  'implicitosOk': 0,
  'pImplicitos': 0.0,
  'implicitsList': [],
  'tipos': {}},
 0.10468146861487013,
 0.046184793341286)

In [177]:
xml = dicttoxml(resLivro, attr_type=False, custom_root='resultados')
with open('../resultados/crf_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Smartphone

In [178]:
# carregando tipos
domain='smartphone'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [179]:
c1 = 0.1
c2 = 0.2
resSmartphone = {'medidaf': 0}
maxC1 = 0
maxC1 = 0
for x in tqdm(range(0,1000)):
    crf = sklearn_crfsuite.CRF(
        algorithm='lbfgs',
        c1=c1,
        c2=params['c2'].rvs(),
        max_iterations=1000,
        all_possible_transitions=True
    )
    crf.fit(X_smartphone_train, y_smartphone_train)
    y_pred = crf.predict(X_smartphone_test)
    aspectsSmartphone = crf_result2aspecList(y_pred, X_smartphone_test)
    res = calculaMetricas(
        aspectsSmartphone, 
        aspectsTest['smartphone'], 
        tipos,
        lemma=False, 
        output=False)
    if res['medidaf'] > resSmartphone['medidaf']:
        resSmartphone = res
        maxC1 = c1
        maxC2 = c2
    c1 = params['c1'].rvs()
    c2 = params['c2'].rvs()
resSmartphone, maxC1, maxC2

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [47:45<00:00,  2.87s/it]


({'totalAspects': 158,
  'pred': 52,
  'tp': 72,
  'fp': 15,
  'fn': 86,
  'precisao': 0.8275862068965517,
  'precisaoLaplace': 0.8202247191011236,
  'revocacao': 0.45569620253164556,
  'medidaf': 0.5877551020408163,
  'totalExplicitos': 134,
  'explicitosOk': 31,
  'pExplicitos': 0.23134328358208955,
  'explicitsList': ['design',
   'volume de áudio',
   'praticidade',
   'custo-benefício',
   'marca',
   'aparelho',
   'camera digital',
   'funções',
   'audio',
   'memoria interna',
   'sinal',
   'visor',
   'e-mail',
   'recursos',
   'camera',
   'produto',
   'fabricante',
   'nokia',
   'cartão de mémoria',
   'motorola',
   'preço',
   'celular',
   'manuseio',
   'touch',
   'menu',
   'tela',
   'qualidade do audio',
   'câmera',
   'botões',
   'memória interna',
   'bateria'],
  'totalImplicitos': 24,
  'implicitosOk': 6,
  'pImplicitos': 0.25,
  'implicitsList': ['bonito',
   'pequeno',
   'moderno',
   'fácil de mexer',
   'prático',
   'trava'],
  'tipos': {'Qualificati

In [180]:
xml = dicttoxml(resSmartphone, attr_type=False, custom_root='resultados')
with open('../resultados/crf_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Hotel

In [181]:
# carregando tipos
domain='hotel'
tiposAll = pd.read_csv('../data/tipologia/categorias_iacs.csv', sep=',', quoting=0, keep_default_na=False)
tipos = tiposAll.loc[tiposAll['domain'] == domain]

In [182]:
c1 = 0.1
c2 = 0.2
resHotel = {'medidaf': 0}
maxC1 = 0
maxC1 = 0
for x in tqdm(range(0,1000)):
    crf = sklearn_crfsuite.CRF(
        algorithm='lbfgs',
        c1=c1,
        c2=params['c2'].rvs(),
        max_iterations=1000,
        all_possible_transitions=True
    )
    crf.fit(X_hotel_train, y_hotel_train)
    y_pred = crf.predict(X_hotel_test)
    aspectsHotel = crf_result2aspecList(y_pred, X_hotel_test)
    res = calculaMetricas(
        aspectsHotel, 
        aspectsTest['hotel'], 
        tipos,
        lemma=False, 
        output=False)
    if res['medidaf'] > resHotel['medidaf']:
        resHotel = res
        maxC1 = c1
        maxC2 = c2
    c1 = params['c1'].rvs()
    c2 = params['c2'].rvs()
resHotel, maxC1, maxC2

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000/1000 [1:32:12<00:00,  5.53s/it]


({'totalAspects': 518,
  'pred': 99,
  'tp': 369,
  'fp': 23,
  'fn': 149,
  'precisao': 0.9413265306122449,
  'precisaoLaplace': 0.9390862944162437,
  'revocacao': 0.7123552123552124,
  'medidaf': 0.810989010989011,
  'totalExplicitos': 292,
  'explicitosOk': 35,
  'pExplicitos': 0.11986301369863013,
  'explicitsList': ['localização',
   'estabelecimento',
   'apartamento',
   'lavanderia',
   'limpeza',
   'piscina',
   'elevador',
   'lojas',
   'estacionamento',
   'shopping',
   'pia',
   'frigobar',
   'carpete',
   'portaria',
   'funcionários',
   'preço',
   'tv',
   'corredor',
   'rua',
   'recepção',
   'aeroporto',
   'padrão',
   'cozinha',
   'aparência',
   'cidade',
   'conforto',
   'chuveiro',
   'hotel',
   'instalações',
   'serviço',
   'serviço de quarto',
   'quarto',
   'atendimento',
   'rodoviária',
   'telefone'],
  'totalImplicitos': 226,
  'implicitosOk': 53,
  'pImplicitos': 0.2345132743362832,
  'implicitsList': ['no centro',
   'localização',
   'perto'

In [183]:
xml = dicttoxml(resHotel, attr_type=False, custom_root='resultados')
with open('../resultados/crf_'+domain+'.xml', 'w') as file:
    dom = parseString(xml)
    file.write(dom.toprettyxml())    

### Resultados

In [184]:
resultados = []
resultados.append(resCamera)
resultados.append(resLivro)
resultados.append(resSmartphone)
resultados.append(resHotel)

print(f'Câmera     & CRF & {resultados[0]["precisao"]:.2f} & {resultados[0]["revocacao"]:.2f} & {resultados[0]["medidaf"]:.2f} & {resultados[0]["pExplicitos"]*100:.2f} & {resultados[0]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Livro      & CRF & {resultados[1]["precisao"]:.2f} & {resultados[1]["revocacao"]:.2f} & {resultados[1]["medidaf"]:.2f} & {resultados[1]["pExplicitos"]*100:.2f} & {resultados[1]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Smartphone & CRF & {resultados[2]["precisao"]:.2f} & {resultados[2]["revocacao"]:.2f} & {resultados[2]["medidaf"]:.2f} & {resultados[2]["pExplicitos"]*100:.2f} & {resultados[2]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))
print(f'Hotel      & CRF & {resultados[3]["precisao"]:.2f} & {resultados[3]["revocacao"]:.2f} & {resultados[3]["medidaf"]:.2f} & {resultados[3]["pExplicitos"]*100:.2f} & {resultados[3]["pImplicitos"]*100:.2f} \\\\'.replace('.',','))

Câmera     & CRF & 0,81 & 0,61 & 0,69 & 30,77 & 23,08 \\
Livro      & CRF & 0,93 & 0,59 & 0,72 & 19,51 & 0,00 \\
Smartphone & CRF & 0,83 & 0,46 & 0,59 & 23,13 & 25,00 \\
Hotel      & CRF & 0,94 & 0,71 & 0,81 & 11,99 & 23,45 \\
