In [50]:
import json
import xml.etree.ElementTree as ET
from razdel import tokenize

In [51]:
with open('../../data/final_sem_markup_train.json', 'r') as f:
    train = json.load(f)

In [52]:
test_path = '../../data/se16_ru_rest_test.xml'

In [53]:
def parse_aspects_sem(path):
    root_node = ET.parse(path).getroot()
    global_aspects = dict()
    tag_list = ['to','from','polarity','category','target']
    for rev in root_node.findall('Review/sentences/sentence'):
        id_ = rev.get('id')
        aspects = dict()
        for i, a in enumerate(rev.findall('Opinions/Opinion')):
            aspects[i] = dict()
            for tag in tag_list:
                aspects[i][f'{tag}'] = a.get(tag)
        global_aspects[f'{id_}'] = aspects
    return global_aspects

In [54]:
def parse_texts_sem(path):
    root_node = ET.parse(path).getroot()
    texts = dict()
    for rev in root_node.findall('Review/sentences/sentence'):
        texts[rev.get('id')] = rev.find('text').text
    return texts

In [55]:
list(tokenize(parse_texts_sem(test_path)['10106:0']))

[Substring(0, 5, 'Очень'),
 Substring(6, 11, 'милый'),
 Substring(11, 12, ','),
 Substring(13, 19, 'уютный'),
 Substring(20, 31, 'ресторанчик'),
 Substring(32, 34, 'со'),
 Substring(35, 44, 'скромными'),
 Substring(45, 51, 'ценами'),
 Substring(52, 54, 'за'),
 Substring(55, 63, 'огромные'),
 Substring(64, 70, 'порции'),
 Substring(71, 81, 'вкуснейших'),
 Substring(82, 86, 'блюд'),
 Substring(86, 87, '.')]

In [56]:
test_texts = parse_texts_sem(test_path)

In [57]:
test_aspects = parse_aspects_sem(test_path)

In [58]:
test_aspects

{'10106:0': {0: {'to': '31',
   'from': '20',
   'polarity': 'positive',
   'category': 'AMBIENCE#GENERAL',
   'target': 'ресторанчик'},
  1: {'to': '70',
   'from': '64',
   'polarity': 'positive',
   'category': 'FOOD#STYLE_OPTIONS',
   'target': 'порции'},
  2: {'to': '70',
   'from': '64',
   'polarity': 'positive',
   'category': 'FOOD#PRICES',
   'target': 'порции'},
  3: {'to': '86',
   'from': '82',
   'polarity': 'positive',
   'category': 'FOOD#QUALITY',
   'target': 'блюд'}},
 '10106:1': {},
 '10106:2': {0: {'to': '6',
   'from': '0',
   'polarity': 'positive',
   'category': 'FOOD#QUALITY',
   'target': 'Салаты'},
  1: {'to': '27',
   'from': '20',
   'polarity': 'positive',
   'category': 'FOOD#QUALITY',
   'target': 'зеленью'},
  2: {'to': '33',
   'from': '29',
   'polarity': 'positive',
   'category': 'FOOD#QUALITY',
   'target': 'мясо'},
  3: {'to': '42',
   'from': '36',
   'polarity': 'positive',
   'category': 'FOOD#QUALITY',
   'target': 'курица'},
  4: {'to': '59'

In [21]:
test_mark = dict()
for k in test_aspects.keys():
    test_mark[k] = dict()
    test_mark[k]['text'] = test_texts[k]
    test_mark[k]['aspects'] = []
    for a in test_aspects[k].values():
        test_mark[k]['aspects'].append(tuple(a.values()))

In [22]:
test_mark

{'10106:0': {'text': 'Очень милый, уютный ресторанчик со скромными ценами за огромные порции вкуснейших блюд.',
  'aspects': [('31', '20', 'positive', 'AMBIENCE#GENERAL', 'ресторанчик'),
   ('70', '64', 'positive', 'FOOD#STYLE_OPTIONS', 'порции'),
   ('70', '64', 'positive', 'FOOD#PRICES', 'порции'),
   ('86', '82', 'positive', 'FOOD#QUALITY', 'блюд')]},
 '10106:1': {'text': 'Мы отмечали день рожденья,нам разрешили принести свой тортик со свечками.',
  'aspects': []},
 '10106:2': {'text': 'Салаты со свежайшей зеленью, мясо и курица нежные, а десерт,в частности Семифреддо миндальный - это что-то сказочно вкусное.',
  'aspects': [('6', '0', 'positive', 'FOOD#QUALITY', 'Салаты'),
   ('27', '20', 'positive', 'FOOD#QUALITY', 'зеленью'),
   ('33', '29', 'positive', 'FOOD#QUALITY', 'мясо'),
   ('42', '36', 'positive', 'FOOD#QUALITY', 'курица'),
   ('59', '53', 'positive', 'FOOD#QUALITY', 'десерт'),
   ('93', '72', 'positive', 'FOOD#QUALITY', 'Семифреддо миндальный')]},
 '10106:3': {'text': 'О

In [30]:
sem_test_ids = list(set([i.split(':')[0] for i in test_mark.keys()]))

In [None]:
How - - O O O

In [None]:
Steve - - B_AP NEUTRAL B_AP+NEUTRAL

In [None]:
elif token.start > int(aspect['from']) and token.stop <= int(aspect['to']):

In [36]:
'positive'.upper()

'POSITIVE'

In [60]:
with open('../../data/test_sem_CoNLL.txt', 'w') as f:
    f.write('-DOCSTART-\n\n')
    for id_ in sem_test_ids:
        rev_sents = sorted([x for x in test_mark.keys() if x.startswith(id_)], 
                           key = lambda x: int(x.split(":")[-1]))
        for key in rev_sents:
            text = test_mark[key]['text']
            tokens = tokenize(text)
            for token in tokens:
                line = f'{token.text} - - O O O\n'
                for span in test_mark[key]['aspects']:
                    if span[2] not in ['neutral', 'conflict']:
                        if token.start == int(span[1]) and span[-1] != 'NULL':
                            line = f'{token.text} - - B_AP {span[2].upper()} B_AP+{span[2].upper()}\n'
                        elif token.start > int(span[1]) and token.stop <= int(span[0]):
                            line = f'{token.text} - - I_AP {span[2].upper()} I_AP+{span[2].upper()}\n'
                f.write(line)
        f.write('\n')

In [46]:
train

{'15758': {'text': 'Был в заведении со своей девушкой в пятницу. Очень неплохо. Ресторану еще много есть над чем поработать, конечно, но тем не менее, место довольно милое, обслуживание приятное и еда довольно вкусна. Заказывали салаты и горячее(стейк из лосося и блюдо под названием "сытая хавронья" из свинины). Принесли быстро. Крепкого алкоголя, кроме пива у них пока нет, видимо с лицензией проблемы, но медовуха оказалась очень даже приятной. Хотелось бы, конечно, большего разнообразия в меню, но так как они недавно открылись, думаю, со временем все у них наладится.',
  'aspects': [[131, 136, 'positive'],
   [153, 165, 'positive'],
   [177, 180, 'positive'],
   [389, 397, 'positive']]},
 '2073': {'text': 'Три дня назад отмечали в этом "ресторане" день рождения. Сегодня решила почитать отзывы по этому заведению, так как вечер был просто испорчен. Складывается такое впечатление, что мы были где-то в другом месте. Да, неплохой интерьер, неплохая кухня... но все остальное просто ужас. Во

In [48]:
train.keys()

dict_keys(['15758', '2073', '24713', '16630', '27841', '12880', '32040', '19111', '10847', '10354', '21059', '25960', '2965', '37036', '10985', '11267', '27569', '16378', '34307', '12814', '35904', '36725', '28258', '19467', '34761', '36359', '36948', '28745', '29395', '16714', '3385', '35620', '31004', '34889', '14190', '36166', '12591', '33591', '20086', '11058', '20021', '12203', '13835', '19503', '20862', '36781', '33912', '32995', '12863', '33952', '36321', '32771', '36085', '15363', '225', '35790', '37070', '33816', '27629', '33665', '31071', '16322', '32721', '33405', '12678', '2364', '1200', '13225', '2089', '27169', '27925', '343', '10239', '31140', '32859', '10942', '20784', '21716', '19439', '11355', '36049', '11027', '33693', '27620', '33720', '15567', '18756', '20861', '16676', '1368', '29298', '33621', '20417', '25753', '354', '18220', '24132', '32856', '32442', '28710', '34282', '16647', '32513', '12943', '20397', '12270', '1308', '18430', '23858', '18003', '30201', '315

In [61]:
with open('../../data/train_sem_CoNLL.txt', 'w') as f:
    f.write('-DOCSTART-\n\n')
    for id_ in train.keys():
        text = train[id_]['text']
        tokens = tokenize(text)
        for token in tokens:
            line = f'{token.text} - - O O O\n'
            for span in train[id_]['aspects']:
                if token.start == int(span[0]):
                    line = f'{token.text} - - B_AP {span[2].upper()} B_AP+{span[2].upper()}\n'
                elif token.start > int(span[0]) and token.stop <= int(span[1]):
                    line = f'{token.text} - - I_AP {span[2].upper()} I_AP+{span[2].upper()}\n'
            f.write(line)
        f.write('\n')

In [66]:
with open('../../data/train_sem_CoNLL.txt', 'r') as f:
    train_txt = f.read().split('\n')[2:]

In [78]:
with open('../../data/test_sem_CoNLL.txt', 'r') as f:
    test_txt = f.read().split('\n')[2:]

In [68]:
train_txt = [t for t in train_txt if t]

In [79]:
test_txt = [t for t in test_txt if t]

In [80]:
pos = 0
neg = 0
ovall = 0
for t in test_txt:
    if t.split()[3] == 'B_AP' or t.split()[3] == 'O':
        ovall+=1
        if t.split()[4] == 'POSITIVE':
            pos += 1
        if t.split()[4] == 'NEGATIVE':
            neg += 1

In [76]:
pos/ovall

0.05059321695362122

In [81]:
pos/ovall

0.039997724169321805

In [77]:
neg/ovall

0.009906922861822395

In [82]:
neg/ovall

0.011663632225762404

In [42]:
for i in range(10):
    print(test_mark[f'13284:{i}'])

{'text': 'Встречались в этом пабе с подругой.', 'aspects': []}
{'text': 'Дело было в четверг, днем.', 'aspects': []}
{'text': 'Посетителей сначала было немного, но чем ближе время шло к вечеру, тем больше бар заполнялся.', 'aspects': []}
{'text': 'При этом в зале не было накурено, видать хорошая и продуманная система вентиляции.', 'aspects': [('81', '71', 'positive', 'AMBIENCE#GENERAL', 'вентиляции')]}
{'text': 'Приятная, достаточно уютная атмосфера в стиле паба.', 'aspects': [('37', '28', 'positive', 'AMBIENCE#GENERAL', 'атмосфера')]}
{'text': 'Очень неплохое меню, но всё весьма сытное, вкусное.', 'aspects': [('19', '15', 'positive', 'FOOD#QUALITY', 'меню')]}
{'text': 'И большие порции, что не может не понравиться мужчинам.', 'aspects': [('16', '10', 'positive', 'FOOD#STYLE_OPTIONS', 'порции')]}
{'text': 'Моя подруга здесь бывала гораздо чаще меня, говорит, что перепробовала почти всё, и ей нравится.', 'aspects': [('0', '0', 'positive', 'FOOD#QUALITY', 'NULL')]}
{'text': 'Девушка-офои

In [39]:
sem_test_ids

['13284',
 '11771',
 '10868',
 '12582',
 '10855',
 '10122',
 '13451',
 '10837',
 '10442',
 '13102',
 '15966',
 '1542',
 '12765',
 '11154',
 '10139',
 '12439',
 '15492',
 '10522',
 '15100',
 '13693',
 '15665',
 '13558',
 '1580',
 '12094',
 '11073',
 '14415',
 '14130',
 '12533',
 '15336',
 '1040',
 '11817',
 '14551',
 '15797',
 '15824',
 '10731',
 '10632',
 '12913',
 '12611',
 '12777',
 '10937',
 '15847',
 '1166',
 '11533',
 '10953',
 '13483',
 '12579',
 '12004',
 '15697',
 '15914',
 '151',
 '13133',
 '15974',
 '15524',
 '12510',
 '1156',
 '10106',
 '10903',
 '1077',
 '1206',
 '10915',
 '15140',
 '10403',
 '14407',
 '12990',
 '10135',
 '11283',
 '10287',
 '12149',
 '11108',
 '13156',
 '14545',
 '15145',
 '13541',
 '12952',
 '1180',
 '12696',
 '1512',
 '15687',
 '14757',
 '15855',
 '15856',
 '10546',
 '1300',
 '15866',
 '10833',
 '12819',
 '1306',
 '11657',
 '12435',
 '14209',
 '12360',
 '10195',
 '11885',
 '10922',
 '11796',
 '10800',
 '11393',
 '15141',
 '10816',
 '13864',
 '15348',
 '1