# Проект по аспектно-ориентированному анализу тональности
Участвуем в соревновании по определению тональности аспектов в категории "Рестораны"

Нам доступно:
* обучающий корпус
* baseline-решение: предподсчёт тональности аспектов по train-корпусу
* скрипт для оценки

Задача:
* выделение аспектных терминов
* определение категории аспектных терминов
* определение тональности аспектных терминов
* определение тональности по категориям

## Импорты

In [1]:
!pip3 install stanza
!pip3 install spacy
!pip3 install nltk
!pip3 install transformers
!pip3 install sentence-transformers
!pip3 install simple-elmo
!pip3 install Wikipedia-API
!pip3 install ruwordnet

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
from collections import Counter, defaultdict
import re
import time
import random
import os
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import nltk
from ruwordnet import RuWordNet
import requests
import sklearn
import stanza
import spacy
import transformers
from tqdm import tqdm
import wikipediaapi

nltk.download('popular')
stanza.download('ru')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Package cmudict is already up-to-date!
[nltk_data]    | Downloading package gazetteers to /root/nltk_data...
[nltk_data]    |   Package gazetteers is already up-to-date!
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    |   Package genesis is already up-to-date!
[nltk_data]    | Downloading package gutenberg to /root/nltk_data...
[nltk_data]    |   Package gutenberg is already up-to-date!
[nltk_data]    | Downloading package inaugural to /root/nltk_data...
[nltk_data]    |   Package inaugural is already up-to-date!
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Package movie_reviews is already up-to-date!
[nltk_data]    | Downloading package names to /root/nltk_data...
[nltk_data]    |   Package names is already up-to-date!
[nltk_data]    | Do

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.1.json:   0%|   …

INFO:stanza:Downloading default packages for language: ru (Russian) ...
INFO:stanza:File exists: /root/stanza_resources/ru/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources.


In [3]:
!wget https://github.com/avidale/python-ruwordnet/releases/download/0.0.4/ruwordnet-2021.db

--2022-12-29 08:04:01--  https://github.com/avidale/python-ruwordnet/releases/download/0.0.4/ruwordnet-2021.db
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/273541571/43aa42c6-6406-4ccd-8a3b-732b2b9b2b48?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20221229%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20221229T080401Z&X-Amz-Expires=300&X-Amz-Signature=1b172a8316d47d9e4e293104f1db0b6187ed6e3e7397cc1210dc5c2cfb51f455&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=273541571&response-content-disposition=attachment%3B%20filename%3Druwordnet-2021.db&response-content-type=application%2Foctet-stream [following]
--2022-12-29 08:04:01--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/273541571/43aa42c6-6406-4ccd-8a3b-732b2b9b

## Данные

In [4]:
texts, ids = [], []
with open('/content/drive/MyDrive/NLP 4th year project/train_reviews.txt') as f:
    for line in f:
        text_id, text = line.rstrip('\r\n').split('\t')
        texts.append(text)
        ids.append(text_id)

In [None]:
train_texts, dev_texts, train_ids, dev_ids = sklearn.model_selection.train_test_split(texts, ids)

In [None]:
train_texts[:5]

In [None]:
train_aspects, dev_aspects = [], []
with open('/content/drive/MyDrive/NLP 4th year project/train_aspects.txt') as f:
    for line in f:
        line = line.rstrip('\r\n')
        text_id = line.split('\t')[0]
        if text_id in train_ids:
            train_aspects.append(line)
        if text_id in dev_ids:
            dev_aspects.append(line)

In [None]:
train_aspects[:5]

In [None]:
train_sentiment, dev_sentiment = [], []
with open('/content/drive/MyDrive/NLP 4th year project/train_cats.txt') as f:
    for line in f:
        line = line.rstrip('\r\n')
        text_id = line.split('\t')[0]
        if text_id in train_ids:
            train_sentiment.append(line)
        if text_id in dev_ids:
            dev_sentiment.append(line)

In [None]:
train_sentiment[:5]

In [None]:
with open('train_split_aspects.txt', 'w') as f:
    for l in train_aspects:
        print(l, file=f)
with open('dev_aspects.txt', 'w') as f:
    for l in dev_aspects:
        print(l, file=f)
with open('train_split_reviews.txt', 'w') as f:
    for i, l in zip(train_ids, train_texts):
        print(i, l, sep="\t", file=f)
with open('dev_reviews.txt', 'w') as f:
    for i, l in zip(dev_ids, dev_texts):
        print(i, l, sep="\t", file=f)
with open('train_split_cats.txt', 'w') as f:
    for l in train_sentiment:
        print(l, file=f)
with open('dev_cats.txt', 'w') as f:
    for l in dev_sentiment:
        print(l, file=f)

In [None]:
train_asp = pd.read_csv(
    'train_split_aspects.txt', 
    delimiter='\t', 
    names=['text_id', 'category', 'mention', 'start', 'end', 'sentiment']
)
train_texts = pd.read_csv('train_split_reviews.txt', delimiter='\t', names=['text_id','text'])

In [None]:
train_asp.head()

## Идея 1: Baseline+
* Соберём с помощью train-корпуса аспектные термины, а затем к ним добавим аспекты из WordNet и Википедии
* На основе терминов сделаем онтологию: для каждой категории найдём свои термины -- как в бейзлайне с помощью среднего по трейну. Для каждой категории добавим также термины, которые мы нашли с помощью тезаурусов. С помощью такой онтологии будем определять категорию термина
* Тональность будем определять как в бейзлайне

### Препроцессинг

In [18]:
nlp = stanza.Pipeline('ru', processors='tokenize,lemma')

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.1.json:   0%|   …

INFO:stanza:Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| lemma     | syntagrus |

INFO:stanza:Use device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: lemma
INFO:stanza:Done loading processors!


In [19]:
def normalize(text):
    doc = nlp(text)
    words = [word.lemma for sent in doc.sentences for word in sent.words]
    return words

In [20]:
train_asp['norm_mention'] = [tuple(normalize(m)) for m in tqdm(train_asp['mention'])]

100%|██████████| 3648/3648 [00:45<00:00, 80.67it/s]


### Аспекты

In [21]:
aspects = []

* Википедия

In [22]:
wiki_wiki = wikipediaapi.Wikipedia('ru')

In [23]:
cat = wiki_wiki.page('Ресторан')
cat.links

{'1725 год': 1725 год (id: ??, ns: 0),
 '1765 год': 1765 год (id: ??, ns: 0),
 '1782 год': 1782 год (id: ??, ns: 0),
 '1872': 1872 (id: ??, ns: 0),
 '1873 год': 1873 год (id: ??, ns: 0),
 'HoReCa': HoReCa (id: ??, ns: 0),
 "Tom's Restaurant": Tom's Restaurant (id: ??, ns: 0),
 'Wayback Machine': Wayback Machine (id: ??, ns: 0),
 'XIX век': XIX век (id: ??, ns: 0),
 'XVIII век': XVIII век (id: ??, ns: 0),
 'Автобуфет': Автобуфет (id: ??, ns: 0),
 'Автоматизация ресторанов': Автоматизация ресторанов (id: ??, ns: 0),
 'Азиатская кухня': Азиатская кухня (id: ??, ns: 0),
 'Альпина Паблишер (издательство)': Альпина Паблишер (издательство) (id: ??, ns: 0),
 'Английский язык': Английский язык (id: ??, ns: 0),
 'Античность': Античность (id: ??, ns: 0),
 'Ассортимент': Ассортимент (id: ??, ns: 0),
 'Байкер-бар': Байкер-бар (id: ??, ns: 0),
 'Банкет': Банкет (id: ??, ns: 0),
 'Банкетинг-хаус': Банкетинг-хаус (id: ??, ns: 0),
 'Бар (питейное заведение)': Бар (питейное заведение) (id: ??, ns: 0),
 

Вроде бы норм, но много лишнего. Попробуем спарсить сам сайт:

In [24]:
def parse_site(url: str, ua: str) -> BeautifulSoup:
    '''
    Парсинг сайта (html-код) через BeautifulSoup.
    Возвращаем BeautifulSoup объект с парсингом страницы.
    '''

    res = requests.get(url, headers={'User-Agent': ua})
    if res.status_code != 200:
        raise ConnectionError('Мы не можем достучаться до сервера!')
    page = res.text
    soup = BeautifulSoup(page, 'html.parser')

    return soup

In [25]:
list_uas = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:40.0) Gecko/20100101 Firefox/89.0',
'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:91.0) Gecko/20100101 Firefox/91.0',
'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.43 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36 OPR/77.0.4054.277',
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.3) AppleWebKit/537.43 (KHTML, like Gecko) Chrome/98.0.4758.109 Safari/537.36 OPR/84.0.4316.31']

In [26]:
restaurant_html = parse_site('https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D1%81%D1%82%D0%BE%D1%80%D0%B0%D0%BD', random.choice(list_uas))

In [27]:
restaurant_html.h1.text

'Ресторан'

In [28]:
see_also = restaurant_html.find('div', {'style': ';column-count:3;'}).text.lower().split('\n')[1:-1]

see_also

['автоматизация ресторанов',
 'бармен',
 'винная карта',
 'меню',
 'метрдотель',
 'общественное питание',
 'ресторанный критик',
 'официант',
 'сомелье',
 'чаевые',
 'horeca',
 'бресторан']

In [29]:
types = []
for res in restaurant_html.find('div', {'aria-labelledby': 'Типы_предприятий_общественного_питания'}).find_all('li'):
    types.append(res.text.lower())

types[:5]

['бар винный',
 'безалкогольный бар',
 'пивной бар',
 'кофейный бар',
 'десертный бар']

In [30]:
wiki_res = see_also + types

* WordNet

In [31]:
wn = RuWordNet(filename_or_session='ruwordnet-2021.db')

wn.get_senses('ресторан')

[Sense(id="4543-N-110822", name="РЕСТОРАН")]

К сожалению, таким образом полностью игнорируются семантические факты, но мы восполним это с помощью выделения аспектов прямо из трейна.

### Категории

In [32]:
def get_mention_category(data, cat_type):
    mention_categories = data.value_counts(subset=['norm_mention', cat_type])
    mention_categories_dict = defaultdict(dict)
    for key, value in mention_categories.items():
        mention_categories_dict[key[0]][key[1]] = value
    return {k: Counter(v).most_common(1)[0][0] for k, v in mention_categories_dict.items()}

In [33]:
best_mention_cat = get_mention_category(train_asp, 'category')

In [34]:
best_mention_cat

{('ресторан',): 'Whole',
 ('обслуживание',): 'Service',
 ('интерьер',): 'Interior',
 ('место',): 'Whole',
 ('официант',): 'Service',
 ('заведение',): 'Whole',
 ('кухня',): 'Food',
 ('блюдо',): 'Food',
 ('еда',): 'Food',
 ('пиво',): 'Food',
 ('цена',): 'Price',
 ('персонал',): 'Service',
 ('официантка',): 'Service',
 ('атмосфера',): 'Interior',
 ('порция',): 'Food',
 ('музыка',): 'Interior',
 ('меню',): 'Food',
 ('девушка',): 'Service',
 ('встретить',): 'Service',
 ('сервис',): 'Service',
 ('десерт',): 'Food',
 ('администратор',): 'Service',
 ('обстановка',): 'Interior',
 ('мясо',): 'Food',
 ('горячий',): 'Food',
 ('зал',): 'Interior',
 ('обслуживал',): 'Service',
 ('принести',): 'Service',
 ('ждать',): 'Service',
 ('салат',): 'Food',
 ('кафе',): 'Whole',
 ('вечер',): 'Whole',
 ('столик',): 'Interior',
 ('напиток',): 'Food',
 ('вино',): 'Food',
 ('салаты',): 'Food',
 ('поесть',): 'Food',
 ('молодой', 'человек'): 'Service',
 ('кофе',): 'Food',
 ('чай',): 'Food',
 ('заказать',): 'Service'

In [35]:
best_mention_cat[('кухня',)]

'Food'

In [36]:
len(best_mention_cat)

1220

In [37]:
RUS_CATEGORIES = ['ресторан', 'интерьер', 'обслуживание', 'еда', 'цена']

In [38]:
CATEGORIES = ['Whole', 'Interior', 'Service', 'Food', 'Price']

In [39]:
def get_all_hyponyms(wn: RuWordNet, word: str, max_level=100) -> dict:
    '''
    Return dict of all hypernyms of a word and their distances
    '''
    front = [sense.synset for sense in wn.get_senses(word)]
    levels = {}
    for level in range(max_level):
        if not front:
            break
        new_front = []
        for synset in front:
            if synset.id not in levels:
                levels[synset.id] = level
                new_front.extend(synset.hyponyms)
        front = new_front
    return levels

In [40]:
for rus_category, category in zip(RUS_CATEGORIES, CATEGORIES):
    for k, v in get_all_hyponyms(wn, rus_category).items():
        asp = wn[k].title.lower().split(' (')[0].split(', ')[0]
        asp = tuple(asp.split())
        if asp not in best_mention_cat:
            best_mention_cat[asp] = category

In [41]:
len(best_mention_cat)

1634

Добавляем оставшиеся рестораны:

In [42]:
for res in wiki_res:
    if res not in best_mention_cat:
        res = tuple(res.split())
        best_mention_cat[res] = 'Whole'

In [43]:
len(best_mention_cat)

1735

In [44]:
best_mention_cat

{('ресторан',): 'Whole',
 ('обслуживание',): 'Service',
 ('интерьер',): 'Interior',
 ('место',): 'Whole',
 ('официант',): 'Whole',
 ('заведение',): 'Whole',
 ('кухня',): 'Food',
 ('блюдо',): 'Food',
 ('еда',): 'Food',
 ('пиво',): 'Food',
 ('цена',): 'Price',
 ('персонал',): 'Service',
 ('официантка',): 'Service',
 ('атмосфера',): 'Interior',
 ('порция',): 'Food',
 ('музыка',): 'Interior',
 ('меню',): 'Whole',
 ('девушка',): 'Service',
 ('встретить',): 'Service',
 ('сервис',): 'Service',
 ('десерт',): 'Food',
 ('администратор',): 'Service',
 ('обстановка',): 'Interior',
 ('мясо',): 'Food',
 ('горячий',): 'Food',
 ('зал',): 'Interior',
 ('обслуживал',): 'Service',
 ('принести',): 'Service',
 ('ждать',): 'Service',
 ('салат',): 'Food',
 ('кафе',): 'Whole',
 ('вечер',): 'Whole',
 ('столик',): 'Interior',
 ('напиток',): 'Food',
 ('вино',): 'Food',
 ('салаты',): 'Food',
 ('поесть',): 'Food',
 ('молодой', 'человек'): 'Service',
 ('кофе',): 'Food',
 ('чай',): 'Food',
 ('заказать',): 'Service',

### Тональность

Это будет немного странным подходом, но придётся допустить, что разметчики разметили не всё, и на самом деле аспектных терминов в текстах намного больше. Но кроме как добавить эти аспекты, нам нужно разметить их тональность. Делать это можно по-разному:
* Приписать тональность с помощью других аспектов: например, взять среднюю или самую частую оценку тональности по аспектам отзыва или даже по аспектам отзыва из определённой категории
* Выделить коллокации с новыми аспектами и разметить их с помощью тонального словаря
* и по-другому

Поступим как в первом варианте: возьмём самую частую оценку по отзыву и незнакомому аспекту, если он в этом отзыве встретился, припишем такую тональность; затем, чтобы посчитать оценку аспекта по всем текстам, воспользуемся вариантом из бейзлайна; если такого аспектного термина нигде не встретилось, тональность будет neutral

In [102]:
from copy import deepcopy

In [103]:
texts_with_sent = deepcopy(train_texts)
train_asp_with_sent = deepcopy(train_asp)

In [104]:
def sentiment_to_num(sent: str) -> int:
    '''
    Get numeric representation of the sentiment.
    '''
    if sent == 'positive':
        num = 1
    elif sent == 'neutral':
        num = 0
    elif sent == 'negative':
        num = -1
    else:
        num = 2
    return num

In [105]:
def num_to_sentiment(num: int) -> str:
    '''
    Get numeric representation of the sentiment.
    '''
    if num == 1:
        sent = 'positive'
    elif num == 0:
        sent = 'neutral'
    elif num == -1:
        sent = 'negative'
    else:
        sent = 'both'
    return sent

In [106]:
train_asp_with_sent['sentiment_num'] = train_asp_with_sent['sentiment'].apply(lambda x: sentiment_to_num(x))

train_asp_with_sent.head(15)

Unnamed: 0,text_id,category,mention,start,end,sentiment,norm_mention,sentiment_num
0,3976,Whole,ресторане,71,80,neutral,"(ресторан,)",0
1,3976,Whole,ресторанах,198,208,neutral,"(ресторан,)",0
2,3976,Whole,ресторане,256,265,neutral,"(ресторан,)",0
3,3976,Service,Столик бронировали,267,285,neutral,"(столик, бронировали)",0
4,3976,Service,администратор,322,335,positive,"(администратор,)",1
5,3976,Service,предварительный заказ,349,370,positive,"(предварительный, заказ)",1
6,3976,Whole,ресторан,413,421,neutral,"(ресторан,)",0
7,3976,Whole,ресторане,476,485,neutral,"(ресторан,)",0
8,3976,Food,горячее блюдо,524,537,neutral,"(горячий, блюдо)",0
9,3976,Food,Меню,564,568,positive,"(меню,)",1


In [107]:
train_texts_with_sent = pd.merge(texts_with_sent, train_asp_with_sent.groupby('text_id').median()['sentiment_num'].astype(int), on='text_id')
train_texts_with_sent['sentiment'] = train_texts_with_sent['sentiment_num'].apply(lambda x: num_to_sentiment(x))

train_texts_with_sent

Unnamed: 0,text_id,text,sentiment_num,sentiment
0,3152,"Мы отмечали 19.04 свадьбу в этом ресторане, го...",1,positive
1,4106,"Сегодня была в этом ресторане!! Мало сказать, ...",-1,negative
2,7011,Отмечали в этом ресторане свадьбу 11 июня 2011...,1,positive
3,16151,Ресторан интересный. Бываем там достаточно час...,1,positive
4,37975,Праздновали свадьбу в этом ресторане 7 августа...,1,positive
...,...,...,...,...
208,343,Отмечали свадьбу в этом ресторане! В целом все...,1,positive
209,9776,Послушав отзывы от друзей мы с женой зашли в э...,1,positive
210,11027,"Недавно от знакомых узнала про ресторан ""Мамал...",1,positive
211,28083,мы посетили ресторан 10 марта. впечатления ост...,1,positive


In [108]:
list(train_asp[train_asp['text_id'] == 11027]['norm_mention'])

[('ресторан', '"', 'мамалыга', '"'),
 ('ресторан',),
 ('девушка',),
 ('провожает', 'к', 'стол'),
 ('официант',),
 ('интерьер',),
 ('дизайнерское', 'решение'),
 ('атмосфера',),
 ('цена',),
 ('сервис',),
 ('официант',),
 ('работать',),
 ('улыбаются',),
 ('обслуживание',),
 ('готовят',),
 ('готовят',),
 ('шашлык',),
 ('наполеон',),
 ('поварам',),
 ('еда',),
 ('атмосфера',),
 ('ресторан',),
 ('заведение',)]

In [109]:
Counter([len(x) for x in best_mention_cat.keys()])

Counter({1: 917, 2: 511, 3: 201, 4: 58, 5: 26, 7: 5, 6: 12, 9: 2, 12: 1, 8: 2})

In [110]:
# дозаполнить train_asp_with_sent незнакомыми аспектами и приписать им тональность
def get_mention_sentiment(aspects_data, reviews_data, mentions, max_len=8):
    '''
    Get sentiment of the mentions in the texts.
    '''
    aspects_data = deepcopy(aspects_data)
    print('Start len aspects data', len(aspects_data))
    # микс с get_mentions и label_texts
    for index, row in tqdm(reviews_data.iterrows()):
        # аспекты по отзыву
        text_id = row['text_id']
        rev_aspects = list(aspects_data[aspects_data['text_id'] == text_id]['norm_mention'])

        # ищем новые аспекты в отзыве
        text = row['text']
        tokenized = [word for sent in nlp(text).sentences for word in sent.words]
        text_end = len(tokenized)
        for i, token in enumerate(tokenized):
            for l in reversed(range(max_len)):
                if i + l > text_end:  # если спан больше длины предложения, его надо уменьшить
                    continue
                span = tokenized[i:i + l]  # от данного токена + длина спана
                key = tuple([t.lemma for t in span])  # рассматриваемый спан - это ключ
                # в новом списке, но ещё нет для отзыва
                if key in mentions and key not in rev_aspects:
                    # заполняем строку датафрейма
                    # text_id	category	mention	start	end	sentiment	norm_mention	sentiment_num
                    category = mentions[key]
                    mention = ' '.join([t.text for t in span])
                    start, end = span[0].start_char, span[-1].end_char
                    sentiment = row['sentiment']
                    norm_mention = key
                    sentiment_num = sentiment_to_num(sentiment)
                    # new_row = pd.Series({
                    #     'text_id': text_id,
                    #     'category': category,
                    #     'mention': mention,
                    #     'start': start,
                    #     'end': end,
                    #     'sentiment': sentiment,
                    #     'norm_mention': norm_mention,
                    #     'sentiment_num': sentiment_num
                    # })
                    new_row = [text_id, category, mention, start, end, sentiment, norm_mention, sentiment_num]
                    aspects_data.loc[len(aspects_data)] = new_row

    print('\nFinal len aspects data', len(aspects_data))

    mention_categories = aspects_data.value_counts(subset=['norm_mention', 'sentiment'])
    mention_categories_dict = defaultdict(dict)
    for key, value in mention_categories.items():
        mention_categories_dict[key[0]][key[1]] = value
    mention_d = {k: Counter(v).most_common(1)[0][0] for k, v in mention_categories_dict.items()}
    # если ещё упоминания остались в полном списке
    for m in mentions:
        if m not in mention_d:
            mention_d[m] = 'neutral'

    return mention_d

In [111]:
len(train_asp_with_sent)

3648

In [112]:
best_mention_sent = get_mention_sentiment(train_asp_with_sent, train_texts_with_sent, best_mention_cat)

Start len aspects data 3648


213it [01:41,  2.10it/s]


Final len aspects data 6208





In [113]:
assert len(best_mention_cat) == len(best_mention_sent)

In [114]:
# best_mention_sent тоже должен быть формата dict
# внутри tuple(слово_1, слово_2): sentiment
type(best_mention_sent)

dict

In [None]:
import pickle

pickle.dump('best_mention_cat.pkl', best_mention_cat)
pickle.dump('best_mention_sent.pkl', best_mention_sent)

Вроде бы всё готово, можем попробовать разметить тексты:

In [115]:
def label_texts(text, mentions, sentiments, max_len=8):
    tokenized = [word for sent in nlp(text).sentences for word in sent.words]
    text_end = len(tokenized)
    for i, token in enumerate(tokenized):  # по токенизированным словам
        for l in reversed(range(max_len)):  # длина спана в обратном порядке 
            if i + l > text_end:  # если спан больше длины предложения, его надо уменьшить
                continue
            span = tokenized[i:i + l]  # от данного токена + длина спана
            key = tuple([t.lemma for t in span])  # рассматриваемый спан - это ключ
            if key in mentions:
                start, end = span[0].start_char, span[-1].end_char
                yield mentions[key], text[start:end], start, end, sentiments[key]
                break

In [117]:
dev_texts = pd.read_csv('dev_reviews.txt', delimiter='\t', names=['text_id', 'text'])

In [118]:
with open('dev_pred_aspects_BASELINE+.txt', 'w') as f:
    for text, idx in zip(dev_texts['text'], dev_texts['text_id']):
        for asp in label_texts(text, best_mention_cat, best_mention_sent):
            print(idx, *asp, sep="\t", file=f)

### Тональность категории

In [120]:
def get_full_sentiment(text, mentions, sentiment, max_len=5):
    asp_counter = defaultdict(Counter)
    for asp in label_texts(text, mentions, sentiment, max_len):
        category, *_, sentiment = asp
        asp_counter[category][sentiment] += 1
    for c in CATEGORIES:
        if not asp_counter[c]:
            s = 'absence'
        elif len(asp_counter[c]) == 1:
            s = asp_counter[c].most_common(1)[0][0]
        else:
            s = 'both'
        yield c, s

In [123]:
with open('dev_pred_cats_BASELINE+.txt', 'w') as f:
    for text, idx in zip(dev_texts['text'], dev_texts['text_id']):
        for c, s in get_full_sentiment(text, best_mention_cat, best_mention_sent):
            print(idx, c, s, sep="\t", file=f)

## Оценка

In [3]:
!wget https://github.com/ghjuvas/nlp-4thyear-project/blob/main/evaluation.py

--2022-12-29 08:22:15--  https://github.com/ghjuvas/nlp-4thyear-project/blob/main/evaluation.py
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘evaluation.py’

evaluation.py           [ <=>                ] 233.07K  1.17MB/s    in 0.2s    

2022-12-29 08:22:16 (1.17 MB/s) - ‘evaluation.py’ saved [238666]



In [124]:
!python3 evaluation.py -acatsent dev_aspects.txt dev_pred_aspects_BASELINE+.txt


            Full match precision: 0.47897196261682246
            Full match recall: 0.7354260089686099

            Partial match ratio in pred: 0.6063084112149533

            Full category accuracy: 0.4380841121495327
            Partial category accuracy: 0.5829439252336449

            Full sentiment accuracy: 0.6682926829268293
            Partial sentiment accuracy: 0.5688073394495413
            


In [125]:
!python3 evaluation.py -rcatsent dev_cats.txt dev_pred_cats_BASELINE+.txt

Overall sentiment accuracy: 0.5887323943661972


Кажется, что все результаты остались примерно на том же уровне, а вот overall sentiment поднялся. Это немного странно, учитывая, что sentiment accuracy изначально никак не сдвинулся.

## Идея 2: unsupervised ABSA
Одна из самых интересных частей задачи ABSA - это её решение с помощью методов без учителя, то есть тогда, когда нам не нужен собственно сам train-корпус. Поступим в данном блоке следующим образом:
* Аспекты будем выделять с помощью тематического тезауруса (который мы собрали в предыдущем блоке) и коллокаций по метрике PMI (аспектами будут самые важные)
* Векторизуем все найденные аспекты и определим категорию с помощью сходства между аспектами и именем категории.
* Тональность аспекта будет определяться с помощью n+1-грамм, где n - это количество токенов в изначальной n-грамме. То есть для каждого выделенного аспекта мы будем находить соседние слова и составлять из них аспекты. Возможно, в таких больших коллокациях нам будут попадаться тональные слова. Сама тональность аспекта будет определяться с помощью тонального словаря
* Тональность категории -- как бейзлайн.

### Онтология ресторанов

In [None]:
with open('thesaurus.txt', 'w', encoding='utf-8') as th:
    th.write('\n'.join(wiki_res))

In [None]:
with open('thesaurus.txt', 'a', encoding='utf-8') as th:
    for rus_category, category in zip(RUS_CATEGORIES, CATEGORIES):
        for k, v in get_all_hyponyms(wn, rus_category).items():
            asp = wn[k].title.lower().split(' (')[0].split(', ')[0]
            th.write('\n')
            th.write(asp)

In [None]:
with open('thesaurus.txt', 'a', encoding='utf-8') as th:
    th.write('\n')
    th.write('\n'.join(RUS_CATEGORIES))

In [3]:
with open('thesaurus.txt', 'r', encoding='utf-8') as th:
    thesaurus = th.read().split('\n')

## Коллокации

In [4]:
dev_texts = pd.read_csv('dev_reviews.txt', delimiter='\t', names=['text_id', 'text'])

In [5]:
dev_texts

Unnamed: 0,text_id,text
0,12372,"давно там не была,вот решили заехать с друзьям..."
1,24217,Место для вечернего отдыха. Помещение достаточ...
2,12366,была там последний раз где то месяц назад в ча...
3,36948,Была в этом ресторане уже четыре раза с декабр...
4,20862,Первый раз была в Аппетите год назад. Осталась...
...,...,...
66,16568,"Прочитала последние отзывы, и была весьма удив..."
67,2747,"Решила отметить свой юбилей, пригласив группы ..."
68,34334,Хотим выразить вам огромную благодарность!!!!1...
69,2006,В этом ресторане мы отмечали десятую годовщину...


Непонятно, стоит ли в такой задаче убирать пунктуацию или стоп-слова. Кажется, что это немного бессмысленно, так как 1) разметчики выделяют спаны из слов, то есть словосочетания так, как они есть в тексте, 2) некоторые слова из списка стоп-слов могут повлиять на коллокацию

С другой стороны, если убрать хотя бы пунктуацию, это поможет улучшить ранжирование коллокаций с помощью метрик.

Тогда сделаем так: ранжируем коллокации с помощью метрик по корпусу без пунктуации и стоп-слов, а для позиции в тексте будем сверяться с помощью сохранённых соответствий между текстом и леммами.

In [6]:
from string import punctuation
from nltk.corpus import stopwords

punctuation += '«»—'
PUNCTUATION = set(punctuation)
rus_stopwords = list(stopwords.words('russian'))
# могут повлиять на тональность
for i in ['не', 'нет', 'ни']:
    rus_stopwords.remove(i)
RUS_SW = set(rus_stopwords)

In [7]:
nlp = stanza.Pipeline('ru', processors='tokenize,lemma')

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.4.1.json:   0%|   …

INFO:stanza:Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| lemma     | syntagrus |

INFO:stanza:Use device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: lemma
INFO:stanza:Done loading processors!


In [8]:
def stanza_nlp(text: str) -> list:
    doc = nlp(text)
    words = [word.lemma.lower() for sent in doc.sentences for word in sent.words if word.lemma.lower() not in PUNCTUATION and word.lemma.lower() not in RUS_SW]
    return words

Скорее всего, самым релевантным способом получения коллокаций будет их получение для каждого отзыва

In [9]:
texts = list(dev_texts['text'])

In [10]:
tokenized_texts = [stanza_nlp(text) for text in texts]

In [11]:
# униграммы - просто самые частотные
unigrams = [[u[0] for u in Counter(text).most_common(10)] for text in tokenized_texts]

In [12]:
bigram_measures = nltk.collocations.BigramAssocMeasures()
bigrams = []
for text in tokenized_texts:
    finder2 = nltk.collocations.BigramCollocationFinder.from_words(text)
    text_bigrams = finder2.nbest(bigram_measures.pmi, 10)
    bigrams.append(text_bigrams)

In [13]:
trigram_measures = nltk.collocations.TrigramAssocMeasures()
trigrams = []
for text in tokenized_texts:
    finder3 = nltk.collocations.TrigramCollocationFinder.from_words(text)
    text_trigrams = finder3.nbest(trigram_measures.pmi, 10)
    trigrams.append(text_trigrams)

In [14]:
quadgram_measures = nltk.collocations.QuadgramAssocMeasures()
quadgrams = []
for text in tokenized_texts:
    finder2 = nltk.collocations.QuadgramCollocationFinder.from_words(text)
    text_quadgrams = finder2.nbest(quadgram_measures.pmi, 10)
    quadgrams.append(text_quadgrams)

In [15]:
for text in unigrams:
    print(text)

['не', 'друг', 'давно', 'большой', 'достаточно', 'очень', 'это', 'ресторан', 'цена', 'решить']
['очень', 'небольшой', 'не', 'зона', 'причем', 'рядом', 'удобный', 'бара', 'несколько', 'довольно']
['не', 'весь', 'заказать', 'ресторан', 'очень', 'последний', 'месяц', 'назад', 'час', '4']
['обслуживание', '10', 'ставить', 'не', 'это', 'ресторан', 'четыре', 'декабрь', 'прошлый', 'год']
['принести', 'не', 'минута', '15', 'первый', 'ресторан', 'человек', 'напиток', 'порция', 'аппетите']
['очень', 'ресторан', 'внимательный', 'огромный', 'приятный', 'свадебный', 'мероприятие', 'спокойный', 'меню', 'вкусный']
['не', 'стол', 'решить', 'это', 'рыбка', 'мочь', 'сказать', 'кухня', 'друг', 'воля']
['обслуживание', 'еда', 'санторини', 'свадьба', 'очень', 'хороший', 'не', 'весь', 'заказать', 'вкусно']
['не', 'очень', 'вечер', 'красиво', 'понравиться', 'вчера', 'ходить', 'свадьба', 'подруга', 'отмечать']
['часто', 'тан', 'жен', 'кухня', 'добрый', 'день', 'ходить', 'молодой', 'человек', 'друг']
['не', 'в

Жаль, конечно, что так попадёт много мусора, но релевантное тоже есть!

Ещё стоит заметить, что в отзывах периодически появляются названия заведений. Это является named entity, но такие слова и коллокации могут игнорироваться или каверкаться парсерами, поэтому их стоит собирать по отзывам как аспекты отдельно.

In [16]:
!python3 -m spacy download ru_core_news_sm

2022-12-29 10:38:59.454737: E tensorflow/stream_executor/cuda/cuda_driver.cc:271] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting ru-core-news-sm==3.4.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.4.0/ru_core_news_sm-3.4.0-py3-none-any.whl (15.3 MB)
[K     |████████████████████████████████| 15.3 MB 4.3 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')


In [17]:
spacy_nlp = spacy.load('ru_core_news_sm')

In [64]:
def get_entities(text: str) -> list:
    '''
    Get named entities with spaCy NER from the text.
    '''
    doc = spacy_nlp(text)
    entities = []
    for ent in doc.ents:
        entities.append((ent.text, ent.start_char, ent.end_char))
    return entities

In [65]:
named_entities = []
for text in texts:
    named_entities.append(get_entities(text))

In [66]:
print(named_entities)

[[], [('Коктейли', 907, 915)], [], [], [('Аппетите', 18, 26), ('НО', 862, 864)], [('Ах-Ах', 27, 32), ('Ольге', 762, 767), ('Sokos Hotel Vasilievsky', 1109, 1132)], [('Невский 166', 96, 107), ('Марата', 139, 145)], [('Санторини', 19, 28), ('Санторини', 587, 596)], [('Долина', 57, 63)], [('Тан Жен', 58, 65), ('В.О.', 429, 433), ('Тан Жен', 826, 833)], [], [('Шеф-повар ресторана', 158, 177), ('Тайланда', 520, 528), ('Оксане-', 823, 830)], [], [('Le Glamure(хрустальный зал', 57, 83), ('Кате', 383, 387), (';)', 402, 404)], [('Дитае', 7, 12)], [], [('горячее+', 826, 834)], [], [], [], [('Мидзуки', 71, 78)], [('Евразия', 33, 40), ('Марина', 189, 195)], [('Вобщем', 415, 421), ('Свинина', 777, 784), ('Натальи А. - отзыв', 1120, 1138)], [('Имеритенское', 185, 197), ('маловато', 273, 281)], [], [('Чили Пицца', 108, 118)], [], [('Татьяне', 562, 569)], [('КАК', 437, 440)], [('Кирочный Двор', 30, 43), ('Анна', 599, 603), ('Иван', 606, 610)], [], [], [('Европейская кухня', 368, 385)], [('Макарену', 1

Есть проблема с тем, как определять тональность у выделенных именованных сущностей. Попробуем искать для них пары просто в тексте, а затем лемматизируем то, что получилось.

In [None]:
named_entities_with_sent = []
for text in texts:
    named_entities = get_entities(text)
    bigrams_dict = defaultdict(list)
    for ent in named_entities:
        start = ent[1]
        end = ent[2]
        start_text = text[:start]
        end_text = text[end:]
        start_bigram = start_text.split()[-1] + ent[0]
        end_bigram = ent[0] + end_text[0]
        bigrams_dict[ent[0]] += start_bigram
        bigrams_dict[ent[0]] += end_bigram
    named_entities_with_sent.append(bigrams_dict)

# Тональность

In [21]:
scored2 = []
for text in tokenized_texts:
    finder2 = nltk.collocations.BigramCollocationFinder.from_words(text)
    text_bigrams = finder2.score_ngrams(bigram_measures.pmi)
    scored2.append(text_bigrams)

In [22]:
scored3 = []
for text in tokenized_texts:
    finder3 = nltk.collocations.TrigramCollocationFinder.from_words(text)
    text_trigrams = finder3.score_ngrams(trigram_measures.pmi)
    scored3.append(text_trigrams)

In [23]:
scored4 = []
for text in tokenized_texts:
    finder4 = nltk.collocations.QuadgramCollocationFinder.from_words(text)
    text_quadgrams = finder4.score_ngrams(quadgram_measures.pmi)
    scored4.append(text_quadgrams)

In [24]:
scored4[0]

[(('вкусный', 'готовить', 'быстро', 'подруга'), 18.13318235807536),
 (('высокий', 'человек', '1000т.', 'рождение'), 18.13318235807536),
 (('далеко', 'сцена', 'огромный', 'плюс'), 18.13318235807536),
 (('живой', 'музыка', 'порой', 'петь'), 18.13318235807536),
 (('интерьер', 'остаться', 'обычный', 'зато'), 18.13318235807536),
 (('музыка', 'порой', 'петь', 'громко'), 18.13318235807536),
 (('нахвалива', 'шашлык', 'куриной', 'грудки'), 18.13318235807536),
 (('понравиться', 'правда', 'суббота', 'живой'), 18.13318235807536),
 (('правда', 'суббота', 'живой', 'музыка'), 18.13318235807536),
 (('суббота', 'живой', 'музыка', 'порой'), 18.13318235807536),
 (('суп', 'понравиться', 'правда', 'суббота'), 18.13318235807536),
 (('шашлык', 'куриной', 'грудки', 'сказать'), 18.13318235807536),
 (('быстро', 'подруга', 'очень', 'нахвалива'), 17.13318235807536),
 (('весь', 'ресторан', 'нижний', 'трасса('), 17.13318235807536),
 (('готовить', 'быстро', 'подруга', 'очень'), 17.13318235807536),
 (('грудки', 'сказ

In [35]:
def colls_for_unigrams(scored, rev_unigrams):
    '''
    Get bigrams with target unigrams.
    '''
    for_unigrams = {}
    for unigram in rev_unigrams:
        bigrams = []
        for bigram, score in scored:
            b = ' '.join(bigram)
            start_unigram = unigram + ' '
            end_unigram = ' ' + unigram
            if start_unigram in b or end_unigram in b:
                bigrams.append(bigram)
        for_unigrams[unigram] = bigrams

    return for_unigrams

In [36]:
def colls_for_bigrams(scored, rev_bigrams):
    '''
    Get trigrams with target bigrams.
    '''
    for_bigrams = {}
    for bigram in rev_bigrams:
        bigram = ' '.join(bigram)
        trigrams = []
        for trigram, score in scored:
            t = ' '.join(trigram)
            start_bigram = bigram + ' '
            end_bigram = ' ' + bigram
            if start_bigram in t or end_bigram in t:
                trigrams.append(trigram)
        for_bigrams[bigram] = trigrams
    
    return for_bigrams

In [37]:
def colls_for_trigrams(scored, rev_trigrams):
    '''
    Get quadgrams with target bigrams.
    '''
    for_trigrams = {}
    for trigram in rev_trigrams:
        trigram = ' '.join(trigram)
        quadgrams = []
        for quadgram, score in scored:
            q = ' '.join(quadgram)
            start_trigram = trigram + ' '
            end_trigram = ' ' + trigram
            if start_trigram in q or end_trigram in q:
                quadgrams.append(quadgram)
        for_trigrams[trigram] = quadgrams

    return for_trigrams

In [38]:
for_unigrams_full = []
for_bigrams_full = []
for_trigrams_full = []
for idx, text in enumerate(tokenized_texts):
    for_unigrams_full.append(colls_for_unigrams(scored2[idx], unigrams[idx]))
    for_bigrams_full.append(colls_for_bigrams(scored3[idx], bigrams[idx]))
    for_trigrams_full.append(colls_for_trigrams(scored4[idx], trigrams[idx]))

In [50]:
full_collocations_with_sent = []
for idx, text in enumerate(tokenized_texts):
    t = colls_for_unigrams(scored2[idx], unigrams[idx])
    t.update(colls_for_bigrams(scored3[idx], bigrams[idx]))
    t.update(colls_for_trigrams(scored4[idx], trigrams[idx]))
    full_collocations_with_sent.append(t)

In [51]:
len(full_collocations_with_sent)

71

In [52]:
for_bigrams_full[0]

{'1000т. рождение': [('человек', '1000т.', 'рождение')],
 'быстро подруга': [('готовить', 'быстро', 'подруга'),
  ('быстро', 'подруга', 'очень')],
 'вкусный готовить': [('вкусный', 'готовить', 'быстро'),
  ('достаточно', 'вкусный', 'готовить')],
 'высокий человек': [('высокий', 'человек', '1000т.'),
  ('не', 'высокий', 'человек')],
 'готовить быстро': [('вкусный', 'готовить', 'быстро'),
  ('готовить', 'быстро', 'подруга')],
 'грудки сказать': [('куриной', 'грудки', 'сказать'),
  ('грудки', 'сказать', 'очень')],
 'далеко сцена': [('далеко', 'сцена', 'огромный'),
  ('достаточно', 'далеко', 'сцена')],
 'живой музыка': [('живой', 'музыка', 'порой'),
  ('суббота', 'живой', 'музыка')],
 'интерьер остаться': [('интерьер', 'остаться', 'обычный'),
  ('друг', 'интерьер', 'остаться')],
 'компания кухня': [('большой', 'компания', 'кухня'),
  ('компания', 'кухня', 'достаточно')]}

In [34]:
print(scored2)

[[(('1000т.', 'рождение'), 6.044394119358453), (('быстро', 'подруга'), 6.044394119358453), (('вкусный', 'готовить'), 6.044394119358453), (('высокий', 'человек'), 6.044394119358453), (('готовить', 'быстро'), 6.044394119358453), (('грудки', 'сказать'), 6.044394119358453), (('далеко', 'сцена'), 6.044394119358453), (('живой', 'музыка'), 6.044394119358453), (('интерьер', 'остаться'), 6.044394119358453), (('компания', 'кухня'), 6.044394119358453), (('куриной', 'грудки'), 6.044394119358453), (('музыка', 'порой'), 6.044394119358453), (('нахвалива', 'шашлык'), 6.044394119358453), (('нижний', 'трасса('), 6.044394119358453), (('обычный', 'зато'), 6.044394119358453), (('огромный', 'плюс'), 6.044394119358453), (('остаться', 'обычный'), 6.044394119358453), (('петь', 'громко'), 6.044394119358453), (('понравиться', 'правда'), 6.044394119358453), (('порой', 'петь'), 6.044394119358453), (('правда', 'суббота'), 6.044394119358453), (('решить', 'заехать'), 6.044394119358453), (('сравнение', 'весь'), 6.0443

Нужно помнить, что упоминаний товара может быть несколько раз под одним и тем же названием, но в разных местах. Будем считать, что для одного упоминания тональность будет самой частой по всем коллокациям для positive/negative/neutral; если никаких тональных слов не встретится, то оценка neutral; к сожалеию, в этом случае лейбл both придётся просто проигнорировать, иначе в ситуациях где лейбл встретился два раза и в 2 коллокациях с 1+n было positive, а n+1 neutral, стало бы both, хотя понятно, что скорее всего там positive; надеемся, что такое моделирование несильно повлияет на результат, так как лейблов both скорее всего будет меньше, чем всех остальных

In [40]:
dev_asp = pd.read_csv('dev_aspects.txt', delimiter='\t', names=['text_id', 'category', 'mention', 'start', 'end', 'sentiment'])

In [41]:
dev_asp['sentiment'].value_counts()

positive    738
neutral     190
negative    159
both         28
Name: sentiment, dtype: int64

In [42]:
# RuSentiLex
!wget http://www.labinform.ru/pub/rusentilex/rusentilex_2017.txt

--2022-12-29 10:49:49--  http://www.labinform.ru/pub/rusentilex/rusentilex_2017.txt
Resolving www.labinform.ru (www.labinform.ru)... 95.181.230.181
Connecting to www.labinform.ru (www.labinform.ru)|95.181.230.181|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1329241 (1.3M) [text/plain]
Saving to: ‘rusentilex_2017.txt’


2022-12-29 10:49:52 (757 KB/s) - ‘rusentilex_2017.txt’ saved [1329241/1329241]



In [45]:
with open('rusentilex_2017.txt', 'r', encoding='utf-8') as sl_file:
    sl = sl_file.read()

sentilex = {}
sl = sl.split('\n')[19:-1]
for row in sl:
    splited = row.split(', ')
    sentilex[splited[2]] = splited[3]

In [53]:
import re

In [58]:
mention_sentiments = []
for text in full_collocations_with_sent:
    best_mention_sent = {}
    for key, value in text.items():
        sentiments = []
        for v in value:
            v = ' '.join(v)
            # print(v)
            sent_word = v.replace(key, '')
            sent_word = re.sub('\s+', '', sent_word)
            if sent_word in sentilex:
                sentiments.append(sentilex[sent_word])
        if sentiments:
            sentiment = Counter(sentiments).most_common(1)[0][0]
        else:
            sentiment = 'neutral'
        best_mention_sent[key] = sentiment
    mention_sentiments.append(best_mention_sent)

In [59]:
mention_sentiments[0]

{'не': 'neutral',
 'друг': 'neutral',
 'давно': 'positive',
 'большой': 'positive',
 'достаточно': 'positive',
 'очень': 'positive',
 'это': 'positive',
 'ресторан': 'neutral',
 'цена': 'neutral',
 'решить': 'neutral',
 '1000т. рождение': 'neutral',
 'быстро подруга': 'neutral',
 'вкусный готовить': 'neutral',
 'высокий человек': 'neutral',
 'готовить быстро': 'positive',
 'грудки сказать': 'neutral',
 'далеко сцена': 'neutral',
 'живой музыка': 'neutral',
 'интерьер остаться': 'positive',
 'компания кухня': 'neutral',
 'вкусный готовить быстро': 'neutral',
 'высокий человек 1000т.': 'neutral',
 'готовить быстро подруга': 'positive',
 'далеко сцена огромный': 'positive',
 'живой музыка порой': 'neutral',
 'интерьер остаться обычный': 'positive',
 'куриной грудки сказать': 'neutral',
 'музыка порой петь': 'positive',
 'нахвалива шашлык куриной': 'neutral',
 'нижний трасса( залив': 'neutral'}

Заметно, что есть проблемы. Например, *далеко сцена* - это скорее всего негативное.

### Собираем всё воедино

## Оценка

In [None]:
!wget https://github.com/ghjuvas/nlp-4thyear-project/blob/main/evaluation.py

In [None]:
!python3 evaluation.py -acatsent dev_aspects.txt dev_pred_aspects_UNSUPERVISED.txt

In [None]:
!python3 evaluation.py -rcatsent dev_cats.txt dev_pred_cats_UNSUPERVISED.txt

## Идея 3: ABSA как NLI
Вольная интерпретация [этой](https://aclanthology.org/W19-6120.pdf) статьи. Вкратце: аспектно-ориентированный тональный анализ можно превратить в задачу нахождения связи между посылкой и гипотезой. Только теперь вместо посылки предложение, содержащее аспект, сам аспект и какой-то лейбл (например, тональность или категория). Как делать?
* Подготовить данные. Нужны тройки вида посылка-гипотеза-категория.
* Зафайнтьюнить BERT: он хорошо кодирует предложения, а ещё отлично классифицирует.
* Найти аспекты в тестовых данных. Можно опять же с помощью тезауруса и лучших коллокаций по какой-то метрике.
