In [1]:
import pandas as pd

In [2]:
import xml.etree.ElementTree as et

In [3]:
import os

In [81]:
import re

In [4]:
xtree = et.parse("development/SentiRuEval_rest_train.xml")

In [5]:
os.listdir('development')

['.~lock.SentiRuEval_rest_train.xml#',
 'Food_words.txt',
 'SentiRuEval_rest_train.xml',
 'Service_words.txt']

In [6]:
root = xtree.getroot()

In [7]:
data = []
columns = ['id', 'food', 'service', 'text']

In [8]:
for review in root:
    text_id = int(review.attrib['id'])
    
    scores = review.find('scores')
    
    food = int(scores.find('food').text)
    service = int(scores.find('service').text)
    
    text = review.find('text').text
    
    data.append({'id': text_id,
                'food': food,
                'service': service,
                'text': text})
    

df = pd.DataFrame(data, columns=columns)
df = df.set_index('id')

In [9]:
df.head()

Unnamed: 0_level_0,food,service,text
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
17600,8,8,И пускай на меня не обижается наш прославленны...
23518,9,10,"- Здравствуйте. Виа Д’Арженто! - Добрый вечер,..."
27221,9,1,"Советую вам уволить Вашего метродотеля Елену, ..."
29097,8,9,отличный средне вековый интеръер. Приятное обс...
23065,10,8,Ужинали в ресторане Баден-Баден 6 марта . Импо...


In [22]:
texts = df['text']
y = df[['food', 'service']].applymap(lambda x: 1 if x > 5 else 0)

In [27]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import GridSearchCV

Для начала обучим простой классифаер текстов:

In [30]:
import numpy as np

In [70]:
vectorizer = TfidfVectorizer()

texts_train, texts_test, y_train, y_test = train_test_split(texts, y, test_size=0.2, random_state=42)

X_train = vectorizer.fit_transform(texts_train)
X_test = vectorizer.transform(texts_test)

parameter_grid = {"penalty": ["l1", "l2", "elasticnet"],
                 "alpha": [10**i for i in range(-10, 1)]}

clf_food = GridSearchCV(SGDClassifier(random_state=42, n_jobs=2, loss="log"), parameter_grid, n_jobs=2)
clf_food.fit(X_train, y_train["food"])
clf_food.score(X_test, y_test["food"])



0.8347780404517993

In [71]:
clf_service = GridSearchCV(SGDClassifier(random_state=42, n_jobs=2, loss="log"), parameter_grid, n_jobs=2)
clf_service.fit(X_train, y_train["service"])
clf_service.score(X_test, y_test["service"])



0.8623588127134226

Продумаем простую реализацию поиска тональных слов - для каждого слова смотрим контексты, включающие его длины 5 и если во всех контекстах вероятность положительного или отрицательного класса больше определённого значения, считаем это слово тональным

In [73]:
clf_food.predict_proba(vectorizer.transform(["Невкусная еда"]))

array([[0.96103279, 0.03896721]])

In [74]:
clf_food.predict_proba(vectorizer.transform(['Вкусная еда']))

array([[0.00563599, 0.99436401]])

In [75]:
clf_service.predict_proba(vectorizer.transform(['Отличное обслуживание']))

array([[0.02212955, 0.97787045]])

In [76]:
clf_service.predict_proba(vectorizer.transform(['Ужасное обслуживание']))

array([[0.99441738, 0.00558262]])

Загрузим наши размеченные тексты:

In [159]:
def get_prepared_data(conllu_data_folder, tonal_folder):
    texts = []
    food_pos = []
    food_neg = []
    service_pos = []
    service_neg = []
    
    for file in os.listdir(conllu_data_folder):
        if file.endswith('.tsv'):
            sent_id = 0

            sentences = []
            
            text = open(os.path.join(conllu_data_folder, file), 'r', encoding='utf-8').read()

            for line in text.splitlines()[1:]:
                if '# sent_id' in line:
                    sent_id = re.search("sent_id = ([0-9]+)", line).group(1)
                    sentences.append([])
                try:
                    token_id, token, lemma, pos, *other = line.split('\t')
                except:
                    continue
                if token:
                    sentences[-1].append((sent_id, int(token_id), token))
            
            markup = open(os.path.join(tonal_folder, file[:-4]+".tsv"), 'r', encoding='utf-8').read()
            
            food_neg_ids = set()
            food_pos_ids = set()
            service_neg_ids = set()
            service_pos_ids = set()
            
            for line in markup.splitlines():
                line = line.strip()
                if line:
                    sent_id, token_ids, aspect, mark = line.split('\t')
                    token_ids = [int(i) for i in token_ids.split(',')]
                    token_ids = [i for i in range(token_ids[0], token_ids[-1])]
                    if aspect == 'Food' and mark == '1':
                        for token_id in token_ids:
                            food_pos_ids.add((sent_id, token_id))
                    elif aspect == 'Food' and mark == '0':
                        for token_id in token_ids:
                            food_neg_ids.add((sent_id, token_id))
                    elif aspect == 'Service' and mark == '1':
                        for token_id in token_ids:
                            service_pos_ids.add((sent_id, token_id))
                    elif aspect == 'Service' and mark == '0':
                        for token_id in token_ids:
                            service_neg_ids.add((sent_id, token_id))
                    
            for sent in sentences:
                for sent_id, token_id, token in sent:
                    for lst, hashmap in zip([food_neg, food_pos, service_neg, service_pos],
                        [food_neg_ids, food_pos_ids, service_neg_ids, service_pos_ids]):
                        if (sent_id, token_id) in hashmap:
                            lst.append(1)
                        else:
                            lst.append(0)
            
            sentences = [j[2] for i in sentences for j in i]
            print(sentences)
            texts.append(sentences)
            
    return texts, food_pos, food_neg, service_pos, service_neg

In [160]:
data, food_pos, food_neg, service_pos, service_neg  = get_prepared_data(conllu_data_folder="conllu_data",
                                                                       tonal_folder="разметка_финал")

['Были', 'сегодня', 'первый', 'раз', '!', 'Все', 'очень', 'понравилось', '.', 'И', 'место', 'на', 'диванчиках', 'нашлось', ',', 'и', 'официантка', 'очень', 'приветливая', ',', 'но', 'ненавязчивая', ',', 'интерьер', 'приятный', ',', 'живая', 'музыка', 'тоже', 'расслабляет', ',', 'вполне', 'и', 'под', 'нее', 'можно', 'вести', 'беседу', '.', 'Обслуживание', 'оперативное', ',', 'ждать', '1', '-', '2', 'минуты', 'пиво', ',', 'гренки', 'чуть', 'дольше', ',', 'пиво', 'отличное', '!', '!', '!', 'я', 'в', 'восторге', '!', '!', '!', 'обстановка', 'очень', 'уютная', '.', 'а', 'еще', 'радует', 'что', 'недалеко', 'от', 'дома', 'такое', 'прекрасное', 'заведение', 'есть', '!', '!', '!']
['Зашли', 'в', '"', 'аппетит', '"', 'случайно.', 'Не', 'смотря', 'на', 'то', ',что', 'был', 'будний', 'день', '(', 'вторник', '14', 'сентября', ')', 'и', 'достаточно', 'много', 'народа', ',', 'все', 'же', 'решили', 'остаться.', 'нас', 'встретил', 'менеджер', '-', 'темноволосая', 'стройная', 'девушка', ',', 'проводила'

In [158]:
data[0]

['Были',
 'сегодня',
 'первый',
 'раз',
 '!',
 'Все',
 'очень',
 'понравилось',
 '.',
 'И',
 'место',
 'на',
 'диванчиках',
 'нашлось',
 ',',
 'и',
 'официантка',
 'очень',
 'приветливая',
 ',',
 'но',
 'ненавязчивая',
 ',',
 'интерьер',
 'приятный',
 ',',
 'живая',
 'музыка',
 'тоже',
 'расслабляет',
 ',',
 'вполне',
 'и',
 'под',
 'нее',
 'можно',
 'вести',
 'беседу',
 '.',
 'Обслуживание',
 'оперативное',
 ',',
 'ждать',
 '1',
 '-',
 '2',
 'минуты',
 'пиво',
 ',',
 'гренки',
 'чуть',
 'дольше',
 ',',
 'пиво',
 'отличное',
 '!',
 '!',
 '!',
 'я',
 'в',
 'восторге',
 '!',
 '!',
 '!',
 'обстановка',
 'очень',
 'уютная',
 '.',
 'а',
 'еще',
 'радует',
 'что',
 'недалеко',
 'от',
 'дома',
 'такое',
 'прекрасное',
 'заведение',
 'есть',
 '!',
 '!',
 '!']

In [61]:
len(data)

10

In [62]:
def predict_text_proba(texts, clf=clf, vectorizer=vectorizer):
    return clf.predict_proba(vectorizer.transform(texts))

In [77]:
avg = lambda x: sum(x)/len(x)

def extract_tonal_words(texts, proba_predictor, aspect='food', threshold=0.7, seq_len=3, criterion="min"):
    is_neg = []
    is_pos = []
    for text in data:
        for sent in text:
            for ind, word in sent:
                seqs = [sent[i:i+seq_len] for i in range(ind-seq_len-1,ind)]
                seqs = [" ".join(seq) for seq in seqs]
            probas = proba_predictor(seqs)
            neg_probas = [i[0] for i in probas]
            pos_probas = [i[1] for i in probas]
            
            if criterion == "max":
                neg_proba, pos_proba = max(neg_probas), max(pos_probas)
            elif criterion == 'min':
                neg_proba, pos_proba = min(neg_probas), min(pos_probas)
            elif criterion == 'avg':
                neg_proba, pos_proba = avg(neg_probas), avg(pos_probas)
            else:
                raise Exception
            
            if neg_proba > threshold:
                is_neg.append(1)
            else:
                is_neg.append(0)
            
            if pos_proba > threshold:
                is_pos.append(1)
            else:
                is_pos.append(0)
            
    return neg_probas, pos_probas

In [99]:
os.listdir()

['.git',
 '.ipynb_checkpoints',
 '12943.tsv',
 '12943.xlsx',
 '13823.tsv',
 '13823.xlsx',
 '20086.tsv',
 '20086.xlsx',
 '28083.tsv',
 '28083.xlsx',
 '32840.tsv',
 '32840.xlsx',
 '32856.tsv',
 '32856.xlsx',
 '33591.tsv',
 '33591.xlsx',
 '33693.tsv',
 '33693.xlsx',
 '35486.tsv',
 '35486.xlsx',
 '5648.tsv',
 '5648.xlsx',
 'conllu_data',
 'convert to needed format.ipynb',
 'convert.py',
 'development',
 'example.csv',
 'find keywords.ipynb',
 'README.md',
 'разметка_финал',
 'условия']

Подберём наилучшие праметры для предложенного нами алгоритма (порог, длину последовательности, критерий):