In [17]:
import conllu, os
from ufal.udpipe import Model, Pipeline
import tensorflow_hub as hub

In [1]:
food_words = dict()
service_words = dict()

with open('development/Food_words.txt', 'r', encoding='utf-8') as inp:
    for line in inp.readlines():
        aspect, word, score = line.strip().split('        ')
        food_words[word] = score

with open('development/Service_words.txt', 'r', encoding='utf-8') as inp:
    for line in inp.readlines():
        aspect, word, score = line.strip().split('\t')
        service_words[word] = score

In [2]:
food_words

{'вкусный': '1',
 'большой': '1',
 'прекрасный': '1',
 'разнообразный': '1',
 'единственный': '1',
 'достойный': '1',
 'странный': '1',
 'отличный': '1',
 'горячий': '1',
 'сытный': '1',
 'свежий': '1',
 'великолепный': '1',
 'интересный': '1',
 'различный': '1',
 'необычный': '1',
 'приятный': '1',
 'плохой': '0',
 'невкусный': '0',
 'посредственно': '0',
 'понравиться': '1'}

In [3]:
service_words

{'приветливый': '1',
 'внимательный': '1',
 'приятный': '1',
 'вежливый': '1',
 'хороший': '1',
 'ненавязчивый': '1',
 'доброжелательный': '1',
 'дружелюбный': '1',
 'хамоватый': '0',
 'отличный': '1',
 'милый': '1',
 'гостеприимный': '1',
 'качественный': '1',
 'отзывчивый': '1',
 'радушный': '1',
 'красивый': '1',
 'душевный': '1',
 'веселый': '1',
 'понравиться': '1',
 'спасибо': '1'}

In [6]:
new_food_words = dict()
new_service_words = dict()

for file in os.listdir('разметка_финал'):
    if file.endswith('.tsv'):
        print(file)
        
        with open(os.path.join('разметка_финал',file), 'r', encoding='utf-8') as inp:
            lines = inp.readlines()

        conllu_path = os.path.join('conllu_data', file)
        with open(conllu_path, 'r', encoding='utf-8') as inp:
            conll = conllu.parse(inp.read())

        for line in lines:
            if line:
                sent_id, token_ids, aspect, mark = line.strip().split('\t')
                mark = int(mark)
                sent_id = int(sent_id)-1
                token_ids = [int(i) for i in token_ids.split(',')]
                start_id, end_id = int(token_ids[0])-1, int(token_ids[-1])
                try:
                    tokens = ' '.join(token['lemma'] for token in conll[sent_id][start_id:end_id])
                except:
                    print(sent_id, start_id, end_id)
                if aspect.strip() == 'Service' and tokens not in new_service_words:
                    new_service_words[tokens] = mark
                elif aspect.strip() == 'Food' and tokens not in new_food_words:
                    new_food_words[tokens] = mark

12943.tsv
13823.tsv
20086.tsv
28083.tsv
32840.tsv
32856.tsv
33591.tsv
33693.tsv
35486.tsv
5648.tsv


In [7]:
new_food_words

{'отличный': 1,
 'очень вкусный': 1,
 'сытный': 1,
 'разнообразный вкусный': 1,
 'не впечатлять': 0,
 'вкусный': 1,
 'высокий все похвасть': 1,
 'прекрасный': 1,
 'хороший': 1,
 '10 балл': 1,
 'понравиться': 1,
 'нежный': 1,
 'впечатлять': 1,
 'очень большой': 1,
 'вкусно': 1,
 'не очень дорого': 1,
 'большой': 1,
 'расстроить': 0,
 'невкусный': 0,
 'совершенно отвратительный': 0,
 'весь остыть': 0}

In [8]:
new_service_words

{'очень приветливый': 1,
 'ненавязчивый': 1,
 'оперативный': 1,
 'недолгий': 1,
 'вполне приемлимый': 1,
 'высокий качество': 1,
 'хороший': 1,
 'вежливый': 1,
 'оперативность': 1,
 'приятный': 1,
 'улыбчивый': 1,
 'трепетный': 1,
 'хамоватый': 0,
 'с вызов': 0,
 'не слишком вежливо': 0,
 'ужасный': 0,
 'плохо знать меню': 0,
 'хорошо обучить': 1,
 'очень аккуратно': 1}

Посмотрим на пересечения выделенных нами словарей:

In [9]:
set(food_words) & set(new_food_words)

{'большой',
 'вкусный',
 'невкусный',
 'отличный',
 'понравиться',
 'прекрасный',
 'сытный'}

In [10]:
set(service_words) & set(new_service_words)

{'вежливый', 'ненавязчивый', 'приятный', 'хамоватый', 'хороший'}

И на их разницу:

In [11]:
set(new_food_words) - set(food_words)

{'10 балл',
 'весь остыть',
 'вкусно',
 'впечатлять',
 'высокий все похвасть',
 'не впечатлять',
 'не очень дорого',
 'нежный',
 'очень большой',
 'очень вкусный',
 'разнообразный вкусный',
 'расстроить',
 'совершенно отвратительный',
 'хороший'}

In [12]:
set(food_words) - set(new_food_words)

{'великолепный',
 'горячий',
 'достойный',
 'единственный',
 'интересный',
 'необычный',
 'плохой',
 'посредственно',
 'приятный',
 'различный',
 'разнообразный',
 'свежий',
 'странный'}

In [13]:
set(new_service_words) - set(service_words)

{'вполне приемлимый',
 'высокий качество',
 'не слишком вежливо',
 'недолгий',
 'оперативность',
 'оперативный',
 'очень аккуратно',
 'очень приветливый',
 'плохо знать меню',
 'с вызов',
 'трепетный',
 'ужасный',
 'улыбчивый',
 'хорошо обучить'}

In [14]:
set(service_words) - set(new_service_words)

{'веселый',
 'внимательный',
 'гостеприимный',
 'доброжелательный',
 'дружелюбный',
 'душевный',
 'качественный',
 'красивый',
 'милый',
 'отзывчивый',
 'отличный',
 'понравиться',
 'приветливый',
 'радушный',
 'спасибо'}

In [15]:
len(set(service_words) | set(new_service_words)), len(set(food_words) | set(new_food_words))

(34, 34)

In [16]:
len(new_service_words), len(new_food_words), len(food_words), len(service_words)

(19, 21, 20, 20)

In [23]:
os.listdir()

['.git',
 '.ipynb_checkpoints',
 '12943.xlsx',
 '13823.xlsx',
 '20086.xlsx',
 '28083.xlsx',
 '32840.xlsx',
 '32856.xlsx',
 '33591.xlsx',
 '33693.xlsx',
 '35486.xlsx',
 '5648.xlsx',
 'conllu_data',
 'convert to needed format.ipynb',
 'convert.py',
 'development',
 'example.csv',
 'find keywords.ipynb',
 'find tonal words.ipynb',
 'README.md',
 'разметка_финал',
 'Реферат.docx',
 'условия']

In [26]:
elmo = hub.load('/elmo_model_lemmatized_rusvectores')

NotImplementedError: hub.load() is not implemented for TF < 1.14.x, Current version: 1.13.1

In [20]:
help(hub.Module)

Help on class Module in module tensorflow_hub.module:

class Module(builtins.object)
 |  Module(spec, trainable=False, name='module', tags=None)
 |  
 |  Part of a TensorFlow 1 model that can be transferred between models.
 |  
 |  DEPRECATION NOTE: The hub.Module API and file format works for TF1 only.
 |  For TF2, switch to plain SavedModels and hub.load().
 |  
 |  A Module represents a part of a TensorFlow graph that can be exported to disk
 |  (based on the SavedModel format) and later re-loaded. A Module has a defined
 |  interface that allows it to be used in a replaceable way, with little or no
 |  knowledge of its internals and its serialization format. Example:
 |  
 |  ```python
 |  m = hub.Module("/tmp/text-embedding")
 |  embeddings = m(sentences)
 |  ```
 |  
 |  The module to instantiate is defined by its spec (a `ModuleSpec` or a
 |  path where to load it from) which contains the module weights, assets and
 |  signatures.
 |  
 |  During instantiation the Module adds th

In [27]:
help(hub.load)

Help on function load in module tensorflow_hub.module_v2:

load(handle, tags=None)
    Resolves a handle and loads the resulting module.
    
    This is the preferred API to load a Hub module in low-level TensorFlow 2.
    Users of higher-level frameworks like Keras should use the framework's
    corresponding wrapper, like hub.KerasLayer.
    
    This function is roughly equivalent to the TF2 function `tf.save_model.load()`
    on the result of `hub.resolve(handle)`. Calling this function requires
    TF 1.14 or newer. It can be called both in eager and graph mode.
    
    This function can handle the deprecated hub.Module format to the extent
    that `tf.save_model.load()` in TF2 does. In particular, the returned object
    has attributes
      * `.variables`: a list of variables from the loaded object;
      * `.signatures`: a dict of TF2 ConcreteFunctions, keyed by signature names,
        that take tensor kwargs and return a tensor dict.
    However, the information imported b