In [1]:
import sys
sys.path.append("../")
from thesaurus_parsing.thesaurus_parser import ThesaurusParser
from syntax_tree import SyntaxTree
from os.path import join
import os
import json
from tqdm import tqdm_notebook as tqdm
from collections import Counter

### Определение паттернов гиперонимии

Воспользуемся тем, что теперь все данные лежат в удобном формате. Построим тезаурус и будем искать паттерны гиперонимии.

Сначала прости считаем имеющийся список файлов с обработанными текстами, которые имеются на данный момент (пока что идёт обработка 36к документов)

In [2]:
DIR_PATH = "/home/loginov-ra/MIPT/HypernymyDetection/data/Lenta/texts_tagged_processed_tree"

In [3]:
file_list = os.listdir(DIR_PATH)
file_list = [join(DIR_PATH, filename) for filename in file_list]

In [4]:
len(file_list)

36437

In [5]:
file_list[0]

'/home/loginov-ra/MIPT/HypernymyDetection/data/Lenta/texts_tagged_processed_tree/20100603protes.txt_processed.json'

В каждом файле известен набор синтаксических деревьев и лемматизированных предложений. Загрузим словарь гиперонимов и посмотрим, как проверять в нём наличие отношения гиперонимии между двумя заданными сущностями.

In [6]:
thesaurus = ThesaurusParser("../data/RuThes", need_closure=False, verbose=True)

In [7]:
thesaurus.hypernyms_dict['человек']

['живой организм',
 'макроорганизм',
 'живое',
 'существо',
 'живой существо',
 'биологический',
 'организм',
 'живность',
 'индивидуум',
 'биологический организм',
 'субъект деятельность',
 'особь']

Будем проходить по каждому предложению, искать сущности, которые являются гиперонимами и строить синтаксический паттерн из записанного в данных дерева. По каждому паттерну заведём статистику встречаемости.

**Важно.** Эту процедуру надо производить только на обучающей части данных.

In [8]:
def is_hyponym_hypernym(hypo_cand, hyper_cand):
    if hypo_cand not in thesaurus.hypernyms_dict:
        return False
    return hyper_cand in thesaurus.hypernyms_dict[hypo_cand]

In [9]:
def get_hypernymy_pairs(multitokens):
    pairs = []
    for i, hypernym_candidate in enumerate(multitokens):
        for j, hyponym_candidate in enumerate(multitokens):
            if i == j:
                continue
            if is_hyponym_hypernym(hyponym_candidate, hypernym_candidate):
                pairs.append((j, i))
    return pairs

In [10]:
pattern_counter = Counter()

no_deeppavlov = 0
tree_failures = 0

for filename in tqdm(file_list):
    with open(filename, encoding='utf-8') as sentences_file:
        sentences = json.load(sentences_file)
        for sent in sentences:
            if 'deeppavlov' not in sent:
                no_deeppavlov += 1
                continue
            
            multitokens, main_pos = sent['multi']
            lemmas = sent['deeppavlov']
            pos = sent['pos']
            tree_info = sent['syntax']
            
            tree = SyntaxTree(empty=True)
            tree.load_from_json(tree_info)
            
            for pattern_pair in get_hypernymy_pairs(multitokens):
                hypo_multi, hyper_multi = pattern_pair
                hypo_main, hyper_main = main_pos[hypo_multi], main_pos[hyper_multi]
                #try:
                pattern = tree.get_syntax_pattern(hypo_main, hyper_main, pos, lemmas)
                #except:
                #    tree_failures += 1
                #    continue
                    
                if pattern is None:
                    tree_failures += 1
                    continue
                pattern = ';'.join(pattern)
                pattern_counter[pattern] += 1
                
                #if pattern == '{}:NOUN:conj:NOUN:{}':
                #    print(' '.join(sent['initial']))
                #    print(multitokens[hypo_multi], multitokens[hyper_multi])
                #    print('')




In [11]:
tree_failures

560

In [13]:
pattern_counter.most_common(n=50)

[('{}:NOUN:nmod:NOUN:{}', 4641),
 ('{}:NOUN:appos:NOUN:{}', 1805),
 ('{}:NOUN:conj:NOUN:{};{}:NOUN:cc:CCONJ:и', 1179),
 ('{}:VERB:parataxis:VERB:{}', 1079),
 ('{}:NOUN:conj:NOUN:{}', 1073),
 ('{}:ADJ:amod:NOUN:{}', 1015),
 ('{}:NOUN:obl:VERB:{}', 1000),
 ('{}:VERB:conj:VERB:{}', 987),
 ('и:CCONJ:cc:NOUN:{};{}:NOUN:conj:NOUN:{}', 985),
 ('{}:VERB:advcl:VERB:{}', 842),
 ('{}:VERB:aux:AUX:{}', 772),
 ('{}:VERB:parataxis:VERB:{};{}:VERB:mark:SCONJ:как', 679),
 ('{}:VERB:obl:NOUN:{}', 595),
 ('{}:NOUN:parataxis:NOUN:{}', 578),
 ('{}:VERB:aux:pass:AUX:{}', 567),
 ('{}:VERB:conj:VERB:{};{}:VERB:cc:CCONJ:и', 505),
 ('{}:VERB:ccomp:VERB:{}', 498),
 ('и:CCONJ:cc:VERB:{};{}:VERB:conj:VERB:{}', 488),
 ('{}:VERB:xcomp:VERB:{}', 465),
 ('{}:VERB:obj:NOUN:{}', 383),
 ('{}:NOUN:nsubj:VERB:{}', 315),
 ('{}:NOUN:obj:VERB:{}', 303),
 ('{}:VERB:xcomp:ADJ:должный;должный:ADJ:cop:AUX:{}', 296),
 ('{}:VERB:conj:VERB:{};{}:VERB:cc:CCONJ:а', 256),
 ('{}:NOUN:nsubj:NOUN:{}', 212),
 ('а:CCONJ:cc:VERB:{};{}:VERB:

In [None]:
popular_patterns = [pattern[0] for pattern in pattern_counter.most_common(500)]

In [None]:
with open('../data/popular_patterns.csv', 'w') as pattern_file:
    pattern_file.write('\n'.join(popular_patterns))

__________________

Повторим эксперимент, учитывая сжатие CONJ рёбер

In [14]:
pattern_counter = Counter()

no_deeppavlov = 0
tree_failures = 0

for filename in tqdm(file_list):
    with open(filename, encoding='utf-8') as sentences_file:
        sentences = json.load(sentences_file)
        for sent in sentences:
            if 'deeppavlov' not in sent:
                no_deeppavlov += 1
                continue
            
            multitokens, main_pos = sent['multi']
            lemmas = sent['deeppavlov']
            pos = sent['pos']
            tree_info = sent['syntax']
            
            tree = SyntaxTree(empty=True)
            tree.load_from_json(tree_info)
            tree.compress_conj_edges()
            
            for pattern_pair in get_hypernymy_pairs(multitokens):
                hypo_multi, hyper_multi = pattern_pair
                hypo_main, hyper_main = main_pos[hypo_multi], main_pos[hyper_multi]
                try:
                    pattern = tree.get_syntax_pattern(hypo_main, hyper_main, pos, lemmas)
                except:
                    tree_failures += 1
                    continue
                    
                if pattern is None:
                    tree_failures += 1
                    continue
                pattern = ';'.join(pattern)
                pattern_counter[pattern] += 1




In [15]:
pattern_counter.most_common(n=50)

[('{}:NOUN:nmod:NOUN:{}', 4684),
 ('{}:NOUN:appos:NOUN:{}', 1861),
 ('{}:NOUN:conj:NOUN:{};{}:NOUN:cc:CCONJ:и', 1181),
 ('{}:VERB:parataxis:VERB:{}', 1102),
 ('{}:NOUN:conj:NOUN:{}', 1073),
 ('{}:ADJ:amod:NOUN:{}', 1021),
 ('{}:NOUN:obl:VERB:{}', 1013),
 ('и:CCONJ:cc:NOUN:{};{}:NOUN:conj:NOUN:{}', 991),
 ('{}:VERB:conj:VERB:{}', 989),
 ('{}:VERB:advcl:VERB:{}', 846),
 ('{}:VERB:aux:AUX:{}', 768),
 ('{}:NOUN:parataxis:NOUN:{}', 728),
 ('{}:VERB:parataxis:VERB:{};{}:VERB:mark:SCONJ:как', 679),
 ('{}:VERB:obl:NOUN:{}', 598),
 ('{}:VERB:aux:pass:AUX:{}', 567),
 ('{}:VERB:ccomp:VERB:{}', 516),
 ('{}:VERB:conj:VERB:{};{}:VERB:cc:CCONJ:и', 507),
 ('и:CCONJ:cc:VERB:{};{}:VERB:conj:VERB:{}', 489),
 ('{}:VERB:xcomp:VERB:{}', 469),
 ('{}:VERB:obj:NOUN:{}', 385),
 ('{}:NOUN:nsubj:VERB:{}', 319),
 ('{}:NOUN:obj:VERB:{}', 308),
 ('{}:VERB:xcomp:ADJ:должный;должный:ADJ:cop:AUX:{}', 298),
 ('{}:VERB:conj:VERB:{};{}:VERB:cc:CCONJ:а', 255),
 ('{}:NOUN:nsubj:NOUN:{}', 221),
 ('а:CCONJ:cc:VERB:{};{}:VERB:

Видно, что паттерны похожи на правду, и они более адекватные, чем те, которые были раньше. Однако самые частые из них состоят из всего одного перехода.

Посмотрим на то, какие слова стоят рядом с гипонимом и гиперонимом. Ожидаем увидеть что-то вроде слов `такие`, `другие` или похожие.

In [None]:
hypernym_neighbour_cnt = Counter()
hyponym_neighbour_cnt = Counter()
both_neighbour_cnt = Counter()

def add_neighbours(lemmas, ind, ctr):
    if ind > 0:
        ctr[lemmas[ind - 1]] += 1
    if ind + 1 < len(lemmas):
        ctr[lemmas[ind + 1]] += 1

for filename in tqdm(file_list):
    with open(filename, encoding='utf-8') as sentences_file:
        sentences = json.load(sentences_file)
        for sent in sentences:
            if 'deeppavlov' not in sent:
                no_deeppavlov += 1
                continue
            
            multitokens, main_pos = sent['multi']
            lemmas = sent['deeppavlov']
            pos = sent['pos']
            tree_info = sent['syntax']
            
            tree = SyntaxTree(empty=True)
            tree.load_from_json(tree_info)
            
            for pattern_pair in get_hypernymy_pairs(multitokens):
                hypo_multi, hyper_multi = pattern_pair
                hypo_main, hyper_main = main_pos[hypo_multi], main_pos[hyper_multi]
                add_neighbours(lemmas, hypo_main, hyponym_neighbour_cnt)
                add_neighbours(lemmas, hyper_main, hypernym_neighbour_cnt)
                add_neighbours(lemmas, hypo_main, both_neighbour_cnt)
                add_neighbours(lemmas, hyper_main, both_neighbour_cnt)

In [None]:
both_neighbour_cnt.most_common(n=10)

Можно выделить следующие подходящие слова:

`который`
`должный`
`также`
`как`
`тот`
`весь`
`другой`
`такой`
`несколько`
`и`
`или`
`по`
`никакой`
`же`
`ряд`
`а`
`так`
`же`

Однако соседним словом в предложении может быть совершенно удалённая по дереву сущность, поэтому имеет смысл посмотреть на детей и родителя гипонима/гиперонима в синтаксическом дереве.
Эту информацию вполне можно получить также из класса `SyntaxTree`

In [None]:
hypernym_neighbour_cnt = Counter()
hyponym_neighbour_cnt = Counter()
both_neighbour_cnt = Counter()

def add_neighbours(tree, lemma, ind, ctr):
    for child in tree.children[ind]:
        ctr[lemma[child]] += 1

for filename in tqdm(file_list):
    with open(filename, encoding='utf-8') as sentences_file:
        sentences = json.load(sentences_file)
        for sent in sentences:
            if 'deeppavlov' not in sent:
                no_deeppavlov += 1
                continue
            
            multitokens, main_pos = sent['multi']
            lemmas = sent['deeppavlov']
            pos = sent['pos']
            tree_info = sent['syntax']
            
            tree = SyntaxTree(empty=True)
            tree.load_from_json(tree_info)
            
            for pattern_pair in get_hypernymy_pairs(multitokens):
                hypo_multi, hyper_multi = pattern_pair
                hypo_main, hyper_main = main_pos[hypo_multi], main_pos[hyper_multi]
                add_neighbours(tree, lemmas, hypo_main, hyponym_neighbour_cnt)
                add_neighbours(tree, lemmas, hyper_main, hypernym_neighbour_cnt)
                add_neighbours(tree, lemmas, hypo_main, both_neighbour_cnt)
                add_neighbours(tree, lemmas, hyper_main, both_neighbour_cnt)

In [None]:
both_neighbour_cnt.most_common(n=50)

**Изменение алгоритма в построении паттернов**

Данные уже почище, но тем не менее новых адекватных слов для добавления нет. Так что алгоритм добавления примерно следующий:

* смотрим слово, от которого требуется построить паттерн

* смотрим на его детей. если среди них есть слово из выделенных, то строим паттерн от него

* проверяем только, что это слово уже не является соседом в пути