#  Глагольное управление для прямого дополнения

In [1]:
import pickle
import matplotlib.pyplot as plt
from collections import Counter, defaultdict
import numpy as np
import pandas as pd
from copy import deepcopy
from tqdm import tqdm

In [2]:
def read_correct(filename: str):
    verb_correct = {}
    with open(filename, "rt") as in_file:
        for line in in_file:
            if len(line) <= 1 or line[0] == '#':
                continue
            verb = line[:21].strip()
            verb_correct[verb] = {}
            cases = line[21:].split(',')
            for pair in cases[:-1]:
                pair = pair.strip()
                cas = pair[:3]
                freq = pair[4:].strip()
#                 print(f"'{cas}'", f"'{freq}'")
                verb_correct[verb][cas] = not (freq == '0.0' or freq[0] == '-')
    return verb_correct

In [3]:
verb_correct = read_correct("verbal_government_200_300.csv")

In [4]:
verb_correct

{'одобрить': {'Nom': True,
  'Gen': False,
  'Dat': False,
  'Acc': True,
  'Ins': True,
  'Loc': False},
 'действовать': {'Nom': True,
  'Gen': False,
  'Dat': True,
  'Acc': True,
  'Ins': True,
  'Loc': False},
 'запретить': {'Nom': True,
  'Gen': False,
  'Dat': True,
  'Acc': True,
  'Ins': True,
  'Loc': False},
 'заключить': {'Nom': True,
  'Gen': False,
  'Dat': False,
  'Acc': True,
  'Ins': True,
  'Loc': False},
 'учитывать': {'Nom': True,
  'Gen': False,
  'Dat': False,
  'Acc': True,
  'Ins': False,
  'Loc': False},
 'пытаться': {'Nom': True,
  'Gen': False,
  'Dat': False,
  'Acc': True,
  'Ins': False,
  'Loc': False},
 'лежать': {'Nom': True,
  'Gen': False,
  'Dat': False,
  'Acc': True,
  'Ins': True,
  'Loc': False},
 'отправить': {'Nom': True,
  'Gen': False,
  'Dat': True,
  'Acc': True,
  'Ins': True,
  'Loc': False},
 'заметить': {'Nom': True,
  'Gen': False,
  'Dat': True,
  'Acc': True,
  'Ins': True,
  'Loc': False},
 'попросить': {'Nom': True,
  'Gen': True,


In [5]:
with open("comb_verb_noun.pickle", "rb") as in_file:
    verb_comb = pickle.load(in_file)

In [7]:
exceptional = []
too_short = []

for verb, comb1 in verb_comb.items():
    for prep, comb2 in comb1.items():
        for cas, comb3 in comb2.items():
            if len(comb3) < 3:
                too_short.append((verb, prep, cas))
                continue
            s_combs = sorted(comb3.items(), key=lambda x:x[1], reverse=True)
            if s_combs[0][1] > 4 * s_combs[1][1] and s_combs[0][1] > 50:
                exceptional.append((verb, prep, cas, s_combs[0][0]))
            
for short in too_short:
    del verb_comb[short[0]][short[1]][short[2]]
    
for ex in exceptional:
    del verb_comb[ex[0]][ex[1]][ex[2]][ex[3]]

In [19]:
exceptional

[('случиться', '_', 'Gen', 'год'),
 ('просиять', 'В', 'Loc', 'земля'),
 ('просиять', '_', 'Nom', 'лицо'),
 ('просиять', '_', 'Ins', 'улыбка'),
 ('приступить', 'НА', 'Acc', 'день'),
 ('приступить', 'ВО', 'Acc', 'вторник'),
 ('приступить', 'КО', 'Dat', 'этап'),
 ('приступить', 'ПОД', 'Ins', 'руководство'),
 ('рассказать', 'СО', 'Ins', 'ссылка'),
 ('рассказать', 'ДЛЯ', 'Gen', 'начало'),
 ('рассказать', 'С', 'Gen', 'начало'),
 ('рассказать', 'ПРИ', 'Loc', 'встреча'),
 ('рассказать', 'В КАЧЕСТВЕ', 'Gen', 'пример'),
 ('рассказать', 'ВО', 'Acc', 'вторник'),
 ('рассказать', 'БЕЗ', 'Gen', 'утайка'),
 ('рассказать', 'ДО', 'Gen', 'конец'),
 ('стоять', '_', 'Acc', 'время'),
 ('стоять', '_', 'Loc', 'посередине'),
 ('стоять', 'ВО', 'Loc', 'двор'),
 ('стоять', 'С', 'Gen', 'сторона'),
 ('стоять', 'С', 'Acc', 'минута'),
 ('стоять', 'О', 'Acc', 'бок'),
 ('стоять', 'РАДИ', 'Gen', 'справедливость'),
 ('стоять', 'ПОСРЕДИ', 'Gen', 'комната'),
 ('стоять', 'ВОКРУГ', 'Gen', 'стол'),
 ('получать', '_', 'Ins', '

In [73]:
from collections import Counter

ex2 = [x[1:] for x in exceptional]
ex2 = Counter(ex2)
len(ex2), sorted(ex2.items(), key=lambda x: x[1], reverse=True)

(3566,
 [(('_', 'Ins', 'образ'), 393),
  (('В', 'Acc', 'сторона'), 170),
  (('_', 'Acc', 'раз'), 153),
  (('ДО', 'Gen', 'конец'), 147),
  (('_', 'Loc', '.'), 123),
  (('ВО', 'Acc', 'вторник'), 122),
  (('С', 'Ins', 'труд'), 107),
  (('СО', 'Ins', 'время'), 100),
  (('СО', 'Gen', 'сторона'), 95),
  (('ОТ', 'Gen', 'имя'), 89),
  (('ПО', 'Dat', 'слово'), 80),
  (('ВО ВРЕМЯ', 'Gen', 'война'), 75),
  (('_', 'Acc', 'время'), 69),
  (('С', 'Ins', 'цель'), 68),
  (('В', 'Acc', 'время'), 68),
  (('С', 'Ins', 'учёт'), 65),
  (('ВО', 'Loc', 'сон'), 64),
  (('В', 'Loc', 'результат'), 56),
  (('В', 'Loc', 'случай'), 49),
  (('С', 'Gen', 'начало'), 48),
  (('ЗА', 'Ins', 'спина'), 48),
  (('ПОД', 'Ins', 'руководство'), 47),
  (('ВО', 'Acc', 'время'), 47),
  (('ВО', 'Loc', 'многое'), 46),
  (('ПО', 'Loc', 'окончание'), 44),
  (('С', 'Ins', 'сила'), 43),
  (('_', 'Nom', 'друг'), 40),
  (('_', 'Ins', 'рука'), 38),
  (('СО', 'Ins', 'ссылка'), 37),
  (('СО', 'Gen', 'время'), 37),
  (('НА', 'Loc', 'место')

In [3]:
# !!! Можно освободить память, убрав всё, что не относится к прямым дополнениям.


In [6]:
all_nouns_freq = defaultdict(int)

for verb, comb1 in tqdm(verb_comb.items()):
    for prep, comb2 in comb1.items():
        for cas, comb3 in comb2.items():
            for noun, freq in comb3.items():
                all_nouns_freq[noun] += freq

  0%|          | 0/35223 [00:00<?, ?it/s]

In [7]:
list(verb_comb.keys())[:10]

['случиться',
 'просиять',
 'приступить',
 'рассказать',
 'стоять',
 'получать',
 'быть',
 'родиться',
 'переехать',
 'получить']

In [8]:
sum(verb_comb['вызывать']['_']['Nom'].values())

103678

In [9]:
verb_freq = []
for verb in verb_comb.keys():
    cnt = 0
    if '_' not in verb_comb[verb].keys():
        continue
#     print(verb)
    for words in verb_comb[verb]['_'].values():
        cnt += sum(words.values())
    verb_freq.append((verb, cnt))

In [10]:
verb_freq = sorted(verb_freq, key=lambda x: x[1], reverse=True)

In [11]:
verb_freq[:10]

[('стать', 3199537),
 ('являться', 2641444),
 ('иметь', 2049862),
 ('мочь', 1989789),
 ('получить', 1896987),
 ('быть', 1528541),
 ('принять', 1501017),
 ('сделать', 933251),
 ('провести', 928981),
 ('составлять', 892744)]

## А актанты и сирконстанты - это скорее обязательность или процент присутствия при глаголе.

In [83]:
sorted(verb_comb['ждать']['_']['Dat'].items(), key=lambda x: x[1], reverse=True)

[('белорус', 99),
 ('россиянин', 54),
 ('человек', 26),
 ('тюменец', 24),
 ('сосед', 12),
 ('поклонник', 12),
 ('житель', 11),
 ('горожанин', 10),
 ('зритель', 10),
 ('народ', 9),
 ('реализация', 8),
 ('партнёр', 8),
 ('москвич', 7),
 ('бизнес', 7),
 ('экономика', 7),
 ('страна', 7),
 ('пассажир', 7),
 ('ребёнок', 7),
 ('гражданин', 6),
 ('украинец', 6),
 ('такси', 6),
 ('победа', 6),
 ('парень', 6),
 ('пенсионер', 5),
 ('рынок', 5),
 ('автомобилист', 5),
 ('помощь', 4),
 ('мир', 4),
 ('человечество', 4),
 ('публика', 4),
 ('болельщик', 4),
 ('инвестор', 4),
 ('рубль', 4),
 ('девушка', 4),
 ('армеец', 4),
 ('премьер', 4),
 ('водитель', 4),
 ('потребитель', 3),
 ('очередь', 3),
 ('женщина', 3),
 ('застройщик', 3),
 ('покупатель', 3),
 ('дольщик', 3),
 ('сектор', 3),
 ('радость', 3),
 ('час', 3),
 ('любовь', 3),
 ('версия', 3),
 ('избиратель', 3),
 ('творчество', 3),
 ('уход', 3),
 ('момент', 3),
 ('участник', 2),
 ('команда', 2),
 ('студент', 2),
 ('сотрудник', 2),
 ('негритянка', 2),
 

In [34]:
exceptions = defaultdict(int)

for verb, _ in verb_freq:
    combs1 = verb_comb[verb]
    for cas, comb2 in combs1['_'].items():
        if cas == 'Loc' or cas == 'Par' or cas == 'Nom':
            continue
        comb3 = sorted(comb2.items(), key=lambda x: x[1], reverse=True)
        if len(comb3) > 5 and comb3[0][1] > 3 * comb3[1][1]:
            if comb3[0][1] / sum([c[1] for c in comb3]) > 0.2:
                print(verb, cas, comb3[0], comb3[1], f'{comb3[0][1] / sum([c[1] for c in comb3]):6.3}')
                exceptions[f'{cas} {comb3[0][0]}'] += 1

мочь Ins ('образ', 21857) ('причина', 3579)  0.246
принять Gen ('человек', 1786) ('.', 373)   0.24
составлять Ins ('образ', 2925) ('год', 606)  0.394
нет Ins ('образ', 948) ('слово', 293)  0.321
дать Gen ('деньга', 3217) ('здоровье', 902)  0.251
составить Ins ('образ', 5710) ('год', 885)  0.299
находиться Ins ('образ', 1688) ('лето', 273)  0.213
находиться Acc ('время', 8856) ('год', 1173)  0.473
представлять Ins ('образ', 2142) ('секретарь', 398)  0.201
взять Ins ('штурм', 5554) ('рука', 1588)    0.2
вести Ins ('образ', 3231) ('путь', 295)  0.293
работать Gen ('житель', 5622) ('человек', 883)   0.52
занять Acc ('место', 147821) ('позиция', 24324)   0.55
получать Ins ('образ', 2811) ('способ', 392)  0.249
установить Ins ('закон', 8511) ('законодательство', 2077)  0.205
проходить Dat ('обвинять', 320) ('улица', 24)  0.403
оставаться Acc ('время', 5258) ('год', 1083)  0.271
стоять Acc ('время', 3666) ('день', 681)  0.325
включать Ins ('образ', 712) ('вечер', 42)  0.458
видеть Ins ('глаз'

отказать Ins ('образ', 302) ('лето', 92)  0.293
помешать Ins ('образ', 164) ('ложка', 50)    0.2
пересечь Acc ('граница', 9358) ('комната', 1745)  0.349
получаться Ins ('образ', 1302) ('слово', 85)  0.462
рассчитать Ins ('образ', 547) ('метод', 78)  0.437
дойти Gen ('финал', 166) ('чемпионат', 27)  0.306
стараться Ins ('сила', 1212) ('образ', 328)  0.305
устранить Ins ('образ', 378) ('способ', 94)  0.279
кивнуть Ins ('голова', 9154) ('головка', 58)  0.951
кивнуть Acc ('раз', 225) ('пара', 35)  0.416
возвести Dat ('империя', 21) ('проект', 5)  0.212
возвести Gen ('метр', 312) ('год', 43)  0.525
подумать Acc ('раз', 1183) ('секунда', 335)  0.357
подвергать Ins ('образ', 78) ('лишение', 13)  0.237
информировать Ins ('образ', 529) ('письмо', 40)  0.581
оправдать Ins ('суд', 930) ('присяжный', 229)  0.229
оправдать Gen ('ожидание', 41) ('надежда', 10)   0.25
влиять Ins ('образ', 1986) ('путь', 77)   0.75
даваться Acc ('дива', 864) ('раз', 155)  0.712
эвакуировать Gen ('человек', 704) ('жите

угощать Acc ('гость', 641) ('друг', 147)  0.243
крепиться Acc ('время', 11) ('часть', 3)   0.25
поспособствовать Ins ('образ', 54) ('действие', 7)  0.362
выжить Ins ('чудо', 1093) ('цена', 167)  0.687
закружиться Ins ('вихрь', 80) ('хоровод', 20)  0.307
вешать Ins ('вечер', 436) ('каренина', 23)  0.725
изъявить Acc ('желание', 5005) ('готовность', 802)  0.759
процитировать Acc ('слово', 1234) ('заявление', 228)  0.224
въехать Ins ('вечер', 387) ('утро', 70)  0.372
наследовать Dat ('отец', 488) ('брат', 102)  0.407
соблюсти Ins ('образ', 181) ('цена', 9)  0.609
соблюсти Gen ('мера', 8) ('соглашение', 2)   0.25
злоупотреблять Gen ('человек', 8) ('полвека', 2)  0.229
почесать Acc ('затылок', 2097) ('подбородок', 523)  0.323
изобиловать Gen ('род', 5) ('растительность', 1)  0.278
перепутать Acc ('война', 1456) ('педаль', 145)  0.243
перепутать Ins ('место', 74) ('ночь', 12)  0.487
восходить Acc ('день', 13) ('время', 4)  0.317
восходить Gen ('происхождение', 8) ('год', 2)  0.211
восходить 

отлетать Ins ('рикошет', 31) ('эхо', 10)  0.292
отлетать Gen ('час', 4) ('петербуржец', 1)  0.444
обмыть Ins ('вода', 81) ('вечер', 13)  0.443
разориться Acc ('раз', 4) ('попытка', 1)  0.308
выцарапать Acc ('глаз', 437) ('шайба', 42)  0.566
клонить Acc ('голова', 75) ('ветка', 15)  0.217
дивиться Ins ('удивление', 12) ('сила', 3)  0.273
забурлить Acc ('кровь', 16) ('эмоция', 4)  0.356
разочароваться Acc ('раз', 9) ('время', 2)  0.529
защекотать Acc ('ноздря', 175) ('нос', 45)  0.321
похолодеть Acc ('жара', 14) ('раз', 4)  0.341
шептаться Acc ('время', 25) ('дорога', 6)  0.424
заправляться Acc ('раз', 15) ('ночь', 2)  0.625
гонимый Ins ('ветер', 349) ('страх', 41)  0.339
слизнуть Ins ('язык', 172) ('кончик', 45)  0.717
накатываться Ins ('волна', 138) ('вал', 9)  0.734
проливаться Ins ('дождь', 96) ('бальзам', 11)   0.49
разграничивать Ins ('образ', 12) ('стратегия', 1)  0.545
хихикнуть Acc ('раз', 22) ('пара', 6)  0.489
упроститься Ins ('образ', 22) ('деятельность', 1)  0.815
обстрелива

In [35]:
sorted(exceptions.items(), key=lambda x: x[1], reverse=True)

[('Ins образ', 760),
 ('Acc раз', 453),
 ('Acc время', 237),
 ('Ins рука', 70),
 ('Ins голос', 62),
 ('Ins нога', 54),
 ('Gen рубль', 50),
 ('Gen человек', 49),
 ('Ins голова', 42),
 ('Acc голова', 42),
 ('Acc глаз', 41),
 ('Ins вода', 40),
 ('Acc волос', 40),
 ('Ins ночь', 38),
 ('Acc рука', 36),
 ('Gen год', 33),
 ('Ins глаз', 32),
 ('Dat человек', 30),
 ('Ins взгляд', 28),
 ('Gen раз', 27),
 ('Ins зуб', 27),
 ('Ins сила', 26),
 ('Gen деньга', 25),
 ('Acc год', 24),
 ('Ins время', 23),
 ('Acc слово', 22),
 ('Ins лицо', 22),
 ('Ins место', 22),
 ('Ins палец', 22),
 ('Ins кровь', 21),
 ('Acc губа', 20),
 ('Ins утро', 19),
 ('Gen сила', 19),
 ('Ins нос', 19),
 ('Acc вода', 19),
 ('Acc жизнь', 18),
 ('Ins тело', 18),
 ('Acc нога', 18),
 ('Ins день', 18),
 ('Ins слово', 17),
 ('Ins ветер', 17),
 ('Acc дверь', 17),
 ('Gen тонна', 16),
 ('Ins вечер', 16),
 ('Ins нож', 16),
 ('Ins солнце', 16),
 ('Ins язык', 16),
 ('Ins волна', 16),
 ('Gen .', 15),
 ('Acc внимание', 14),
 ('Acc сердце', 14),

In [26]:
len(verb_comb)

35223

In [202]:
verb = 'аккомпанировать'

total = 0
for prep, items1 in verb_comb[verb].items():
    for case, items2 in items1.items():
        total += sum([v for v in items2.values() if v > 2])

gov_list = {}
for prep, items1 in verb_comb[verb].items():
    for case, items2 in items1.items():
        print(prep, case, f"{sum([v for v in items2.values() if v > 2])/total:6.3}")
        gov_list[f"{prep} {case}"] = sum([v for v in items2.values() if v > 2])/total

_ Nom  0.211
_ Dat  0.282
_ Ins 0.00616
_ Acc 0.0174
_ Gen    0.0
_ Loc    0.0
НА Loc  0.361
НА Acc 0.00168
У Gen    0.0
В Loc 0.0711
В Acc 0.00616
С Ins 0.00168
С Gen    0.0
ПО Dat    0.0
ВО ВРЕМЯ Gen 0.0235
ПРИ Loc 0.0123
В КАЧЕСТВЕ Gen 0.00168
БЕЗ Gen    0.0
ЗА Ins 0.00336
ВО Loc    0.0
СРЕДИ Gen    0.0
СО Gen    0.0
СО Ins    0.0
К Dat    0.0
ИЗ Gen    0.0
ДЛЯ Gen    0.0
ПОД Acc    0.0
ПОД Ins 0.00168
ПОСЛЕ Gen    0.0
ПО МЕРЕ Gen    0.0
В ХОДЕ Gen    0.0
ДО Gen    0.0
ВМЕСТО Gen    0.0
ПЕРЕД Ins    0.0
В ТЕЧЕНИЕ Gen    0.0
С ПОМОЩЬЮ Gen    0.0


In [203]:
gov_list = sorted(gov_list.items(), key=lambda x:x[1], reverse=True)
s = 0
out = verb
for prep, freq in gov_list:
    out += " + " + prep + f" {freq:6.3}"
    s += freq
    if s > 0.8:
        break
print(out)

аккомпанировать + НА Loc  0.361 + _ Dat  0.282 + _ Nom  0.211


In [201]:
verb_comb['агитировать']['В']

{'Loc': {'центр': 2,
  'микроблог': 1,
  'соцсеть': 7,
  'стиль': 2,
  'город': 5,
  'автобус': 1,
  'гонка': 1,
  'рамка': 9,
  'огонёк': 1,
  'статья': 1,
  'школа': 6,
  'район': 4,
  'сми': 4,
  'кампания': 2,
  'село': 1,
  'присутствие': 1,
  'среда': 2,
  'часть': 2,
  'интерес': 2,
  'полок': 1,
  'форма': 3,
  'интервью': 1,
  'год': 4,
  'прошлое': 2,
  'сентябрь': 2,
  'преддверие': 7,
  'интернет': 5,
  'столица': 1,
  'глубинка': 1,
  'партия': 1,
  'бундестаг': 3,
  'магазин': 1,
  'община': 2,
  'страна': 1,
  'губерния': 3,
  'армия': 2,
  'дело': 1,
  'необходимость': 1,
  'случай': 3,
  'образ': 1,
  'регион': 3,
  'ситуация': 1,
  'ролик': 10,
  'учреждение': 1,
  'кафе': 1,
  'январь': 2,
  'область': 5,
  'смысл': 2,
  'вид': 1,
  'метро': 2,
  'воззвание': 1,
  'правительство': 1,
  'блог': 3,
  'сеть': 5,
  'порядок': 3,
  'теленовость': 1,
  'уголок': 2,
  'фельетон': 2,
  'электричка': 2,
  'число': 6,
  'февраль': 17,
  'квартал': 1,
  'пресса': 2,
  'передача

In [16]:
for verb, freq in verb_freq[100:200]:
    total = 0
    for prep, items1 in verb_comb[verb].items():
        for case, items2 in items1.items():
            thr_frq = np.log10(sum(items2.values())) - 0.2
#             thr_frq = 2
            total += sum([v for v in items2.values() if v > thr_frq])

    gov_list = {}
    for prep, items1 in verb_comb[verb].items():
        for case, items2 in items1.items():
            thr_frq = np.log10(sum(items2.values())) - 0.2
#             thr_frq = 2
            gov_list[f"{prep} {case}"] = sum([v for v in items2.values() if v > thr_frq])/total

    gov_list = sorted(gov_list.items(), key=lambda x:x[1], reverse=True)
    s = 0
    out = verb
    for prep, freq in gov_list:
        if prep != '_ Nom':
            out += " + " + prep + f" {freq:6.3}"
        s += freq
        if s > 0.8:
            break
    print(out)

организовать + _ Acc   0.38 + В Loc  0.105 + _ Ins 0.0952
существовать + В Loc  0.153 + НА Loc 0.0477
выполнять + _ Acc  0.704
разработать + _ Acc   0.33 + _ Ins  0.105 + В Loc 0.0834
рассмотреть + _ Acc  0.529 + В Loc 0.0849
обладать + _ Ins  0.728
поднять + _ Acc  0.589 + НА Acc 0.0598 + В Loc 0.0328
использоваться + ДЛЯ Gen  0.211 + В Loc  0.166 + _ Ins 0.0466
закрыть + _ Acc   0.45 + _ Ins 0.0675 + В Loc 0.0436
пользоваться + _ Ins  0.614
принести + _ Acc  0.497 + _ Dat  0.105
внести + _ Acc  0.352 + В Acc  0.245
рассматривать + _ Acc  0.642 + В Loc 0.0658
снять + _ Acc  0.434 + С Gen  0.137 + В Loc 0.0465 + _ Ins 0.0394
считаться + _ Ins  0.467
предусматривать + _ Acc  0.635
позволить + _ Dat  0.252
связать + С Ins  0.657
предлагать + _ Acc  0.314 + _ Dat  0.168 + В Loc 0.0533
осуществлять + _ Acc    0.6 + В Loc 0.0832
построить + _ Acc  0.226 + НА Loc  0.124 + В Loc  0.103 + ПО Dat 0.0593
служить + _ Ins   0.38 + В Loc  0.172 + _ Dat 0.0574 + ДЛЯ Gen 0.0402
вырасти + В Loc  0.131

In [18]:
wordlist = ["абстрагироваться", "агитировать", "аккомпанировать", "актировать", "анализировать", "аннотировать", "апеллировать", "аргументировать", "арканить", "ассоциировать", "ассоциироваться", "асфальтировать", "багроветь", "базарить", "баламутить", "балансировать", "балластировать", "баловать", "бальзамировать", "бальзамировать", "банкротиться", "баррикадировать", "баррикадироваться", "басить", "баюкать", "бегать", "беднеть", "бедокурить", "бежать", "безобразить", "безобразничать", "белеть", "белить", "белить", "белить", "белиться", "бередить", "беременеть", "беречь", "беречься", "беседовать", "бесить", "беситься", "беспокоить", "беспокоить", "беспокоиться", "беспокоиться", "бессилеть", "бессилить", "бесславить", "бесчестить", "бетонировать", "бинтовать", "бить", "бить", "бить", "биться", "благодарить", "благодарить", "бледнеть", "блекнуть", "близиться", "блюсти", "богатеть", "бодать", "бодаться", "бодрить", "бодриться", "божиться", "болеть", "болеть", "болеть", "болтать", "болтать", "болтать", "бормотать", "бороздить", "боронить", "бороновать", "бороновать", "бороть", "бороться", "бояться", "бояться", "бояться", "бояться", "браковать", "бранить", "браниться", "браниться", "брататься", "брать", "браться", "брезгать", "брезговать", "бренчать", "брехать", "брить", "брить", "бриться", "бродить"]

In [19]:
my_gov = defaultdict(list)

for verb in wordlist:
    if verb not in verb_comb.keys():
        print(verb, "---")
        continue
    total = 0
    for prep, items1 in verb_comb[verb].items():
        for case, items2 in items1.items():
            thr_frq = np.log10(sum(items2.values())) - 0.2
#             thr_frq = 2
            total += sum([v for v in items2.values() if v > thr_frq])

    if total == 0:
        print(verb, "---")
        continue
    
    gov_list = {}
    for prep, items1 in verb_comb[verb].items():
        for case, items2 in items1.items():
            thr_frq = np.log10(sum(items2.values())) - 0.2
#             thr_frq = 2
            gov_list[f"{prep} {case}"] = sum([v for v in items2.values() if v > thr_frq])/total

    gov_list = sorted(gov_list.items(), key=lambda x:x[1], reverse=True)
    s = 0
    out = verb
    for prep, freq in gov_list:
        if prep != '_ Nom':
            out += f" + {prep} {freq:6.3}"
            my_gov[verb].append(prep)
        s += freq
        if s > 0.8:
            break
    print(out)
    
for verb in my_gov.keys():
    my_gov[verb] = list(set(my_gov[verb]))

абстрагироваться + ОТ Gen  0.829
агитировать + ЗА Acc  0.298 + _ Acc   0.22 + ПРОТИВ Gen 0.0566 + В Loc 0.0412 + В Acc 0.0402
аккомпанировать + НА Loc  0.342 + _ Dat  0.267
актировать + ПО Dat  0.476 + _ Acc 0.0952 + ИЗ Gen 0.0952
анализировать + _ Acc  0.622 + В Loc  0.178
аннотировать + _ Acc  0.453 + _ Ins  0.205 + В Loc  0.103 + С ПОМОЩЬЮ Gen 0.0769
апеллировать + К Dat  0.622
аргументировать + _ Acc  0.535 + _ Ins  0.177
арканить + _ Acc    0.6 + _ Gen    0.1 + _ Ins   0.05 + ПО Dat   0.05
ассоциировать + С Ins  0.551 + _ Acc  0.161
ассоциироваться + С Ins  0.443 + В Loc  0.069
асфальтировать + _ Acc  0.196 + _ Ins 0.0363 + В Loc 0.0363
багроветь + ОТ Gen   0.22 + НА Loc  0.149 + _ Ins  0.038
базарить + ПО Dat  0.135 + В Loc  0.125 + О Loc  0.115 + _ Acc 0.0865 + С Ins 0.0577 + В Acc 0.0481 + ЗА Acc 0.0481 + _ Ins 0.0385
баламутить + _ Acc  0.722 + НА Loc 0.0432
балансировать + НА Loc  0.519 + МЕЖДУ Ins 0.0841 + _ Acc 0.0727
балластировать + ДЛЯ Gen  0.333 + _ Ins  0.333 + _ Acc  

In [20]:
verb_comb['актировать']['_']

{'Acc': {'работа': 1,
  'сумма': 1,
  'инвалид': 1,
  'состояние': 1,
  'умерший': 2,
  'человек': 1,
  'утилизация': 1,
  'тело': 1,
  'нарушение': 1,
  'перстень': 1,
  'заклинание': 1,
  'недостача': 1,
  'багаж': 1,
  'ущерб': 1,
  'дело': 1,
  'устройство': 1,
  'день': 1},
 'Nom': {'показатель': 2, 'фельдшер': 1, 'доходяга': 1},
 'Ins': {'пачка': 1}}

In [21]:
len(verb_freq)

32920

In [22]:
cntr = 0
cntr_n = 0
nom_verbs = []
for verb in tqdm(verb_comb.keys()):
    if verb not in verb_comb.keys():
#         print(verb, "---")
        continue
    total = 0
    for prep, items1 in verb_comb[verb].items():
        for case, items2 in items1.items():
            thr_frq = np.log10(sum(items2.values())) - 0.2
#             thr_frq = 2
            total += sum([v for v in items2.values() if v > thr_frq])

    if total == 0:
#         print(verb, "---")
        continue
    
    gov_list = {}
    for prep, items1 in verb_comb[verb].items():
        for case, items2 in items1.items():
            thr_frq = np.log10(sum(items2.values())) - 0.2
#             thr_frq = 2
            gov_list[f"{prep} {case}"] = sum([v for v in items2.values() if v > thr_frq])/total

    gov_list = sorted(gov_list.items(), key=lambda x:x[1], reverse=True)
    s = 0
    out = verb
    num_comb = 0
    for prep, freq in gov_list:
        if prep != '_ Nom':
            num_comb += 1
            out += " + " + prep + f" {freq:6.3}"
        s += freq
        if s > 0.8:
            break
    if num_comb > 0:
        cntr += 1
    else:
        cntr_n += 1
        nom_verbs.append(verb)

  0%|          | 0/35223 [00:00<?, ?it/s]

In [23]:
cntr #/ len(verb_comb.keys())

33154

In [27]:
cntr_n, cntr

(2067, 33154)

In [25]:
nom_verbs[-20:]

['обездушивать',
 'щербиться',
 'похороненный',
 'эпоха',
 'выштукатурить',
 'имед',
 'асет',
 'они',
 'резервный',
 'расточитель',
 'незатвердевший',
 'простойный',
 'предупредительный',
 'лещ',
 'сохраненный',
 'подкорректированный',
 'теть',
 'перепрыгиваться',
 'loved',
 'построение']

In [26]:
for verb, freq in verb_freq[:1000]:
    if verb in nom_verbs:
        print(verb, freq)

полагать 94320
озаглавить 39986
настать 33214


In [242]:
for verb in nom_verbs[:20]:
    s = 0
    for prep, comb1 in verb_comb[verb].items():
        for cas, comb2 in comb1.items():
            for noun, freq in comb2.items():
                s += freq
    print(verb, s)

засориться 259
обесточиваться 55
настать 36351
расцениваться 8289
прозвенеть 3080
налаживаться 3113
газифицировать 799
сбыться 7490
подыскиваться 172
благоустраиваться 244
гласить 25710
отзвенеть 110
выдаться 14049
отгреметь 917
спориться 680
развеяться 3237
опустеть 8397
погаснуть 11341
притупляться 657
отпадать 3820


In [238]:
verb_comb['полагать']

{'_': {'Nom': {'эксперт': 11910,
   'власть': 761,
   'врач': 199,
   'юрист': 332,
   'археолог': 144,
   'исследователь': 2339,
   'учёный': 3546,
   'вопрос': 65,
   'разработчик': 259,
   'сайт': 8,
   'управление': 45,
   'издание': 436,
   'специалист': 2166,
   'глава': 1667,
   'особенность': 6,
   'океанолог': 3,
   'собака': 1,
   'собеседник': 346,
   'гражданин': 41,
   'политик': 215,
   'вице-президент': 190,
   'зоолог': 32,
   'ветеринар': 12,
   'дефект': 2,
   'следствие': 3014,
   'большинство': 1026,
   'астроном': 197,
   'наука': 30,
   'лицо': 76,
   'очевидец': 20,
   'хищник': 6,
   'адвокат': 514,
   'правоохранитель': 81,
   'генсек': 34,
   'следователь': 1417,
   'депутат': 566,
   'президент': 798,
   'парламентарий': 103,
   'советник': 100,
   'министр': 506,
   'уровень': 16,
   'хореограф': 2,
   'эксперимент': 6,
   'автор': 2341,
   'журналист': 530,
   'командование': 113,
   'пневмония': 2,
   'человек': 467,
   'защитница': 1,
   'руководство': 26

In [250]:
verbs_noms = ['светать', 'холодать', 'смеркаться', 'вьюжить']


# for verb, comb0 in tqdm(verb_comb.items()):
for verb in verbs_noms:
    comb0 = verb_comb[verb]
    s_n = 0
    s = 0
    for prep, comb1 in verb_comb[verb].items():
        for cas, comb2 in comb1.items():
            for noun, freq in comb2.items():
                s += freq
#     if s < 100:
#         continue
        
    if '_' not in comb0.keys() or 'Nom' not in comb0['_']:
        print('!!!', verb)
        continue
    for noun, freq in comb0['_']['Nom'].items():
        s_n += freq
#     if s_n / s < 0.01:
    print(verb, s_n, s)

светать 31 269
холодать 24 177
смеркаться 25 232
вьюжить 17 47


In [253]:
verb_comb['холодать']['_']['Nom']

{'ребята': 1,
 'правда': 1,
 'погода': 2,
 'отношение': 5,
 'явление': 1,
 'мисс': 1,
 'ночь': 3,
 'шея': 1,
 'май': 1,
 'осень': 1,
 'неохота': 1,
 'климат': 3,
 'воздух': 1,
 'правило': 1,
 'комната': 1}

В статье надо написать, что надо чистить от таких сочетаний.

Сейчас можно пройтись и проверить, где они есть, совпадают ли с моим \_pos. Может и выкинуть.


In [351]:
cooccur = []
cooccur2 = []

for verb, comb1 in verb_comb.items():
    for prep, comb2 in comb1.items():
        for cas, comb3 in comb2.items():
            if len(comb3) <= 2:
                continue
            s_combs = sorted(comb3.items(), key=lambda x:x[1], reverse=True)
            if s_combs[0][1] > 3 * s_combs[1][1]:
                cooccur.append(f'{verb}:{prep}:{cas}:{s_combs[0][0]}:{s_combs[0][1]}:{s_combs[1][1]}')
                cooccur2.append(f'{verb} {prep} {cas}')

In [360]:
cooccur

['случиться:_:Gen:год:110:19',
 'случиться:ВОЗЛЕ:Gen:дом:21:5',
 'случиться:ИЗ:Gen:ряд:25:5',
 'случиться:ДО:Gen:конец:62:20',
 'случиться:ПРОТИВ:Gen:воля:6:1',
 'просиять:В:Loc:земля:244:8',
 'просиять:В:Acc:ответ:30:7',
 'просиять:_:Nom:лицо:429:61',
 'просиять:_:Ins:улыбка:206:24',
 'просиять:ПРИ:Loc:вид:42:7',
 'просиять:НА:Acc:мгновение:9:2',
 'просиять:СРЕДИ:Gen:лицо:6:1',
 'приступить:_:Loc:.:22:2',
 'приступить:В:Acc:время:1053:289',
 'приступить:НА:Acc:день:196:34',
 'приступить:С:Ins:цель:594:168',
 'приступить:ДО:Gen:конец:82:24',
 'приступить:ВО:Acc:вторник:202:7',
 'приступить:ПРИ:Loc:поддержка:305:88',
 'приступить:КО:Dat:этап:159:35',
 'приступить:ПОД:Ins:руководство:111:25',
 'приступить:В ХОДЕ:Gen:сессия:41:11',
 'приступить:ОТ:Gen:имя:7:2',
 'приступить:ВВИДУ:Gen:роль:10:2',
 'приступить:РАДИ:Gen:спасение:6:1',
 'рассказать:О:Acc:хищение:7:2',
 'рассказать:ПО:Acc:ужас:5:1',
 'рассказать:СО:Ins:ссылка:458:59',
 'рассказать:ДЛЯ:Gen:начало:193:20',
 'рассказать:С:Gen:нач

In [354]:
cnt = 0
for diff in diff_pos:
    if diff in cooccur2:
        print(diff)
        cnt += 1

агитировать ПРОТИВ Gen
анализировать В Loc
ассоциироваться В Loc
басить _ Ins
пробасить _ Ins
пробасить В Acc
баюкать НА Loc
бегать В Loc
обеднеть ЗА Acc
бежать ИЗ Gen
побежать В Acc
обезобразить _ Ins
выбелить _ Ins
забеременеть С ПОМОЩЬЮ Gen
забеременеть _ Acc
беречься _ Gen
беседовать ПО Dat
беседовать НА Acc
обессилить ОТ Gen
пробить В Acc
биться ОБ Acc
побиться ОБ Acc
бледнеть В Loc
богатеть _ Ins
разбогатеть БЛАГОДАРЯ Dat
разбогатеть НА Loc
болеть В Loc
заболеть ПО Dat
поболтать НА Acc
бормотать ПОД Acc
пробормотать _ Ins
пробормотать В Acc
пробормотать ПОД Acc
побояться _ Acc
брататься В Acc
браться В Loc
браться В Acc
бриться ПЕРЕД Ins
побриться _ Acc
бросаться В Acc
обрюзгнуть В Acc
брюзжать ПО Dat
брюзжать НА Loc
бубнить ПОД Acc
пробубнить В Acc
пробубнить ПОД Acc
будоражиться _ Ins
пробуравить _ Ins
буреть С Ins
бурчать В Loc
бурчать ПОД Acc
пробурчать В Acc
бухнуть НА Acc
бывать _ Acc
побывать В ХОДЕ Gen
свалить В Acc
валиться ОТ Gen
валиться С Gen
валиться ИЗ Gen
повезти Н

промямлить В Acc
мять В Loc
мяться НА Loc
наблюдать С Ins
наглеть ОТ Gen
наглеть НА Loc
наглеть С Ins
обнаглеть ОТ Gen
обнаглеть ДО Gen
назначать В Loc
направляться В Acc
направиться В Acc
наследовать _ Dat
наступить В Loc
нездоровиться С Gen
понести В Loc
нестись С Ins
нестись В Acc
нестись НА Loc
никнуть К Dat
поникнуть _ Ins
сникнуть ПОД Ins
обнищать В Loc
переночевать _ Acc
пронумеровать В Loc
понюхать _ Dat
обещать В Loc
оборачиваться В Acc
обращаться В Acc
обращаться ЗА Ins
обратиться В Acc
обходиться В Loc
обойтись В Acc
общаться ПО Dat
объясниться В Loc
объясниться ПО ПОВОДУ Gen
оглядываться В Loc
оглядываться ПО Dat
оглянуться В Loc
оглянуться ПО Dat
оглянуться ЧЕРЕЗ Acc
одолжить _ Gen
одолжить НА Acc
оказываться _ Ins
освобождаться В Loc
оскорбить В Loc
оскорбиться ДО Gen
оставаться _ Acc
остановить _ Ins
острить ПО Dat
сострить В Acc
отбирать ДЛЯ Gen
отобрать ДЛЯ Gen
отвыкать С Ins
отличиться _ Ins
отмечать С Ins
отнестись С Ins
отпускать ПО Dat
отпускать В Acc
отпустить НА 

халтурить ПО Dat
схалтурить НА Loc
схалтурить ПРИ Loc
нахамить В Loc
нахамить ПО Dat
нахамить В Acc
хватать _ Ins
хиреть НА Loc
хитрить _ Acc
хлопотать НА Loc
похлопотать ПО Dat
похлопотать НА Loc
захмелеть С Gen
хмуриться _ Acc
холодать НА Loc
похолодать _ Ins
похолодать НА Loc
похолодать К Dat
хорониться НА Loc
хорошеть НА Loc
похорошеть В Acc
хотеть В Loc
хотеть _ Ins
захотеться ДО Gen
сохраниться НА Loc
прохрипеть _ Ins
охрипнуть ОТ Gen
хромировать _ Acc
худеть ПОСЛЕ Gen
худеть НА Loc
худеть С Ins
похудеть В Acc
поцапаться С Ins
поцеловаться НА Acc
чадить _ Ins
очаровать _ Ins
чахнуть НАД Ins
чахнуть НА Loc
зачахнуть НА Loc
чеканить ПО Dat
отчеканить В Acc
отчеканить НА Loc
чернеть НА Loc
почернеть ОТ Gen
очернить В Loc
зачерстветь В Loc
вычесать ИЗ Gen
почесаться В Loc
чистить _ Ins
вычистить ДО Gen
чихать ОТ Gen
чихать В Acc
чихать _ Acc
членить НА Acc
расчленить _ Ins
учудить НА Acc
чуяться В Loc
пошарить _ Ins
швартовать У Gen
пришвартовать В Loc
швартоваться В Loc
пришвартоват

In [357]:
cnt, len(cooccur2)

(1235, 48209)

In [367]:
for verb, comb1 in verb_comb.items():
    for prep, comb2 in comb1.items():
        for cas, comb3 in comb2.items():
            if len(comb3) <= 2:
                continue
            s_combs = sorted(comb3.items(), key=lambda x:x[1], reverse=True)
            if s_combs[0][1] > 6 * s_combs[1][1] and s_combs[0][1] > 1000b:
                print(f'{verb}:{prep}:{cas}:{s_combs[0][0]}:{s_combs[0][1]}:{s_combs[1][1]}')
                

стоять:ВО:Loc:двор:1682:157
получать:_:Ins:образ:2811:392
родиться:ОТ:Gen:брак:1171:162
переехать:_:Nom:семья:7581:877
жить:_:Ins:жизнь:12129:614
жить:ВО:Acc:время:1045:87
жить:О:Acc:бок:1273:2
провести:ВО:Acc:вторник:1248:71
приходить:К:Dat:вывод:8118:1048
принять:_:Nom:решение:113100:18313
принять:К:Dat:сведение:32833:2503
принять:БЕЗ:Gen:голосование:5203:324
принять:ВО:Acc:внимание:12524:1421
принять:ДО:Gen:конец:1886:240
состояться:НА:Acc:день:1106:97
состояться:ВО:Acc:вторник:1931:74
состояться:ДО:Gen:конец:1017:117
идти:_:Nom:речь:235546:11305
идти:ДО:Gen:конец:2121:351
организовать:С:Ins:цель:2609:392
стать:СО:Ins:время:6636:83
объясняться:ВО:Loc:многое:1287:12
обсуждаться:_:Nom:вопрос:19349:3222
попросить:_:Nom:президент:20281:1182
попросить:_:Gen:помощь:21187:2353
отметить:С:Ins:удовлетворение:9106:777
измениться:_:Ins:образ:1942:66
измениться:С:Gen:момент:2962:312
измениться:ДО:Gen:неузнаваемость:1043:38
находиться:НА:Acc:момент:9242:1219
находиться:_:Ins:образ:1688:273
наход

возникнуть:В СВЯЗИ С:Ins:наращивание:2489:91
превратиться:СО:Ins:время:1258:4
понять:В:Acc:момент:2199:333
выходить:ВО:Acc:двор:1465:163
лидировать:С:Ins:отрыв:1186:152
оформить:_:Ins:образ:1097:118
вносить:НА:Acc:рассмотрение:1787:204
зависеть:_:Ins:образ:1415:102
зависеть:ВО:Loc:многое:6841:77
начинать:_:Gen:.:1014:43
объявить:В:Acc:розыск:21787:2242
объявить:ВНЕ:Gen:закон:1657:16
держать:В:Loc:рука:38783:2366
держать:ЗА:Acc:рука:6212:561
предстать:ПЕРЕД:Ins:суд:10723:862
предстать:ПО:Dat:обвинение:1224:147
выделяться:НА:Loc:фон:3972:525
подвести:_:Acc:итог:15986:1581
подвести:_:Nom:итог:3839:350
выступить:ОТ:Gen:имя:4029:133
попадаться:НА:Loc:путь:1014:99
предпринимать:С:Ins:цель:1702:103
смочь:_:Ins:образ:4688:303
сообщать:СО:Ins:ссылка:149671:5
сообщать:ВО:Acc:вторник:1523:9
подготовить:НА:Loc:основа:5099:555
подготовить:ПО:Dat:материал:18635:1465
подготовить:ПОД:Ins:руководство:1388:222
относиться:_:Ins:образ:1223:68
относиться:ПО:Dat:данные:23451:1431
обязать:_:Nom:суд:5828:775


распределить:_:Ins:образ:1209:13
подышать:_:Ins:воздух:2967:65
претворить:В:Acc:жизнь:2701:121
зажить:_:Ins:жизнь:1066:36
лишиться:В:Loc:результат:2740:398
транслироваться:В:Loc:эфир:1813:216
чувствовать:ПО:Dat:слово:1080:99
освятить:В:Acc:честь:2083:105
освятить:ВО:Acc:имя:1211:8
меняться:В:Loc:зависимость:3180:367
меняться:СО:Ins:время:1084:63
забросить:_:Acc:шайба:3793:323
функционировать:ПО:Dat:данные:1216:159
привлекать:_:Acc:внимание:17205:1717
пересмотреть:В:Acc:сторона:2090:208
разместить:_:Acc:материал:12521:1416
спасаться:_:Ins:бегство:2620:86
доводиться:ДО:Gen:сведение:2395:49
совпасть:ПО:Dat:время:2393:77
воплощать:В:Acc:жизнь:1640:176
забить:НА:Loc:минута:6299:305
расставить:ПО:Dat:место:1900:214
зарабатывать:НА:Acc:жизнь:6324:645
прокатиться:_:Nom:волна:3769:131
отлучить:ОТ:Gen:церковь:1215:84
обусловить:ВО:Loc:многое:1555:7
воздавать:_:Acc:должное:1388:159
санкционировать:_:Nom:суд:2054:232
допускаться:В:Loc:случай:1343:104
крутиться:В:Loc:голова:2511:146
водить:ЗА:Acc:н

разлиться:ПО:Dat:тело:1515:181
приподняться:НА:Loc:локоть:2471:211
отвиснуть:_:Nom:челюсть:1231:70
окрасить:В:Acc:цвет:5536:823
процедить:СКВОЗЬ:Acc:зуб:3907:31
залегать:НА:Loc:глубина:1272:102
наклонить:_:Acc:голова:8032:92
протягивать:_:Acc:рука:6619:241
тикать:_:Nom:час:1503:87
узаконить:_:Acc:отношение:1168:149
сдаться:В:Acc:плен:2475:126
отдёрнуть:_:Acc:рука:3004:353
захлопнуться:_:Nom:дверь:4078:417
сконструировать:_:Ins:образ:1024:81
захлестнуть:_:Nom:волна:2565:293
блестеть:_:Nom:глаз:4627:626
мерить:_:Ins:шаг:1829:161
присниться:_:Nom:сон:3055:313
улыбаться:_:Ins:улыбка:1644:269
улыбаться:В:Acc:ответ:1263:155
вилять:_:Ins:хвост:2411:247
брызнуть:ИЗ:Gen:глаз:1090:173
скрестить:НА:Loc:грудь:6379:83
помахать:_:Ins:рука:7728:566
уцелеть:_:Ins:чудо:1453:58
приспустить:_:Nom:флаг:1135:17
обнять:_:Ins:рука:1578:172
напоминаться:_:Dat:делегация:1286:19
дислоцировать:НА:Loc:территория:1632:238
проноситься:В:Loc:голова:1003:92
нокаутировать:В:Loc:раунд:1259:139
постричь:В:Acc:монашество