In [27]:
from collections import defaultdict

import tokenize_uk
import pymorphy2

In [19]:
morph = pymorphy2.MorphAnalyzer(lang='uk')

In [13]:
with open('../../../tasks/02-structural-linguistics/data/tyhrolovy.txt') as f:
    book_lines = [l.strip() for l in f.readlines() if l.strip() != '']

In [14]:
len(book_lines)

2665

In [24]:
book_lines[153]

'Повз нього пливе цей — конкретний, напружений і намагнетизовапий, осяяний блакитним, рожевим, зеленим сяйвом вибагливих абажурів, заслонений газовими фіранками, наснажений коханням і поривами, озвучений патефонними фокстротами і румбами... А над усім — Арсеньєв! Ах-х, Арсеньєв!..'

In [25]:
tokens = tokenize_uk.tokenize_words(book_lines[153])

In [26]:
[(word, morph.parse(word)[0].tag.POS) for word in tokens]

[('Повз', 'VERB'),
 ('нього', 'NPRO'),
 ('пливе', 'VERB'),
 ('цей', 'NPRO'),
 ('—', None),
 ('конкретний', 'ADJF'),
 (',', None),
 ('напружений', 'ADJF'),
 ('і', 'CONJ'),
 ('намагнетизовапий', 'ADJF'),
 (',', None),
 ('осяяний', 'ADJF'),
 ('блакитним', 'ADJF'),
 (',', None),
 ('рожевим', 'ADJF'),
 (',', None),
 ('зеленим', 'VERB'),
 ('сяйвом', 'NOUN'),
 ('вибагливих', 'ADJF'),
 ('абажурів', 'NOUN'),
 (',', None),
 ('заслонений', 'ADJF'),
 ('газовими', 'ADJF'),
 ('фіранками', 'NOUN'),
 (',', None),
 ('наснажений', 'ADJF'),
 ('коханням', 'NOUN'),
 ('і', 'CONJ'),
 ('поривами', 'NOUN'),
 (',', None),
 ('озвучений', 'ADJF'),
 ('патефонними', 'ADJF'),
 ('фокстротами', 'NOUN'),
 ('і', 'CONJ'),
 ('румбами', 'NOUN'),
 ('...', None),
 ('А', 'CONJ'),
 ('над', 'PREP'),
 ('усім', 'NPRO'),
 ('—', None),
 ('Арсеньєв', 'NOUN'),
 ('!', None),
 ('Ах', 'INTJ'),
 ('-', None),
 ('х', None),
 (',', None),
 ('Арсеньєв', 'NOUN'),
 ('!..', None)]

In [50]:
def is_adjective(token):
    return token.tag.POS in ('ADJF', 'ADJS')

def is_being(token):
    return token.tag.POS == 'NOUN' and token.tag.animacy == 'anim'

stats = defaultdict(int)

for line in book_lines:
    tokens = tokenize_uk.tokenize_words(line)
    morph_tokens = [morph.parse(t)[0] for t in tokens]
    for i, token in enumerate(morph_tokens):
        if is_being(token) and i > 0 and is_adjective(morph_tokens[i-1]):
            adj_token = morph_tokens[i-1]
            stats['{} {}'.format(adj_token.normal_form, token.normal_form)] += 1

In [51]:
[(k, v) for k, v in sorted(stats.items(), reverse=True, key=lambda item: item[1])]

[('старий сірко', 84),
 ('великий начальник', 5),
 ('сонячний зайчик', 4),
 ('цибатий зять', 4),
 ('малий дитина', 3),
 ('якутський пес', 3),
 ('вражий мама', 3),
 ('безумний сміливець', 2),
 ('державний злочинець', 2),
 ('земний кулі', 2),
 ('владивостоцький турок', 2),
 ('дивний бог', 2),
 ('змучений мандрівник', 2),
 ('вражий дівчина', 2),
 ('знаменитий мисливець', 2),
 ('бісовий віра', 2),
 ("нав'ючений кінь", 2),
 ('природний солон', 2),
 ('рясний дуб', 2),
 ('старий мороз', 2),
 ('григоріїв куреник', 2),
 ('великий пан', 2),
 ('чорний ожуга', 2),
 ('булий дівчина', 2),
 ('справжній мисливець', 2),
 ('рясний піт', 2),
 ('дурний начальник', 2),
 ('малий дитя', 2),
 ('хутряний звір', 2),
 ('гордий тварина', 2),
 ('собачий хутрянка', 2),
 ('живий тигр', 2),
 ('вірний друг', 2),
 ('вірний пес', 2),
 ('вогненноокий хробак', 1),
 ('пекельний потвора', 1),
 ('фіктивний потвора', 1),
 ('двоокий циклоп', 1),
 ('проглинений жертва', 1),
 ('живий мертвяк', 1),
 ('метушливий тіна', 1),
 ('нов