## Приклад опрацювання української мови

In [1]:
# import all necessary toolkits

import tokenize_uk
import pymorphy2
morph = pymorphy2.MorphAnalyzer(lang='uk')

In [2]:
# read the text

with open("bahrianyi.txt", "r") as f:
    text_raw = f.read()
    text = tokenize_uk.tokenize_words(text_raw)
"У тексті є {} слів.".format(len(text))

'У тексті є 99709 слів.'

In [3]:
# print tokens

print(text[9:32])

['Вирячивши', 'вогненні', 'очі', ',', 'дихаючи', "полум'ям", 'і', 'димом', ',', 'потрясаючи', 'ревом', 'пустелі', 'і', 'нетра', 'і', 'вогненним', 'хвостом', 'замітаючи', 'слід', ',', 'летів', 'дракон', '.']


In [4]:
# print lemmas

print([morph.parse(word)[0].normal_form for word in text[9:32]])

['вирячивши', 'вогненний', 'око', ',', 'дихаючи', "полум'я", 'і', 'дим', ',', 'потрясаючи', 'рев', 'пустеля', 'і', 'нетра', 'і', 'вогненний', 'хвіст', 'замітаючи', 'слід', ',', 'летіти', 'дракон', '.']


In [5]:
# print parts of speech

print([morph.parse(word)[0].tag.POS for word in text[9:32]])

['GRND', 'ADJF', 'NOUN', None, 'GRND', 'NOUN', 'CONJ', 'NOUN', None, 'GRND', 'NOUN', 'NOUN', 'CONJ', None, 'CONJ', 'ADJF', 'NOUN', 'GRND', 'NOUN', None, 'VERB', 'NOUN', None]


In [6]:
# remember all data

corpus = [(word, morph.parse(word)[0].normal_form, morph.parse(word)[0].tag.POS) for word in text]

In [7]:
for i in corpus[9:32]:
    print(i)

('Вирячивши', 'вирячивши', 'GRND')
('вогненні', 'вогненний', 'ADJF')
('очі', 'око', 'NOUN')
(',', ',', None)
('дихаючи', 'дихаючи', 'GRND')
("полум'ям", "полум'я", 'NOUN')
('і', 'і', 'CONJ')
('димом', 'дим', 'NOUN')
(',', ',', None)
('потрясаючи', 'потрясаючи', 'GRND')
('ревом', 'рев', 'NOUN')
('пустелі', 'пустеля', 'NOUN')
('і', 'і', 'CONJ')
('нетра', 'нетра', None)
('і', 'і', 'CONJ')
('вогненним', 'вогненний', 'ADJF')
('хвостом', 'хвіст', 'NOUN')
('замітаючи', 'замітаючи', 'GRND')
('слід', 'слід', 'NOUN')
(',', ',', None)
('летів', 'летіти', 'VERB')
('дракон', 'дракон', 'NOUN')
('.', '.', None)


In [8]:
# extract adjective-noun collocations

adj_noun = []
for i in range(1, len(corpus)):
    word, lemma, tag = corpus[i]
    prev_word, prev_lemma, prev_tag = corpus[i-1]
    if lemma == "світ" and prev_tag == "ADJF":
    #if tag == "NOUN" and prev_lemma == "понурий":
        adj_noun.append("{} {}".format(prev_word, word))
print(adj_noun)

['утрачений світ', 'другий СВІТ', 'окремий світ', 'окремий світ', 'оригінальний світ', 'казковий світ', 'екстериторіальний світ', 'цілий світ', 'нереальний світ', 'екстериторіального світу', 'видимім світі', 'забутого світу', 'окремий світ', 'цілий світ', 'цілім світі', 'пташиний світ', 'невідомі світи', 'навколишній світ', 'цілому світі', 'цілий світ', 'напівказковий світ', 'цілому світі', 'зовнішній світ', 'тваринний світ', 'смердючого світу', 'цілому світі']


In [9]:
# sort alphabetically

for i in sorted(adj_noun):
    print(i)

видимім світі
другий СВІТ
екстериторіальний світ
екстериторіального світу
забутого світу
зовнішній світ
казковий світ
навколишній світ
напівказковий світ
невідомі світи
нереальний світ
окремий світ
окремий світ
окремий світ
оригінальний світ
пташиний світ
смердючого світу
тваринний світ
утрачений світ
цілий світ
цілий світ
цілий світ
цілому світі
цілому світі
цілому світі
цілім світі


In [10]:
# get most frequent adjectives

from collections import Counter
adj = Counter()
for i in range(1, len(corpus)):
    word, lemma, tag = corpus[i]
    prev_word, prev_lemma, prev_tag = corpus[i-1]
    if lemma == "світ" and prev_tag == "ADJF":
        adj[prev_lemma] += 1
for i in adj.most_common():
    print(i)

('цілий', 7)
('окремий', 3)
('екстериторіальний', 2)
('утрачений', 1)
('другий', 1)
('оригінальний', 1)
('казковий', 1)
('нереальний', 1)
('видимий', 1)
('забутий', 1)
('пташиний', 1)
('невідомий', 1)
('навколишній', 1)
('напівказковий', 1)
('зовнішній', 1)
('тваринний', 1)
('смердючий', 1)
