Original text can be found here: http://lib.ru/PROZA/SIMASHKO/mazdak.txt

Open and pre-process a text file

In [22]:
with open('mazdak.txt', encoding = "utf8") as f:
    text = f.readlines()

In [23]:
text = "".join(text)
text[:1000]

'\n1\n\n     Рык, низкий и страшный, наполняет землю. Тысяча солнц сразу вспыхивает,\nкак от удара кованой персидской палицы. Сенатор Агафий Кратисфен прищуривает\nглаза, медленно поворачивает голову. Едущие с ним патриции сбиваются в кучу.\nТяжеловесные византийские кони с мохнатыми  ногами, оседая  на зады, пятятся\nобратно в полутьму заборов. Так было задумано  два века назад, когда строили\nэтот  дворец: длинный крытый  проезд  к нему, трубное содрогание и  вполнеба\nотраженное солнце...\n     Они слезают  с коней, отдают  поводья в  протянутые  сзади руки и долго\nстоят в сухой тишине. Площадь выложена квадратами черного таврского камня...\n     Сияние,  исходящее  от  парадной  стены  дворца,  нестерпимо  и  мешает\nсосредоточиться. Сенатор по давней привычке закрывает глаза...\n     Зачем он здесь, в великом городе царя персов Ктесифоне, в год четыреста\nдевяносто первый от рождения  Спасителя?.. Радужные  круги блекнут, из  тьмы\nвозникает  типично  исаврийское  лицо с  жестким

In [24]:
import re
import string

In [25]:
text = re.sub(r'\n'," ", text)
text = re.sub(r'\s{2,}'," ", text)

In [26]:
# remove punctuation
text = text.translate(str.maketrans('','',string.punctuation))

In [27]:
print(text[:1000])

 1 Рык низкий и страшный наполняет землю Тысяча солнц сразу вспыхивает как от удара кованой персидской палицы Сенатор Агафий Кратисфен прищуривает глаза медленно поворачивает голову Едущие с ним патриции сбиваются в кучу Тяжеловесные византийские кони с мохнатыми ногами оседая на зады пятятся обратно в полутьму заборов Так было задумано два века назад когда строили этот дворец длинный крытый проезд к нему трубное содрогание и вполнеба отраженное солнце Они слезают с коней отдают поводья в протянутые сзади руки и долго стоят в сухой тишине Площадь выложена квадратами черного таврского камня Сияние исходящее от парадной стены дворца нестерпимо и мешает сосредоточиться Сенатор по давней привычке закрывает глаза Зачем он здесь в великом городе царя персов Ктесифоне в год четыреста девяносто первый от рождения Спасителя Радужные круги блекнут из тьмы возникает типично исаврийское лицо с жесткими неряшливо подкрашенными усами Нагловатые навыкате глаза  как мокрые каштаны в луже большой исавр

# 1) lemmatization

In [28]:
import pymystem3

In [29]:
m = pymystem3.Mystem()

In [30]:
lemmas = m.lemmatize(text)
lemmas[:10]

[' ', '1', ' ', 'рык', ' ', 'низкий', ' ', 'и', ' ', 'страшный']

Save lemmatized text as txt

In [31]:
with open('lemmas.txt', 'w') as f:
    for word in lemmas:
        f.write(word)

# 2) tokenization

In [32]:
import nltk
nltk.download('punkt');

[nltk_data] Downloading package punkt to /Users/Kirill/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [33]:
tokens = nltk.word_tokenize(text)

In [34]:
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()

Benchmark for desired format: {"lemma": "конь", "word": "коня", "pos": "NOUN"}

In [35]:
list_of_analyzes = []
for word in tokens: # go through each token, parse it and fetch necessary information
    d = {}
    lemma = morph.parse(word)[0][2] # lemma
    word = morph.parse(word)[0][0] # word form
    pos = str(morph.parse(word)[0][1]).split(",")[0] #pos
    d["lemma"] = lemma
    d["word"] = word
    d["pos"] = pos
    list_of_analyzes.append(d) # add a dict with grammatical info to the list

In [36]:
list_of_analyzes[4:10] # check the state of the list of dictionaries

[{'lemma': 'страшный', 'word': 'страшный', 'pos': 'ADJF'},
 {'lemma': 'наполнять', 'word': 'наполняет', 'pos': 'VERB'},
 {'lemma': 'земля', 'word': 'землю', 'pos': 'NOUN'},
 {'lemma': 'тысяча', 'word': 'тысяча', 'pos': 'NOUN'},
 {'lemma': 'солнце', 'word': 'солнц', 'pos': 'NOUN'},
 {'lemma': 'сразу', 'word': 'сразу', 'pos': 'ADVB'}]

In [37]:
import jsonlines

In [38]:
with jsonlines.open('HW1_pymorphy.jsonl', mode='w') as writer:
    for obj in list_of_analyzes:
        writer.write(obj)

# What percentage constitutes each pos? (E.g., for the verb, the number of verbs divided by the total number of words)

In [39]:
pos_l = []
for x in range(len(list_of_analyzes)):
    pos_l.append(list_of_analyzes[x]['pos']) #extract POSes from the list of dictionaries created few cells above

In [40]:
print(pos_l[:5]) # sample of a new list with POSes only

['NUMB', 'NOUN', 'ADJF', 'CONJ', 'ADJF']


In [41]:
from collections import Counter

In [42]:
pos_counter = Counter(pos_l)

# let's look at absolute numbers
sorted(pos_counter.items(), key=lambda x: x[1], reverse = True)

[('NOUN', 19744),
 ('VERB', 8200),
 ('PREP', 7178),
 ('ADJF', 5875),
 ('CONJ', 4540),
 ('ADVB', 3495),
 ('NPRO', 3197),
 ('PRCL', 2130),
 ('PRTF', 919),
 ('INFN', 812),
 ('ADJF masc', 654),
 ('ADJF plur', 581),
 ('GRND', 529),
 ('PRTS', 397),
 ('ADJF femn', 393),
 ('ADJS', 307),
 ('PREP Vpre', 214),
 ('COMP', 191),
 ('ADJF neut', 183),
 ('PRED', 135),
 ('NUMR nomn', 98),
 ('NUMR inan', 71),
 ('NUMR gent', 60),
 ('ADJF inan', 57),
 ('NUMB', 53),
 ('NUMR masc', 51),
 ('UNKN', 51),
 ('NPRO sing', 34),
 ('NUMR', 33),
 ('NUMR femn', 26),
 ('NUMR accs', 23),
 ('ADJS plur', 18),
 ('ADJS neut', 18),
 ('ADJS masc', 16),
 ('NUMR ablt', 15),
 ('NPRO plur', 13),
 ('INTJ', 8),
 ('ADJS femn', 7),
 ('ROMN', 3),
 ('COMP Cmp2', 2),
 ('ADJF anim', 1),
 ('ADVB Dist', 1),
 ('NUMR datv', 1)]

In [43]:
total = sum(pos_counter.values()) # total pos-annotated words
total

60334

In [44]:
# the loop where we change absolute numbers with percentages in dictionary values
for k in pos_counter.keys():
    pos_counter[k] = pos_counter[k]/total * 100

In [45]:
pos_counter = sorted(pos_counter.items(), key=lambda x: x[1], reverse = True)
pos_counter

[('NOUN', 32.72450028176484),
 ('VERB', 13.591010044087911),
 ('PREP', 11.89710610932476),
 ('ADJF', 9.737461464514205),
 ('CONJ', 7.5247787317267205),
 ('ADVB', 5.792753671230152),
 ('NPRO', 5.298836476945006),
 ('PRCL', 3.5303477309642983),
 ('PRTF', 1.5231875890874134),
 ('INFN', 1.3458414824145588),
 ('ADJF masc', 1.0839659230284748),
 ('ADJF plur', 0.9629727848311068),
 ('GRND', 0.8767858918685981),
 ('PRTS', 0.6580037789637684),
 ('ADJF femn', 0.6513740179666523),
 ('ADJS', 0.5088341565286572),
 ('PREP Vpre', 0.3546922133457089),
 ('COMP', 0.3165710876122916),
 ('ADJF neut', 0.30331156561805944),
 ('PRED', 0.2237544336526668),
 ('NUMR nomn', 0.1624291444293433),
 ('NUMR inan', 0.11767825769880996),
 ('NUMR gent', 0.09944641495674082),
 ('ADJF inan', 0.09447409420890376),
 ('NUMB', 0.08784433321178772),
 ('NUMR masc', 0.08452945271322969),
 ('UNKN', 0.08452945271322969),
 ('NPRO sing', 0.05635296847548646),
 ('NUMR', 0.05469552822620744),
 ('NUMR femn', 0.04309344648125435),
 ('NU

# Print out top-20 verbs and adverbs

In [46]:
verb_l = []
for x in range(len(list_of_analyzes)):
    if "VERB" in list_of_analyzes[x].values():
        verb_l.append(list_of_analyzes[x]['lemma']) # create a list of verbs' lemmas

In [47]:
v_lemma_counter = Counter(verb_l) # make a frequency dictionary
sorted(v_lemma_counter.items(), key=lambda x: x[1], reverse = True)[:21]

[('быть', 851),
 ('стоять', 136),
 ('стать', 120),
 ('смотреть', 94),
 ('говорить', 90),
 ('сидеть', 90),
 ('знать', 87),
 ('идти', 81),
 ('мочь', 76),
 ('сказать', 76),
 ('увидеть', 72),
 ('видеть', 53),
 ('остаться', 47),
 ('спросить', 44),
 ('посмотреть', 44),
 ('лежать', 41),
 ('хотеть', 39),
 ('ждать', 39),
 ('жить', 37),
 ('взять', 36),
 ('пойти', 33)]

In [48]:
adv_l = []
for x in range(len(list_of_analyzes)):
    if "ADVB" in list_of_analyzes[x].values():
        adv_l.append(list_of_analyzes[x]['lemma'])

adv_lemma_counter = Counter(adv_l)
sorted(adv_lemma_counter.items(), key=lambda x: x[1], reverse = True)[:21]

[('уже', 204),
 ('ещё', 154),
 ('только', 143),
 ('потом', 121),
 ('здесь', 103),
 ('там', 102),
 ('вдруг', 101),
 ('сразу', 93),
 ('где', 76),
 ('тогда', 69),
 ('снова', 68),
 ('потому', 66),
 ('теперь', 62),
 ('сейчас', 43),
 ('совсем', 42),
 ('ничего', 42),
 ('назад', 40),
 ('пока', 37),
 ('вместе', 37),
 ('опять', 36),
 ('прямо', 35)]

# Find top-25 bigrams and trigrams for your text (use nltk.bigrams), use only lemmas, get rid of the punctuation. Comment shortly on the results.

In [49]:
from nltk.util import bigrams
from nltk.util import trigrams

In [60]:
# clear lemmas list of gaps
lemmas2 = []
for item in lemmas:
    if item != " ":
        lemmas2.append(item)

In [61]:
bi_l = list(bigrams(lemmas2))
bi_c = Counter(bi_l)
sorted(bi_c.items(), key=lambda x: x[1], reverse = True)[:26] #punctuation has been deleted in the pre-processing stage

[(('и', 'не'), 98),
 (('царь', 'царь'), 96),
 (('не', 'быть'), 88),
 (('это', 'быть'), 78),
 (('он', 'в'), 77),
 (('он', 'и'), 61),
 (('у', 'он'), 60),
 (('потому', 'что'), 57),
 (('быть', 'в'), 53),
 (('быть', 'у'), 46),
 (('в', 'сторона'), 40),
 (('тот', 'же'), 38),
 (('к', 'он'), 37),
 (('они', 'и'), 37),
 (('он', 'на'), 37),
 (('смотреть', 'на'), 36),
 (('на', 'он'), 36),
 (('не', 'мочь'), 36),
 (('не', 'знать'), 35),
 (('они', 'в'), 35),
 (('у', 'они'), 34),
 (('и', 'еще'), 34),
 (('в', 'ктесифон'), 33),
 (('с', 'он'), 32),
 (('авраам', 'и'), 32),
 (('и', 'в'), 31)]

In [62]:
tri_l = list(trigrams(lemmas2))
tri_c = Counter(tri_l)
sorted(tri_c.items(), key=lambda x: x[1], reverse = True)[:26]

[(('царь', 'царь', 'и'), 18),
 (('царь', 'и', 'бог'), 15),
 (('быть', 'у', 'он'), 14),
 (('и', 'не', 'быть'), 12),
 (('не', 'знать', 'что'), 11),
 (('смотреть', 'на', 'он'), 10),
 (('  ', 'сказать', 'он'), 10),
 (('верить', 'в', 'правда'), 10),
 (('до', 'сей', 'пора'), 9),
 (('не', 'быть', 'у'), 9),
 (('и', 'царь', 'царь'), 9),
 (('быть', 'у', 'они'), 8),
 (('бог', 'и', 'царь'), 8),
 (('человек', 'в', 'красный'), 8),
 (('по', 'оба', 'сторона'), 8),
 (('и', 'не', 'мочь'), 8),
 (('и', 'бог', 'кавад'), 8),
 (('авраам', '  ', 'сын'), 8),
 (('великий', 'маг', 'маздак'), 8),
 (('не', 'быть', 'в'), 8),
 (('сенатор', 'агафий', 'кратисфен'), 7),
 (('а', 'мочь', 'быть'), 7),
 (('посмотреть', 'на', 'он'), 7),
 (('христианин', 'и', 'иудей'), 7),
 (('никак', 'не', 'мочь'), 7),
 (('  ', 'сын', 'вахрометь'), 7)]

**Small comment**
Since stopwords were not deleted among ngrams and especially among bigrams there are a lot of cohesive links, prepositions and conjunctions. Among all ngrams proper nouns, toponyms and nationalities are numerous. Since I had not read the novel I can not surely explain why it is so but I guess that some religious motifs are the main topic of the novel.

# Take 3-8 sentences from the original text and substitute some morphological information, for example, change the tense of the verbs, the number of the nouns, e.g, the original Слон подарил мартышке цветы should become Слоны подарят мартышкам цветок.

In [150]:
# some lines from the text
orig = "Специально носит усы исавриец, чтобы досадить сенату. Когда семнадцать лет назад он волею судьбы сделался императором, то в тот же день оголил лицо, стремясь походить на всех мраморных римских августов сразу. Но варварна престоле не лучше свиньи за обеденным столом. Прошло немного времени, и он снова отпустил волосы под носом на манер своих  диких  сородичей. Всех исаврийцев, кто  умеет считать  до  трех,  перетащил в Константинополь.  Они болтают  с  ним  по-своему  и называют  императора старым  языческим именем, которое не выговорить в один присест."
orig

'Специально носит усы исавриец, чтобы досадить сенату. Когда семнадцать лет назад он волею судьбы сделался императором, то в тот же день оголил лицо, стремясь походить на всех мраморных римских августов сразу. Но варварна престоле не лучше свиньи за обеденным столом. Прошло немного времени, и он снова отпустил волосы под носом на манер своих  диких  сородичей. Всех исаврийцев, кто  умеет считать  до  трех,  перетащил в Константинополь.  Они болтают  с  ним  по-своему  и называют  императора старым  языческим именем, которое не выговорить в один присест.'

In [151]:
new = []
for word in orig.split():
    word = word.translate(str.maketrans('','',string.punctuation)) # delete punctuation
    word_parsed = morph.parse(word)[0]
    
    word_mutated = word_parsed.inflect({'plur'})
        
    if word_mutated is not None:    # some words can not have number grameme
        
        word_mutated_pst = word_mutated.inflect({'past'}) # try to change tense to past
        if word_mutated_pst is not None:
            new.append(word_mutated_pst[0])
        else:
            new.append(word_mutated[0])
    else: 
        new.append(word) # if number of the word can not be changed just attach the original word

In [152]:
print(" ".join(new)) #result 

Специально носили усы исаврийцы чтобы досадили сенатам Когда семнадцать годов назад он волями судеб сделались императорами то в те же дни оголили лица стремились походили на всех мраморных римских августов сразу Но варварна престолах не хороши свиньи за обеденными столами прошли немного времён и он снова отпустили волосы под носами на манеры своих диких сородичей всех исаврийцев кто умели считали до трех перетащили в Константинополь они болтали с ним посвоему и называли императоров старым языческими именами которые не выговорили в одни присесты
