### Data preparation

**Text:  http://lib.ru/BULGAKOW/whtguard.txt**

In [3]:
pip install pymystem3

Note: you may need to restart the kernel to use updated packages.


In [None]:
pip install pymorphy2

In [83]:
from pymystem3 import Mystem
import pymorphy2

In [84]:
with open('text.txt', encoding = "utf8") as f:
    text = f.readlines()

In [85]:
text = "".join(text)

In [86]:
text[:100]

'ЧАСТЬ ПЕРВАЯ\n\n\n\n1\n\n\n   Велик был год и страшен год по рождестве Христовом 1918, от  начала  же\nревол'

In [87]:
import re
import string

In [88]:
text = re.sub(r'\n', " ", text)
text = re.sub(r'\s{2,}', " ", text)

### 1. Lemmatization 

In [222]:
m = Mystem()

In [90]:
lemmas = m.lemmatize(text)

In [91]:
lemmas[:15]

['часть',
 ' ',
 'первый',
 ' ',
 '1',
 ' ',
 'большой',
 ' ',
 'быть',
 ' ',
 'год',
 ' ',
 'и',
 ' ',
 'страшный']

In [94]:
with open('lemmas.txt', 'w') as f:
    for word in lemmas:
        f.write(word)

### 2. Tokenization and morphological analysis

In [46]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [47]:
#tokenization
tokens = nltk.word_tokenize(text)

In [48]:
tokens[:15]

['ЧАСТЬ',
 'ПЕРВАЯ',
 '1',
 'Велик',
 'был',
 'год',
 'и',
 'страшен',
 'год',
 'по',
 'рождестве',
 'Христовом',
 '1918',
 ',',
 'от']

In [56]:
#pymorphy
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()

In [77]:
#{"lemma": "конь", "word": "коня", "pos": "NOUN"}
ana = []
for word in tokens:
    dict = {}
    lemma = morph.parse(word)[0][2]
    word = morph.parse(word)[0][0]
    pos = str(morph.parse(word)[0][1]).split(",")[0]
    dict["lemma"] = lemma
    dict["word"] = word
    dict["pos"] = pos
    ana.append(dict)

In [78]:
ana[:10]

[{'lemma': 'часть', 'word': 'часть', 'pos': 'NOUN'},
 {'lemma': 'первый', 'word': 'первая', 'pos': 'ADJF'},
 {'lemma': '1', 'word': '1', 'pos': 'NUMB'},
 {'lemma': 'большой', 'word': 'велик', 'pos': 'ADJS'},
 {'lemma': 'быть', 'word': 'был', 'pos': 'VERB'},
 {'lemma': 'год', 'word': 'год', 'pos': 'NOUN'},
 {'lemma': 'и', 'word': 'и', 'pos': 'CONJ'},
 {'lemma': 'страшный', 'word': 'страшен', 'pos': 'ADJS'},
 {'lemma': 'год', 'word': 'год', 'pos': 'NOUN'},
 {'lemma': 'по', 'word': 'по', 'pos': 'PREP'}]

In [80]:
type(ana)

list

In [96]:
import json
with open('analized.json', 'w') as f:
    json.dump(ana, f)

### 3. Answer the following questions:

**2. Print out top-20 verbs and adverbs**

In [241]:
#adverbs
adv = []
for x in range(len(ana)):
    if "ADVB" in ana[x].values():
        adv.append(ana[x]['lemma'])

adv_count = Counter(adv)
sorted(adv_count.items(), key=lambda x: x[1], reverse = True)[:20]

[('ещё', 170),
 ('уже', 140),
 ('только', 135),
 ('очень', 102),
 ('тут', 99),
 ('где', 97),
 ('там', 95),
 ('потом', 91),
 ('сейчас', 87),
 ('совершенно', 81),
 ('ничего', 74),
 ('потому', 71),
 ('вдруг', 67),
 ('теперь', 58),
 ('здесь', 50),
 ('затем', 50),
 ('опять', 46),
 ('уж', 42),
 ('тогда', 40),
 ('совсем', 38)]

In [242]:
#verbs
verb = []
for x in range(len(ana)):
    if "VERB" in ana[x].values():
        verb.append(ana[x]['lemma'])

verb_count = Counter(verb)
sorted(verb_count.items(), key=lambda x: x[1], reverse = True)[:20]




[('быть', 669),
 ('сказать', 204),
 ('стать', 165),
 ('мочь', 152),
 ('говорить', 142),
 ('знать', 132),
 ('идти', 99),
 ('ответить', 94),
 ('стоять', 65),
 ('спросить', 63),
 ('видеть', 56),
 ('выйти', 55),
 ('думать', 54),
 ('дать', 51),
 ('пройти', 49),
 ('прийти', 47),
 ('бежать', 45),
 ('лежать', 43),
 ('сидеть', 42),
 ('исчезнуть', 41)]

### 4. Bigrams and trigrams

In [218]:
#no punctuation
text1 = text.translate(str.maketrans(' ', ' ', string.punctuation))


In [206]:
tokens = nltk.word_tokenize(text)

In [223]:
lemmas1 = m.lemmatize(text1)

In [226]:
lemmas1 = ''.join(lemmas1)

In [228]:
tokens = nltk.word_tokenize(lemmas1)

In [229]:
type(tokens)

list

In [244]:
from nltk.util import bigrams
from collections import Counter

In [245]:
#BIgrams
bi_l = list(bigrams(tokens))
bi_2 = Counter(bi_l)
sorted(bi_2.items(), key=lambda x: x[1], reverse = True)[:24]

[(('и', 'в'), 97),
 (('не', 'быть'), 82),
 (('в', 'город'), 76),
 (('и', 'не'), 68),
 (('что', 'он'), 67),
 (('потому', 'что'), 65),
 (('не', 'мочь'), 56),
 (('в', 'этот'), 51),
 (('то', 'что'), 51),
 (('мочь', 'быть'), 50),
 (('у', 'он'), 50),
 (('он', 'и'), 48),
 (('господин', 'полковник'), 48),
 (('не', 'знать'), 46),
 (('он', 'не'), 45),
 (('он', 'в'), 45),
 (('ничто', 'не'), 39),
 (('что', 'вы'), 39),
 (('николка', 'и'), 38),
 (('и', 'на'), 36),
 (('он', 'быть'), 35),
 (('в', 'глаз'), 34),
 (('что', 'я'), 33),
 (('в', 'черный'), 32)]