In [30]:
from pymystem3 import Mystem
import nltk
import pymorphy2
import jsonlines
import random
from collections import Counter
from string import punctuation

In [2]:
#Задание 1

with open('Labirint_otrazheniy.txt', encoding='utf-8') as f:
    novel_text = f.read()

In [3]:
#Задание 2

m = Mystem()

In [4]:
novel_lemmas = m.lemmatize(novel_text)

In [5]:
with open('Labirint_otrazheniy_lemmatized.txt', 'w', encoding='utf-8') as f_w:
    f_w.write(''.join(novel_lemmas))

In [6]:
#Задание 3

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /home/aleksey/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/aleksey/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [7]:
novel_tokens = nltk.word_tokenize(novel_text)

In [8]:
morph = pymorphy2.MorphAnalyzer()

In [9]:
with jsonlines.open('novel_anapyzed.jsonl', mode='w') as writer:
    for token in novel_tokens:
        token_parsed = morph.parse(token)[0]
        writer.write({"lemma": token_parsed.normal_form, "word": token, "pos": token_parsed.tag.POS})

In [10]:
#Задание 4

pos_counter = Counter()
adv_counter = Counter()
verb_counter = Counter()

with jsonlines.open('novel_anapyzed.jsonl', mode='r') as reader:
    for line in reader:
        pos_counter += Counter([line['pos']])
        if line['pos'] == 'ADVB':
            adv_counter += Counter([line['lemma']])
        elif line['pos'] == 'VERB':
            verb_counter += Counter([line['lemma']])

In [11]:
all_poses = sum(pos_counter.values()) - pos_counter[None]

for pos in sorted(pos_counter, key=pos_counter.get, reverse=True):
    if pos == None:
        continue
    print(pos, pos_counter[pos] / all_poses)

NOUN 0.2708607591879129
VERB 0.14649935385693064
ADJF 0.10008574982789648
PREP 0.0997596589330789
NPRO 0.09014601625623497
CONJ 0.08382951484921315
ADVB 0.06711433712967547
PRCL 0.0581045664802715
INFN 0.03170328144059711
PRTF 0.011207864829285378
GRND 0.008526673027452022
ADJS 0.008164349810988056
PRED 0.007331006413120932
NUMR 0.006823753910071378
COMP 0.003925168178359642
PRTS 0.0036715419268348653
INTJ 0.0022464039420765952


In [12]:
adv_counter.most_common(20)

[('ещё', 243),
 ('очень', 180),
 ('уже', 180),
 ('только', 168),
 ('потом', 137),
 ('ничего', 119),
 ('сейчас', 118),
 ('здесь', 100),
 ('там', 91),
 ('где', 85),
 ('теперь', 79),
 ('что-то', 78),
 ('почему', 77),
 ('хорошо', 72),
 ('рядом', 66),
 ('всегда', 61),
 ('уж', 59),
 ('слишком', 58),
 ('почти', 57),
 ('тогда', 57)]

In [13]:
verb_counter.most_common(20)

[('быть', 459),
 ('говорить', 389),
 ('мочь', 367),
 ('знать', 211),
 ('спрашивать', 147),
 ('смотреть', 146),
 ('кивать', 126),
 ('идти', 122),
 ('хотеть', 121),
 ('стоить', 119),
 ('начинать', 108),
 ('сказать', 102),
 ('понимать', 94),
 ('казаться', 81),
 ('шептать', 76),
 ('стать', 72),
 ('видеть', 72),
 ('выходить', 63),
 ('ждать', 62),
 ('отвечать', 61)]

In [23]:
#Задание 5

novel_lemmas_nopunct = ''.join(novel_lemmas).translate(str.maketrans('', '', punctuation + '—»«…'))
novel_tokens_lemmas_nopunct = nltk.word_tokenize(novel_lemmas_nopunct)

In [24]:
novel_lemmas_bigrams = nltk.bigrams(novel_tokens_lemmas_nopunct)
novel_lemmas_bigrams_stats = Counter(novel_lemmas_bigrams)

novel_lemmas_bigrams_stats.most_common(25)

[(('я', 'не'), 244),
 (('говорить', 'я'), 142),
 (('мочь', 'быть'), 132),
 (('и', 'я'), 104),
 (('в', 'глубина'), 102),
 (('смотреть', 'на'), 98),
 (('у', 'я'), 95),
 (('и', 'не'), 91),
 (('не', 'знать'), 90),
 (('что', 'я'), 81),
 (('в', 'виртуальность'), 79),
 (('без', 'лицо'), 79),
 (('человек', 'без'), 77),
 (('он', 'не'), 73),
 (('я', 'и'), 72),
 (('но', 'я'), 71),
 (('на', 'я'), 71),
 (('не', 'мочь'), 70),
 (('я', 'в'), 69),
 (('это', 'не'), 62),
 (('не', 'быть'), 60),
 (('то', 'что'), 59),
 (('спрашивать', 'я'), 57),
 (('а', 'я'), 55),
 (('ты', 'не'), 54)]

In [25]:
novel_lemmas_trigrams = nltk.ngrams(novel_tokens_lemmas_nopunct, n=3)
novel_lemmas_trigrams_stats = Counter(novel_lemmas_trigrams)

novel_lemmas_trigrams_stats.most_common(25)

[(('человек', 'без', 'лицо'), 77),
 (('смотреть', 'на', 'я'), 27),
 (('я', 'не', 'твой'), 18),
 (('я', 'казаться', 'что'), 17),
 (('у', 'я', 'быть'), 17),
 (('тридцать', 'третий', 'уровень'), 17),
 (('выходить', 'из', 'глубина'), 16),
 (('я', 'не', 'знать'), 16),
 (('на', 'самый', 'дело'), 15),
 (('глубинаглубина', 'я', 'не'), 15),
 (('в', 'виртуальный', 'пространство'), 15),
 (('я', 'не', 'мочь'), 15),
 (('но', 'я', 'не'), 15),
 (('на', 'этот', 'раз'), 14),
 (('я', 'знать', 'что'), 12),
 (('я', 'смотреть', 'на'), 12),
 (('входить', 'в', 'глубина'), 12),
 (('все', 'в', 'порядок'), 11),
 (('мочь', 'быть', 'и'), 11),
 (('то', 'что', 'я'), 11),
 (('говорить', 'человек', 'без'), 11),
 (('не', 'в', 'сила'), 11),
 (('я', 'никогда', 'не'), 11),
 (('входить', 'в', 'виртуальность'), 10),
 (('за', 'мой', 'спина'), 10)]

As one could expect, we find among ngrams both collocations that are frequent in any (fiction) text and some expressions that are characteristic to this very text. The examples of the former are ('я', 'не'), ('мочь', 'быть'), etc. for bigrams, ('на', 'самый', 'дело'), ('все', 'в', 'порядок'), etc. for trigrams; the examples of the latter are ('в', 'глубина'), ('без', 'лицо') for bigrams, ('человек', 'без', 'лицо'), ('я', 'не', 'твой'), etc. for trigrams.

Interestingly, most frequent bigrams more often appear to be of the type frequent in any text, while trigrams more often show collocations that in other texts will not be frequent or even will not appear at all.

Another thing that is interesting to notice (but that needs further work to be fully established) is that some expressions that are expected in real text seem however to be more frequent than in general. Analyzing such cases may tell something about the text. For example, very high frequency of ('говорить', 'я') means that the text has a lot of dialogs.

In [48]:
# Задание 6

random.seed(429)

sentences = random.sample(nltk.tokenize.sent_tokenize(novel_text.replace('\n', ' ')), 6)

In [79]:
for sentence in sentences:
    new_sentence = []
    for word in nltk.word_tokenize(sentence):
        word_parsed = morph.parse(word)[0]
        if {'VERB', 'pres'} in word_parsed.tag:
            new_word = word_parsed.inflect({'past'}).word
        elif {'NOUN', 'sing'} in word_parsed.tag:
            new_word = word_parsed.inflect({'plur'}).word
        else:
            new_word = word
        if word[0] == word[0].capitalize():
            new_sentence.append(new_word.capitalize())
        else:
            new_sentence.append(new_word)
    print(nltk.tokenize.treebank.TreebankWordDetokenizer().detokenize(new_sentence))

Мог быть, сквозь глухую стены сейчас следили за нами отважные эльфы Лориены, но вмешиваться они не станут.
Я сделал последнюю попытки уйти в стороны.
Вставал снова.
Знал чертовски хорошо.
— я трогал рукояти мечей.
В успехи этого мероприятий я всё же не очень верил.
