In [26]:
import re
from random import uniform
from collections import defaultdict


r_alphabet = re.compile(u'[а-яА-Я0-9-]+|[.,:;?!]+')

In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
def gen_lines(corpus):
    data = open(corpus)
    for line in data:
        yield line.lower()

def gen_tokens(lines):
    for line in lines:
        for token in r_alphabet.findall(line):
            yield token

def gen_trigrams(tokens):
    t0, t1 = '$', '$'
    for t2 in tokens:
        yield t0, t1, t2
        if t2 in '.!?':
            yield t1, t2, '$'
            yield t2, '$','$'
            t0, t1 = '$', '$'
        else:
            t0, t1 = t1, t2

def train(corpus):
    lines = gen_lines(corpus)
    tokens = gen_tokens(lines)
    trigrams = gen_trigrams(tokens)

    bi, tri = defaultdict(lambda: 0.0), defaultdict(lambda: 0.0)

    for t0, t1, t2 in trigrams:
        bi[t0, t1] += 1
        tri[t0, t1, t2] += 1

    model = {}
    for (t0, t1, t2), freq in tri.items():
        if (t0, t1) in model:
            model[t0, t1].append((t2, freq/bi[t0, t1]))
        else:
            model[t0, t1] = [(t2, freq/bi[t0, t1])]
    return model

def generate_sentence(model):
    phrase = ''
    t0, t1 = '$', '$'
    while 1:
        t0, t1 = t1, unirand(model[t0, t1])
        if t1 == '$': 
            break
        if t1 in ('.!?,;:') or t0 == '$':
            phrase += t1
        else:
            phrase += ' ' + t1
    return phrase.capitalize()

def unirand(seq):
    sum_, freq_ = 0, 0
    for item, freq in seq:
        sum_ += freq
    rnd = uniform(0, sum_)
    for token, freq in seq:
        freq_ += freq
        if rnd < freq_:
            return token



In [2]:

lines = gen_lines('Disgardium_5.txt')


In [9]:
if __name__ == '__main__':
    model = train('Disgardium_5.txt')
    for i in range(5):
        print(generate_sentence(model))



Разум подсказывал уносить ноги.
Да не пробудятся спящие!
Можно было приступать к фарму.
В доме было уютно, хоть и не выпущу с точки реса, пока ее не было времени.
Предлагаю вам контракт с кланом.


In [106]:
model.keys()


dict_keys([('$', '$'), ('$', 'дисгардиум'), ('дисгардиум', '5'), ('5', '.'), ('.', '$'), ('$', 'священная'), ('священная', 'война'), ('война', 'данияр'), ('данияр', 'саматович'), ('саматович', 'сугралинов'), ('сугралинов', 'дисгардиум'), ('5', 'под'), ('под', 'защитой'), ('защитой', 'нергала'), ('нергала', 'лучезарного'), ('лучезарного', 'армии'), ('армии', 'союзников'), ('союзников', 'уверенно'), ('уверенно', 'продвигаются'), ('продвигаются', 'к'), ('к', 'храму'), ('храму', 'тиамат'), ('тиамат', '.'), ('$', 'старые'), ('старые', 'фокусы'), ('фокусы', 'скифа'), ('скифа', 'больше'), ('больше', 'не'), ('не', 'работают'), ('работают', '.'), ('$', 'легат'), ('легат', 'чумного'), ('чумного', 'мора'), ('мора', 'и'), ('и', 'его'), ('его', 'друзья'), ('друзья', 'стоят'), ('стоят', 'перед'), ('перед', 'нелегким'), ('нелегким', 'выбором'), ('выбором', ':'), (':', 'подчиниться'), ('подчиниться', 'пожеланиям'), ('пожеланиям', 'корпорации'), ('корпорации', 'сноусторм'), ('сноусторм', 'и'), ('и', 'в

In [112]:
for key in model:
    if len(model[key]) > 1:
        print(f'{key} {model[key]}')
        print()

('$', '$') [('дисгардиум', 0.0004310809354456299), ('священная', 0.00021554046772281495), ('старые', 0.00021554046772281495), ('легат', 0.00021554046772281495), ('ясно', 0.00010777023386140747), ('ведь', 0.0010777023386140748), ('данияр', 0.00010777023386140747), ('практически', 0.00021554046772281495), ('число', 0.00010777023386140747), ('под', 0.0012932428063368898), ('пророки', 0.00010777023386140747), ('часть', 0.00032331070158422246), ('мировые', 0.00010777023386140747), ('бунтующие', 0.00010777023386140747), ('против', 0.00021554046772281495), ('в', 0.02532600495743076), ('от', 0.0032331070158422245), ('африка', 0.00010777023386140747), ('миллионы', 0.00032331070158422246), ('сша', 0.00021554046772281495), ('религиозные', 0.00010777023386140747), ('китай', 0.00010777023386140747), ('северные', 0.00010777023386140747), ('ответный', 0.00010777023386140747), ('силы', 0.00021554046772281495), ('стороны', 0.00010777023386140747), ('третья', 0.00021554046772281495), ('оон', 0.000107770

('$', 'внизу') [('из', 0.5), ('шел', 0.5)]

('тогда', 'я') [('решил', 0.2), ('пытался', 0.2), ('большую', 0.2), ('просто', 0.2), ('взлетел', 0.2)]

('все', 'внимание') [('рейдеров', 0.5), ('сконцентрировалось', 0.5)]

('я', 'взял') [('хинтерлиста', 0.2), ('с', 0.2), ('у', 0.2), ('идентифицированные', 0.2), ('не', 0.2)]

('направил', 'грозу') [('вниз', 0.3333333333333333), ('резко', 0.3333333333333333), ('в', 0.3333333333333333)]

('в', 'момент') [(',', 0.5), ('повышения', 0.25), ('спящие', 0.25)]

('момент', ',') [('когда', 0.5), ('потому', 0.16666666666666666), ('заходи', 0.16666666666666666), ('вражеские', 0.16666666666666666)]

('подчинения', 'разума') [('стала', 0.5), ('.', 0.5)]

('$', 'мир') [('раздвоился', 0.09090909090909091), ('погружался', 0.09090909090909091), ('эволюционирует', 0.09090909090909091), ('в', 0.09090909090909091), ('живет', 0.09090909090909091), ('волшебный', 0.09090909090909091), ('может', 0.09090909090909091), ('погрузился', 0.09090909090909091), ('погас', 0.

('тоже', 'получил') [(':', 0.5), ('неприятные', 0.5)]

(':', 'краулер') [('подобрал', 0.5), ('распылил', 0.5)]

('к', 'силе') [('каждый', 0.3333333333333333), (',', 0.3333333333333333), ('заклинаний', 0.3333333333333333)]

('их', 'в') [('щит', 0.07142857142857142), ('безразмерный', 0.07142857142857142), ('уменьшенном', 0.07142857142857142), ('панели', 0.07142857142857142), ('течение', 0.07142857142857142), ('точку', 0.07142857142857142), ('записи', 0.07142857142857142), ('нежить', 0.2857142857142857), ('клинику', 0.07142857142857142), ('лоно', 0.07142857142857142), ('неравной', 0.07142857142857142)]

('мимо', 'меня') [(',', 0.5), ('.', 0.5)]

('рукой', ',') [('поднявшись', 0.3333333333333333), ('я', 0.3333333333333333), ('убирая', 0.3333333333333333)]

('понимаю', ',') [('у', 0.25), ('каковы', 0.25), ('как', 0.25), ('ты', 0.25)]

('клана', 'и') [('без', 0.5), ('будущие', 0.5)]

('вот', 'он') [('протянул', 0.5), ('я', 0.5)]

('протянул', 'мне') [('исписанную', 0.3333333333333333), ('бут

('такое', 'бывает') [('в', 0.5), ('?', 0.5)]

('примерно', 'с') [('обеда', 0.5), ('той', 0.5)]

('не', 'добившись') [('ответа', 0.5), ('обещания', 0.5)]

(',', 'рванули') [('сюда', 0.5), ('за', 0.5)]

('флаере', ',') [('а', 0.3333333333333333), ('вытащенном', 0.3333333333333333), ('можешь', 0.3333333333333333)]

('моих', 'родителей') [('чтобы', 0.5), ('.', 0.5)]

('чтобы', 'получить') [('доступ', 0.3333333333333333), ('информацию', 0.3333333333333333), ('награды', 0.3333333333333333)]

('что', 'те') [('на', 0.16666666666666666), (',', 0.3333333333333333), ('в', 0.16666666666666666), ('идут', 0.16666666666666666), ('ребята', 0.16666666666666666)]

('на', 'курорте') [(',', 0.5), ('и', 0.5)]

('каком', 'именно') [(',', 0.5), ('отеле', 0.5)]

('делом', 'времени') [('.', 0.5), (',', 0.5)]

('доступ', ',') [('и', 0.5), ('обязательно', 0.5)]

('из', 'памяти') [(',', 0.5), ('.', 0.5)]

('сон', ',') [('однако', 0.5), ('смерти', 0.5)]

('я', 'рассказывал') [('друзьям', 0.5), (',', 0.5)]

('внима

('свитки', ',') [('припасенные', 0.5), ('взрывающиеся', 0.5)]

('из', 'стен') [('камеры', 0.5), ('.', 0.5)]

('снаружи', ',') [('оказавшись', 0.3333333333333333), ('в', 0.3333333333333333), ('глядя', 0.3333333333333333)]

('эльфийка', ',') [('как', 0.5), ('разящий', 0.5)]

('плечо', ',') [('свисала', 0.3333333333333333), ('пытаясь', 0.3333333333333333), ('успокоила', 0.3333333333333333)]

('$', 'айлин') [(',', 0.11764705882352941), ('ее', 0.058823529411764705), ('кивнула', 0.058823529411764705), ('почувствовала', 0.058823529411764705), ('не', 0.058823529411764705), ('приблизилась', 0.058823529411764705), ('понимала', 0.058823529411764705), ('пришла', 0.058823529411764705), ('ему', 0.058823529411764705), ('могла', 0.058823529411764705), ('издала', 0.058823529411764705), ('гордилась', 0.058823529411764705), ('сделала', 0.058823529411764705), ('объявила', 0.058823529411764705), ('казалась', 0.058823529411764705), ('.', 0.058823529411764705)]

('уровня', 'клан') [(':', 0.5), ('сломанного',