In [1]:
import re
from random import choice
from collections import defaultdict

r_alphabet = re.compile(u'[а-яА-Я0-9-]+')

In [71]:
def gen_lines(corpus):
    data = open(corpus)
    for line in data:
        yield line.lower()

def gen_tokens(lines):
    for line in lines:
        for token in r_alphabet.findall(line):
            yield token

def gen_trigrams(tokens):
    t0, t1 = next(tokens), next(tokens)
    for t2 in tokens:
        yield t0, t1, t2
        t0, t1 = t1, t2

def fit(corpus):
    lines = gen_lines(corpus)
    tokens = gen_tokens(lines)
    trigrams = gen_trigrams(tokens)

    bi, tri = defaultdict(lambda: 0.0), defaultdict(lambda: 0.0)

    for t0, t1, t2 in trigrams:
        bi[t0, t1] += 1
        tri[t0, t1, t2] += 1

    model = {}
    for (t0, t1, t2), freq in tri.items():
        if (t0, t1) in model:
            model[t0, t1].append((t2, freq/bi[t0, t1]))
        else:
            model[t0, t1] = [(t2, freq/bi[t0, t1])]
    return model

def generate(model, lenght, prefix=-1):
    phrase = ''
    bigrams = tuple(filter(lambda key: key[0] == prefix, model))
    if prefix != -1 and len(bigrams) != 0:
        t0, t1 = choice(tuple(filter(lambda key: key[0] == prefix, model)))
    else:
        t0, t1 = choice(tuple(model))
    phrase += t0
    for i in range(lenght-1):
        phrase += ' ' + t1
        t0, t1 = t1, choice(model[t0, t1])[0]
    return phrase.capitalize()


In [76]:
if __name__ == '__main__':
    model = fit('Disgardium_5.txt')
    print(generate(model=model, lenght=50, prefix='ты'))



Ты определился с кем имеют дело одноклассники учителя сокурсники из местного колледжа и университета коллеги все идиоты-бывшие чьи имена ей даже писать было противно завистливые соседи все они были из серии слава герою желаете обнародовать свое имя в черную тетрадь и жалела только о левел апах питомцев но и ту


In [77]:
model


{('дисгардиум', '5'): [('священная', 0.6666666666666666),
  ('под', 0.3333333333333333)],
 ('5', 'священная'): [('война', 1.0)],
 ('священная', 'война'): [('данияр', 0.2),
  ('краткое', 0.2),
  ('официально', 0.2),
  ('начата', 0.2),
  ('закончена', 0.2)],
 ('война', 'данияр'): [('саматович', 1.0)],
 ('данияр', 'саматович'): [('сугралинов', 1.0)],
 ('саматович', 'сугралинов'): [('дисгардиум', 1.0)],
 ('сугралинов', 'дисгардиум'): [('5', 1.0)],
 ('5', 'под'): [('защитой', 1.0)],
 ('под', 'защитой'): [('нергала', 0.5), ('краша', 0.5)],
 ('защитой', 'нергала'): [('лучезарного', 1.0)],
 ('нергала', 'лучезарного'): [('армии', 0.14285714285714285),
  ('личность', 0.14285714285714285),
  ('который', 0.14285714285714285),
  ('во', 0.14285714285714285),
  ('уже', 0.14285714285714285),
  ('воздух', 0.14285714285714285),
  ('сплюнув', 0.14285714285714285)],
 ('лучезарного', 'армии'): [('союзников', 1.0)],
 ('армии', 'союзников'): [('уверенно', 1.0)],
 ('союзников', 'уверенно'): [('продвигаются', 

In [59]:
tuple(filter(lambda key: key[0] == prefix, model))

()

In [70]:
numbers = [1, 2, 3, 4, 5]

for i in numbers:
    del numbers[0]
    print(i)

1
3
5
