In [1]:
import re
import json
import random
from collections import defaultdict
from tqdm import tqdm
import numpy as np


In [2]:
fn1 = 'dataset_eskov.txt'
fn2 = 'dataset_eskov_2.txt'

In [3]:
with open(fn1, 'r', encoding='utf-8') as f:
    data1 = f.read()

with open(fn2, 'r', encoding='utf-8') as f:
    data2 = f.read()


In [4]:
len(data1), len(data2)

(1260, 1524)

In [5]:
data1[:1000]

'Говорят, что однажды Дмитрий Еськов, известный своей неуемной тягой к высоте и приключениям, оказался на вершине знаменитого Эмпайр-стейт-билдинга. По легенде, его невероятное падение стало городским мифом, который передают из уст в уста.\nВсе началось с того, что Дмитрий, прогуливаясь по смотровой площадке, поскользнулся и сорвался с высоты. Он не кричал, не пытался цепляться — он будто смирился с неизбежным. Как рассказывают очевидцы, он падал пластом, словно огромный лист бумаги, распластавшись в воздухе. Сила удара о землю должна была быть разрушительной, но произошло нечто поразительное.\nЛегенда гласит, что Дмитрий упал прямо на асфальт перед зданием. Удар был настолько мощным, что асфальт треснул, а его бок буквально стесался об него, оставляя характерный след на дороге. Однако, несмотря на все законы физики, Дмитрий чудом остался жив. Очевидцы вспоминают, как он поднялся, отряхнулся, взглянул на свой изрядно "пострадавший" бок и лишь задумчиво произнес: "Ну, вроде терпимо".\nС

In [6]:
data2[:1000]

'В Воронеже существует печальная, но ставшая легендарной история о Дмитрии Еськове — человеке, который, как говорят, жил на полную катушку и погиб столь же ярко, оставив след в сердцах горожан.\n\nИстория начинается с того, что Дмитрий в тот роковой день ехал на своём стареньком мопеде. Наушники в его ушах играли культовую песню Владимира Круга "Владимирский Централ", ставшую символом свободы, печали и силы духа. Северный мост, возвышающийся над водохранилищем, был его любимым маршрутом — место, где он ощущал себя живым как никогда.\n\nОднако в этот день судьба решила сыграть свою трагическую роль. Дмитрий, увлечённый мелодией и текстом песни, не заметил, как пробил бетонное ограждение и металлический забор. Его мопед выскользнул на скользкий участок моста, и он, не удержав равновесия, упал пластом с огромной высоты прямо в ледяную воду водохранилища.\n\nГоворят, что в момент падения из наушников всё ещё звучали слова "Владимирский Централ, ветер северный…" — и их подхватил холодный во

In [7]:
data1 = data1.replace('\xa0', ' ')
data2 = data2.replace('\xa0', ' ')

In [8]:
data1_parts = [t.strip() for t in data1.split('<|startoftext|>') if len(t.strip()) > 10]

In [9]:
data2 = re.sub(r'\n(Статья \d+\.)', '\n<sep>\g<1>', data2)
data2_parts = data2.split('<sep>')
data2_parts = [t.strip() for t in data2_parts if len(t.strip()) > 10]

In [10]:
data2_parts[-1]

'В Воронеже существует печальная, но ставшая легендарной история о Дмитрии Еськове — человеке, который, как говорят, жил на полную катушку и погиб столь же ярко, оставив след в сердцах горожан.\n\nИстория начинается с того, что Дмитрий в тот роковой день ехал на своём стареньком мопеде. Наушники в его ушах играли культовую песню Владимира Круга "Владимирский Централ", ставшую символом свободы, печали и силы духа. Северный мост, возвышающийся над водохранилищем, был его любимым маршрутом — место, где он ощущал себя живым как никогда.\n\nОднако в этот день судьба решила сыграть свою трагическую роль. Дмитрий, увлечённый мелодией и текстом песни, не заметил, как пробил бетонное ограждение и металлический забор. Его мопед выскользнул на скользкий участок моста, и он, не удержав равновесия, упал пластом с огромной высоты прямо в ледяную воду водохранилища.\n\nГоворят, что в момент падения из наушников всё ещё звучали слова "Владимирский Централ, ветер северный…" — и их подхватил холодный во

In [11]:
len(data1_parts), len(data2_parts)

(1, 1)

In [12]:
random.seed(32)
data_texts = random.sample(data1_parts, 1) + data2_parts
# data_texts = data1_parts + data2_parts

In [13]:
t = random.sample(data_texts, 1)[0]

In [14]:
def tokenize_text(text):
    text = str(text).lower().strip()
    words = re.findall('[а-яё]+', text)
    return ['<s>', '<s>'] + words + ['</s>']
    

In [15]:
texts_tokenized = [tokenize_text(t) for t in data_texts]

In [16]:
texts_tokenized[1]

['<s>',
 '<s>',
 'в',
 'воронеже',
 'существует',
 'печальная',
 'но',
 'ставшая',
 'легендарной',
 'история',
 'о',
 'дмитрии',
 'еськове',
 'человеке',
 'который',
 'как',
 'говорят',
 'жил',
 'на',
 'полную',
 'катушку',
 'и',
 'погиб',
 'столь',
 'же',
 'ярко',
 'оставив',
 'след',
 'в',
 'сердцах',
 'горожан',
 'история',
 'начинается',
 'с',
 'того',
 'что',
 'дмитрий',
 'в',
 'тот',
 'роковой',
 'день',
 'ехал',
 'на',
 'своём',
 'стареньком',
 'мопеде',
 'наушники',
 'в',
 'его',
 'ушах',
 'играли',
 'культовую',
 'песню',
 'владимира',
 'круга',
 'владимирский',
 'централ',
 'ставшую',
 'символом',
 'свободы',
 'печали',
 'и',
 'силы',
 'духа',
 'северный',
 'мост',
 'возвышающийся',
 'над',
 'водохранилищем',
 'был',
 'его',
 'любимым',
 'маршрутом',
 'место',
 'где',
 'он',
 'ощущал',
 'себя',
 'живым',
 'как',
 'никогда',
 'однако',
 'в',
 'этот',
 'день',
 'судьба',
 'решила',
 'сыграть',
 'свою',
 'трагическую',
 'роль',
 'дмитрий',
 'увлечённый',
 'мелодией',
 'и',
 'тек

In [17]:

s = [('red', 1), ('blue', 2), ('red', 3), ('blue', 4), ('red', 1), ('blue', 4)]
d = defaultdict(set)
for k, v in s:
    d[k].add(v)

sorted(d.items())

[('blue', {2, 4}), ('red', {1, 3})]

In [18]:
data_texts[0]

'Говорят, что однажды Дмитрий Еськов, известный своей неуемной тягой к высоте и приключениям, оказался на вершине знаменитого Эмпайр-стейт-билдинга. По легенде, его невероятное падение стало городским мифом, который передают из уст в уста.\nВсе началось с того, что Дмитрий, прогуливаясь по смотровой площадке, поскользнулся и сорвался с высоты. Он не кричал, не пытался цепляться — он будто смирился с неизбежным. Как рассказывают очевидцы, он падал пластом, словно огромный лист бумаги, распластавшись в воздухе. Сила удара о землю должна была быть разрушительной, но произошло нечто поразительное.\nЛегенда гласит, что Дмитрий упал прямо на асфальт перед зданием. Удар был настолько мощным, что асфальт треснул, а его бок буквально стесался об него, оставляя характерный след на дороге. Однако, несмотря на все законы физики, Дмитрий чудом остался жив. Очевидцы вспоминают, как он поднялся, отряхнулся, взглянул на свой изрядно "пострадавший" бок и лишь задумчиво произнес: "Ну, вроде терпимо".\nС

In [19]:
tokens_freq = defaultdict(int)

for tt in texts_tokenized:
    for tok in tt:
        tokens_freq[tok] += 1

In [20]:
len(tokens_freq)

282

In [21]:
first_two = dict(list(tokens_freq.items())[:10])
first_two

{'<s>': 4,
 'говорят': 3,
 'что': 8,
 'однажды': 1,
 'дмитрий': 6,
 'еськов': 1,
 'известный': 1,
 'своей': 1,
 'неуемной': 1,
 'тягой': 1}

In [22]:
tokens_freq

defaultdict(int,
            {'<s>': 4,
             'говорят': 3,
             'что': 8,
             'однажды': 1,
             'дмитрий': 6,
             'еськов': 1,
             'известный': 1,
             'своей': 1,
             'неуемной': 1,
             'тягой': 1,
             'к': 1,
             'высоте': 1,
             'и': 13,
             'приключениям': 1,
             'оказался': 1,
             'на': 8,
             'вершине': 1,
             'знаменитого': 1,
             'эмпайр': 1,
             'стейт': 1,
             'билдинга': 1,
             'по': 2,
             'легенде': 1,
             'его': 6,
             'невероятное': 1,
             'падение': 1,
             'стало': 2,
             'городским': 1,
             'мифом': 1,
             'который': 4,
             'передают': 1,
             'из': 3,
             'уст': 1,
             'в': 10,
             'уста': 1,
             'все': 2,
             'началось': 1,
             'с': 7,
        

In [23]:
tokens_freq

defaultdict(int,
            {'<s>': 4,
             'говорят': 3,
             'что': 8,
             'однажды': 1,
             'дмитрий': 6,
             'еськов': 1,
             'известный': 1,
             'своей': 1,
             'неуемной': 1,
             'тягой': 1,
             'к': 1,
             'высоте': 1,
             'и': 13,
             'приключениям': 1,
             'оказался': 1,
             'на': 8,
             'вершине': 1,
             'знаменитого': 1,
             'эмпайр': 1,
             'стейт': 1,
             'билдинга': 1,
             'по': 2,
             'легенде': 1,
             'его': 6,
             'невероятное': 1,
             'падение': 1,
             'стало': 2,
             'городским': 1,
             'мифом': 1,
             'который': 4,
             'передают': 1,
             'из': 3,
             'уст': 1,
             'в': 10,
             'уста': 1,
             'все': 2,
             'началось': 1,
             'с': 7,
        

In [24]:
tokens_freq = dict(sorted(tokens_freq.items(), key=lambda item: -item[1]))

In [25]:
tokens_freq

{'и': 13,
 'в': 10,
 'что': 8,
 'на': 8,
 'он': 8,
 'с': 7,
 'как': 7,
 'дмитрий': 6,
 'его': 6,
 'не': 6,
 '<s>': 4,
 'который': 4,
 'о': 4,
 'но': 4,
 'говорят': 3,
 'из': 3,
 'очевидцы': 3,
 'след': 3,
 'история': 3,
 'северный': 3,
 'по': 2,
 'стало': 2,
 'все': 2,
 'того': 2,
 'высоты': 2,
 'падал': 2,
 'пластом': 2,
 'словно': 2,
 'легенда': 2,
 'упал': 2,
 'прямо': 2,
 'асфальт': 2,
 'был': 2,
 'бок': 2,
 'однако': 2,
 'место': 2,
 'где': 2,
 'там': 2,
 'только': 2,
 '</s>': 2,
 'дмитрии': 2,
 'еськове': 2,
 'человеке': 2,
 'сердцах': 2,
 'день': 2,
 'владимирский': 2,
 'централ': 2,
 'символом': 2,
 'свободы': 2,
 'мост': 2,
 'над': 2,
 'этот': 2,
 'момент': 2,
 'ветер': 2,
 'однажды': 1,
 'еськов': 1,
 'известный': 1,
 'своей': 1,
 'неуемной': 1,
 'тягой': 1,
 'к': 1,
 'высоте': 1,
 'приключениям': 1,
 'оказался': 1,
 'вершине': 1,
 'знаменитого': 1,
 'эмпайр': 1,
 'стейт': 1,
 'билдинга': 1,
 'легенде': 1,
 'невероятное': 1,
 'падение': 1,
 'городским': 1,
 'мифом': 1,
 'пере

In [26]:
a = iter(tokens_freq.items())

In [27]:
next(a)

('и', 13)

In [28]:
tok2id = {'<u>': 0}
for i, it in enumerate(tokens_freq.items()):
    tok2id[it[0]] = i+1
    

In [29]:
id2tok = {v:k for k,v in tok2id.items()}

In [30]:
def code_tokens2(tok1, tok2):
    return f'{tok2id[tok1]}_{tok2id[tok2]}'


def code_tokens3(tok1, tok2, tok3):
    return f'{tok2id[tok1]}_{tok2id[tok2]}_{tok2id[tok3]}'
    

In [31]:
LM_stat_trigram = defaultdict(lambda: defaultdict(lambda: 0))
LM_stat_bigram = defaultdict(lambda: 0)

for tt in tqdm(texts_tokenized):
    for i in range(len(tt)-2):
        t0 = tt[i]
        t1 = tt[i+1]
        t2 = tt[i+2]
        code_2 = code_tokens2(t0, t1)
        code_3 = code_tokens3(t0, t1, t2)
        
        LM_stat_trigram[code_2][code_3] += 1
        LM_stat_bigram[code_2] += 1


100%|██████████| 2/2 [00:00<00:00, 269.80it/s]


In [32]:
LM_stat_trigram.items()

dict_items([('11_11', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E2A0>, {'11_11_15': 1, '11_11_2': 1})), ('11_15', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E160>, {'11_15_3': 1})), ('15_3', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E200>, {'15_3_55': 1, '15_3_2': 1})), ('3_55', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E340>, {'3_55_8': 1})), ('55_8', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E3E0>, {'55_8_56': 1})), ('8_56', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E480>, {'8_56_57': 1})), ('56_57', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E520>, {'56_57_58': 1})), ('57_58', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E5C0>, {'57_58_59': 1})), ('58_59', defaultdict(<function <lambda>.<locals>.<lambda> at 0x000001FF3172E660>, {'58_59_60': 1})), ('59_60', defaultdict(<function <lambda>.<locals>.<la

In [33]:
cnt = 0
for k,v in LM_stat_trigram.items():
    cnt += len(v)
    
cnt

401

In [34]:
len(LM_stat_bigram)

385

In [35]:
def get_distribution(tok1, tok2):
    code = code_tokens2(tok1, tok2)
    n = LM_stat_bigram[code]
    probs = []
    variants = []
    for k,v in LM_stat_trigram[code].items():
        if v > 0:
            variants.append(k.split('_')[-1])
            probs.append(v/n)
    return variants, probs
            
    

In [36]:
get_distribution('он', 'погиб')

([], [])

In [37]:
def change_probs(probs: list, temperatue):
    logits = [np.log(p) for p in probs]
    new_logits = [l/temperatue for l in logits]
    new_probs = [np.exp(l) for l in new_logits]
    s = sum(new_probs)
    new_probs = [p/s for p in new_probs]
    return new_probs
    

In [38]:
probs = [0.5, 0.3, 0.15, 20]
change_probs(probs, 0.1)

[9.536743164062529e-17,
 5.766503906250007e-19,
 5.631351470947278e-22,
 0.9999999999999998]

In [39]:
np.random.multinomial(1, [0.8, 0.1, 0.05, 0.05])

array([1, 0, 0, 0])

In [40]:
def sample(variants, probs, temperature=None):
    if temperature is not None:
        probs = change_probs(probs, temperature)
    experiment = np.random.multinomial(1, probs)
    variants = np.array(variants).astype(int) * experiment
    for i in list(variants):
        if i > 0:
            return id2tok[i]

In [41]:
def generate(tok1, tok2, temperature=None):
    res = [tok1, tok2]
    new_tok = None
    while new_tok != '</s>':
        variants, probs = get_distribution(tok1, tok2)
        new_tok = sample(variants, probs, temperature=temperature)
        res.append(new_tok)
        tok1 = tok2
        tok2 = new_tok
    return res

In [42]:
tok1 = 'люди'
tok2 = 'погиб'
' '.join(generate(tok1, tok2, temperature=0.1))

KeyError: None