In [26]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

import matplotlib.pyplot as plt

from tqdm.auto import tqdm as tqdm
from sklearn.model_selection import train_test_split
import nltk

from tokenizers import Tokenizer



In [24]:
paths = ['../dataset/generated/generated_pushkin.txt', '../dataset/generated/generated_curious_pushkin.txt']
texts = []
for p in paths:
    with open(p, 'r', encoding='utf-8') as f:
        texts += f.read().replace('\n', '<\n>').split('#' * 10)

In [37]:
texts[0]

'----<\n>в туманной слободе, на берегу невидимой реки, где заблудились звезды, и где ветер шептал свои древние секреты, жил-был молодой человек по имени алексей. сердце его было исполнено мечтаний о далких странствиях, о которых он много слышал от странников, обрывающих тишину упрямого уха его слуха.<\n><\n>каждое утро, когда с первыми лучами солнца за окном заревом загорался рассвет, алексей выходил к высокой сосне, что росла на холме. он садился под е широкие ветви и трудился над свитком, в котором записывал свои мечты. однажды, рисуя карту неизведанных земель, он заметил на краю свитка странный знак  это были корни, переплетенные в замысловатом орнаменте, словно рассказывали о тайнах, скрытых в земле.<\n><\n>и вот однажды, порывшись в старых книгах мудрецов, алексей наткнулся на упоминание об утерянном городе, где, согласно легенде, время останавливается, и пришельцы находят сво истинное «я». город этот прятался на фоне золотых холмов, покрытых майским цветением. пылая желанием, гер

In [30]:
tokenizer = tokenizer = Tokenizer.from_file('../tokenizer/tokenizer_1_vocab_1790')

In [32]:
tokenizer.get_vocab()

{'ту': 239,
 'ночь': 699,
 'разу': 1714,
 'послед': 1029,
 'чей': 1052,
 'пла': 510,
 'сия': 524,
 'нежный': 1535,
 'нной': 424,
 'кими': 1353,
 'нным': 611,
 '(': 9,
 'сказал': 859,
 'сно': 544,
 'произнесла': 885,
 'задум': 1203,
 'вели': 408,
 ')': 10,
 'где': 256,
 'едине': 1545,
 'дя': 373,
 'худож': 1147,
 'однако': 992,
 'руку': 1538,
 'приня': 1460,
 'место': 1434,
 'ген': 1563,
 'ходит': 1388,
 ').': 808,
 'нимал': 1609,
 'рома': 1051,
 'нет': 634,
 'настоя': 1307,
 'ную': 383,
 'пан': 1622,
 'знал': 565,
 'стани': 1780,
 'ья': 1483,
 'пришл': 1670,
 'кие': 597,
 'трево': 1220,
 'заме': 539,
 'зы': 305,
 'даже': 729,
 'со': 158,
 'тов': 721,
 'чно': 1475,
 'ло': 138,
 'ла': 137,
 'ва': 150,
 'рай': 1119,
 'наблю': 1744,
 'не': 125,
 'прон': 1385,
 'ду': 171,
 'круг': 628,
 'ле': 146,
 'мен': 615,
 'кре': 536,
 'кло': 963,
 'скло': 1255,
 'зва': 1474,
 'дли': 1089,
 'смер': 1175,
 'вышел': 1789,
 'кое': 944,
 'слов': 1171,
 'глаза': 369,
 'дами': 1276,
 'момен': 1370,
 'каждо':

In [36]:
(tokenizer.encode(texts[0]).tokens)

['-',
 '-',
 '-',
 '-',
 '<\n>',
 'в',
 'тума',
 'нной',
 'сло',
 'бо',
 'де',
 ',',
 'на',
 'берегу',
 'невиди',
 'мой',
 'реки',
 ',',
 'где',
 'заблу',
 'ди',
 'лись',
 'звезды',
 ',',
 'и',
 'где',
 'ветер',
 'шептал',
 'свои',
 'древ',
 'ние',
 'се',
 'кре',
 'ты',
 ',',
 'жил',
 '-',
 'был',
 'молодой',
 'человек',
 'по',
 'имени',
 'алексей',
 '.',
 'сердце',
 'его',
 'было',
 'испол',
 'не',
 'но',
 'мечтаний',
 'о',
 'дал',
 'ких',
 'стран',
 'стви',
 'ях',
 ',',
 'о',
 'которых',
 'он',
 'много',
 'слы',
 'шал',
 'от',
 'стран',
 'ников',
 ',',
 'об',
 'ры',
 'ва',
 'ющих',
 'тиши',
 'ну',
 'у',
 'пря',
 'мо',
 'го',
 'у',
 'ха',
 'его',
 'слу',
 'ха',
 '.',
 '<\n>',
 '<\n>',
 'каждое',
 'утро',
 ',',
 'когда',
 'с',
 'пер',
 'выми',
 'луча',
 'ми',
 'солнца',
 'за',
 'ок',
 'ном',
 'за',
 'ре',
 'вом',
 'за',
 'го',
 'ра',
 'лся',
 'рас',
 'свет',
 ',',
 'алексей',
 'вы',
 'ходил',
 'к',
 'высо',
 'кой',
 'со',
 'сне',
 ',',
 'что',
 'ро',
 'сла',
 'на',
 'хол',
 'ме',
 '.',