# RusStyleDataset

In [8]:
import numpy as np
from vocabulary import Vocabulary
from dataset import TextDataset
from style_dataset import StyleDataset
from utils import make_dir

vocab_path      = "data/rus_style/rus_vocab_2.data"

tr_text_path    = "texts/rus_style/rus_%s_train.txt"
va_text_path    = "texts/rus_style/rus_%s_valid.txt"
tr_dataset_path = "data/rus_style/rus_dataset_%s_train_2.data"
va_dataset_path = "data/rus_style/rus_dataset_%s_valid_2.data"

max_len = 24

## Vocab

In [None]:
voc = Vocabulary()
voc.build(paths=[t % s for t in [tr_text_path, va_text_path] for s in [0,1]], max_size=60000)
voc.save(vocab_path)
print(voc)

## Dataset

In [5]:
voc = Vocabulary()
voc.restore(vocab_path)

dataset_paths = [tr_dataset_path, va_dataset_path]

for i,text_path in enumerate([tr_text_path, va_text_path]):
    dataset = StyleDataset(TextDataset)
    dataset.build(text_path, voc, max_len=max_len)
    dataset.save(dataset_paths[i])
    print(dataset)
    assert dataset._ds0.shape[0] > 100000
    assert dataset._ds0.shape[1] == max_len+2
    assert dataset._ds1.shape[0] > 100000
    assert dataset._ds1.shape[1] == max_len+2
    assert dataset.get_data_size() == dataset.shape[0], dataset.get_data_size()

StyleDataset:
  path_0: data/rus_style/rus_dataset_0_train.data
  path_1: data/rus_style/rus_dataset_1_train.data
  shape: [210592, 34]

StyleDataset:
  path_0: data/rus_style/rus_dataset_0_valid.data
  path_1: data/rus_style/rus_dataset_1_valid.data
  shape: [210592, 34]



## Batch

In [7]:
voc = Vocabulary()
voc.restore(vocab_path)

dataset = StyleDataset(TextDataset)
dataset.restore(tr_dataset_path)

sents, styles = dataset.get_next_batch(14)
for sent, style in zip(sents, styles):
    restored = " ".join(voc.to_words(sent))
    restored = restored.replace('<PAD>', '_')
    print("%d: %s" % (style, restored))

0: <BOS> носится слух , что теперь он вовсе не теряет духа , в показаниях своих лжет и готовится к <UNK> суду с некоторою торжественностью и надеждою ( ? ) . <EOS> _ _ _
0: <BOS> а о чем ты думаешь ? <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
0: <BOS> они говорят грубо , но просто . <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
0: <BOS> — ведь тут за дверью у вас лежит <UNK> сюртук , не видели , что ли ? <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
0: <BOS> пошел ! <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
0: <BOS> разве помогать здесь и при таких обстоятельствах не признак нравственной силы ? <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
0: <BOS> даже что дурно было , на что подчас и досадовал , и то в воспоминаниях как-то <UNK> от дурного и <UNK> <UNK> моему в <UNK> виде . <EOS> _ _ _ _ _
1: <BOS> он жил в польше с 2013 года , преподавал в местных университетах , а также сотрудничал с российским <UNK> <UNK> исследований . <EOS> _ _ _ _ _ _ _ _ 