# RusStyleDataset

In [8]:
import numpy as np
from vocabulary import Vocabulary
from dataset import TextDataset
from style_dataset import StyleDataset
from utils import make_dir

vocab_path      = "data/rus_style/rus_vocab_2.data"

tr_text_path    = "texts/rus_style/rus_%s_train.txt"
va_text_path    = "texts/rus_style/rus_%s_valid.txt"
tr_dataset_path = "data/rus_style/rus_dataset_%s_train_2.data"
va_dataset_path = "data/rus_style/rus_dataset_%s_valid_2.data"

max_len = 24

## Vocab

In [9]:
voc = Vocabulary()
voc.build(paths=[t % s for t in [tr_text_path, va_text_path] for s in [0,1]], max_size=60000)
voc.save(vocab_path)
print(voc)

Vocabulary:
  size: 60004
  _tokens_to_words: ['<UNK>', '<BOS>', '<EOS>', '<PAD>', ',', '.', 'и', 'в', '—', 'не', 'что', 'на', '«', '»', 'я', 'с', 'он', 'как', '!', 'а']


## Dataset

In [11]:
voc = Vocabulary()
voc.restore(vocab_path)

dataset_paths = [tr_dataset_path, va_dataset_path]

for i,text_path in enumerate([tr_text_path, va_text_path]):
    dataset = StyleDataset(TextDataset)
    dataset.build(text_path, voc, max_len=max_len)
    dataset.save(dataset_paths[i])
    print(dataset)
    #assert dataset._ds0.shape[0] > 100000
    assert dataset._ds0.shape[1] == max_len+2
    #assert dataset._ds1.shape[0] > 100000
    assert dataset._ds1.shape[1] == max_len+2
    assert dataset.get_data_size() == dataset.shape[0], dataset.get_data_size()

StyleDataset:
  path_0: data/rus_style/rus_dataset_0_train_2.data
  path_1: data/rus_style/rus_dataset_1_train_2.data
  shape: [185840, 26]

StyleDataset:
  path_0: data/rus_style/rus_dataset_0_valid_2.data
  path_1: data/rus_style/rus_dataset_1_valid_2.data
  shape: [185840, 26]



## Batch

In [15]:
voc = Vocabulary()
voc.restore(vocab_path)

dataset = StyleDataset(TextDataset)
dataset.restore(tr_dataset_path)

sents, styles = dataset.get_next_batch(14)
for sent, style in zip(sents, styles):
    restored = " ".join(voc.to_words(sent))
    restored = restored.replace('<PAD>', '_')
    print("%d: %s" % (style, restored))

0: <BOS> — громко заметил маврикий николаевич . <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
0: <BOS> — вы бы не были молодым моим другом , если б отвечали иначе ! <EOS> _ _ _ _ _ _ _ _ _ _
0: <BOS> — быстро осведомилась лиза . <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
0: <BOS> — и если б ты знала , как я понимаю твое отвращение , друг мой ! <EOS> _ _ _ _ _ _ _ _
0: <BOS> — вы опять за то же ! <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
0: <BOS> он еще не мог разрешить , выгодно или невыгодно продолжать в такую минуту такой разговор , и решился <UNK> обстоятельствам . <EOS> _ _ _
0: <BOS> он рыдал конвульсивно . <EOS> _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
1: <BOS> родственники обеих женщин подчеркивали , что никакого участия в боевых действиях они не принимали . <EOS> _ _ _ _ _ _ _ _ _
1: <BOS> сразу после этого в соцсетях появились предположения , что роскомнадзор объявит о блокировке мессенджера telegram в россии . <EOS> _ _ _ _ _ _
1: <BOS> как рассказал источник коммерсанта в миноборо