In [9]:
import numpy as np

class Dataset:
    def __init__(self):
        self.text    = None
        self.encoded = []
    
    def load(self, path):
        with open(path, 'r') as f:
            self.text=f.read()
        self.text         = self.text.replace(u'\xa0', u' ').replace(u'\ufeff','') 
        self.vocab        = sorted(set(self.text))
        self.vocab_to_int = {c: i for i, c in enumerate(self.vocab)}
        self.int_to_vocab = dict(enumerate(self.vocab))
        self.encoded      = np.array([self.vocab_to_int[c] for c in self.text], dtype=np.int32)
    
    def get_batches(self, n_seqs, n_steps):
        '''Создаем генератор, который возвращает пакеты размером
           n_seqs x n_steps из массива arr.

           Аргументы
           ---------
           n_seqs: Batch size, количество последовательностей в пакете
           n_steps: Sequence length, сколько "шагов" делаем в пакете
        '''
        arr = self.encoded
        # Считаем количество символов на пакет и количество пакетов, которое можем сформировать
        characters_per_batch = n_seqs * n_steps
        n_batches = len(arr)//characters_per_batch

        # Сохраняем в массиве только символы, которые позволяют сформировать целое число пакетов
        arr = arr[:n_batches * characters_per_batch]

        # Делаем reshape 1D -> 2D, используя n_seqs как число строк, как на картинке
        arr = arr.reshape((n_seqs, -1))

        for n in range(0, arr.shape[1], n_steps):
            # пакет данных, который будет подаваться на вход сети
            x = arr[:, n:n+n_steps]
            # целевой пакет, с которым будем сравнивать предсказание, получаем сдвиганием "x" на один символ вперед
            y = np.zeros_like(x)
            y[:, :-1], y[:, -1] = x[:, 1:], x[:, 0]
            yield x, y


In [10]:
dataset = Dataset()
dataset.load('data/anna.txt')

In [11]:
print(dataset.text[:110])
print(dataset.encoded[:110])
print(len(dataset.vocab))


ЧАСТЬ ПЕРВАЯ



I

Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.
[ 99  77  93  94 102   1  91  82  92  79  77 105   0   0   0   0  30   0
   0  79 123 111   1 123 129 106 123 124 117 114 108 133 111   1 123 111
 118 134 114   1 121 120 127 120 112 114   1 110 122 125 109   1 119 106
   1 110 122 125 109 106   7   1 116 106 112 110 106 137   1 119 111 123
 129 106 123 124 117 114 108 106 137   1 123 111 118 134 137   1 119 111
 123 129 106 123 124 117 114 108 106   1 121 120   8 123 108 120 111 118
 125   9]
140


In [12]:
batches = dataset.get_batches(10, 50)
x, y = next(batches)
print('x\n', x[:5, :5])
print('\ny\n', y[:5, :5])

x
 [[ 99  77  93  94 102]
 [  1 110 108 114 112]
 [ 79 120 124   1 120]
 [114 119   1 109 120]
 [123 121 122 106 108]]

y
 [[ 77  93  94 102   1]
 [110 108 114 112 111]
 [120 124   1 120 124]
 [119   1 109 120 108]
 [121 122 106 108 111]]
