In [1]:
%matplotlib inline
import collections
import math
import numpy as np
import os
import random
import tensorflow as tf
import zipfile
from matplotlib import pylab
from six.moves import range
from six.moves.urllib.request import urlretrieve
import tensorflow as tf
from scipy.sparse import lil_matrix

In [None]:
url = 'https://www.cs.cmu.edu/~spok/grimmtmp/'
# Создание директории
dir_name = 'stories'
if not os.path.exists(dir_name):
    os.mkdir(dir_name)

# Скачивание файла
def maybe_download(filename):
  print('Downloading file: ', dir_name+ os.sep+filename)
    
  if not os.path.exists(dir_name+os.sep+filename):
    filename, _ = urlretrieve(url + filename, dir_name+os.sep+filename)
  else:
    print('File ',filename, ' already exists.')
  
  return filename

num_files = 100
filenames = [format(i, '03d')+'.txt' for i in range(1,101)]

for fn in filenames:
    maybe_download(fn)

Downloading file:  stories\001.txt
Downloading file:  stories\002.txt
Downloading file:  stories\003.txt
Downloading file:  stories\004.txt
Downloading file:  stories\005.txt
Downloading file:  stories\006.txt
Downloading file:  stories\007.txt
Downloading file:  stories\008.txt
Downloading file:  stories\009.txt
Downloading file:  stories\010.txt
Downloading file:  stories\011.txt
Downloading file:  stories\012.txt
Downloading file:  stories\013.txt
Downloading file:  stories\014.txt
Downloading file:  stories\015.txt
Downloading file:  stories\016.txt
Downloading file:  stories\017.txt
Downloading file:  stories\018.txt
Downloading file:  stories\019.txt
Downloading file:  stories\020.txt
Downloading file:  stories\021.txt
Downloading file:  stories\022.txt
Downloading file:  stories\023.txt
Downloading file:  stories\024.txt
Downloading file:  stories\025.txt
Downloading file:  stories\026.txt
Downloading file:  stories\027.txt
Downloading file:  stories\028.txt
Downloading file:  s

In [None]:
def read_data(filename):
  
  with open(filename) as f:
    data = tf.compat.as_str(f.read())
    data = data.lower()
    data = list(data)
  return data

global documents
documents = []
for i in range(num_files):    
    print('\nProcessing file %s'%os.path.join(dir_name,filenames[i]))
    chars = read_data(os.path.join(dir_name,filenames[i]))
    two_grams = [''.join(chars[ch_i:ch_i+2]) for ch_i in range(0,len(chars)-2,2)]
    documents.append(two_grams)
    print('Data size (Characters) (Document %d) %d' %(i,len(two_grams)))
    print('Sample string (Document %d) %s'%(i,two_grams[:50]))

In [None]:
def build_dataset(documents):
    chars = []  
    for d in documents:
        chars.extend(d)
    print('%d Characters found.'%len(chars))
    count = []
    # Получение биграммы, сортированные по частоте встреч(сортировка по убыванию)
    count.extend(collections.Counter(chars).most_common())
    
    # Создание словарь с ID для каждой биграммы
    # 'UNK' означает слишком редкое слово
    dictionary = dict({'UNK':0})
    for char, c in count:
        # Добавление в словарь только биграммы с частотой >10
        if c > 10:
            dictionary[char] = len(dictionary)    
    
    unk_count = 0
    # Замена каждой биграммы на ее ID
    data_list = []
    for d in documents:
        data = list()
        for char in d:
            # Если слово есть в словаре, используется ID,
            # иначе ID специального токена "UNK"
            if char in dictionary:
                index = dictionary[char]        
            else:
                index = dictionary['UNK']
                unk_count += 1
            data.append(index)
            
        data_list.append(data)
        
    reverse_dictionary = dict(zip(dictionary.values(), dictionary.keys())) 
    return data_list, count, dictionary, reverse_dictionary

global data_list, count, dictionary, reverse_dictionary,vocabulary_size

# Статистика о полученных данных
data_list, count, dictionary, reverse_dictionary = build_dataset(documents)
print('Most common words (+UNK)', count[:5])
print('Least common words (+UNK)', count[-15:])
print('Sample data', data_list[0][:10])
print('Sample data', data_list[1][:10])
print('Vocabulary: ',len(dictionary))
vocabulary_size = len(dictionary)
del documents

In [None]:
class DataGeneratorOHE(object):
    
    def __init__(self,text,batch_size,num_unroll):
        # Текст, записанный в виде ID биграмм
        self._text = text
        # Число биграмм в тексте
        self._text_size = len(self._text)
        # Number of datapoints in a batch of data
        self._batch_size = batch_size
        # Число предыдущих шагов, для которых развернут вход
        self._num_unroll = num_unroll
        # Разбитие текста на несколько сегментов
        self._segments = self._text_size//self._batch_size
        self._cursor = [offset * self._segments for offset in range(self._batch_size)]
        
    def next_batch(self):
        '''
        Генерирование одиночного пакета данных
        '''
        # Тренировка входных и выходных данных
        batch_data = np.zeros((self._batch_size,vocabulary_size),dtype=np.float32)
        batch_labels = np.zeros((self._batch_size,vocabulary_size),dtype=np.float32)
        
        # Заполнение пакета
        for b in range(self._batch_size):
            # Сбрасывание курсора в начало сегмента,
            # если курсор данного сегмента превышает длину сегмента
            if self._cursor[b]+1>=self._text_size:
                self._cursor[b] = b * self._segments
            
            # Добавление биграммы в курсор 
            batch_data[b,self._text[self._cursor[b]]] = 1.0
            # Добавление предыдущей биграммы в качестве метки для предсказания
            batch_labels[b,self._text[self._cursor[b]+1]]= 1.0                       
            # Обновление положения курсора
            self._cursor[b] = (self._cursor[b]+1)%self._text_size
                    
        return batch_data,batch_labels
        
    def unroll_batches(self):
        '''
        Получение листа num_unroll пакетов, требуемого для одного шага обучения
        '''
        unroll_data,unroll_labels = [],[]
        for ui in range(self._num_unroll):
            data, labels = self.next_batch()            
            unroll_data.append(data)
            unroll_labels.append(labels)
        
        return unroll_data, unroll_labels
    
    def reset_indices(self):
        '''
        Сбрасывание всех курсоров при необходимости
        '''
        self._cursor = [offset * self._segments for offset in range(self._batch_size)]
        
# Запуск небольшого набора
dg = DataGeneratorOHE(data_list[0][25:50],5,5)
u_data, u_labels = dg.unroll_batches()

# Результат для каждого пакета данных
for ui,(dat,lbl) in enumerate(zip(u_data,u_labels)):   
    print('\n\nUnrolled index %d'%ui)
    dat_ind = np.argmax(dat,axis=1)
    lbl_ind = np.argmax(lbl,axis=1)
    print('\tInputs:')
    for sing_dat in dat_ind:
        print('\t%s (%d)'%(reverse_dictionary[sing_dat],sing_dat),end=", ")
    print('\n\tOutput:')
    for sing_lbl in lbl_ind:        
        print('\t%s (%d)'%(reverse_dictionary[sing_lbl],sing_lbl),end=", ")

In [None]:
tf.reset_default_graph()

# Количество предыдущих шагов, для которых развернут вход
num_unroll = 50
# Размер пакета
batch_size = 64
test_batch_size = 1
# Размерность скрытых слоев
hidden = 64
# Размерность входных и выходных слоев
in_size, out_size = vocabulary_size, vocabulary_size

In [None]:
# Входные и выходные тренировочные данные
train_dataset, train_labels = [], []
for ui in range(num_unroll):
    train_dataset.append(tf.placeholder(tf.float32, shape=[batch_size, in_size], name='train_dataset_%d'%ui))
    train_labels.append(tf.placeholder(tf.float32, shape=[batch_size, out_size], name='train_labels_%d'%ui))

In [None]:
# Входные и выходные данные для валидации
valid_dataset = tf.placeholder(tf.float32, shape=[1, in_size], name='valid_dataset')
valid_labels = tf.placeholder(tf.float32, shape=[1, out_size], name='valid_labels')

In [None]:
# Тестовые входные данные
test_dataset = tf.placeholder(tf.float32, shape=[test_batch_size, in_size], name='test_dataset')

In [None]:
# Веса между входными данными и скрытым слоем
W_xh = tf.Variable(tf.truncated_normal([in_size, hidden], stddev=0.02, dtype=tf.float32), name='W_xh')
# Веса рекуррентных связей скрытого слоя
W_hh = tf.Variable(tf.truncated_normal([hidden, hidden], stddev=0.02, dtype=tf.float32), name='W_hh')
# Веса между скрытым слоем и выходными данными
W_hy = tf.Variable(tf.truncated_normal([hidden, out_size], stddev=0.02, dtype=tf.float32), name='W_hy')

In [None]:
# Переменная состояния обучения
prev_train_h = tf.Variable(tf.zeros([batch_size, hidden], dtype=tf.float32), name='train_h', trainable=False)
# Переменная состояния проверки
prev_valid_h = tf.Variable(tf.zeros([1, hidden], dtype=tf.float32), name='valid_h', trainable=False)
# Переменная состояния проверки
prev_test_h = tf.Variable(tf.zeros([test_batch_size, hidden], dtype=tf.float32), name='test_h',)

In [None]:
# Тренировочные оценки и прогнозы
y_scores, y_predictions = [], []

# Присоединение вычисленного выхода RNN для каждого шага из num_unroll шагов
outputs = list()

# Шаг выхода RNN
output_h = prev_train_h

# Вычисление выхода RNN для num_unroll шагов вычислений
for ui in range(num_unroll):
    output_h = tf.nn.tanh(tf.matmul(tf.concat([train_dataset[ui], output_h], 1), tf.concat([W_xh, W_hh], 0)))
    outputs.append(output_h)

# Вычисление оценок и прогнозов для всех выходов RNN, которые имеются для num_unroll шагов
y_scores = [tf.matmul(outputs[ui], W_hy) for ui in range(num_unroll)]
y_predictions = [tf.nn.softmax(y_scores[ui]) for ui in range(num_unroll)]

# Перплексия для учебного набора данных
train_perplexity_without_exp = tf.reduce_sum(tf.concat(train_labels, 0)*-tf.log(tf.concat(y_predictions, 0)+1e-10))/(num_unroll * batch_size)

# Следующее состояние для 1 шага
next_valid_state = tf.nn.tanh(tf.matmul(valid_dataset, W_xh) + tf.matmul(prev_valid_h, W_hh))

# Вычисление оценки и прогноза, используя выход состояния RNN, 
# с присваиванием последнего выхода состояния RNN переменной состояния при фазе валидации 
with tf.control_dependencies([tf.assign(prev_valid_h, next_valid_state)]):
    valid_scores = tf.matmul(next_valid_state, W_hy)
    valid_predictions = tf.nn.softmax(valid_scores)

# Перплексия набора данных для проверки
valid_perplexity_without_exp = tf.reduce_sum(valid_labels*-tf.log(valid_predictions+1e-10))

# Следующее состояние для тестовых данных
next_test_state = tf.nn.tanh(tf.matmul(test_dataset, W_xh) + tf.matmul(prev_test_h, W_hh))

# Вычисление прогноза, используя выход состояния RNN, 
# с присваиванием последнего выхода состояния RNN переменной состояния при фазе валидации 
with tf.control_dependencies([tf.assign(prev_test_h, next_test_state)]):
    test_prediction = tf.nn.softmax(tf.matmul(next_test_state, W_hy))

In [None]:
# Присваивание переменной состояния значени\ последнего выхода RNN
with tf.control_dependencies([tf.assign(prev_train_h, output_h)]):
    # Вычисление перекрестной энтропии для всех прогнозов, полученных за num_unroll шагов
    rnn_loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(
        logits=tf.concat(y_scores, 0), labels=tf.concat(train_labels, 0)
    ))
    
# Функция потерь валидации
rnn_valid_loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits_v2(
        logits=valid_scores, labels=valid_labels))

In [None]:
# Функция оптимизации
rnn_optimizer = tf.train.AdamOptimizer(learning_rate=0.001)

# Оптимизация с отсечением градиентов
gradients, v = zip(*rnn_optimizer.compute_gradients(rnn_loss))
gradients, _ = tf.clip_by_global_norm(gradients, 5.0)
rnn_optimizer = rnn_optimizer.apply_gradients(zip(gradients, v))

In [None]:
# Сброс скрытых состояний
reset_train_h_op = tf.assign(prev_train_h, tf.zeros([batch_size, hidden], dtype=tf.float32))
reset_valid_h_op = tf.assign(prev_valid_h, tf.zeros([1, hidden], dtype=tf.float32))
reset_test_h_op = tf.assign(prev_test_h, tf.truncated_normal([test_batch_size, hidden], stddev=0.01, dtype=tf.float32))

In [None]:
def sample(distribution):
    # Выбор слово из распределения предсказаний
    best_idx = np.argmax(distribution)
    return best_idx

In [None]:
# Число шагов прогона алгоритма
num_steps = 26
# Число шагов тренировки каждого документа для одного шага
steps_per_document = 100

# Число валидаций
valid_summary = 1

# Число документов для тренировки (может принимать значения 20 или 100)
train_doc_count = 20
# Число документов, используемых на одиночном шаге
# Когда train_doc_count = 20 => train_docs_to_use = 5
# Когда train_doc_count = 100 => train_docs_to_use = 10
train_docs_to_use = 5

# Значения перплексии на каждом шаге
valid_perplexity_ot = []
train_perplexity_ot = []

session = tf.InteractiveSession()
# Объявление переменных
tf.global_variables_initializer().run()

print('Initialized')

average_loss = 0

# Поиск первых 10 документов, которые содержат (num_steps + 1) * steps_per_document биграмм для создания набора данных валидации
long_doc_ids = []
for di in range(num_files):
    if len(data_list[di]) > (num_steps + 1) * steps_per_document:
        long_doc_ids.append(di)
    if len(long_doc_ids) == 10:
        break

data_gens = []
valid_gens = []
for fi in range(num_files):
    # Получение всех биграмм, если id документа нет в листе валидации id документов
    if fi not in long_doc_ids:
        data_gens.append(DataGeneratorOHE(data_list[fi], batch_size, num_unroll))
    # Получение последних steps_per_document биграмм в качестве данных валидации,
    # если документ есть в листе валидации id документов
    else:
        data_gens.append(DataGeneratorOHE(data_list[fi][:-steps_per_document], batch_size, num_unroll))
        # Получение данных валидации генератора
        valid_gens.append(DataGeneratorOHE(data_list[fi][:-steps_per_document], 1, 1))

feed_dict = {}
for step in range(num_steps):
    print('\n')
    for di in np.random.permutation(train_doc_count)[:train_docs_to_use]:
        doc_perplexity = 0
        for doc_step_id in range(steps_per_document):
            
            # Получение набора развернутого пакета данных
            u_data, u_labels = data_gens[di].unroll_batches()
            
            for ui, (dat, lbl) in enumerate(zip(u_data, u_labels)):
                feed_dict[train_dataset[ui]] = dat
                feed_dict[train_labels[ui]] = lbl
                
            _, l, step_predictions, _, step_labels, step_perplexity = \
            session.run([rnn_optimizer, rnn_loss, y_predictions,
                        train_dataset, train_labels, train_perplexity_without_exp],
                        feed_dict=feed_dict)
            
            # Обновление значения перплексии документа
            doc_perplexity += step_perplexity
            # Обновление значения средней потери
            average_loss += step_perplexity
            
        print('Document %d Step %d processed (Perplexity = %.2f)' 
              %(di, step + 1, np.exp(doc_perplexity / steps_per_document)))
        
        session.run(reset_train_h_op)
    
    if step % valid_summary == 0:
        
        # Вычисление значения средней потери
        average_loss = average_loss / (train_docs_to_use * steps_per_document * valid_summary)
        
        print('Avarage loss at step %d: %f' %(step + 1, average_loss))
        print('\tPerplexity at step %d: %f' %(step + 1, np.exp(average_loss)))
        train_perplexity_ot.append(np.exp(average_loss))
        
        # Сбрасывание значения средней потери
        average_loss = 0
        # Сбрасывание значения потери валидации
        valid_loss = 0
        
        for v_doc_id in range(10):
            for v_step in range(steps_per_document // 2):
                uvalid_data, uvalid_labels = valid_gens[v_doc_id].unroll_batches()
                
                v_perp = session.run(valid_perplexity_without_exp, 
                                    feed_dict={
                                        valid_dataset : uvalid_data[0],
                                        valid_labels : uvalid_labels[0]
                                    })
                
                valid_loss += v_perp
            
            session.run(reset_valid_h_op)
            # Сбрасывание курсора генератора валидационных данных
            valid_gens[v_doc_id].reset_indices()
        
        print()
        v_perplexity = np.exp(valid_loss / (steps_per_document * 10.0 // 2))
        print("Valid Perplexity = %.2f\n" %v_perplexity)
        valid_perplexity_ot.append(v_perplexity)
        
        print('Generated text after epoch %d ...' %step)
        segments_to_generate = 1
        chars_in_segment = 1000
        
        for _ in range(segments_to_generate):
            print('======================== New text Segment ==========================')
            # Начало со случайного слова
            test_word = np.zeros((1, in_size), dtype=np.float32)
            test_word[0, data_list[np.random.randint(0, num_files)][np.random.randint(0, 100)]] = 1.0
            print("\t", reverse_dictionary[np.argmax(test_word[0])], end='')
            
            for _ in range(chars_in_segment):
                test_pred = session.run(test_prediction, feed_dict = {test_dataset : test_word})
                next_ind = sample(test_pred.ravel())
                test_word = np.zeros((1, in_size), dtype=np.float32)
                test_word[0, next_ind] = 1.0
                print(reverse_dictionary[next_ind], end='')
                
            print("")
            # Обновление тестового состояния
            session.run(reset_test_h_op)
            print('====================================================================')
        print("")
    

In [None]:
# Построение перплексии RNN
x_axis = np.arange(len(train_perplexity_ot[1:25]))
f, (ax1,ax2) = pylab.subplots(1, 2, figsize=(18,6))

ax1.plot(x_axis, train_perplexity_ot[1:25], label='Train')
ax2.plot(x_axis, valid_perplexity_ot[1:25], label='Valid')

pylab.title('Train and Valid Perplexity over Time', fontsize=24)
ax1.set_title('Train Perplexity', fontsize=20)
ax2.set_title('Valid Perplexity', fontsize=20)
ax1.set_xlabel('Epoch', fontsize=20)
ax2.set_xlabel('Epoch', fontsize=20)
pylab.savefig('RNN_perplexity.png')
pylab.show()