# Семинар по рекуррентным нейронным сетям
На этом семинаре мы обучим несколько рекуррентных архитектур для решения задачи сентимент-анализа, то есть предсказания метки тональности предложения.

В общем случае рекуррентная нейронная сеть предназначена для обработки последовательности произвольной длины. Однако при реализации метода оказывается проще зафиксировать длину последовательности (даже в pytorch с их динамическими графами :) Мы так и поступим.

При выполнении задания вы обучите LSTM с разным уровнем "коробочности", а также познакомитесь с различными способами применения дропаута к рекуррентным архитектурам.

Задание сделано так, чтобы его можно было выполнять на CPU, однако RNN - это ресурсоемкая вещь, поэтому на GPU с ними работать приятнее. Можете попробовать использовать [https://colab.research.google.com](https://colab.research.google.com) - бесплатное облако с GPU.

### Гиперпараметры

In [2]:
vocab_size = 20000 
index_from = 3
n_hidden = 128
n_emb = 300
seq_len = 32

batch_size = 128
learning_rate = 0.001
num_epochs = 15

### Загрузка данных
Функция load_matrix_imdb скачивает матричные данные, перемешивает и загружает их в numpy-массивы.

Если у вас не установлен wget, скачайте [архив imdb.npz](https://s3.amazonaws.com/text-datasets/imdb.npz)

In [3]:
from rnn_utils import load_matrix_imdb
import numpy as np
import torch
import torch.utils.data

In [4]:
np.random.seed(0)
(X_train, y_train), (X_test, y_test) = load_matrix_imdb(num_words=vocab_size,
                                                        maxlen=seq_len)

In [5]:
set(y_train) # binary classification

{0, 1}

In [6]:
X_train.shape, X_test.shape

((25000, 32), (25000, 32))

In [7]:
X_train[0] # sequence of coded words

array([1.000e+00, 1.400e+01, 2.200e+01, 1.600e+01, 4.300e+01, 5.300e+02,
       9.730e+02, 1.622e+03, 1.385e+03, 6.500e+01, 4.580e+02, 4.468e+03,
       6.600e+01, 3.941e+03, 4.000e+00, 1.730e+02, 3.600e+01, 2.560e+02,
       5.000e+00, 2.500e+01, 1.000e+02, 4.300e+01, 8.380e+02, 1.120e+02,
       5.000e+01, 6.700e+02, 2.000e+00, 9.000e+00, 3.500e+01, 4.800e+02,
       2.840e+02, 5.000e+00])

In [8]:
y_train

array([1, 0, 0, ..., 0, 1, 0])

In [9]:
train_dset = torch.utils.data.TensorDataset(torch.tensor(X_train, dtype=torch.long), 
                               torch.tensor(y_train, dtype=torch.long))

In [10]:
test_dset = torch.utils.data.TensorDataset(torch.tensor(X_test, dtype=torch.long), 
                               torch.tensor(y_test, dtype=torch.long))

In [11]:
train_loader = torch.utils.data.DataLoader(train_dset,
                          batch_size=batch_size,
                          shuffle=True,
                          num_workers=4
                         )

In [12]:
test_loader = torch.utils.data.DataLoader(test_dset,
                          batch_size=batch_size,
                          shuffle=True,
                          num_workers=4
                         )

### Сборка и обучение RNN в pytorch

In [13]:
import os
import torch.optim as optim
import torch.nn as nn

In [14]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

Наша нейросеть будет обрабатывать входную последовательность по словам (word level). Мы будем использовать простую и стандарную рекуррентную архитектуру для сентимент-анализа: слой представлений, слой LSTM и полносвязный слой, предсказывающий выход по последнему скрытому состоянию.

Ниже дан код для сборки и обучения нашей нейросети. Обратите внимание на ### pay attention here, указывающие на особенности кода при использовании рекуррентных слоев. 

Чтобы потом было удобно проводить сравнение времени работы разных моделей, запустите код ниже и измерьте время обучения на вашей системе.

In [15]:
class RNNClassifier(nn.Module):
    def __init__(self, embedding_dim, hidden_dim, vocab_size, label_size, \
                 batch_size, rec_layer=nn.LSTM, embedding=nn.Embedding, \
                 dropout=None):
        super(RNNClassifier, self).__init__()
        self.hidden_dim = hidden_dim
        self.batch_size = batch_size

        self.word_embeddings = embedding(vocab_size, embedding_dim)
        if dropout:
            self.rnn = rec_layer(embedding_dim, hidden_dim, dropout=dropout)
        else:
            self.rnn = rec_layer(embedding_dim, hidden_dim)
        self.hidden2label = nn.Linear(hidden_dim, label_size)
    
    def forward(self, sentences):
        embedding = self.word_embeddings(sentences)
        out, hidden = self.rnn(embedding) # pay attention here!
        res = self.hidden2label(out[-1])
        return torch.sigmoid(res)
    

[Исходный код LSTM](http://pytorch.org/docs/master/_modules/torch/nn/modules/rnn.html#LSTM)

In [17]:
model = RNNClassifier(embedding_dim=n_emb,
                       hidden_dim=n_hidden,
                       vocab_size=vocab_size,
                       label_size=1,
                       batch_size=batch_size, 
                       rec_layer = nn.LSTM).to(device)

In [18]:
optimizer = optim.RMSprop(model.parameters(), lr=learning_rate)
lossfun = nn.BCELoss(reduction='sum')

In [26]:
def train_epoch(train_loader, model, lossfun, optimizer, device):
    model.train()
    for it, traindata in enumerate(train_loader):
        train_inputs, train_labels = traindata
        train_inputs = train_inputs.to(device) 
        train_labels = train_labels.to(device)
        train_labels = torch.squeeze(train_labels)

        model.zero_grad()        
        output = model(train_inputs.t()) # pay attention here!

        loss = lossfun(output.view(-1), train_labels.float())
        loss.backward()
        optimizer.step()

def evaluate(loader, model, lossfun, device):
    model.eval()
    total_acc = 0.0
    total_loss = 0.0
    total = 0.0
    for it, data in enumerate(loader):
        inputs, labels = data
        inputs = inputs.to(device) 
        labels = labels.to(device)
        labels = torch.squeeze(labels)

        output = model(inputs.t()) # pay attention here!
        loss = lossfun(output.view(-1), labels.float())
        total_loss += loss.item()

        # calc testing acc        
        pred = output.view(-1) > 0.5
        correct = pred == labels.byte()
        total_acc += torch.sum(correct).item() / len(correct)

    total = it + 1
    return total_loss / total, total_acc / total
    

def train(train_loader, test_loader, model, lossfun, optimizer, \
          device, num_epochs):
    train_loss_ = []
    test_loss_ = []
    train_acc_ = []
    test_acc_ = []
    for epoch in range(num_epochs):
        train_epoch(train_loader, model, lossfun, optimizer, device)
        train_loss, train_acc = evaluate(train_loader, model, lossfun, device)
        train_loss_.append(train_loss)
        train_acc_.append(train_acc)
        test_loss, test_acc = evaluate(test_loader, model, lossfun, device)
        test_loss_.append(test_loss)
        test_acc_.append(test_acc)

        print(f'Epoch: {epoch+1:3d}/{num_epochs:3d} '
              f'Training Loss: {train_loss_[epoch]:.3f}, Testing Loss: {test_loss_[epoch]:.3f}, '
              f'Training Acc: {train_acc_[epoch]:.3f}, Testing Acc: {test_acc_[epoch]:.3f}')

    return train_loss_, train_acc_, test_loss_, test_acc_

In [28]:
%time a, b, c, d = train(train_loader, test_loader, model, lossfun, \
                   optimizer, device, num_epochs)

Epoch:   1/ 15 Training Loss: 0.579, Testing Loss: 250.417, Training Acc: 0.999, Testing Acc: 0.707
Epoch:   2/ 15 Training Loss: 1.036, Testing Loss: 244.801, Training Acc: 0.998, Testing Acc: 0.706
Epoch:   3/ 15 Training Loss: 0.801, Testing Loss: 233.388, Training Acc: 0.999, Testing Acc: 0.700
Epoch:   4/ 15 Training Loss: 0.424, Testing Loss: 263.658, Training Acc: 0.999, Testing Acc: 0.705
Epoch:   5/ 15 Training Loss: 0.069, Testing Loss: 296.282, Training Acc: 1.000, Testing Acc: 0.707
Epoch:   6/ 15 Training Loss: 0.037, Testing Loss: 325.397, Training Acc: 1.000, Testing Acc: 0.706
Epoch:   7/ 15 Training Loss: 0.018, Testing Loss: 359.815, Training Acc: 1.000, Testing Acc: 0.708
Epoch:   8/ 15 Training Loss: 1.034, Testing Loss: 260.083, Training Acc: 0.998, Testing Acc: 0.707
Epoch:   9/ 15 Training Loss: 0.186, Testing Loss: 269.816, Training Acc: 1.000, Testing Acc: 0.707
Epoch:  10/ 15 Training Loss: 0.507, Testing Loss: 277.662, Training Acc: 0.999, Testing Acc: 0.705


Нерегуляризованные LSTM часто быстро переобучаются (и мы это видим по точности на контроле). Чтобы с этим бороться, часто используют L2-регуляризацию и дропаут.
Однако способов накладывать дропаут на рекуррентный слой достаточно много, и далеко не все хорошо работают. По [ссылке](https://medium.com/@bingobee01/a-review-of-dropout-as-applied-to-rnns-72e79ecd5b7b) доступен хороший обзор дропаутов для RNN.

Мы реализуем два варианта дропаута для RNN. Заодно увидим, что для реализации различных усовершенствований рекуррентной архитектуры приходится "вскрывать" слой до различной "глубины".

### Реализация дропаута по статье Гала и Гарамани
Начнем с дропаута, описанного в [статье Гала и Гарамани](https://arxiv.org/abs/1512.05287).
Для этого нам потребуется перейти от использования слоя nn.LSTM, полностью скрывающего от нас рекуррентную логику, к использованию слоя nn.LSTMCell, обрабатывающего лишь один временной шаг нашей последовательности (а всю логику вокруг придется реализовать самостоятельно).

Допишите класс RNNLayer. При dropout=0 ваш класс должен работать как обычный слой LSTM, а при dropout > 0 накладывать бинарную маску на входной и скрытый вектор на каждом временном шаге, причем эта маска должна быть одинаковой во все моменты времени.

Дропаут Гала и Гарамани в виде формул (d обознаает дропаут):
$$
h_{t-1} = d(h_{t-1}), \, x_t = d(h_t)
$$
(далее обычный шаг LSTM)
$$
i = \sigma(h_{t-1}W^i + x_t U^i+b_i) \quad
o = \sigma(h_{t-1}W^o + x_t U^o+b_o) 
$$
$$
f = \sigma(h_{t-1}W^f + x_t U^f+b_f) \quad 
g = tanh(h_{t-1} W^g + x_t U^g+b_g) 
$$
$$
c_t = f \odot c_{t-1} +  i \odot  g \quad
h_t =  o \odot tanh(c_t) \nonumber
$$

In [None]:
def init_h0_c0(num_objects, hidden_size, some_existing_tensor):
    """
    return h0 and c0, use some_existing_tensor.new_zeros() to gen them
    """
    ### your code here

In [None]:
def gen_dropout_mask(input_size, hidden_size, is_training, p, some_existing_tensor):
    """
    return dropout masks of size input_size, hidden_size
    """
    ### your code here

In [None]:
class RNNLayer(nn.Module):
    def __init__(self, input_size, hidden_size, dropout=None):
        super(RNNLayer, self).__init__()
        self.hidden_size = hidden_size
        self.input_size = input_size
        self.dropout = dropout
        self.rnn_cell = nn.LSTMCell(input_size, hidden_size)
        
    def forward(self, inp):
        # initialize h_0, c_0
        h_0, c_0 = init_h0_c0(inp.shape[0], self.hidden_size, inp)
        
        # gen masks
        input_mask, hidden_mask = gen_dropout_mask(self.input_size, \
                                                   self.hidden_size, \
                                                   self.training, \
                                                   self.dropout, \
                                                   inp)
        
        
        ### your code here
        ### implement recurrent logic and return what nn.LSTM returns
        ### do not forget to apply generated dropout masks!

Протестируйте реализованную модель с выключенным дропаутом (слой RNNLayer надо передать в RNNClassifier в качестве rec_layer). Замерьте время обучения (%time). Сильно ли оно увеличилось по сравнению с nn.LSTM (LSTM "из коробки")?

Протестируйте полученную модель c dropout=0.5, вновь замерив время обучения. Получилось ли побороть переобучение? Сильно ли дольше обучается данная модель по сравнению с предыдущей? (доп. время тратится на генерацию масок дропаута).

### Реализация дропаута по статье Гала и Гарамани. Дубль 2

<начало взлома pytorch>

При разворачивании цикла по времени средствами python обучение рекуррентной нейросети сильно замедляется. Однако для реализации дропаута Гала и Гарамани необязательно явно задавать в коде домножение нейронов на маски. Можно схитрить и обойтись использованием слоя nn.LSTM: перед вызовом forward слоя nn.LSTM подменять его веса на веса, домноженные по строкам на маски. А обучаемые веса хранить отдельно. Именно так этот дропаут реализован в библиотеке fastai, код из которой использован в ячейке ниже.

Такой слой реализуется в виде обертки над nn.LSTM. Допишите класс:

In [None]:
import warnings

In [None]:
class FastRNNLayer(nn.Module):
    def __init__(self, input_size, hidden_size, dropout=0):
        super(FastRNNLayer, self).__init__()
        self.module = nn.LSTM(input_size, hidden_size)
        self.dropout = dropout
        self.layer_names = ['weight_hh_l0', 'weight_ih_l0']
        for layer in self.layer_names:
            #Makes a copy of the weights of the selected layers.
            w = getattr(self.module, layer)
            self.register_parameter(f'{layer}_raw', nn.Parameter(w.data))
            
    def _setweights(self):
        "Apply dropout to the raw weights."
        ### your code here
        ### generate input_mask and hidden_mask (use function gen_dropout_mask)
        
        for layer, mask in zip(self.layer_names, (hidden_mask, input_mask)):
            raw_w = getattr(self, f'{layer}_raw')
            self.module._parameters[layer] = raw_w * mask

    def forward(self, *args):
        with warnings.catch_warnings():
            #To avoid the warning that comes because the weights aren't flattened.
            warnings.simplefilter("ignore")
            
            ### your code here
            ### set new weights to self.module and call its forward

    def reset(self):
        if hasattr(self.module, 'reset'): self.module.reset()

Протестируйте полученный слой (вновь подставив его в RNNClassifier в качестве rec_layer) с dropout=0.5. Сравните время обучения с предыдущими моделями. Проследите, чтобы качество получилось такое же, как при первой реализации этого дропаута.

</конец взлома pytorch>

### Реализация дропаута по статье Семениуты и др
Однако не для всех усовершенствований рекуррентного слоя удастся обойтись готовыми реализациями LSTM. Иногда приходится модифицировать саму логику работы ячейки, и тогда нужно реализовывать ее самостоятельно. Так происходит с другим видом дропаута для LSTM по статье [Semeniuta et al](http://www.aclweb.org/anthology/C16-1165). 

Этот метод применения дропаута не менее популярен, чем предыдущий. Его особенность состоит в том, что он придуман специально для гейтовых архитектур. В контексте LSTM этот дропаут накладывается только на информационный поток (d - дропаут):
$$
i = \sigma(h_{t-1}W^i + x_t U^i+b_i) \quad
o = \sigma(h_{t-1}W^o + x_t U^o+b_o) 
$$
$$
f = \sigma(h_{t-1}W^f + x_t U^f+b_f) \quad 
g = tanh(h_{t-1} W^g + x_t U^g+b_g) 
$$
$$
c_t = f \odot c_{t-1} +  i \odot  {\bf d}(g) \quad
h_t =  o \odot tanh(c_t) \nonumber
$$

Для реализации этого дропаута нам придется самостоятельно реализовать LSTM. Допишите класс:

In [None]:
class MyLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, dropout=0.4):
        super(MyLSTM, self).__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.dropout = dropout
        self.input_weights = nn.Linear(input_size, 4 * hidden_size)
        self.hidden_weights = nn.Linear(hidden_size, 4 * hidden_size)
        
        self.reset_params()


    def reset_params(self):
        """
        initialization as in Pytorch
        do not forget to call this method!
        """
        stdv = 1.0 / np.sqrt(self.hidden_size)
        for weight in self.parameters():
            weight.data.uniform_(0, stdv)
            

    def forward(self, inp, hidden=None):
        ### your code here
        # use functions init_h0_c0 and gen_dropout_masks defined above

Протестируйте вашу реализацию без дропаута (проконтролируйте качество и сравните время обучения с временем обучения nn.LSTM и RNNLayer), а также с dropout=0.3. Сравните качество модели с таким дропаутом с качеством модели с дропаутом Гала и Гарамани.

### Дополнительные задания для тех, кто очень хочет пообучать RNN на досуге

1. __Инициализация.__ В разных фреймворках по-разному инициализируют веса рекуррентного слоя и эмбеддингов, а также сдвиги. Например, в pytorch эмбеддинги инициализируются из нормального распределения, а веса рекуррентного слоя - из равномерного (см. [исходники 1](http://pytorch.org/docs/master/_modules/torch/nn/modules/rnn.html#LSTM) и [исходники 2](http://pytorch.org/docs/master/_modules/torch/nn/modules/sparse.html#Embedding)). Рассмотрите следующие варианты инициализации (каждый пункт означает, что поменять в исходной инициализации pytorch):
    * Инициализация эмбеддингов из равномерного распределения [-0.05, 0.05] (стандартная практика)
    * Инициализация весов hidden-to-hidden ортогональной матрицей (см. [реализацию в theano](https://github.com/Lasagne/Lasagne/blob/master/lasagne/init.py#L327-L367))
    * Инициализация весов рекуррентного слоя из нормального распределения (как в embedding)
    * Инициализация сдвига forget gate единицей (чтобы "начинать с запоминания")
    Сравните качество работы нерегуляризованной LSTM с такими инициализациями. Можно ли сказать, что в pytorch грамотно выбрана инициализация по умолчанию?
    
1. __Начальное состояние.__ В наших экспериментах мы всегда инициализировали начальное состояние (h_0 и c_0) нулями. Попробуйте обучать эти векторы. Повысится ли качество? Впрочем, универсального рецепта тут нет, это тоже своеобразный гиперпараметр :)

1. __Переменная длина.__ Сравните качество работы модели с seq_len = 50, 200, 400 и переменной длиной. Чтобы реализовать поддержку последовательностей переменной длины, обычно используют паддинг (можно начать гуглить [отсюда](https://discuss.pytorch.org/t/how-to-handle-variable-length-inputs-sentences/5407)).

1. __Визуализация.__ Попробуйте сделать наглядную визуализацию изменений состояний в рекуррентной нейросети. Это задание больше творческое, чем с конкретными рекомендациями. Можно попробовать показывать, на каких входных словах меняется скрытое состояние и как это влияет на выход нейросети. Поскольку на семинаре мы загружали матричные данные, вам придется также разобраться с загрузкой полноценных текстовых данных. С этим поможет модуль torchtext (в нем есть готовые загрузчики IMDB). 

1. __Предобученные векторы представлений.__ В моделях word level слой представлений, как правило, имеет очень большое число параметров. Чтобы не обучать их с нуля, часто используют предобученные векторы (и дообучают их). Обычно это позволяет поднять качество на несколько процентов. Сравните качесто такой модели и инициализированной случайно. С загрузкой векторов GloVe или Word2Vec может помочь модуль torchtext.