# Семинар по рекуррентным нейронным сетям
На этом семинаре мы обучим несколько рекуррентных архитектур для решения задачи сентимент-анализа, то есть предсказания метки тональности предложения.

В общем случае рекуррентная нейронная сеть предназначена для обработки последовательности произвольной длины. Однако при реализации метода оказывается проще зафиксировать длину последовательности (даже в pytorch с их динамическими графами :) Поэтому мы пока поступим так, но вернемся к этому вопросу ниже.

Сначала мы разберемся с RNN в pytorch, а затем сами реализуем наиболее популярную архитектуру.

Задание сделано так, чтобы его можно было выполнять на CPU, однако RNN - это ресурсоемкая вещь, поэтому на GPU с ними работать приятнее. Можете попробовать использовать [https://colab.research.google.com](https://colab.research.google.com) - бесплатное облако с GPU.

### Гиперпараметры

In [60]:
vocab_size = 20000 
index_from = 3
n_hidden = 128
n_emb = 300
seq_len = 32

batch_size = 128
learning_rate = 0.001
num_epochs = 50

use_gpu = False

### Загрузка данных
Функция load_matrix_imdb скачивает матричные данные, перемешивает и загружает их в numpy-массивы.

Если у вас не установлен wget, скачайте [архив imdb.npz](https://s3.amazonaws.com/text-datasets/imdb.npz)

In [61]:
from rnn_utils import load_matrix_imdb
import numpy as np
import torch
import torch.utils.data

In [62]:
np.random.seed(0)
(X_train, y_train), (X_test, y_test) = load_matrix_imdb(num_words=vocab_size,
                                                        maxlen=seq_len)

In [63]:
set(y_train) # binary classification

{0, 1}

In [64]:
X_train.shape, X_test.shape

((25000, 32), (25000, 32))

In [65]:
X_train[0] # sequence of coded words

array([  1.00000000e+00,   1.40000000e+01,   2.20000000e+01,
         1.60000000e+01,   4.30000000e+01,   5.30000000e+02,
         9.73000000e+02,   1.62200000e+03,   1.38500000e+03,
         6.50000000e+01,   4.58000000e+02,   4.46800000e+03,
         6.60000000e+01,   3.94100000e+03,   4.00000000e+00,
         1.73000000e+02,   3.60000000e+01,   2.56000000e+02,
         5.00000000e+00,   2.50000000e+01,   1.00000000e+02,
         4.30000000e+01,   8.38000000e+02,   1.12000000e+02,
         5.00000000e+01,   6.70000000e+02,   2.00000000e+00,
         9.00000000e+00,   3.50000000e+01,   4.80000000e+02,
         2.84000000e+02,   5.00000000e+00])

In [66]:
train_dset = torch.utils.data.TensorDataset(torch.from_numpy(X_train), 
                               torch.from_numpy(y_train))

In [67]:
test_dset = torch.utils.data.TensorDataset(torch.from_numpy(X_test), 
                               torch.from_numpy(y_test))

In [68]:
train_loader = torch.utils.data.DataLoader(train_dset,
                          batch_size=batch_size,
                          shuffle=True,
                          num_workers=4
                         )

In [69]:
test_loader = torch.utils.data.DataLoader(test_dset,
                          batch_size=batch_size,
                          shuffle=True,
                          num_workers=4
                         )

### Сборка и обучение RNN в pytorch

In [70]:
import os
import torch.optim as optim
import torch.nn as nn
from torch.autograd import Variable

Наша нейросеть будет обрабатывать входную последовательность по словам (word level). Мы будем использовать простую и стандарную рекуррентную архитектуру для сентимент-анализа: слой представлений, слой LSTM и полносвязный слой, предсказывающий выход по последнему скрытому состоянию.

Ниже даны шаблоны реализации нейросети и ее обучения. Допишите класс и функции обучения так, чтобы класс реализовывал описанную архитектуру, а вызов функции train не выдавал ошибок :)

In [73]:
class LSTMClassifier(nn.Module):

    def __init__(self, embedding_dim, hidden_dim, vocab_size, label_size, \
                 batch_size, use_gpu, rec_layer):
        super(LSTMClassifier, self).__init__()
        self.hidden_dim = hidden_dim
        self.batch_size = batch_size
        self.use_gpu = use_gpu

        self.word_embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = rec_layer(embedding_dim, hidden_dim)
        self.hidden2label = nn.Linear(hidden_dim, label_size)
        self.hidden = self.hidden_state()
    ### your code here
    
    def hidden_state(self):
        return Variable(torch.zeros(1, self.batch_size, self.hidden_dim)),   \
                Variable(torch.zeros(1, self.batch_size, self.hidden_dim))
    
    def forward(self, x):
        out = self.word_embeddings(x)
        out, _ = self.lstm(out, self.hidden)
        out = self.hidden2label(out[-1])
        out = nn.functional.sigmoid(out)
        return out

In [74]:
model = LSTMClassifier(embedding_dim=n_emb,
                             hidden_dim=n_hidden,
                              vocab_size=vocab_size,
                              label_size=1,
                             batch_size=batch_size, 
                             use_gpu=use_gpu,
                             rec_layer = nn.LSTM)
if use_gpu:
    model = model.cuda()

[Исходный код LSTM](http://pytorch.org/docs/master/_modules/torch/nn/modules/rnn.html#LSTM)

In [75]:
?model.lstm.forward

In [76]:
optimizer = optim.Adam(model.parameters(), lr=learning_rate)
lossfun = nn.BCELoss(size_average=False)

In [77]:
def train_epoch(train_loader, model, lossfun, optimizer, use_gpu):
    model.train()
    for iter, traindata in enumerate(train_loader):
        train_inputs, train_labels = traindata
        train_labels = torch.squeeze(train_labels)

        if use_gpu:
            train_inputs, train_labels = Variable(train_inputs.cuda()), train_labels.cuda()
        else: train_inputs = Variable(train_inputs)

        model.zero_grad()
        ### your code here
        
        model.batch_size = len(train_labels)
        model.hidden = model.hidden_state()
        output = model(train_inputs.long().t())

        loss = lossfun(output.view(-1), Variable(train_labels).float())
        loss.backward()
        optimizer.step()

def evaluate(loader, model, lossfun, use_gpu):
    model.eval()
    total_acc = 0.0
    total_loss = 0.0
    total = 0.0
    for iter, data in enumerate(loader):
        inputs, labels = data
        labels = torch.squeeze(labels)

        if use_gpu:
            inputs, labels = Variable(inputs.cuda()), labels.cuda()
        else: inputs = Variable(inputs)

        ### your code here
        model.batch_size = len(labels)
        model.hidden = model.hidden_state()
        

        output = model(inputs.long().t())

        loss = lossfun(output.view(-1), Variable(labels).float())
        total_loss += loss.data[0]
        
        # calc testing acc
        ### your code here
        total_acc = torch.sum((output.view(-1) > 0.5).data.float() == labels.float())
        total += len(labels)
        
    return total_loss / total, total_acc / total
    

def train(train_loader, test_loader, model, lossfun, optimizer, \
          use_gpu, num_epochs):
    train_loss_ = []
    test_loss_ = []
    train_acc_ = []
    test_acc_ = []
    for epoch in range(num_epochs):
        train_epoch(train_loader, model, lossfun, optimizer, use_gpu)
        train_loss, train_acc = evaluate(train_loader, model, lossfun, use_gpu)
        train_loss_.append(train_loss)
        train_acc_.append(train_acc)
        test_loss, test_acc = evaluate(test_loader, model, lossfun, use_gpu)
        test_loss_.append(test_loss)
        test_acc_.append(test_acc)

        print('[Epoch: %3d/%3d] Training Loss: %.3f, Testing Loss: %.3f, Training Acc: %.3f, Testing Acc: %.3f'
              % (epoch, num_epochs, train_loss_[epoch], test_loss_[epoch], train_acc_[epoch], test_acc_[epoch]))
    return train_loss_, train_acc_, test_loss_, test_acc_

In [78]:
a, b, c, d = train(train_loader, test_loader, model, lossfun, optimizer, \
      use_gpu, 15)

[Epoch:   0/ 15] Training Loss: 0.545, Testing Loss: 0.604, Training Acc: 0.001, Testing Acc: 0.001
[Epoch:   1/ 15] Training Loss: 0.392, Testing Loss: 0.559, Training Acc: 0.001, Testing Acc: 0.001
[Epoch:   2/ 15] Training Loss: 0.272, Testing Loss: 0.605, Training Acc: 0.001, Testing Acc: 0.001
[Epoch:   3/ 15] Training Loss: 0.200, Testing Loss: 0.633, Training Acc: 0.002, Testing Acc: 0.001
[Epoch:   4/ 15] Training Loss: 0.110, Testing Loss: 0.829, Training Acc: 0.002, Testing Acc: 0.001
[Epoch:   5/ 15] Training Loss: 0.062, Testing Loss: 0.988, Training Acc: 0.002, Testing Acc: 0.001
[Epoch:   6/ 15] Training Loss: 0.042, Testing Loss: 1.124, Training Acc: 0.002, Testing Acc: 0.001
[Epoch:   7/ 15] Training Loss: 0.029, Testing Loss: 1.234, Training Acc: 0.002, Testing Acc: 0.001
[Epoch:   8/ 15] Training Loss: 0.018, Testing Loss: 1.278, Training Acc: 0.002, Testing Acc: 0.001
[Epoch:   9/ 15] Training Loss: 0.016, Testing Loss: 1.547, Training Acc: 0.002, Testing Acc: 0.001


KeyboardInterrupt: 

Нерегуляризованные LSTM часто быстро переобучаются. Чтобы с этим бороться, часто используют L2-регуляризацию и дропаут.
Однако способов накладывать дропаут на рекуррентный слой достаточно много, и далеко не все хорошо работают. Мы реализуем дропаут, описанный в [статье Гала и Гарамани](https://arxiv.org/abs/1512.05287).
Для этого нам потребуется самостоятельно реализовать LSTM.

### Самостоятельная реализация LSTM

Для начала реализуйте LSTM, не обращая внимание на параметр dropout, и протестируйте модель. Формулы удобно смотреть в [документации pytorch]
(http://pytorch.org/docs/master/nn.html#torch.nn.LSTM) или тут (+ сдвиги):

![](http://s0.wp.com/latex.php?latex=%5Cbegin%7Baligned%7D++i+%26%3D%5Csigma%28x_tU%5Ei+%2B+s_%7Bt-1%7D+W%5Ei%29+%5C%5C++f+%26%3D%5Csigma%28x_t+U%5Ef+%2Bs_%7Bt-1%7D+W%5Ef%29+%5C%5C++o+%26%3D%5Csigma%28x_t+U%5Eo+%2B+s_%7Bt-1%7D+W%5Eo%29+%5C%5C++g+%26%3D%5C+tanh%28x_t+U%5Eg+%2B+s_%7Bt-1%7DW%5Eg%29+%5C%5C++c_t+%26%3D+c_%7Bt-1%7D+%5Ccirc+f+%2B+g+%5Ccirc+i+%5C%5C++s_t+%26%3D%5Ctanh%28c_t%29+%5Ccirc+o++%5Cend%7Baligned%7D++&bg=ffffff&fg=000&s=0)

In [None]:
from torch.nn.parameter import Parameter

In [None]:
class MyLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, dropout=0):
        super(MyLSTM, self).__init__()
        ### your code here
        
        
    def reset_params(self):
        """
        initialization as in Pytorch
        """
        stdv = 1.0 / np.sqrt(self.hidden_size)
        for weight in self.parameters():
            weight.data.uniform_(-stdv, stdv)
            
    def forward(self, input, hidden):
        ### your code here
        

In [None]:
model = LSTMClassifier(embedding_dim=n_emb,
                         hidden_dim=n_hidden,
                          vocab_size=vocab_size,
                          label_size=1,
                         batch_size=batch_size, 
                         use_gpu=use_gpu,
                         rec_layer=MyLSTM)
if use_gpu:
    model = model.cuda()

In [None]:
optimizer = optim.Adam(model.parameters(), lr=learning_rate)
loss_function = nn.BCELoss(size_average=False)
a, b, c, d = train(train_loader, test_loader, model, lossfun, optimizer, \
      use_gpu, 15)

Теперь реализуйте дропаут для рекуррентного слоя. Как и в сетях прямого распространения, дропаут можно накладывать на вход и скрытое состояние ($x_t$ и $h_t$). Ключевая идея дропаута Гала состоит в том, что бинарная маска должна быть одинаковая для всех моментов времени (но своя для разных объектов). Кроме того, статья утверждает, что одновременно с бинарным дропаутом нужно использовать L$_2$-регуляризацию. Ее тоже можно включить (параметр weight_decay в оптимизаторе).

In [None]:
### your code here

### Бонусные задания
Вы можете выполнить одно или несколько бонусных (необязательных) заданий на исследование рекуррентной нейросети.

1. __Инициализация (2 балла).__ В разных фреймворках по-разному инициализируют веса рекуррентного слоя и эмбеддингов, а также сдвиги. Например, в pytorch эмбеддинги инициализируются из нормального распределения, а веса рекуррентного слоя - из равномерного (см. [исходники 1](http://pytorch.org/docs/master/_modules/torch/nn/modules/rnn.html#LSTM) и [исходники 2](http://pytorch.org/docs/master/_modules/torch/nn/modules/sparse.html#Embedding)). Рассмотрите следующие варианты инициализации (каждый пункт означает, что поменять в исходной инициализации pytorch):
    * Инициализация эмбеддингов из равномерного распределения [-0.05, 0.05] (стандартная практика)
    * Инициализация весов hidden-to-hidden ортогональной матрицей (см. [реализацию в theano](https://github.com/Lasagne/Lasagne/blob/master/lasagne/init.py#L327-L367))
    * Инициализация весов рекуррентного слоя из нормального распределения (как в embedding)
    * Инициализация сдвига forget gate единицей (чтобы "начинать с запоминания")
    Сравните качество работы нерегуляризованной LSTM с такими инициализациями. Можно ил сказать, что в pytorch грамотно выбрана инициализация по умолчанию?
    
1. __Начальное состояние (1 балл).__ В наших экспериментах мы всегда инициализировали начальное состояние (h_0 и c_0) нулями. Попробуйте обучать эти векторы. Повысится ли качество? Впрочем, универсального рецепта тут нет, это тоже своеобразный гиперпараметр :)

1. __Переменная длина (2 балла).__ Сравните качество работы модели с seq_len = 50, 200, 400 и переменной длиной. Чтобы реализовать поддержку последовательностей переменной длины, обычно используют паддинг (можно начать гуглить [отсюда](https://discuss.pytorch.org/t/how-to-handle-variable-length-inputs-sentences/5407)).

1. __Визуализация (до 3-х баллов).__ Попробуйте сделать наглядную визуализацию изменений состояний в рекуррентной нейросети. Это задание больше творческое, чем с конкретными рекомендациями. Можно попробовать показывать, на каких входных словах меняется скрытое состояние и как это влияет на выход нейросети. Поскольку на семинаре мы загружали матричные данные, вам придется также разобраться с загрузкой полноценных текстовых данных. С этим поможет модуль torchtext (в нем есть готовые загрузчики IMDB). 

1. __Предобученные векторы представлений (1 балл).__ В моделях word level слой представлений, как правило, имеет очень большое число параметров. Чтобы не обучать их с нуля, часто используют предобученные векторы (и дообучают их). Обычно это позволяет поднять качество на несколько процентов. Сравните качесто такой модели и инициализированной случайно. С загрузкой векторов GloVe может помочь модуль torchtext.