# LSTM сети
В предыдущем упражнении Вы реализовали обычную RNN и применили её для формирования подписей к изображениям. В этом блокноте Вы реализуете правило обучения LSTM сети и примените  её для формирования подписей к изображениям.

In [None]:
# Необходимые установки
import time, os, json
import numpy as np
import matplotlib.pyplot as plt

from dlcv.gradient_check import eval_numerical_gradient, eval_numerical_gradient_array
from dlcv.rnn_layers import *
from dlcv.captioning_solver import CaptioningSolver
from dlcv.classifiers.rnn import CaptioningRNN
from dlcv.coco_utils import load_coco_data, sample_coco_minibatch, decode_captions
from dlcv.image_utils import image_from_url

%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

# для авто перезагрузки внешних модулей 
# см. http://stackoverflow.com/questions/1907993/autoreload-of-modules-in-ipython
%load_ext autoreload
%autoreload 2

def rel_error(x, y):
    """ возвращает относительную ощибку """
    return np.max(np.abs(x - y) / (np.maximum(1e-8, np.abs(x) + np.abs(y))))

# Загрузка данных  MS-COCO

Как и в предыдущем блокноте, будем использовать набор данных Microsoft COCO.

In [None]:
# Загрузка данных COCO c диска; функция возвращает словарь
# В этом блокноте будем работать с сокращенной размерностью признаков 
# Вы можете использовать исходные признаковые данные (fc7), изменив флаг ниже

data = load_coco_data(pca_features=True)

# Печать названий ключей и типов значений из словаря данных
for k, v in data.items():
    if type(v) == np.ndarray:
        print(k, type(v), v.shape, v.dtype)
    else:
        print(k, type(v), len(v))

# LSTM

Если вы прочтете последние статьи в области DL, то увидите, что во многих случаях используется вариант RNN, называемый RNN с долгой кратковременной памятью (LSTM - Long-Short Term Memory). Обычные RNN могут плохо обучаться на длинных последовательностях из-за исчезновения или роста градиентов, вызванного многократным умножением на матрицу весов. LSTM решают эту проблему, заменяя простое правило обучения обычной RNN некоторым вентильным механизмом (gating mechanism).


Как и в обычной RNN, на каждом временном шаге мы получаем вход  $x_t\in\mathbb{R}^D$ и предыдущее скрытое состояние $h_{t-1}\in\mathbb{R}^H$; LSTM также поддерживает дополнительно так называемое $H$-мерное *состояние ячейки*, для которого мы также получаем предыдущее состояние ячейки $c_{t-1}\in\mathbb{R}^H$. Обучаемыми параметрами LSTM являются *input-to-hidden*  матрица  $W_x\in\mathbb{R}^{4H\times D}$, *hidden-to-hidden* матрица   $W_h\in\mathbb{R}^{4H\times H}$ и *вектор смещения* $b\in\mathbb{R}^{4H}$ .


На каждом временном шаге мы сначала вычисляем *вектор активации* $a\in\mathbb{R}^{4H}$ как $a=W_xx_t + W_hh_{t-1}+b$. Затем мы делим его на четыре вектора: $a_i,a_f,a_o,a_g\in\mathbb{R}^H$, где $a_i$ состоит из первых  $H$ элементов $a$, $a_f$ следующие $H$ элементов $a$ и т.д. Затем вычисляем векторы: (*input gate*) $g\in\mathbb{R}^H$, (*forget gate*) $f\in\mathbb{R}^H$, (*output gate*) $o\in\mathbb{R}^H$ и (*block input*) $g\in\mathbb{R}^H$ как

$$
\begin{align*}
i = \sigma(a_i) \hspace{2pc}
f = \sigma(a_f) \hspace{2pc}
o = \sigma(a_o) \hspace{2pc}
g = \tanh(a_g)
\end{align*}
$$

где $\sigma$  - сигмоидная функция и  $\tanh$ - функция гиперболического тангенса, применяемые поэлементно.

Затем вычисляются следующее состояние ячейки $c_t$ и следующее скрытое состояние $h_t$ как

$$
c_{t} = f\odot c_{t-1} + i\odot g \hspace{4pc}
h_t = o\odot\tanh(c_t)
$$

где $\odot$ поэлементное произведение векторов. 

Далее  мы реализуем правило обучения LSTM и применим его для формирования подписей к изображениям.

При кодировании предполагается, что данные хранятся в блоках так, что
$X_t \in \mathbb{R}^{N\times D}$, и мы используем *транспонированную* версию параметров: $W_x \in \mathbb{R}^{D \times 4H}$, $W_h \in \mathbb{R}^{H\times 4H}$ , поэтому активации $A \in \mathbb{R}^{N\times 4H}$ могут вычисляться эффективно как  $A = X_t W_x + H_{t-1} W_h$

# LSTM: шаг прямого распространения
Реализуйте прямое распространение для одного временного шага LSTM в функции `lstm_step_forward` в файле` dlcv / rnn_layers.py`. Это  похоже на функцию `rnn_step_forward`, которую вы реализовали выше, но вместо этого необходимо использовать схему ячейки LSTM.

Затем протестируйте вашу реализацию. Ошибки должны быть на уровне «e-8» или менее.

In [None]:
N, D, H = 3, 4, 5
x = np.linspace(-0.4, 1.2, num=N*D).reshape(N, D)
prev_h = np.linspace(-0.3, 0.7, num=N*H).reshape(N, H)
prev_c = np.linspace(-0.4, 0.9, num=N*H).reshape(N, H)
Wx = np.linspace(-2.1, 1.3, num=4*D*H).reshape(D, 4 * H)
Wh = np.linspace(-0.7, 2.2, num=4*H*H).reshape(H, 4 * H)
b = np.linspace(0.3, 0.7, num=4*H)

next_h, next_c, cache = lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)

expected_next_h = np.asarray([
    [ 0.24635157,  0.28610883,  0.32240467,  0.35525807,  0.38474904],
    [ 0.49223563,  0.55611431,  0.61507696,  0.66844003,  0.7159181 ],
    [ 0.56735664,  0.66310127,  0.74419266,  0.80889665,  0.858299  ]])
expected_next_c = np.asarray([
    [ 0.32986176,  0.39145139,  0.451556,    0.51014116,  0.56717407],
    [ 0.66382255,  0.76674007,  0.87195994,  0.97902709,  1.08751345],
    [ 0.74192008,  0.90592151,  1.07717006,  1.25120233,  1.42395676]])

print('Ошибка next_h: ', rel_error(expected_next_h, next_h))
print('Ощибка next_c: ', rel_error(expected_next_c, next_c))

# LSTM: шаг обратного распространения
Реализуйте обратное распространение для одного временного шага LSTM в функции `lstm_step_backward` в файле` dlcv / rnn_layers.py`. Если функция уже реализована, то ознакомьтесь с её реализацией. Затем  выполните числовую проверку градиента  реализации. Ошибки должны быть на уровне «e-7» или менее.

In [None]:
np.random.seed(231)

N, D, H = 4, 5, 6
x = np.random.randn(N, D)
prev_h = np.random.randn(N, H)
prev_c = np.random.randn(N, H)
Wx = np.random.randn(D, 4 * H)
Wh = np.random.randn(H, 4 * H)
b = np.random.randn(4 * H)

next_h, next_c, cache = lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)

dnext_h = np.random.randn(*next_h.shape)
dnext_c = np.random.randn(*next_c.shape)

fx_h = lambda x: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[0]
fh_h = lambda h: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[0]
fc_h = lambda c: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[0]
fWx_h = lambda Wx: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[0]
fWh_h = lambda Wh: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[0]
fb_h = lambda b: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[0]

fx_c = lambda x: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[1]
fh_c = lambda h: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[1]
fc_c = lambda c: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[1]
fWx_c = lambda Wx: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[1]
fWh_c = lambda Wh: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[1]
fb_c = lambda b: lstm_step_forward(x, prev_h, prev_c, Wx, Wh, b)[1]

num_grad = eval_numerical_gradient_array

dx_num = num_grad(fx_h, x, dnext_h) + num_grad(fx_c, x, dnext_c)
dh_num = num_grad(fh_h, prev_h, dnext_h) + num_grad(fh_c, prev_h, dnext_c)
dc_num = num_grad(fc_h, prev_c, dnext_h) + num_grad(fc_c, prev_c, dnext_c)
dWx_num = num_grad(fWx_h, Wx, dnext_h) + num_grad(fWx_c, Wx, dnext_c)
dWh_num = num_grad(fWh_h, Wh, dnext_h) + num_grad(fWh_c, Wh, dnext_c)
db_num = num_grad(fb_h, b, dnext_h) + num_grad(fb_c, b, dnext_c)

dx, dh, dc, dWx, dWh, db = lstm_step_backward(dnext_h, dnext_c, cache)

print('Ошибка dx: ', rel_error(dx_num, dx))
print('Ошибка dh: ', rel_error(dh_num, dh))
print('Ошибка dc: ', rel_error(dc_num, dc))
print('Ошибка dWx: ', rel_error(dWx_num, dWx))
print('Ошибка dWh: ', rel_error(dWh_num, dWh))
print('Ошибка db: ', rel_error(db_num, db))

# LSTM: прямое распространение
В функции `lstm_forward` в файле` dlcv / rnn_layers.py` реализуйте функцию `lstm_forward` , которая  выполняет прямое распространение, используя весь временной ряд данных.

Затем проверьте реализацию. Ошибка дожна быть на уровне «e-7» или менее.

In [None]:
N, D, H, T = 2, 5, 4, 3
x = np.linspace(-0.4, 0.6, num=N*T*D).reshape(N, T, D)
h0 = np.linspace(-0.4, 0.8, num=N*H).reshape(N, H)
Wx = np.linspace(-0.2, 0.9, num=4*D*H).reshape(D, 4 * H)
Wh = np.linspace(-0.3, 0.6, num=4*H*H).reshape(H, 4 * H)
b = np.linspace(0.2, 0.7, num=4*H)

h, cache = lstm_forward(x, h0, Wx, Wh, b)

expected_h = np.asarray([
 [[ 0.01764008,  0.01823233,  0.01882671,  0.0194232 ],
  [ 0.11287491,  0.12146228,  0.13018446,  0.13902939],
  [ 0.31358768,  0.33338627,  0.35304453,  0.37250975]],
 [[ 0.45767879,  0.4761092,   0.4936887,   0.51041945],
  [ 0.6704845,   0.69350089,  0.71486014,  0.7346449 ],
  [ 0.81733511,  0.83677871,  0.85403753,  0.86935314]]])

print('Ошибка h: ', rel_error(expected_h, h))

# LSTM: обратное распространение
Реализуйте обратное распространение для LSTM по всей временной последовательности данных в функции `lstm_backward` в файле` dlcv / rnn_layers.py`. Если функция уже реализована, то ознакомьтесь с её реализацией. Затем  выполните  числовую проверку градиента. Ошибки должны быть на уровне «e-8» или менее. (Для `dWh` хорошо, если ваша примерно `e-6` или меньше).

In [None]:
from dlcv.rnn_layers import lstm_forward, lstm_backward
np.random.seed(231)

N, D, T, H = 2, 3, 10, 6

x = np.random.randn(N, T, D)
h0 = np.random.randn(N, H)
Wx = np.random.randn(D, 4 * H)
Wh = np.random.randn(H, 4 * H)
b = np.random.randn(4 * H)

out, cache = lstm_forward(x, h0, Wx, Wh, b)

dout = np.random.randn(*out.shape)

dx, dh0, dWx, dWh, db = lstm_backward(dout, cache)

fx = lambda x: lstm_forward(x, h0, Wx, Wh, b)[0]
fh0 = lambda h0: lstm_forward(x, h0, Wx, Wh, b)[0]
fWx = lambda Wx: lstm_forward(x, h0, Wx, Wh, b)[0]
fWh = lambda Wh: lstm_forward(x, h0, Wx, Wh, b)[0]
fb = lambda b: lstm_forward(x, h0, Wx, Wh, b)[0]

dx_num = eval_numerical_gradient_array(fx, x, dout)
dh0_num = eval_numerical_gradient_array(fh0, h0, dout)
dWx_num = eval_numerical_gradient_array(fWx, Wx, dout)
dWh_num = eval_numerical_gradient_array(fWh, Wh, dout)
db_num = eval_numerical_gradient_array(fb, b, dout)

print('Ошибка dx: ', rel_error(dx_num, dx))
print('Ошибка dh0: ', rel_error(dh0_num, dh0))
print('Ошибка dWx: ', rel_error(dWx_num, dWx))
print('Ошибка dWh: ', rel_error(dWh_num, dWh))
print('Ошибка db: ', rel_error(db_num, db))

# ВОПРОС

Напомним, что в LSTM input gate $i$, forget gate $f$ и output gate $o$ являются выходами сигмоидной функции. Почему мы не используем функцию активации ReLU вместо сигмоидной для вычисления этих значений? Объясните.

**Ваш ответ:**

# LSTM модель формирования подписей

Теперь, когда вы реализовали LSTM, обновите реализацию метода `loss` класса` CaptioningRNN` в файле `dlcv / classifiers / rnn.py`, чтобы обработать случай, когда` self.cell_type` равен `lstm`. Это  потребует добавления менее 10 строк кода.Если в файле код уже реализован, то просто ознакомьтесь с ним.

Проверьте реализацию. Разность должна быть на уровне `e-10` или менее.

In [None]:
N, D, W, H = 10, 20, 30, 40
word_to_idx = {'<NULL>': 0, 'cat': 2, 'dog': 3}
V = len(word_to_idx)
T = 13

model = CaptioningRNN(word_to_idx,
          input_dim=D,
          wordvec_dim=W,
          hidden_dim=H,
          cell_type='lstm',
          dtype=np.float64)

# Установка всех параметров модели в виде фиксированных значений
for k, v in model.params.items():
  model.params[k] = np.linspace(-1.4, 1.3, num=v.size).reshape(*v.shape)

features = np.linspace(-0.5, 1.7, num=N*D).reshape(N, D)
captions = (np.arange(N * T) % V).reshape(N, T)

loss, grads = model.loss(features, captions)
expected_loss = 9.82445935443

print('Потери: ', loss)
print('Ожидаемые потери: ', expected_loss)
print('Разность: ', abs(loss - expected_loss))

# Обучение LSTM модели для формирования подписей к изображениям

Выполните ячейку ниже, чтобы обучить модель LSTM, формирующую подписи к изображениям, на  том же небольшом наборе данных, который мы использовали ранее для RNN . Вы должны увидеть окончательные потери менее 0,5.

In [None]:
np.random.seed(231)

small_data = load_coco_data(max_train=50)

small_lstm_model = CaptioningRNN(
          cell_type='lstm',
          word_to_idx=data['word_to_idx'],
          input_dim=data['train_features'].shape[1],
          hidden_dim=512,
          wordvec_dim=256,
          dtype=np.float32,
        )

small_lstm_solver = CaptioningSolver(small_lstm_model, small_data,
           update_rule='adam',
           num_epochs=50,
           batch_size=25,
           optim_config={
             'learning_rate': 5e-3,
           },
           lr_decay=0.995,
           verbose=True, print_every=10,
         )

small_lstm_solver.train()

# Plot the training losses
plt.plot(small_lstm_solver.loss_history)
plt.xlabel('Итерации')
plt.ylabel('Потери')
plt.title('История потерь обучения')
plt.show()

# LSTM: результаты тестирования
Измените метод `sample` класса` CaptioningRNN` для обработки случая, когда `self.cell_type` равен` lstm`. Это должно потребовать менее 10 строк кода. Если в файле код уже реализован, то просто ознакомьтесь с ним.

После выполните действия в ячейке блокнота ниже, чтобы получить результаты для некоторых примеров тренировочного и проверочного наборов. Как и в случае с RNN, результаты обучения должны быть очень хорошими, а результаты валидации, вероятно, не будут иметь большого смысла (потому что происходит переобучение).

In [None]:
for split in ['train', 'val']:
    minibatch = sample_coco_minibatch(small_data, split=split, batch_size=2)
    gt_captions, features, urls = minibatch
    gt_captions = decode_captions(gt_captions, data['idx_to_word'])

    sample_captions = small_lstm_model.sample(features)
    sample_captions = decode_captions(sample_captions, data['idx_to_word'])

    for gt_caption, sample_caption, url in zip(gt_captions, sample_captions, urls):
        plt.imshow(image_from_url(url))
        plt.title('%s\n%s\nGT:%s' % (split, sample_caption, gt_caption))
        plt.axis('off')
        plt.show()