# **RNN的pytorch实现**

In [1]:
import math
import numpy as np
import torch
from torch import nn, optim
import torch.nn.functional as F

import sys
sys.path.append('../utils')
import d2lzh as d2l

In [2]:
device = torch.device('cuda')
(corpus_indices, char_to_idx, idx_to_char, vocab_size) = d2l.load_data_jay_lyrics()

## **模型定义**

In [3]:
num_hiddens = 256
rnn_layer = nn.RNN(input_size=vocab_size, hidden_size=num_hiddens)

pytorch中RNN的参数(GRU和LSTM同)：
- input_size：输入的词向量的长度
- hidden_size：隐藏状态的长度
- num_layers: RNN的层数，默认为1，这样双层RNN就没必要写两个RNN了
- nonlinearity：relu，tanh
- bidirectional：是否需要双向

RNN的输入有两个(以下内容LSTM有所不同):
- input: 输入的文本矩阵(seq_len, **batch**, input_size) **注意batch在中间**
- h_0 : 初始的隐藏状态

RNN的输出有两个
- output：每一步的输出状态(seq_len, **batch**, num_directions * hidden_size) num_directions是方向数量
- h_n: 最后一步的输出(num_layers * num_directions, batch, hidden_size)

<div align=center>
<img width="500" src="../image/6.5.png"/>
</div>
<div align=center>循环神经网络（以LSTM为例）的输出</div>

In [4]:
num_steps = 35
batch_size = 2
state = None
X = torch.rand(num_steps, batch_size, vocab_size)
Y, state_new = rnn_layer(X, state)
print(Y.shape, len(state_new), state_new.shape, state_new[0].shape)

torch.Size([35, 2, 256]) 1 torch.Size([1, 2, 256]) torch.Size([2, 256])


我们继承一个Module类来定义一个完整的循环神经网络。它完成两件事
- 将one-hot向量输入到rnn_layer中
- 使用全连接层得到输出，输出个数等于词典大小

In [5]:
class RNNModel(nn.Module):
    def __init__(self, rnn_layer, vocab_size):
        super(RNNModel, self).__init__()
        self.rnn = rnn_layer
        self.hidden_size = rnn_layer.hidden_size * (2 if rnn_layer.bidirectional else 1)
        self.vocab_size = vocab_size
        self.dense = nn.Linear(self.hidden_size, vocab_size)
        self.state = None
    
    def forward(self, inputs, state): # inputs:(batch, num_steps)
        X = d2l.to_onehot(inputs, self.vocab_size) # X是一个list
        Y, self.state = self.rnn(torch.stack(X), state)
        # 全连接层会首先将Y的形状变成(num_steps * batch_size, num_hiddens)，它的输出
        # 形状为(num_steps * batch_size, vocab_size)
        output = self.dense(Y.view(-1, Y.shape[-1]))
        return output, self.state

## **训练模型**

In [6]:
# def predict_rnn_pytorch(prefix, num_chars, model, vacab_size, device, idx_to_char, char_to_idx):
#     state = None
#     output = [char_to_idx[prefix[0]]] # 用于记录prefix和输出
#     for t in range(num_chars + len(prefix) - 1):
#         X = torch.tensor(output, device=device).view(1, -1)
#         if state is not None:
#             if isinstance(state, tuple): # LSTM是这种情况
#                 state = (state[0].to(device), state[1].to(device))
#             else:
#                 state = state.to(device)
#         print(X.shape)
#         (Y, state) = model(X, state) # one_hot操作在模型中完成
#         print(Y[-1].shape)
#         if t < len(prefix) - 1:
#             output.append(char_to_idx[prefix[t + 1]])
#         else:
#             output.append(int(Y[-1].argmax().item()))
#     return ''.join([idx_to_char[i] for i in output])
def predict_rnn_pytorch(prefix, num_chars, model, vocab_size, device, idx_to_char,
                      char_to_idx):
    state = None
    output = [char_to_idx[prefix[0]]] # output会记录prefix加上输出
    for t in range(num_chars + len(prefix) - 1):
        X = torch.tensor([output[-1]], device=device).view(1, 1)
        if state is not None:
            if isinstance(state, tuple): # LSTM, state:(h, c)  
                state = (state[0].to(device), state[1].to(device))
            else:   
                state = state.to(device)
            
        (Y, state) = model(X, state)
        if t < len(prefix) - 1:
            output.append(char_to_idx[prefix[t + 1]])
        else:
            output.append(int(Y.argmax(dim=1).item()))
    return ''.join([idx_to_char[i] for i in output])

RNN在运行的时候不会在乎单条数据的seq_len为多少，但是至少一个batch内的seq_len需要一样

In [7]:
model = RNNModel(rnn_layer, vocab_size).to(device)
predict_rnn_pytorch('分开', 10, model, vocab_size, device, idx_to_char, char_to_idx)

'分开蝙照帮河帮帮帮帮帮帮'

In [13]:
def train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device, 
                                  corpus_indices, idx_to_char, char_to_idx,
                                  num_epochs, num_steps, lr, clipping_theta, 
                                  batch_size, pred_period, pred_len, prefixes):
    loss = nn.CrossEntropyLoss()
    optimizer = optim.Adam(model.parameters(), lr=lr)
    model.to(device)
    state = None
    for epoch in range(num_epochs):
        l_sum, n = 0.0, 0
        data_iter = d2l.data_iter_consecutive(corpus_indices, batch_size, num_steps, device)
        for X, Y in data_iter:
            if state is not None:
                # 使用detach函数从计算图分离隐藏状态，使得当前计算只依赖于当前batch数据
                if isinstance(state, tuple): # LSTM
                    state = (state[0].detach(), state[1].detach())
                else:
                    state = state.detach()
            (output, state) = model(X, state)
            # Y的形状是(batch_szie, num_steps)，转置后将其变成batch_size*nums_step的向量，这样就和输出对应
            y = torch.transpose(Y, 0, 1).contiguous().view(-1)
            l = loss(output, y.long())
            optimizer.zero_grad()
            l.backward()
            d2l.grad_clipping(model.parameters(), clipping_theta, device)
            optimizer.step()
            l_sum += l.item() * y.shape[0]
            n += y.shape[0]
        try:
            perplexity = math.exp(l_sum / n)
        except OverflowError:
            perplexity = float('inf')
        if (epoch + 1) % pred_period == 0:
            print(f'epoch{epoch + 1}, perplexity:{math.exp(l_sum / n):.4f}')
            for prefix in prefixes:
                print('-', predict_rnn_pytorch(
                    prefix, pred_len, model, vocab_size, device, idx_to_char,
                    char_to_idx))

In [14]:
num_epochs, batch_size, lr, clipping_theta = 250, 32, 1e-3, 1e-2 # 注意这里的学习率设置
pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']
train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device,
                            corpus_indices, idx_to_char, char_to_idx,
                            num_epochs, num_steps, lr, clipping_theta,
                            batch_size, pred_period, pred_len, prefixes)

epoch50, perplexity:1.0364
- 分开 为什么还是我试 让错过 开心情 一直在绕手 她问在Coffee tea or me 我深深倒抽一口
- 不分开 为什么还是我 你气在我的开始交了 说和外 她的时光 一直跟我会上就像没有　 而你是会过往过人还在很
epoch100, perplexity:1.0309
- 分开 为什么还是我一口气过香的　 是我在大你们一样的很荒烟  哎哟哎哟喔 哎哟哎哟喔喔…… 嘿 上梢的月
- 不分开 为荣开心 我就是那不能 我 任紧人是一场 你也只有一天 能说到 我只是自己的笑 我给我到面 因为我
epoch150, perplexity:1.0185
- 分开 为什么为什么要这么想你的我知道 我的爱过 你继续往前走 深怕没有 每天  在想旁边爱上 这日记这一
- 不分开 为什么这样我试著拉镜头 手唱要吵 这样的我  我自然的生信 带着了 后果我 不是因为我没有 真的世
epoch200, perplexity:1.0187
- 分开 为什么还是我 你想大家是谁都看   你 我是我的很快 我 我坚决 冲破这一场浩劫 这世界谁被狩猎 
- 不分开 为什么形容 是否院子落叶 跟我不懂 我没有这种天份 包容你也接受他 不用担心的太多 我会一直好好过
epoch250, perplexity:1.0201
- 分开 为什么都 心里 对着镜头重演 爱在西元前 周杰伦   爸我一旁了我 她的你定 我知道 这样的吗  
- 不分开 为什么别人 要告诉我   大地面出来  鸟狂的手  总有太多  想一定想说好 我有谁在等待 我用出
