在每个时间步共享权重（即在处理各个token时使用相同的RNN）RNN能够处理不同长度的输入序列。

![image](../data/image/RNN.jpg)

假设有一个序列的数据，例如一段文本。将这段文本分成单词或字符，并将其作为RNN的输入。对于每一个时步，RNN会执行以下操作：
- 接受当前时间步的输入x_t
- 结合前一时间步的隐藏层状态h_(t-1)，计算当前时间步的隐藏层状态h_t。通常通过一个激活函数(tanh) h_t = tanh(w_hh * h_(t-1) + w_xh * x_t + b_h)
- 基于当前时间步的隐藏层状态h_t，计算输出层y_t（RNN在时间步t输出）。 y_t = softmax(w_hy * h_t + b_y)

RNN可以处理整个序列数据，并在每个时间步生成一个输出。其中w_hh、w_xh、w_hy 每个步是共享的。

RNN采用BPTT反向传播算法进行训练。BPTT需要时间维度上展开RNN。从输出层一直传播到输入层。具体如下：
- 根据模型的输出和实际标签计算损失，对每个时间步，都可以计算一个损失值，然后对所有时间步损失值进行求和，得到总损失。
- 计算损失函数关于模型参数（权重矩阵和偏置）的梯度，使用链式求导，分别计算损失函数关于输出层、隐藏层和输入层的梯度，然后将这些沿着时间传播回去。
- 使用优化算法（Adam、SGD）来更新模型参数。

RNN局限性：
- 训练过程中可能会遇到梯度消失和爆炸的问题。这导致网络很难学习长距离依赖关系。

LSTM、GRU 广义上属于RNN，在结构上引入了门控机制，使得模型能够更好地捕捉到序列中的长距离依赖关系。



In [12]:
import torch
import torch.nn as nn
import torch.optim as optim
import random

#### 创建一个简单的用于演示的数据集

In [7]:
sentences = ['我 喜欢 玩具', '我 爱 爸爸', '我 讨厌 挨打']
word_list = list(set(' '.join(sentences).split()))
word_to_idx = {word:idx for idx,word in enumerate(word_list)}
idx_to_word = {idx:word for idx,word in enumerate(word_list)}
voc_size = len(word_list)

In [8]:
word_to_idx, idx_to_word, voc_size

({'玩具': 0, '挨打': 1, '爱': 2, '我': 3, '喜欢': 4, '讨厌': 5, '爸爸': 6},
 {0: '玩具', 1: '挨打', 2: '爱', 3: '我', 4: '喜欢', 5: '讨厌', 6: '爸爸'},
 7)

#### 生成NPLM训练数据

In [15]:
batch_size = 2
def make_batch():
    #定义输入数据列表
    intput_batch = []
    # 定义输出数据列表
    target_batch = []
    #随机选取batch_size个句子
    selected_sentences = random.sample(sentences, batch_size)
    for sen in selected_sentences:
        word = sen.split()
        input = [word_to_idx[n] for n in word[:-1]]
        output = word_to_idx[word[-1]]
        intput_batch.append(input)
        target_batch.append(output)
    input_batch = torch.LongTensor(intput_batch)
    target_batch = torch.LongTensor(target_batch)
    return input_batch, target_batch

In [16]:
input, output = make_batch()
input_word = []
for input_idx in input:
    input_word.append([idx_to_word[idx.item()] for idx in input_idx])
print(f"模型输入数据{input},对应词{input_word}")
target_word = [idx_to_word[idx.item()] for idx in output]
print(f"模型输出数据{output.shape},对应词{target_word}")

模型输入数据tensor([[3, 5],
        [3, 4]]),对应词[['我', '讨厌'], ['我', '喜欢']]
模型输出数据torch.Size([2]),对应词['挨打', '玩具']


#### 定义NPLM模型

In [19]:
class NPLM(nn.Module):
    def __init__(self, voc_size, embedding_size, hidden):
        super().__init__()
        self.emb = nn.Embedding(voc_size, embedding_size)
        self.lstm = nn.LSTM(embedding_size, hidden, batch_first = True)
        self.linear = nn.Linear(hidden, voc_size, bias=True)
    
    def forward(self, x):
        emb = self.emb(x)
        lstm_out, _ = self.lstm(emb)
        # 只选择最后一个时间步的输出作为全连接的输入
        output = self.linear(lstm_out[:,-1,:])
        return output

#### 训练模型

In [20]:
learning_rate = 0.01
criterion = nn.CrossEntropyLoss()
epochs = 5000
model = NPLM(7, 2, 2)
optimizer = optim.Adam(params=model.parameters(), lr=learning_rate)
for epoch in range(epochs):
    # 清除优化器梯度
    optimizer.zero_grad()
    intput_batch, target_batch = make_batch()
    output = model(intput_batch)
    loss = criterion(output, target_batch)
    if (epoch + 1) % 1000 == 0:
        print(f"Epoch:{epoch+1}, cost:{loss.item()}")
    # 反向传播
    loss.backward()
    # 更新模型参数
    optimizer.step()

Epoch:1000, cost:0.027758656069636345
Epoch:2000, cost:0.0072835395112633705
Epoch:3000, cost:0.0031245085410773754
Epoch:4000, cost:0.002726348815485835
Epoch:5000, cost:0.0008606872288510203


#### 使用NPLM预测

In [21]:
# 要预测的提示词
input_strs = [['我','讨厌'],['我','喜欢']]
# 转换为对应的索引
input_indices = [[word_to_idx[word] for word in seq] for seq in input_strs]
# 转化为张量
input_batch = torch.LongTensor(input_indices)
# 计算结果，并找到概率最大的
predict = model(input_batch).data.max(1).indices

predict_str = [idx_to_word[n.item()] for n in predict]

for input_seq, pred in zip(input_strs, predict_str):
    print(input_seq,'->',pred)

['我', '讨厌'] -> 挨打
['我', '喜欢'] -> 玩具
