一个很好的文档：https://www.acwing.com/blog/content/60207/

# 笔记
循环神经网络（recurrent neural networks，RNNs） 是具有潜变量的神经网络。 
- 潜变量：在对序列数据建模时，需要对联合分布建模，联合概率可用条件概率展开，有一种思路是用过去预测将来，即**自回归模型**。其中，潜变量模型是使用一个潜变量$h_t$来表示过去的信息，即$h_t=f(x_1,...,x_{t-1}$ ，**把过去的信息用一个数据表示**.

![image.png](attachment:00505bbe-7f0d-481f-9d8d-a1b6a5bd9067.png)

其中 $h_t$ 是隐状态（hidden state），也称为隐藏变量（hidden variable），它存储了到时间步 $t$ 的序列信息。通常，我们可以基于当前输入 $x_t$ 和先前隐状态 $h_{t - 1}$ 来计算时间步 $t$ 处的任何时间的隐状态：
$$h_t = f(x_t, h_{t - 1}). $$
![image.png](attachment:224f9a7c-744d-471f-8047-5bcbfc360d5f.png)

![image.png](attachment:4eefc453-a055-46e4-bad6-25c16b688748.png)

困惑度：
![image.png](attachment:db9f3a7f-0b75-404b-8288-8b3717b7bbe5.png)


首先解释交叉熵：
$p(x_t|x_{t-1},..,x_1)$就是模型给出的，在已知前面那些真实值的情况下，真实值 $x_t$ 出现的概率。   

在公式中：

$$
\frac{1}{n} \sum_{t=1}^n - \log P(x_t | x_{t-1}, \ldots, x_1)$$

- $\sum_{t=1}^n$表示将序列中每个时刻的$(-\log P(x_t | x_{t-1}, \ldots, x_1)$ 相加，得到整个序列预测的总误差。
- $\frac{1}{n}$是将这个总误差平均一下，因为序列长度可能不同，平均后可以方便比较不同序列的预测情况。

在训练模型时，我们的目标是让这个整体的平均负对数概率值最小化。这样，模型就能在整体上对序列中每个时刻的真实值都有比较准确的预测。


困惑度就是在交叉熵基础上加了个指数运算，
- 在最好的情况下，模型总是完美地估计标签词元的概率为1。 在这种情况下，模型的困惑度为1。
- 在最坏的情况下，模型总是预测标签词元的概率为0。 在这种情况下，困惑度是正无穷大

![image.png](attachment:8d3e1632-9ac6-412e-a690-31308a5fe45e.png)
**梯度剪裁：**               
在 RNN 训练过程中，对于长度为 N 的序列，需要在迭代中计算 N 个时间步上的梯度，在反向传播时会产生 N 个权重矩阵乘法链。当 N 较大时，权重矩阵连乘可能会使梯度值变得非常大，导致**梯度爆炸**。梯度爆炸会使模型训练过程中的参数更新幅度过大，引发数值不稳定，模型无法收敛甚至 “崩溃”。

梯度剪裁的核心思想是通过对梯度的大小进行限制，来避免梯度过大引发的问题。它会设定一个阈值（通常用$\theta$ 表示），当计算得到的梯度范数（一般用二范数，即梯度元素平方和再开根号，记为$||g||$ ）超过该阈值时，对梯度进行缩放处理。

![image.png](attachment:2e1486bc-3079-41fa-9fa6-f854c60eff8a.png)
![image.png](attachment:d73aa085-7a9a-4f96-8fad-3fc4f6b9b00b.png)

In [1]:
# 简洁实现
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

Downloading ../data/timemachine.txt from http://d2l-data.s3-accelerate.amazonaws.com/timemachine.txt...


'''
    nn.RNN(input_size, hidden_size, num_layers=1, nonlinearity='tanh', bias=True, batch_first=False, dropout=0, bidirectional=False)
''' 
- input_size：输入特征的维度，即每个时间步输入向量的长度。在自然语言处理中，如果使用独热编码表示单词，input_size 通常是词汇表的大小；如果使用词嵌入，input_size 则是词嵌入向量的维度。
- hidden_size：隐藏单元的数量，也就是隐藏状态的维度。隐藏单元用于存储和传递序列信息，该值会影响模型的学习能力和表达能力。
- num_layers 是 RNN（循环神经网络）中的一个超参数，表示 RNN 的层数。它决定了 RNN 的深度，即网络中堆叠了多少个 RNN 层。默认是1～

In [7]:
num_hiddens = 256  # 隐藏单元数量！！
rnn_layer = nn.RNN(len(vocab), num_hiddens) #定义一个简单的 RNN 层!!

使用张量来**初始化隐状态**，它的形状是（隐藏层数num_layers，批量大小，隐藏单元数）:


In [9]:
state = torch.zeros((1, batch_size, num_hiddens))
state.shape

torch.Size([1, 32, 256])

###### 通过一个隐状态和一个输入，我们就可以用更新后的隐状态计算输出。 需要强调的是，rnn_layer的“输出”（Y）不涉及输出层的计算： 它是指每个时间步的隐状态，这些隐状态可以用作后续输出层的输入。    

输入的**input_shape = [时间步数, 批量大小, 特征维度] = [num_steps(seq_length), batch_size, input_dim]**
- num_steps：序列的长度，也就是每个样本包含的字符数量。例如，我们要处理的句子是 “Hello”，若将其作为一个序列，num_steps 就是 5。
- batch_size：一次处理的样本数量。假设我们同时处理多个句子，每个句子作为一个样本，batch_size 就是句子的数量。
- input_size：输入特征的维度，在字符级语言模型中，通常使用独热编码表示字符，input_size 就是字符集的大小，即不同字符的数量。

In [21]:
X = torch.rand(size=(num_steps, batch_size, len(vocab)))  # (序列长度, 批量大小, 输入维度)
Y, state_new = rnn_layer(X, state) # Y 是 RNN 层在每个时间步的输出，state_new 是 RNN 层在最后一个时间步的隐藏状态。
Y.shape, state_new.shape

(torch.Size([35, 32, 256]), torch.Size([1, 32, 256]))

接下来，我们为一个完整的循环神经网络模型定义了一个RNNModel类。 注意，**rnn_layer只包含隐藏的循环层，我们还需要创建一个单独的输出层**

In [75]:
#循环神经网络模型
class RNNModel(nn.Module):
    def __init__(self,rnn_layer,vocab_size,**kwargs):
        super(RNNModel,self).__init__(**kwargs)
        self.rnn = rnn_layer
        self.vocab_size = vocab_size
        self.num_hiddens = self.rnn.hidden_size
        if not self.rnn.bidirectional: 
            self.num_directions = 1
            self.linear = nn.Linear(self.num_hiddens,self.vocab_size)
        else:
            self.num_directions = 2
            self.linear = nn.Linear(self.num_hiddens*2,self.vocab_size)
    def forward(self,inputs,state):
        X = F.one_hot(inputs.T.long(),self.vocab_size) # F.one_hot(a,b) 将a按照指定标签数b进行独热编码 b>=len(a)
        X = X.to(torch.float32) # 转化编码模式
        Y,state = self.rnn(X,state)
        # 下面使用全连接层将Y展平
        output = self.linear(Y.reshape((-1,Y.shape[-1])))
        return output,state # 返回最终输出和更新后的隐藏状态
        # 创建循环神经网络的初始隐藏状态
   
    # 初始化潜变量 并返回
    def begin_state(self, device, batch_size=1):
        # 如果循环神经网络不是LSTM类型
        if not isinstance(self.rnn, nn.LSTM):
            # 创建全零的隐藏状态张量
            return torch.zeros((self.num_directions * self.rnn.num_layers,
                                batch_size, self.num_hiddens),
                               device=device)
        # 如果循环神经网络是LSTM类型
        else:
            # 创建全零的隐藏状态张量和记忆单元张量
            # 第一个张量是全零的隐藏状态张量，第二个张量是全零的记忆单元张量
            return (torch.zeros((self.num_directions * self.rnn.num_layers,
                                 batch_size, self.num_hiddens),
                                device=device), 
                    torch.zeros((self.num_directions * self.rnn.num_layers,
                                 batch_size, self.num_hiddens), 
                                device=device))
        
# 创建RNN模型实例
net = RNNModel(rnn_layer, vocab_size=len(vocab))
d2l.predict_ch8('time traveller', 10, net, vocab, "cpu") # 就用cpu运算

'time travellerkkkkkkkkkk'

In [37]:
rnn_layer,net

(RNN(28, 256),
 RNNModel(
   (rnn): RNN(28, 256)
   (linear): Linear(in_features=256, out_features=28, bias=True)
 ))

补充：

什么是predict_ch8函数： 定义**预测函数来生成prefix之后的新字符**， 其中的prefix是一个用户提供的包含多个字符的字符串。     
- 预热期：在此期间模型会自我更新（例如更新隐状态）， 但不会进行预测。     
- 在预热期结束后，模型的隐藏状态已经包含了输入前缀的信息。在后续的预测阶段，模型会基于这个调整后的隐藏状态，结合当前时间步的输入（通常是上一个生成字符对应的索引），继续进行前向传播计算，生成下一个字符的预测结果，并更新隐藏状态，不断重复这个过程，直到生成指定数量的字符。
- vocab是词汇表对象，它负责字符和索引之间的相互转换。

In [82]:
prefix='time traveller'
vocab[prefix[0]] # 词汇表对象，它负责字符和索引之间的相互转换。

3

In [126]:
def predict_ch8(prefix, num_preds, net, vocab, device):  #@save
    """在prefix后面生成新字符"""
    state = net.begin_state(batch_size=1, device=device)
    outputs = [vocab[prefix[0]]]
    get_input = lambda: torch.tensor([outputs[-1]], device=device).reshape((1, 1))   # ：之前是输入 后面是函数内容 （匿名函数 ） 
    for y in prefix[1:]:  # 预热期
        _, state = net(get_input(), state)
        outputs.append(vocab[y])
    for _ in range(num_preds):  # 预测num_preds步
        y, state = net(get_input(), state)
        # print(y)
        outputs.append(int(y.argmax(dim=1).reshape(1)))
    return ''.join([vocab.idx_to_token[i] for i in outputs])

In [128]:
predict_ch8('time traveller', 10, net, vocab, "cpu") # 就用cpu运算

tensor([[[ 5.5321e-02, -1.4972e-01, -3.1947e-02,  2.4929e-02,  1.3988e-02,
          -1.0231e-01,  7.1160e-02, -7.3192e-02,  1.1770e-02,  4.0675e-02,
          -7.1346e-02,  7.8860e-02,  8.6082e-04,  6.9759e-02,  5.6087e-02,
          -5.3995e-02,  7.1912e-02,  9.6505e-02,  5.0027e-02,  2.6355e-02,
           9.4503e-02, -6.1753e-02,  1.0852e-01, -1.7809e-03, -2.8763e-02,
           1.1558e-01, -1.5517e-02,  4.9927e-02, -3.2639e-02, -4.0633e-03,
          -8.3014e-03,  5.3516e-02,  1.2362e-01, -1.9567e-02, -3.5261e-02,
          -3.4389e-02,  4.7622e-02, -5.1683e-02,  4.4899e-02,  4.5664e-03,
          -4.8370e-02,  1.2067e-02,  8.8565e-02,  1.4437e-02, -3.7462e-03,
           1.1351e-01, -1.8753e-02,  4.2042e-02,  1.1201e-02, -5.4269e-02,
           1.2544e-01, -3.5738e-03,  6.9453e-02, -7.3809e-02, -6.3686e-03,
          -3.4864e-02, -7.3347e-02,  5.9099e-02, -2.5234e-02, -5.6595e-02,
           7.9149e-02, -3.8563e-02, -1.7006e-01, -6.2812e-02, -9.2611e-02,
           4.4862e-02, -2

'time travellerkkkkkkkkkk'