# 1. nn.RNN 基本介绍

`nn.RNN`是 PyTorch 提供的循环神经网络（Recurrent Neural Network, RNN） 模块。
它适合处理 `序列数据`（如时间序列、文本、语音）。

定义：

In [None]:
torch.nn.RNN(
    input_size,     # 输入特征维度
    hidden_size,    # 隐藏层维度
    num_layers=1,   # 堆叠多少层RNN
    nonlinearity='tanh', # 激活函数：'tanh' 或 'relu'
    bias=True,      # 是否使用偏置
    batch_first=False,   # True: 输入(batch, seq, feature)
    dropout=0.0,    # 层与层之间的dropout
    bidirectional=False  # 是否为双向RNN
)


## 2. 输入 & 输出格式

- 假设：

    - batch_size = B
    
    - seq_len = T
    
    - input_size = D_in
    
    - hidden_size = D_h

- 输入

    - input：形状
    
        - (T, B, D_in) 如果 batch_first=False
        
        - (B, T, D_in) 如果 batch_first=True
        
        - h_0（可选，初始隐藏状态）：
            - (num_layers * num_directions, B, D_h)

- 输出

    - output：
        - (T, B, num_directions * D_h)（或 (B, T, num_directions * D_h) 如果 batch_first=True）包含了每个时间步的输出。

    - h_n：
        - (num_layers * num_directions, B, D_h)
最后一个时间步的隐藏状态。

---
## 3. 代码示例
### (1) 单层 RNN

In [None]:
import torch
import torch.nn as nn

# 参数
input_size = 5   # 每个时间步的输入特征维度
hidden_size = 3  # 隐藏层维度
seq_len = 4
batch_size = 2

# 定义 RNN
rnn = nn.RNN(input_size, hidden_size, batch_first=True)

# 输入 (batch, seq, feature)
x = torch.randn(batch_size, seq_len, input_size)

# 前向传播
output, h_n = rnn(x)

print("输入 x:", x.shape)         # [2, 4, 5]
print("输出 output:", output.shape) # [2, 4, 3]
print("最终隐藏状态 h_n:", h_n.shape) # [1, 2, 3]


### (2) 多层 RNN

In [None]:
rnn = nn.RNN(input_size=5,  # 输入特征维度
             hidden_size=3, # 隐藏层维度
             num_layers=2,  # 堆叠多少层RNN
             batch_first=True)
x = torch.randn(2, 4, 5)
output, h_n = rnn(x)

print("output:", output.shape)  # [2, 4, 3]
print("h_n:", h_n.shape)        # [2, 2, 3] → (层数, batch, hidden_size)


### (3) 双向 RNN

In [None]:
rnn = nn.RNN(input_size=5, hidden_size=3, num_layers=1, bidirectional=True, batch_first=True)
x = torch.randn(2, 4, 5)
output, h_n = rnn(x)

print("output:", output.shape)  # [2, 4, 6] → hidden_size * 2
print("h_n:", h_n.shape)        # [2, 2, 3] → (2 directions, batch, hidden_size)


## 4. RNN 的缺点

- 只能记忆短期依赖，长序列会出现 梯度消失/爆炸。

- 在自然语言处理中通常使用 LSTM（nn.LSTM） 或 GRU（nn.GRU） 代替。