In [13]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# 定义一个简单的 RNN 模型，继承自 nn.Module，使得它成为一个可训练的 PyTorch 模型。
class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleRNN, self).__init__()
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        # x: (batch_size, seq_length, input_size)
        rnn_out, _ = self.rnn(x)  # RNN 输出
        print('rnn_out, _',rnn_out, _)
        output = self.fc(rnn_out[:, -1, :])  # 取最后一个时间步的输出
        return output

# 假设每个字母用 one-hot 编码表示，输入的字母序列
one_hot_a = [1, 0, 0]
one_hot_b = [0, 1, 0]
one_hot_c = [0, 0, 1]

# 创建输入数据：字母序列 'a', 'b', 'c'
# 注意这里直接创建一个形状为 (1, 3, 3) 的张量
sequence = torch.tensor([[one_hot_a, one_hot_b, one_hot_c]], dtype=torch.float32)
print('sequence',sequence)
# 创建 RNN 模型
input_size = 3  # 输入特征的维度
hidden_size = 5  # 隐藏状态的维度，表示 RNN 中隐藏单元的数量，也就是隐藏神经元的个数。每个隐藏神经元可以看作是一个存储信息的单元，而 hidden_size 决定了有多少个这样的单元在 RNN 中同时存在。简单来说，它决定了模型在每个时间步上能处理和记住多少信息。
output_size = 3  # 输出特征的维度（预测下一个字母的 one-hot 编码）
model = SimpleRNN(input_size, hidden_size, output_size)

# 前向传播
output = model(sequence)
predicted_letter = F.softmax(output, dim=1)  # 使用 softmax 函数获得每个字母的概率分布

# 打印预测结果
# print("预测下一个字母的概率分布:", predicted_letter.detach().numpy())


sequence tensor([[[1., 0., 0.],
         [0., 1., 0.],
         [0., 0., 1.]]])
rnn_out, _ tensor([[[ 0.2931, -0.1841,  0.3265,  0.2168, -0.6648],
         [ 0.3545,  0.0409, -0.2779,  0.1818, -0.6044],
         [-0.0627, -0.0907,  0.3163,  0.5820, -0.5286]]],
       grad_fn=<TransposeBackward1>) tensor([[[-0.0627, -0.0907,  0.3163,  0.5820, -0.5286]]],
       grad_fn=<StackBackward0>)
