In [5]:
import torch
import torch.nn as nn
from torch.nn import TransformerEncoder, TransformerEncoderLayer

# 定义 Transformer 模型
class TransformerModel(nn.Module):
    def __init__(self, input_dim, nhead, hidden_dim, num_layers, output_dim):
        """
        初始化 Transformer 模型

        参数:
        input_dim (int): 输入特征维度
        nhead (int): 多头注意力头数
        hidden_dim (int): 前馈网络的隐藏层维度
        num_layers (int): Transformer 编码层数
        output_dim (int): 输出维度
        """
        super(TransformerModel, self).__init__()
        # 定义一个 Transformer 编码层
        encoder_layer = TransformerEncoderLayer(d_model=input_dim, nhead=nhead, dim_feedforward=hidden_dim)
        # 将多个编码层堆叠成 Transformer 编码器
        self.transformer = TransformerEncoder(encoder_layer, num_layers=num_layers)
        # 定义一个全连接层，将 Transformer 的输出映射到最终的输出维度
        self.fc = nn.Linear(input_dim, output_dim)

    def forward(self, x):
        """
        前向传播函数

        参数:
        x (torch.Tensor): 输入张量，形状为 (seq_len, batch_size, input_dim)

        返回:
        torch.Tensor: 输出张量，形状为 (batch_size, output_dim)
        """
        # 通过 Transformer 编码器处理输入
        out = self.transformer(x)  # (seq_len, batch_size, input_dim)
        # 对序列维度求平均，聚合序列信息
        out = self.fc(out.mean(dim=0))  # (batch_size, input_dim) -> (batch_size, output_dim)
        return out

# 模型参数
input_dim = 10  # 输入特征维度
nhead = 2  # 多头注意力头数
hidden_dim = 50  # 前馈网络的隐藏层维度
num_layers = 2  # Transformer 编码层数
output_dim = 1  # 输出维度

# 构建模型
model = TransformerModel(input_dim=input_dim, nhead=nhead, hidden_dim=hidden_dim, num_layers=num_layers, output_dim=output_dim)

# 示例输入数据：seq_len=5, batch_size=32
x = torch.randn(5, 32, input_dim)  # 注意输入的形状 (seq_len, batch_size, input_dim)
output = model(x)

print("Transformer 输出维度:", output.shape)  # (batch_size, output_dim)

Transformer 输出维度: torch.Size([32, 1])


In [4]:
import torch
import torch.nn as nn

# 定义 RNN 模型
class RNNModel(nn.Module):
    def __init__(self, input_dim, hidden_dim, output_dim):
        """
        初始化 RNN 模型

        参数:
        input_dim (int): 每个时间步的输入特征维度
        hidden_dim (int): 隐层维度
        output_dim (int): 输出维度（如回归任务）
        """
        super(RNNModel, self).__init__()
        self.rnn = nn.RNN(input_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        """
        前向传播函数

        参数:
        x (torch.Tensor): 输入张量，形状为 (batch_size, seq_len, input_dim)

        返回:
        torch.Tensor: 输出张量，形状为 (batch_size, output_dim)
        """
        out, _ = self.rnn(x)  # (batch_size, seq_len, hidden_dim)
        out = self.fc(out[:, -1, :])  # 提取最后一个时间步的输出
        return out

# 模型参数
input_dim = 10  # 每个时间步的输入特征维度
hidden_dim = 20  # 隐层维度
output_dim = 1  # 输出维度（如回归任务）

# 构建模型
model = RNNModel(input_dim=input_dim, hidden_dim=hidden_dim, output_dim=output_dim)

# 示例输入：batch_size=32, seq_len=5
# 32个样本，每个样本有5个时间步，每个时间步有10个特征
x = torch.randn(32, 5, input_dim)

# model(x)  # 前向传播
# 运行模型
output = model(x)

# 注意：RNN 的输入形状为 (batch_size, seq_len, input_dim)
# 输出形状为 (batch_size, output_dim)
print("RNN 输出维度:", output.shape)  # (batch_size, output_dim)

RNN 输出维度: torch.Size([32, 1])


In [2]:
import transformers

print(transformers.__version__)  # 输出 Transformers 的版本号

4.47.1
