In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import time

# --- 1. 定义一个简单的神经网络 ---
# 这是一个简单的多层感知机（MLP）
class SimpleNet(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleNet, self).__init__()
        self.layer1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.layer2 = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        out = self.layer1(x)
        out = self.relu(out)
        out = self.layer2(out)
        return out

In [2]:
# --- 2. 检查并设置设备 (GPU或CPU) ---
# 这是关键步骤：检查torch.cuda是否可用
print(torch.__version__)
if torch.cuda.is_available():
    device = torch.device("cuda")
    print(f"🎉 成功！检测到并正在使用设备: {torch.cuda.get_device_name(0)}")
else:
    device = torch.device("cpu")
    print("⚠️ 未检测到CUDA GPU，正在使用设备: CPU")

# --- 3. 设置超参数 ---
input_size = 512    # 输入特征维度
hidden_size = 1024  # 隐藏层大小
output_size = 10    # 输出类别数
num_epochs = 100    # 训练轮次
learning_rate = 0.001 # 学习率
batch_size = 64     # 每批次大小
num_samples = 10000 # 样本总数

# --- 4. 实例化模型、损失函数和优化器 ---
model = SimpleNet(input_size, hidden_size, output_size)

# 将模型移动到选定的设备 (GPU或CPU)
model.to(device)

# 定义损失函数 (例如：均方误差损失)
criterion = nn.MSELoss()

# 定义优化器 (例如：Adam)
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

print("\n模型已成功移动到:", next(model.parameters()).device)

# --- 5. 创建模拟数据 ---
# 创建随机的输入数据和目标数据
# .to(device) 会将这些数据张量也移动到GPU/CPU
X_train = torch.randn(num_samples, input_size).to(device)
y_train = torch.randn(num_samples, output_size).to(device)

print(f"数据已创建，将在 {device} 上进行训练...")
print("-" * 30)

# --- 6. 开始训练并计时 ---
start_time = time.time()

for epoch in range(num_epochs):
    # 在这个简单的例子中，我们一次性处理所有数据
    # 实际项目中你会使用DataLoader来分批处理
    
    # 前向传播
    outputs = model(X_train)
    loss = criterion(outputs, y_train)
    
    # 反向传播和优化
    optimizer.zero_grad()  # 清空之前的梯度
    loss.backward()        # 计算当前梯度
    optimizer.step()       # 更新权重
    
    if (epoch + 1) % 10 == 0:
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

end_time = time.time()

# --- 7. 打印结果 ---
total_time = end_time - start_time
print("-" * 30)
print(f"训练完成!")
print(f"在设备 {device} 上总共用时: {total_time:.2f} 秒")

2.6.0+cu126
🎉 成功！检测到并正在使用设备: NVIDIA GeForce RTX 4070

模型已成功移动到: cuda:0
数据已创建，将在 cuda 上进行训练...
------------------------------
Epoch [10/100], Loss: 0.8452
Epoch [20/100], Loss: 0.7004
Epoch [30/100], Loss: 0.5457
Epoch [40/100], Loss: 0.3720
Epoch [50/100], Loss: 0.2076
Epoch [60/100], Loss: 0.0912
Epoch [70/100], Loss: 0.0321
Epoch [80/100], Loss: 0.0093
Epoch [90/100], Loss: 0.0022
Epoch [100/100], Loss: 0.0005
------------------------------
训练完成!
在设备 cuda 上总共用时: 0.55 秒
