In [1]:
import torch
import torch.nn as nn

# 定义一个简单的神经网络模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        # 定义一个输入层到隐藏层的全连接层
        self.fc1 = nn.Linear(2, 2)  # 输入 2 个特征，输出 2 个特征
        # 定义一个隐藏层到输出层的全连接层
        self.fc2 = nn.Linear(2, 1)  # 输入 2 个特征，输出 1 个预测值

    def forward(self, x):
        # 前向传播过程
        x = torch.relu(self.fc1(x))  # 使用 ReLU 激活函数
        x = self.fc2(x)  # 输出层
        return x

# 创建模型实例
model = SimpleNN()

model

SimpleNN(
  (fc1): Linear(in_features=2, out_features=2, bias=True)
  (fc2): Linear(in_features=2, out_features=1, bias=True)
)

### PyTorch 提供了许多常见的神经网络层，以下是几个常见的：

* nn.Linear(in_features, out_features)：全连接层，输入 in_features 个特征，输出 out_features 个特征。
* nn.Conv2d(in_channels, out_channels, kernel_size)：2D 卷积层，用于图像处理。
* nn.MaxPool2d(kernel_size)：2D 最大池化层，用于降维。
* nn.ReLU()：ReLU 激活函数，常用于隐藏层。
* nn.Softmax(dim)：Softmax 激活函数，通常用于输出层，适用于多类分类问题。

### 激活函数（Activation Function）
激活函数决定了神经元是否应该被激活。它们是非线性函数，使得神经网络能够学习和执行更复杂的任务。常见的激活函数包括：

* Sigmoid：用于二分类问题，输出值在 0 和 1 之间。
* Tanh：输出值在 -1 和 1 之间，常用于输出层之前。
* ReLU（Rectified Linear Unit）：目前最流行的激活函数之一，定义为 f(x) = max(0, x)，有助于解决梯度消失问题。
* Softmax：常用于多分类问题的输出层，将输出转换为概率分布

In [9]:
input = torch.randn(3, 4)
input

tensor([[ 0.1379, -0.1032,  0.6595,  1.4069],
        [ 1.5622,  0.6512, -0.7125, -0.4220],
        [-0.9806,  0.7302,  0.6728,  0.4321]])

In [6]:
import torch.nn.functional as F
output = F.relu(input)
output

tensor([[1.3437, 0.9957, 0.4564, 0.1309],
        [0.0000, 0.0000, 0.0000, 0.4279],
        [0.0891, 1.3674, 0.6743, 0.0000]])

In [7]:
output = F.sigmoid(input)
output

tensor([[0.7931, 0.7302, 0.6122, 0.5327],
        [0.2456, 0.2002, 0.2858, 0.6054],
        [0.5223, 0.7970, 0.6625, 0.1152]])

In [8]:
output = F.tanh(input)
output

tensor([[ 0.8726,  0.7598,  0.4272,  0.1301],
        [-0.8083, -0.8821, -0.7240,  0.4036],
        [ 0.0889,  0.8781,  0.5878, -0.9667]])

### 损失函数
损失函数用于衡量模型的预测值与真实值之间的差异。

常见的损失函数包括：

* 均方误差（MSELoss）：回归问题常用，计算输出与目标值的平方差。
* 交叉熵损失（CrossEntropyLoss）：分类问题常用，计算输出和真实标签之间的交叉熵。
* BCEWithLogitsLoss：二分类问题，结合了 Sigmoid 激活和二元交叉熵损失。

In [10]:
# 均方误差
criterion = nn.MSELoss()
criterion

MSELoss()

In [11]:
# 交叉熵损失
criterion = nn.CrossEntropyLoss()
criterion

CrossEntropyLoss()

In [12]:
# 二分类交叉熵损失
criterion = nn.BCEWithLogitsLoss()
criterion

BCEWithLogitsLoss()

### 优化器
优化器负责在训练过程中更新网络权重和偏置
常见的优化器包括：
* SGD（随机梯度下降）
* Adam（自适应矩估计）
* RMSprop（均方根传播）

In [14]:
import torch.optim as optim
# 使用 SGD 优化器
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 使用 Adam 优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)

### 训练神经网络的过程
1. 准备数据，通 DataLoader 加载数据
2. 定义损失函数和优化器
3. 前向传播：计算模型的输出
4. 计算损失：与目标值比较，得到损失值
5. 反向传播：计算梯度 loss.backward()
6. 更新参数：通过 optimizer.step() 更新模型的参数
7. 重复上述步骤，直到达到预定的训练轮数

In [15]:
# 10 个样本，每个样本有 2 个特征
X = torch.randn(10, 2)
# 10 个目标标签
Y = torch.randn(10, 1)
# 训练过程
for epoch in range(100):
    # 设置训练模式
    model.train()
    # 清楚梯度
    optimizer.zero_grad()
    # 前向传播
    output = model(X)
    # 计算损失
    loss = criterion(output, Y)
    # 反向传播
    loss.backward()
     # 更新权重
    optimizer.step()
    if (epoch + 1) % 10 == 0:  # 每 10 轮输出一次损失
        print(f'Epoch [{epoch + 1}/100], Loss: {loss.item():.4f}')


Epoch [10/100], Loss: 0.8294
Epoch [20/100], Loss: 0.8215
Epoch [30/100], Loss: 0.8136
Epoch [40/100], Loss: 0.8057
Epoch [50/100], Loss: 0.7978
Epoch [60/100], Loss: 0.7899
Epoch [70/100], Loss: 0.7819
Epoch [80/100], Loss: 0.7735
Epoch [90/100], Loss: 0.7646
Epoch [100/100], Loss: 0.7554


### 测试与评估
训练完成后，需要对模型进行测试和评估。

常见的步骤包括：

计算测试集的损失：测试模型在未见过的数据上的表现。
计算准确率（Accuracy）：对于分类问题，计算正确预测的比例。


In [16]:
# 假设你有测试集 X_test 和 Y_test
X_test = torch.randn(10, 2)
Y_test = torch.randn(10, 1)
model.eval()  # 设置模型为评估模式
with torch.no_grad():  # 在评估过程中禁用梯度计算
    output = model(X_test)
    loss = criterion(output, Y_test)
    print(f'Test Loss: {loss.item():.4f}')

Test Loss: 0.7610


### 神经网络类型
1. 前馈神经网络（Feedforward Neural Networks）：数据单向流动，从输入层到输出层，无反馈连接。
2. 卷积神经网络（Convolutional Neural Networks, CNNs）：适用于图像处理，使用卷积层提取空间特征。
3. 循环神经网络（Recurrent Neural Networks, RNNs）：适用于序列数据，如时间序列分析和自然语言处理，允许信息反馈循环。
4. 长短期记忆网络（Long Short-Term Memory, LSTM）：一种特殊的RNN，能够学习长期依赖关系。