# PyTorch神经网络基础
神经网络是一种模仿人脑处理信息方式的计算模型，它由许多互相连接的节点（或称为神经元）组成。这些节点按层次排列，每个节点接收输入信号，进行处理后输出结果。神经网络可以用于分类、回归等多种任务。

神经网络的特变指出在于其能够自动从大量数据中学习复杂的模式和特征，无需人工设计特征提取器。随着深度学习的发展，神经网络已经成为解决许多复杂问题的关键因素。

## 1. 神经元（Neuron）
神经元是神经网络的基本单元，它接收输入信号，通过加权求和后与偏置（bias）相加，再通过激活函数（activation function）进行非线性变换，最后输出结果。

神经元的权重和偏置是网络学习过程中需要调整的参数。通过反向传播算法（backpropagation），神经网络可以根据输出结果与真实标签之间的误差，自动调整这些参数，以最小化误差。

### 输入与输出：
- 输入（Input）：神经元接收的信号，可以是来自其他神经元的输出，也可以是原始数据--特征数据，如图像的像素值或文本的词向量；
- 输出（Output）：网络的重点，表示模型的预测结果，如分类任务中的类别标签。

神经元接收多个输入（例如 $x_1, x_2, \ldots, x_n$），如果输入的加权和大于激活阈值（activation potential），则神经元被激活，输出1；否则输出0，即产生二进制输出。激活函数通常是非线性的，如Sigmoid、ReLU等。

![alt text](<assets/Neuron network.png>)

神经元的输出可以看作是输入的加权和加上偏置(Bias)，神经元的数学表示为：
$$
output = \sum_{i=1}^{n} w_i \cdot x_i + Bias
$$
其中，$w_i$ 是输入 $x_i$ 的权重，$Bias$ 是偏置项。
### 激活函数（Activation Function）
激活函数是神经元输出的非线性变换函数，它决定了神经元的输出值。常用的激活函数有：
- Sigmoid：将输入值映射到0到1之间，适用于二分类问题；
- ReLU（Rectified Linear Unit）：将负值映射为0，正值不变，适用于深度神经网络；
- Tanh：将输入值映射到-1到1之间，适用于二分类问题；
- Softmax：将输入值转换为概率分布，适用于多分类问题。
- Leaky ReLU：在ReLU的基础上，允许负值有小的斜率，避免神经元死亡问题。
- ELU（Exponential Linear Unit）：在ReLU的基础上，增加了负值的指数衰减，避免神经元死亡问题。
- Swish：结合了Sigmoid和ReLU的优点，具有平滑的非线性特性。
- GELU（Gaussian Error Linear Unit）：结合了高斯分布和线性函数，具有平滑的非线性特性。
- Mish：结合了Swish和Tanh的优点，具有平滑的非线性特性。
- Softplus：平滑的ReLU函数，避免了ReLU的非光滑性。
- Softsign：平滑的Tanh函数，避免了Tanh的非光滑性。
- Hard Sigmoid：近似Sigmoid函数，计算速度更快。
- Hard Swish：近似Swish函数，计算速度更快。
- Hard Tanh：近似Tanh函数，计算速度更快。

## 2. 层（Layer）
输入层与输出层之间的层被称为隐藏层，层与层之间的连接密度和类型构成了网络的配置。

神经网络由多个层组成，包括：
- 输入层（Input Layer）：接收原始输入数据；
- 隐藏层（Hidden Layer）：对输入数据进行特征提取和转换，通常有多个；
- 输出层（Output Layer）：输出最终的预测结果。

典型的神经网络架构如下：

![alt text](<assets/Classical_NN_structure.webp>)

### 3. 前馈神经网络（Feedforward Neural Network, FNN）
前馈神经网络是神经网络家族中的基本单元。

前馈神经网络特点是数据从输入层开始，经过一个或多个隐藏层，最终达到输出层，全过程没有循环或反馈连接。每一层的输出作为下一层的输入，数据在网络中单向流动。

![alt text](<assets/FNN.png>)

**前馈神经网络的基本结构包括**：
- 输入层：数据进入网络的入口点，输入层的每个节点代表一个输入特征；
- 隐藏层：一个或多个层，用于捕获数据的非线性特征，每个隐藏层由多个神经元组成，每个神经元通过激活函数增加非线性能力；
- 输出层：输出网络的预测结果。节点数和问题类型相关，例如分类问题的输出节点数等于类别数；
- 连接权重与偏置：每个神经元的输入通过权重进行加权求和，并加上偏置值，然后通过激活函数传递。

## 4. 循环神经网络结构（Recurrent Neural Network, RNN）
循环神经网络（RNN）是一类专门处理序列数据的神经网络，能够捕获输入数据中时间或顺序信息的依赖关系。RNN的基本思想是将前一时刻的输出作为当前时刻的输入之一，从而形成一个循环结构。

RNN的特别之处在于它具有记忆能力，可以在网络的隐藏状态中保存之前时间步的信息。循环神经网络用于处理时间变化的数据模式。

在RNN中，相同的层被用来接收输入参数，并在指定的神经网络中显示输出参数。

![alt text](<assets/RNN.png>)


## 5. Pytorch中的神经网络
PyTorch提供了相关的工具来构建和训练神经网络。神经网络在Pytorch中是通过`torch.nn`模块来实现的。我们可以使用`torch.nn.Module`类来定义一个神经网络模型，并在其中定义各个层和前向传播的方法。

`torch.nn`模块提供了各种网络层（如全连接层、卷积层、池化层等）、损失函数和优化器等，可以方便地构建和训练复杂的神经网络模型。

![alt text](<assets/pytorch_nn.png>)

在pytorch中，构建神经网络通常需要继承 `torch.nn.Module` 类。

`nn.Module`是所有神经网络模块的基类，通常需要定义以下两个部分：
- `__init__`：定义网络的结构，包括各个层的初始化；
- `forward`：定义前向传播的计算过程，指定输入数据如何通过网络进行处理。

简单的全连接神经网络（FNN）示例


In [1]:
import torch
import torch.nn as nn

# define a simple neural network model
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        # define a fully connected layer from input to hidden layer
        self.fc1 = nn.Linear(2, 2)           # input size 2, output size 2
        # define a fully connected layer from hidden to output layer
        self.fc2 = nn.Linear(2, 1)           # input size 2, output size 1

    def forward(self, x):
        # forward propagation process
        x = torch.relu(self.fc1(x))          # apply ReLU activation function
        x = self.fc2(x)                      # pass through the second layer
        return x                            # return the output

# create an instance of the model
model = SimpleNN()

# print the model architecture
print(model)

SimpleNN(
  (fc1): Linear(in_features=2, out_features=2, bias=True)
  (fc2): Linear(in_features=2, out_features=1, bias=True)
)


PyTorch 提供了许多常见的神经网络层，以下是几个常见的：

- `torch.nn.Linear(in_features, out_features)`：全连接层，输入特征数为 `in_features`，输出特征数为 `out_features`；
- `torch.nn.Conv2d(in_channels, out_channels, kernel_size)`：二维卷积层，输入通道数为 `in_channels`，输出通道数为 `out_channels`，卷积核大小为 `kernel_size`， 用于图像处理；
- `torch.nn.MaxPool2d(kernel_size)`：二维最大池化层，池化核大小为 `kernel_size`，用于下采样，即降维；
- `torch.nn.ReLU()`：ReLU激活函数层，常用于隐藏层；
- `torch.nn.Softmax(dim)`：Softmax激活函数层，通常用于输出层，适用于多分类问题，`dim`指定在哪个维度上进行归一化；


- `torch.nn.CrossEntropyLoss()`：交叉熵损失函数，通常用于分类任务；
- `torch.optim.SGD(params, lr)`：随机梯度下降优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.Adam(params, lr)`：Adam优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.AdamW(params, lr)`：AdamW优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.RMSprop(params, lr)`：RMSprop优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.Adagrad(params, lr)`：Adagrad优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.Adamax(params, lr)`：Adamax优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.NAdam(params, lr)`：NAdam优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.LBFGS(params, lr)`：LBFGS优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.SparseAdam(params, lr)`：SparseAdam优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.SparseAdam(params, lr)`：SparseAdam优化器，`params`是需要优化的参数，`lr`是学习率；
- `torch.optim.NAdam(params, lr)`：NAdam优化器，`params`是需要优化的参数，`lr`是学习率；

## 6. 损失函数（Loss Function）
损失函数是用来评估模型预测结果与真实标签之间差距的函数。它是神经网络训练过程中需要最小化的目标函数。常用的损失函数有：
- 均方误差（Mean Squared Error, MSELoss）：用于回归任务，计算预测值与真实值之间的平方差；
- 交叉熵损失（CrossEntropyLoss）：用于分类任务，计算预测概率分布与真实标签之间的差异；
- 二元交叉熵损失（BCEWithLogitsLoss）：用于二分类任务，计算预测值与真实标签之间的差异，结合了Sigmoid激活函数和BCELoss；

In [2]:
# Mean Squared Error (MSE) loss function
criterion = nn.MSELoss()
print("Loss function:", criterion)

# Cross-Entropy loss function
criterion_ce = nn.CrossEntropyLoss()
print("Cross-Entropy Loss function:", criterion_ce)

# BCEWithLogits loss function
criterion_bce = nn.BCEWithLogitsLoss()
print("BCEWithLogits Loss function:", criterion_bce)


Loss function: MSELoss()
Cross-Entropy Loss function: CrossEntropyLoss()
BCEWithLogits Loss function: BCEWithLogitsLoss()


## 7. 优化器（Optimizer）
优化器负责在训练过程中更新网络的权重和偏置。

常见的优化器包括：
- 随机梯度下降（SGD）：最基本的优化器，通过计算损失函数的梯度来更新参数；
- Adam：自适应学习率优化器，结合了动量和RMSprop的优点，适用于大规模数据和高维参数空间；
- Adagrad：自适应学习率优化器，适用于稀疏数据；
- RMSprop：自适应学习率优化器，适用于非平稳目标；
- Adadelta：自适应学习率优化器，改进了Adagrad的缺点；
- AdamW：Adam优化器的改进版本，增加了权重衰减（weight decay）；
- Nadam：结合了Adam和Nesterov动量的优化器；
- LBFGS：拟牛顿优化器，适用于小规模数据集；
- Rprop：适用于小规模数据集的优化器；
- FTRL：适用于大规模数据集的优化器；
- RMSprop：适用于非平稳目标的优化器；
- Rprop：适用于小规模数据集的优化器；
- FTRL：适用于大规模数据集的优化器；
- LARS：适用于大规模数据集的优化器；
- LAMB：适用于大规模数据集的优化器；

In [3]:
import torch.optim as optim

# use Stochastic Gradient Descent (SGD) optimizer
optimizer = optim.SGD(model.parameters(), lr=0.01)  # learning rate 0.01
print("Optimizer:", optimizer)

# use Adam optimizer
optimizer_adam = optim.Adam(model.parameters(), lr=0.001)  # learning rate 0.001
print("Adam Optimizer:", optimizer_adam)

Optimizer: SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    fused: None
    lr: 0.01
    maximize: False
    momentum: 0
    nesterov: False
    weight_decay: 0
)
Adam Optimizer: Adam (
Parameter Group 0
    amsgrad: False
    betas: (0.9, 0.999)
    capturable: False
    decoupled_weight_decay: False
    differentiable: False
    eps: 1e-08
    foreach: None
    fused: None
    lr: 0.001
    maximize: False
    weight_decay: 0
)


## 8. 训练过程（Training Process）
训练神经网络的过程通常包括以下几个步骤：
1. **数据准备**：加载和预处理数据集，将数据划分为训练集、验证集和测试集，通过`torch.utils.data.DataLoader`来加载数据；
2. **模型定义**：定义神经网络模型，通常需要继承`torch.nn.Module`类，并实现`__init__`和`forward`方法；
3. **损失函数和优化器定义**：选择合适的损失函数和优化器；
4. **前向传播**：将输入数据传入模型，计算输出结果；
5. **计算损失**：使用损失函数计算模型输出与真实标签之间的差距，得到损失值；
6. **反向传播**：通过`loss.backward()`计算梯度；
7. **参数更新**：使用优化器更新模型参数，通过`optimizer.step()`实现；
8. 重复上述步骤，直到达到预设的训练轮数或损失收敛；

In [4]:
# assume we have defined the model, loss function, and optimizer

# an instance of training data
X = torch.randn(10, 2)  # 10 samples, and each sample has 2 features
y = torch.randn(10, 1)  # 10 target labels, each with 1 value

# training loop
for epoch in range(100):     # train for 100 epochs
    model.train()          # set the model to training mode
    optimizer.zero_grad()  # clear the gradients
    outputs = model(X)     # forward pass
    loss = criterion(outputs, y)  # compute the loss
    loss.backward()        # backpropagation
    optimizer.step()       # update the weights

    if (epoch + 1) % 10 == 0:  # print every 10 epochs
        print(f'Epoch [{epoch + 1}/100], Loss: {loss.item():.4f}')
        # print the loss value

Epoch [10/100], Loss: 1.5729
Epoch [20/100], Loss: 1.5428
Epoch [30/100], Loss: 1.5194
Epoch [40/100], Loss: 1.5009
Epoch [50/100], Loss: 1.4859
Epoch [60/100], Loss: 1.4737
Epoch [70/100], Loss: 1.4636
Epoch [80/100], Loss: 1.4551
Epoch [90/100], Loss: 1.4479
Epoch [100/100], Loss: 1.4417


## 9. 模型评估（Model Evaluation）
训练完成后，需要对模型进行评估，以了解其在测试集上的性能。常用的评估指标包括：
- 准确率（Accuracy）：分类任务中正确预测的样本数与总样本数之比；
- 精确率（Precision）：分类任务中正确预测的正类样本数与预测为正类的样本数之比；
- 召回率（Recall）：分类任务中正确预测的正类样本数与实际正类样本数之比；

步骤为：
- **计算测试集的损失**：测试模型在未见过的数据上的表现；
- **计算准确率**：对于跟类问题，计算正确预测的比例；
- **绘制混淆矩阵**：可视化分类结果，帮助分析模型的分类性能；

In [5]:
# assume we have test data: X_test, Y_test
model.eval()  # set the model to evaluation mode
with torch.no_grad():  # no need to compute gradients
    test_outputs = model(X)  # forward pass on test data
    test_loss = criterion(test_outputs, y)  # compute the loss
    print(f'Test Loss: {test_loss.item():.4f}')  # print the test loss

Test Loss: 1.4411


## 10. 神经网络类型
1. 前馈神经网络（Feedforward Neural Network, FNN）：最基本的神经网络类型，数据从输入层经过隐藏层到达输出层，没有循环或反馈连接；
2. 卷积神经网络（Convolutional Neural Network, CNN）：主要用于图像处理，通过卷积层提取特征，适用于图像分类、目标检测等任务；
3. 循环神经网络（Recurrent Neural Network, RNN）：主要用于处理序列数据，具有记忆能力，适用于自然语言处理、时间序列预测等任务；
4. 长短时记忆网络（Long Short-Term Memory, LSTM）：RNN的一种变体，解决了RNN在长序列数据中梯度消失和爆炸的问题，能够学习长期依赖关系。