## 01.线性神经网络

### 1-1：线性回归

#### **预测值定义**

正如高中学过的最小二乘法，线性回归的目标是拟合一条直线，使得损失函数最小化。线性回归的数学表达式为：
$$
y = w_1 x_1 + w_2 x_2 + \cdots + w_d x_d + b
$$

其中，$y$ 是预测值，$x_1, x_2, \ldots, x_d$ 是输入特征，$w_1, w_2, \ldots, w_d$ 是对应的权重，$b$ 是偏置项。  
为了方便，我们用向量形式表示上述公式：
$$
y = \mathbf{w}^T \mathbf{x} + b
$$
其中，$\mathbf{w} = [w_1, w_2, \ldots, w_d]^T$ 是权重向量，$\mathbf{x} = [x_1, x_2, \ldots, x_d]^T$ 是输入特征向量。

#### **损失函数**

线性回归采用 **均方误差（MSE）** 作为损失函数，定义如下：
$$
L(\mathbf{w}, b) = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{2} (y_i - \hat{y}_i)^2
$$
其中，$N$ 是样本数量，$y_i$ 是第 $i$ 个样本的真实值，$\hat{y}_i$ 是第 $i$ 个样本的预测值。

#### **解析解**

由线性代数知识得到线性回归的解析解如下：
$$\mathbf{w} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$$
$$b = \bar{y} - \mathbf{w}^T \bar{\mathbf{x}}$$
其中，$\mathbf{X}$ 是输入特征矩阵，$\mathbf{y}$ 是目标值向量，$\bar{y}$ 是目标值的平均值，$\bar{\mathbf{x}}$ 是输入特征的平均值。

然而实际上数据一般会有噪声，导致 $\mathbf{X}^T \mathbf{X}$ 不可逆，因此直接求解析解虽然快而简单，但并不实用。下面介绍梯度下降法，通过逐步迭代求解。

#### **梯度下降法**

我们将现有数据和特征代入损失函数，得到如下表达式：
$$L(\mathbf{w}, b) = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{2} (y_i - (\mathbf{w}^T \mathbf{x}^{(i)} + b))^2$$
其中 $\mathbf{x}^{(i)}$ 是第 $i$ 个样本的输入特征向量。  
梯度方向就是损失函数下降最快的方向，因此接下来我们将计算损失函数关于权重 $\mathbf{w}$ 和偏置 $b$ 的梯度。

梯度的计算如下：
$$\frac{\partial L}{\partial \mathbf{w}} = -\frac{1}{N} \sum_{i=1}^{N} (y_i - (\mathbf{w}^T \mathbf{x}^{(i)} + b)) \mathbf{x}^{(i)}$$
$$\frac{\partial L}{\partial b} = -\frac{1}{N} \sum_{i=1}^{N} (y_i - (\mathbf{w}^T \mathbf{x}^{(i)} + b))$$

我们采用以下的式子来更新权重和偏置：
$$\mathbf{w} := \mathbf{w} - \alpha \frac{\partial L}{\partial \mathbf{w}}$$
$$b := b - \alpha \frac{\partial L}{\partial b}$$
其中，$\alpha$ 是学习率，是一个超参数，控制每次更新的步长大小。如果 $\alpha$ 太大，可能会导致损失函数震荡甚至发散；如果 $\alpha$ 太小，收敛速度会非常慢。

#### **预测**

在训练完成后，我们可以使用以下公式进行预测：
$$\hat{y} = \mathbf{w}^T \mathbf{x} + b$$
其中，$\hat{y}$ 是预测值，$\mathbf{x}$ 是输入特征向量。

### 代码实操

下面我们使用 PyTorch 随机生成数据进行线性回归测试。

接下来我们定义线性回归需要的代码。