# **深度学习系列：感知机（perceptron）**

## **目录**

- 0.概论
- 1.单层感知机
- 2.多层感知机（MLP）

## **0.概论**

在机器学习中，感知机（perceptron）是一种简单而经典的分类模型，只有 **输入层** 和 **输出层**，是 **线性二分类器**。

它可以解决**与（AND）**、**或（OR）** 等简单的线性可分问题，但无法解决复杂的 **异或（XOR）** 等非线性可分问题。如果数据集不是线性可分的，感知机可能无法收敛。此外，感知机的解可能不唯一，因为可能存在多个超平面能够正确划分数据。

感知机的变体包括：多层感知机（**MLP**）、支持向量机（**SVM**）

## **1. 单层感知机**

### 1.1 感知机（perceptron）是什么？
- 感知机是由美国学者 `Frank Rosenblatt` 在 1957 年提出的，它是一种 **模拟人脑神经元工作原理的模型**。感知机接收多个输入信号，通过 **加权求和并加上偏置值**，然后通过一个 **激活函数** 将结果转化为输出信号。
- 感知器是一种简单的 **二元分类器**，它试图将数据分为两类。简单来说，感知器可以被视为一个线性模型，它使用线性函数（通常是加权和）来预测输入数据的类别。

### 1.2 感知机的基本结构

- 输入层：由输入向量组成，每个输入都有一个权重。接收外部信息，不进行信息处理，只是将信息传递给输出层。
- 输出层：接收输入层的信号，通过加权求和并加上偏置值，然后通过一个激活函数（如 **阶跃函数**）将结果转化为输出信号。

为什么要学习这么古老的算法？感知机是神经网络的起源算法，它的工作原理和概念构成了深度学习算法的基础。通过了解感知机，可以掌握神经网络的基本组成单元、工作原理和训练方法，为后续学习更复杂的模型打下基础。

### 1.3 感知机的数学表达式

假设有一个输入空间，即特征向量 $\mathbf{x}=[x_1, x_2, \ldots, x_n]\subseteq{\mathbb{R}^n}$（$n$ 维的实数空间），并将 $\mathbf{x}$ 视为一个样本，其中的 $x_1, x_2, \ldots, x_n$ 等都是该样本的特征（$n$ 个特征），权重向量 $\mathbf{w}=[w_1, w_2, \ldots, w_n]$，以及一个偏置项 $b$。那么感知机的输出空间 $\hat{f(x)}\in{-1,+1}$。可以用以下公式（**阶跃函数**）计算：

$$
\begin{align*}
  \hat{f(x)} = \begin{cases} 
  +1 & \text{if } \sum\limits_{i=1}\limits^{n} w_i x_i + b \geq 0 \\ 
  -1 & \text{if } \sum\limits_{i=1}\limits^{n} w_i x_i +b < 0
  \end{cases} \quad 或 \quad \hat{f(x)} = \text{sign}(\mathbf{w} \cdot \mathbf{x} + b)
\end{align*}
$$

- 权重 $w$ 与偏执值 $b$ 均称为感知机的参数（注意：权重参数的个数由特征的个数确定）
- 其中 $\sum\limits_{i=1}\limits^{n}w_i x_i$ 表示输入的特征向量与权重向量的点积（内积）。
- $\text{sign}$ 是符号函数，若 $\mathbf{w} \cdot \mathbf{x} + b \geq 0$，则输出为 $1$，表示 **正类**；相反 $\mathbf{w} \cdot \mathbf{x} + b < 0$， 则输出为 $-1$，表示 **负类**。
- $\hat{y}$ 或 $\hat{f(x)}$ 是预测值，即根据样本数据实际计算所得的值。

<center><img src="images/01-deeplearning_perceptron/perceptron-detail-1.jpg" style="width:70%"></center>

<center>图 1.5：感知机的前向传播</center>

### 1.4 感知机的几何解释（训练目标）

- 在二维空间中，感知机的目标是找到 **一条直线**，这条直线将平面划分为两部分。
- 在多维空间中，感知机的目标是找到 **一个超平面**，这个超平面将空间划分为两部分。
- 以上的 **一条直线** 或 **一个超平面** 称为 **决策边界**（decision boundary）。

<center><img src="images/01-deeplearning_perceptron/perceptron-merge.png" style="width:90%"></center>

<center>图 1.4-1：决策边界（直线、超平面）</center>

因此，线性方程 $\mathbf{w} \cdot \mathbf{x}^\top + b = 0$ 对应输入 $\mathbb{R}^n$ 空间中的一个超平面 $\symbfit{S}$，即权重向量 $\mathbf{w}$ 为该超平面的法向量，偏执值为超平面的截距。
$$
  \begin{align*}
    \mathbf{w} \cdot \mathbf{x}^\top + b &= [w_1, w_2, w_3, \cdots, w_n] \cdot \begin{bmatrix} x_1, \\ x_2, \\ x_3, \\ \vdots, \\ x_n \end{bmatrix} + b \\
    &= w_1\cdot{x_1} + w_2\cdot{x_2} + w_3\cdot{x_3} + \cdots + w_n\cdot{x_n} + b
  \end{align*}
$$
✍ 关于 $\mathbf{w} \cdot \mathbf{x}^\top + b = 0$ 的推导过程可参考此文章 [法向量与超平面]()。超平面的概念非常重要，在机器学习的 `SVM` 中使用。

<center><img src="images/01-deeplearning_perceptron/perceptron-learning-algo.webp" style="width:60%"></center>

<center>图 1.4-2：动态表示训练与寻找决策边界的关系</center>

### 1.5 感知机的损失函数

感知机的损失函数基于误分类点的定义，并选择误分类点到超平面 $\symbfit{S}$ 的总距离作为其损失函数。

感知机中 **误分类点** 集合 $\symbfit{M}$ 的说明：

在感知机的训练过程中，$M$ 表示误分类点的集合。具体来说，误分类点是指那些不满足分类条件的样本点，即对于真实的标签 $y_i$ 和感知机的预测结果 $\text{sign}(w \cdot x_i + b)$，当 $y_i (w \cdot x_i + b) \leq 0$ 时，该样本点 $(x_i, y_i)$ 被认为是误分类点，属于集合 $M$。

在感知机的训练过程中，误分类点集合 $M$ 是动态变化的。随着权重 $w$ 和偏置 $b$ 的不断更新，一些原本误分类的点可能会被正确分类，从而从集合 $M$ 中移除；同时，也可能会有新的误分类点加入集合 $M$。训练的目标是通过不断调整 $w$ 和 $b$，使得集合 $M$ 最终为**空**，即所有样本点都被正确分类。

因此，根据其几何意义，可知误分类点到超平面 $\symbfit{S}$ 的总距离为：
$$
  \begin{align*}
    -\sum\limits_{i \in M} \frac{y_i(\mathbf{w} \cdot \mathbf{x}^\top + b)}{\Vert w \Vert} \Rightarrow -\frac{1}{\Vert w \Vert} \sum\limits_{i \in M} y_i(\mathbf{w} \cdot \mathbf{x}^\top + b)
  \end{align*}
$$
可省略 $\frac{1}{\Vert w \Vert}$，则损失函数可表示为：
$$
  \begin{align*}
    \mathcal{Loss}(w,b) = -\sum\limits_{i \in M} y_i(w \cdot x_i + b)
  \end{align*}
$$
其中 $M$ 是所有误分类点的集合，$w$ 是集合中样本的每个特征对应的权重，$x_i$ 是样本的每个特征值，$b$ 是偏执值，损失函数是关于 $w$ 与 $b$ 的二元函数。

### 1.6 感知机的训练过程

感知机的训练过程是梯度下降法和误分类驱动的更新迭代机制。通过调整权重和偏置值，感知机可以在有限的迭代次数中收敛到一个能够将训练数据集正确分类的 **直线** 或 **超平面**。

- 初始化参数：初始化权重向量 $w$ 和偏置 $b$。通常可以将权重初始化为零向量，偏置初始化为零，也可以随机初始化。
- 数据输入：将训练数据集 ${(x_1,y_1), (x_2,y_2),\cdots,(x_i,y_i)}$ 输入模型。其中 $x_i$ 是特征向量，$y_i$ 是对应的标签（取值为 +1 或 -1）。 
- 定义损失函数：通常使用 **误分类点到分离超平面的距离** 作为损失函数。
- 优化方法：
  - 采用 **梯度下降法** 或 **其变种** 来优化损失函数，通过迭代更新权重和偏置值，使损失函数不断减小。
  - 单个样本损失函数的梯度计算如下：
    $$
      \begin{align*}
        \nabla_w \mathcal{Loss(w,b)} &= \frac{\partial \mathcal{Loss(w,b)}}{\partial w} = -\sum\limits_{i \in M} y_i x_i &\quad (1) \\
        \nabla_b \mathcal{Loss(w,b)} &= \frac{\partial \mathcal{Loss(w,b)}}{\partial b} = -\sum\limits_{i \in M} y_i     &\quad (2)
      \end{align*}
    $$
- 迭代更新：
  - 通过不断更新权重 $w$ 和偏置 $b$，使得误分类点的数目逐渐减少，直到所有数据点都被正确分类。
  - 选择一个误分类点：遍历数据集，找到一个满足 $y_i(w \cdot x_i +b)\leq0$ 的误分类点 $(x_i,y_i)$。
  - 根据 $(1)$ 式与 $(2)$ 式更新权重和偏执：
    $$
      \begin{align*}
      w & \gets w + \eta y_ix_i \\
      b & \gets b + \eta y_i
      \end{align*}
    $$
    其中 $\eta$ 是学习率（learning rate），它是一个正数，用于控制更新的步长。
- 检查收敛条件：
  - 检查是否还有误分类点：遍历整个数据集，检查是否存在误分类点。如果所有数据点都被正确分类，则训练结束。
  - 设置最大迭代次数：为了避免陷入无限循环，通常会设置一个最大迭代次数。如果达到最大迭代次数仍未收敛，可以停止训练。
- 训练结束：当训练结束时，感知机找到了一个能够将数据集正确分类的权重向量 $w$ 和偏置 $b$。 

<center><img src="images/01-deeplearning_perceptron/perceptron-detail-2.png" style="width:80%"></center>

<center>图 1.6：感知机的反向传播更新权重值</center>

### 1.7 感知机训练的数学推导示例

#### 1.7.1 数据集定义
假设有以下训练数据集，用于二分类问题（类别标签为 +1 和 -1）：

| 样本 | 特征 $x_1$ | 特征 $x_2$ | 标签 $y$ |
|------|--------------|--------------|------------|
| 1    | 1            | 2            | +1         |
| 2    | 2            | 1            | +1         |
| 3    | 3            | 4            | -1         |
| 4    | 4            | 3            | -1         |

#### 1.7.2 初始化参数
- 权重向量 $w = [0, 0]$
- 偏置 $b = 0$
- 学习率 $\eta = 1$

#### 1.7.3 训练过程

##### 👉 第1次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$w \cdot x + b = 0 \times 1 + 0 \times 2 + 0 = 0$
  - 预测标签：$\text{sign}(0) = +1$（正确分类，不更新）
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$0 \times 2 + 0 \times 1 + 0 = 0$
  - 预测标签：$+1$（正确分类，不更新）
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$0 \times 3 + 0 \times 4 + 0 = 0$
  - 预测标签：$+1$（误分类）
  - 更新权重和偏置：
    $$
    w = w + \eta y x = [0 + (-1) \times 3, 0 + (-1) \times 4] = [-3, -4]
    $$
    $$
    b = b + \eta y = 0 + (-1) = -1
    $$
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$-3 \times 4 + (-4) \times 3 + (-1) = -12 -12 -1 = -25$
  - 预测标签：$-1$（正确分类，不更新）

##### 👉 第2次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$-3 \times 1 + (-4) \times 2 + (-1) = -3 -8 -1 = -12$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-3, -4] + 1 \times 1 \times [1, 2] = [-3 + 1, -4 + 2] = [-2, -2]
    $$
    $$
    b = -1 + 1 \times 1 = 0
    $$
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$-2 \times 2 + (-2) \times 1 + 0 = -4 -2 + 0 = -6$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-2, -2] + 1 \times 1 \times [2, 1] = [-2 + 2, -2 + 1] = [0, -1]
    $$
    $$
    b = 0 + 1 \times 1 = 1
    $$
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$0 \times 3 + (-1) \times 4 + 1 = 0 -4 + 1 = -3$
  - 预测标签：$-1$（正确分类，不更新）
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$0 \times 4 + (-1) \times 3 + 1 = 0 -3 + 1 = -2$
  - 预测标签：$-1$（正确分类，不更新）

##### 👉 第3次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$0 \times 1 + (-1) \times 2 + 1 = 0 -2 + 1 = -1$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [0, -1] + 1 \times 1 \times [1, 2] = [0 + 1, -1 + 2] = [1, 1]
    $$
    $$
    b = 1 + 1 \times 1 = 2
    $$
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$1 \times 2 + 1 \times 1 + 2 = 2 + 1 + 2 = 5$
  - 预测标签：$+1$（正确分类，不更新）
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$1 \times 3 + 1 \times 4 + 2 = 3 + 4 + 2 = 9$
  - 预测标签：$+1$（误分类）
  - 更新权重和偏置：
    $$
    w = [1, 1] + 1 \times (-1) \times [3, 4] = [1 - 3, 1 - 4] = [-2, -3]
    $$
    $$
    b = 2 + 1 \times (-1) = 1
    $$
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$-2 \times 4 + (-3) \times 3 + 1 = -8 -9 + 1 = -16$
  - 预测标签：$-1$（正确分类，不更新）

##### 👉 第4次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$-2 \times 1 + (-3) \times 2 + 1 = -2 -6 + 1 = -7$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-2, -3] + 1 \times 1 \times [1, 2] = [-2 + 1, -3 + 2] = [-1, -1]
    $$
    $$
    b = 1 + 1 \times 1 = 2
    $$
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$-1 \times 2 + (-1) \times 1 + 2 = -2 -1 + 2 = -1$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-1, -1] + 1 \times 1 \times [2, 1] = [-1 + 2, -1 + 1] = [1, 0]
    $$
    $$
    b = 2 + 1 \times 1 = 3
    $$
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$1 \times 3 + 0 \times 4 + 3 = 3 + 0 + 3 = 6$
  - 预测标签：$+1$（误分类）
  - 更新权重和偏置：
    $$
    w = [1, 0] + 1 \times (-1) \times [3, 4] = [1 - 3, 0 - 4] = [-2, -4]
    $$
    $$
    b = 3 + 1 \times (-1) = 2
    $$
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$-2 \times 4 + (-4) \times 3 + 2 = -8 -12 + 2 = -18$
  - 预测标签：$-1$（正确分类，不更新）

##### 👉 第5次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$-2 \times 1 + (-4) \times 2 + 2 = -2 -8 + 2 = -8$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-2, -4] + 1 \times 1 \times [1, 2] = [-2 + 1, -4 + 2] = [-1, -2]
    $$
    $$
    b = 2 + 1 \times 1 = 3
    $$
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$-1 \times 2 + (-2) \times 1 + 3 = -2 -2 + 3 = -1$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-1, -2] + 1 \times 1 \times [2, 1] = [-1 + 2, -2 + 1] = [1, -1]
    $$
    $$
    b = 3 + 1 \times 1 = 4
    $$
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$1 \times 3 + (-1) \times 4 + 4 = 3 -4 + 4 = 3$
  - 预测标签：$+1$（误分类）
  - 更新权重和偏置：
    $$
    w = [1, -1] + 1 \times (-1) \times [3, 4] = [1 - 3, -1 - 4] = [-2, -5]
    $$
    $$
    b = 4 + 1 \times (-1) = 3
    $$
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$-2 \times 4 + (-5) \times 3 + 3 = -8 -15 + 3 = -20$
  - 预测标签：$-1$（正确分类，不更新）

##### 👉 第6次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$-2 \times 1 + (-5) \times 2 + 3 = -2 -10 + 3 = -9$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-2, -5] + 1 \times 1 \times [1, 2] = [-2 + 1, -5 + 2] = [-1, -3]
    $$
    $$
    b = 3 + 1 \times 1 = 4
    $$
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$-1 \times 2 + (-3) \times 1 + 4 = -2 -3 + 4 = -1$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-1, -3] + 1 \times 1 \times [2, 1] = [-1 + 2, -3 + 1] = [1, -2]
    $$
    $$
    b = 4 + 1 \times 1 = 5
    $$
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$1 \times 3 + (-2) \times 4 + 5 = 3 -8 + 5 = 0$
  - 预测标签：$+1$（误分类）
  - 更新权重和偏置：
    $$
    w = [1, -2] + 1 \times (-1) \times [3, 4] = [1 - 3, -2 - 4] = [-2, -6]
    $$
    $$
    b = 5 + 1 \times (-1) = 4
    $$
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$-2 \times 4 + (-6) \times 3 + 4 = -8 -18 + 4 = -22$
  - 预测标签：$-1$（正确分类，不更新）

##### 👉 第7次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$-2 \times 1 + (-6) \times 2 + 4 = -2 -12 + 4 = -10$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-2, -6] + 1 \times 1 \times [1, 2] = [-2 + 1, -6 + 2] = [-1, -4]
    $$
    $$
    b = 4 + 1 \times 1 = 5
    $$
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$-1 \times 2 + (-4) \times 1 + 5 = -2 -4 + 5 = -1$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-1, -4] + 1 \times 1 \times [2, 1] = [-1 + 2, -4 + 1] = [1, -3]
    $$
    $$
    b = 5 + 1 \times 1 = 6
    $$
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$1 \times 3 + (-3) \times 4 + 6 = 3 -12 + 6 = -3$
  - 预测标签：$-1$（正确分类，不更新）
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$1 \times 4 + (-3) \times 3 + 6 = 4 -9 + 6 = 1$
  - 预测标签：$+1$（误分类）
  - 更新权重和偏置：
    $$
    w = [1, -3] + 1 \times (-1) \times [4, 3] = [1 - 4, -3 - 3] = [-3, -6]
    $$
    $$
    b = 6 + 1 \times (-1) = 5
    $$

##### 👉 第8次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$-3 \times 1 + (-6) \times 2 + 5 = -3 -12 + 5 = -10$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-3, -6] + 1 \times 1 \times [1, 2] = [-3 + 1, -6 + 2] = [-2, -4]
    $$
    $$
    b = 5 + 1 \times 1 = 6
    $$
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$-2 \times 2 + (-4) \times 1 + 6 = -4 -4 + 6 = -2$
  - 预测标签：$-1$（误分类）
  - 更新权重和偏置：
    $$
    w = [-2, -4] + 1 \times 1 \times [2, 1] = [-2 + 2, -4 + 1] = [0, -3]
    $$
    $$
    b = 6 + 1 \times 1 = 7
    $$
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$0 \times 3 + (-3) \times 4 + 7 = 0 -12 + 7 = -5$
  - 预测标签：$-1$（正确分类，不更新）
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$0 \times 4 + (-3) \times 3 + 7 = 0 -9 + 7 = -2$
  - 预测标签：$-1$（正确分类，不更新）

##### 👉 第9次迭代
- **样本1**：$x = [1, 2]$，$y = +1$
  - 计算预测值：$0 \times 1 + (-3) \times 2 + 7 = 0 -6 + 7 = 1$
  - 预测标签：$+1$（正确分类，不更新）
- **样本2**：$x = [2, 1]$，$y = +1$
  - 计算预测值：$0 \times 2 + (-3) \times 1 + 7 = 0 -3 + 7 = 4$
  - 预测标签：$+1$（正确分类，不更新）
- **样本3**：$x = [3, 4]$，$y = -1$
  - 计算预测值：$0 \times 3 + (-3) \times 4 + 7 = 0 -12 + 7 = -5$
  - 预测标签：$-1$（正确分类，不更新）
- **样本4**：$x = [4, 3]$，$y = -1$
  - 计算预测值：$0 \times 4 + (-3) \times 3 + 7 = 0 -9 + 7 = -2$
  - 预测标签：$-1$（正确分类，不更新）

#### 1.7.4 训练结束
经过9次迭代后，所有样本都被正确分类，训练结束。最终的模型参数为：
- 权重向量 $w = [0, -3]$
- 偏置 $b = 7$

#### 1.7.5 验证模型
使用最终的模型参数验证所有样本：
- **样本1**：$0 \times 1 + (-3) \times 2 + 7 = 1$ $\rightarrow$ $+1$（正确）
- **样本2**：$0 \times 2 + (-3) \times 1 + 7 = 4$ $\rightarrow$ $+1$（正确）
- **样本3**：$0 \times 3 + (-3) \times 4 + 7 = -5$ $\rightarrow$ $-1$（正确）
- **样本4**：$0 \times 4 + (-3) \times 3 + 7 = -2$ $\rightarrow$ $-1$（正确）

### 1.8 使用 PyTorch 框架训练感知机

## **2. 多层感知机（MLP）**