# **深度学习系列：感知机（perceptron）**

在机器学习中，感知机（perceptron）是一种简单而经典的分类模型，只有 **输入层** 和 **输出层**，是 **二分类的线性分类器**。它可以解决**与（AND）**、**或（OR）** 等简单的线性可分问题，但无法解决复杂的 **异或（XOR）** 等非线性可分问题。

## **1. 单层感知机**

### 1.1 感知机（perceptron）是什么？
- 感知机是由美国学者 `Frank Rosenblatt` 在 1957 年提出的，它是一种 **模拟人脑神经元工作原理的模型**。感知机接收多个输入信号，通过 **加权求和并加上偏置值**，然后通过一个 **激活函数** 将结果转化为输出信号。
- 感知器是一种简单的 **二元分类器**，它试图将数据分为两类。简单来说，感知器可以被视为一个线性模型，它使用线性函数（通常是加权和）来预测输入数据的类别。

### 1.2 感知机的基本结构

- 输入层：由输入向量组成，每个输入都有一个权重。接收外部信息，不进行信息处理，只是将信息传递给输出层。
- 输出层：接收输入层的信号，通过加权求和并加上偏置值，然后通过一个激活函数（如 **阶跃函数**）将结果转化为输出信号。

为什么要学习这么古老的算法？感知机是神经网络的起源算法，它的工作原理和概念构成了深度学习算法的基础。通过了解感知机，可以掌握神经网络的基本组成单元、工作原理和训练方法，为后续学习更复杂的模型打下基础。

### 1.3 感知机的工作原理

单层感知机通过加权求和输入信号并加上偏置值，然后经过阶跃激活函数处理，输出二分类结果。
- 加权求和：输入信号被送往输出层时，会被分别乘以各自的权重，然后求和。
- 偏置值：用于调整输出层的激活阈值。
- 激活函数：在单层感知机中，常用的 **激活函数是阶跃函数**，它将大于某个阈值的结果输出为 1，小于阈值的结果输出为 0。

### 1.4 感知机的几何解释（训练目标）

- 在二维空间中，感知机的目标是找到 **一条直线**，这条直线将平面划分为两部分。
- 在多维空间中，感知机的目标是找到 **一个超平面**，这个超平面将空间划分为两部分。
- 以上的 **一条直线** 或 **一个超平面** 称为 **决策边界**（decision boundary）。

<center><img src="images/01-deeplearning_perceptron/perceptron-merge.png" style="width:90%"></center>

<center>图 1.5：决策边界（直线、超平面）</center>

### 1.5 感知机的数学表达式

假设我们有一个输入向量 $\mathbf{x}=[x_1, x_2, \ldots, x_n]$，并将 $\mathbf{x}$ 视为一个样本数据，其中的 $x_1, x_2, \ldots, x_n$ 等都是该样本的特征（$n$ 个特征），权重向量 $\mathbf{w}=[w_1, w_2, \ldots, w_n]$，以及一个偏置项 $b$。那么感知机的输出 $f(x)$ 可以用以下公式（**阶跃函数**）计算：

$$
\begin{align*}
  f(x) = \begin{cases} 
  1 & \text{if } \sum\limits_{i=1}\limits^{n} w_i x_i + b \geq 0 \\ 
  -1 & \text{if } \sum\limits_{i=1}\limits^{n} w_i x_i +b < 0
  \end{cases} \quad 或 \quad f(x) = \text{sign}(\mathbf{w} \cdot \mathbf{x} + b)
\end{align*}
$$

- 其中 $\sum\limits_{i=1}\limits^{n}w_i x_i$ 表示输入向量与权重向量的点积（内积）。
- $\text{sign}$ 是符号函数，若 $\mathbf{w} \cdot \mathbf{x} + b \geq 0$，则输出为 $1$，表示 **正类**（分类正确）；相反 $\mathbf{w} \cdot \mathbf{x} + b < 0$， 则输出为 $-1$，表示 **负类**（误分类）。
- $\hat{y}$ 或 $\hat{f(x)}$ 是预测值，即根据样本数据实际计算所得的值。

<center><img src="images/01-deeplearning_perceptron/perceptron-detail-1.png" style="width:90%"></center>

<center>图 1.4：前向传播网络</center>

### 1.6 感知机的损失函数

感知机中误分类点集合 $M$ 的说明：

在感知机的训练过程中，$M$ 表示误分类点的集合。具体来说，误分类点是指那些不满足分类条件的样本点，即对于真实的标签 $y_i$ 和感知机的预测结果 $\text{sign}(w \cdot x_i + b)$，当 $y_i (w \cdot x_i + b) \leq 0$ 时，该样本点 $(x_i, y_i)$ 被认为是误分类点，属于集合 $M$。

在感知机的训练过程中，误分类点集合 $M$ 是动态变化的。随着权重 $w$ 和偏置 $b$ 的不断更新，一些原本误分类的点可能会被正确分类，从而从集合 $M$ 中移除；同时，也可能会有新的误分类点加入集合 $M$。训练的目标是通过不断调整 $w$ 和 $b$，使得集合 $M$ 最终为空，即所有样本点都被正确分类。

感知机的损失函数基于误分类点的定义。以二维空间中的点为例，对于一个误分类点 $(x_i,y_i)$，
其满足：$y_i(w \cdot x_i + b) \leq 0$

感知机的损失函数为所有误分类点的损失之和：
$Loss(w,b) = -\sum\limits_{i \in M} y_i(w \cdot x_i + b)$，其中 $M$ 是所有误分类点的集合。

### 1.7 感知机的训练过程

感知机的训练过程是梯度下降法和误分类驱动的更新迭代机制。通过调整权重和偏置值，感知机可以在有限的迭代次数中收敛到一个能够将训练数据集正确分类的 **直线** 或 **超平面**。

- 定义损失函数：通常使用 **误分类点到分离超平面的距离** 作为损失函数。
- 优化方法：采用 **梯度下降法** 或 **其变种** 来优化损失函数，通过迭代更新权重和偏置值，使损失函数不断减小。
- 迭代更新：在每次迭代中，使用当前的权重和偏置值对训练数据集进行预测，计算预测值与真实标签之间的误差，并根据误差值来调整权重和偏置值。

<center><img src="images/01-deeplearning_perceptron/perceptron-detail-2.png" style="width:80%"></center>

<center>图 1.6：感知机的反向传播网络更新权重值</center>

### 感知机训练的数学推导过程

### 使用 PyTorch 框架训练感知机

## **2. 多层感知机（MLP）**

<style>
  table {
    width: 100%;
    border-collapse: collapse;
  }
  th, td {
    border: 1px solid black;
    padding: 8px;
    text-align: left;
  }
  th {
    width: 100px;
  }
  td {
    width: 150px;
  }
</style>

| 符号    | 显示    |
| -----    | -----    |
| \hat    | $\hat{A}, \hat{x}, \hat{y}, \hat{a}, \hat{b}$    |
| \widehat    | $\widehat{A}, \widehat{x}, \widehat{y}, \widehat{a}, \widehat{b}$    |
| \tilde    | $\tilde{A}, \tilde{x}, \tilde{y}, \tilde{a}, \tilde{b}$    |
| \widetilde    | $\widetilde{A}, \widetilde{x}, \widetilde{y}, \widetilde{a}, \widetilde{b}$    |
| \overline    | $\overline{A}, \overline{x}, \overline{y}, \overline{a}, \overline{b}$    |
| \underline    | $\underline{A}, \underline{x}, \underline{y}, \underline{a}, \underline{b}$    |
| \overbrace    | $\overbrace{A}, \overbrace{x}, \overbrace{y}, \overbrace{a}, \overbrace{b}$    |
| \underbrace    | $\underbrace{A}, \underbrace{x}, \underbrace{y}, \underbrace{a}, \underbrace{b}$    |
| \overleftarrow    | $\overleftarrow{A}, \overleftarrow{x}, \overleftarrow{y}, \overleftarrow{a}, \overleftarrow{b}$    |
| \overrightarrow    | $\overrightarrow{A}, \overrightarrow{x}, \overrightarrow{y}, \overrightarrow{a}, \overrightarrow{b}$    |