# **1.2 深度学习系列（1）：感知机（perceptron）**

在机器学习中，感知机（perceptron）是最简单的神经网络模型之一，只有 **输入层** 和 **输出层**，是 **二分类的线性分类器**。它可以解决**与（AND）**、**或（OR）** 等简单的线性可分问题，但无法解决复杂的 **异或（XOR）** 等非线性可分问题。

## **单层感知机**

### **感知机（perceptron）是什么？** 
- 感知机是由美国学者 `Frank Rosenblatt` 在 1957 年提出的，它是一种 **模拟人脑神经元工作原理的模型**。感知机接收多个输入信号，通过 **加权求和并加上偏置值**，然后通过一个 **激活函数** 将结果转化为输出信号。
- 感知器是一种简单的 **二元分类器**，它试图将数据分为两类。简单来说，感知器可以被视为一个线性模型，它使用线性函数（通常是加权和）来预测输入数据的类别。

### **感知机的基本结构**

- 输入层：由输入向量组成，每个输入都有一个权重。接收外部信息，不进行信息处理，只是将信息传递给输出层。
- 输出层：接收输入层的信号，通过加权求和并加上偏置值，然后通过一个激活函数（如 **阶跃函数**）将结果转化为输出信号。

为什么要学习这么古老的算法？感知机是神经网络的起源算法，它的工作原理和概念构成了深度学习算法的基础。通过了解感知机，可以掌握神经网络的基本组成单元、工作原理和训练方法，为后续学习更复杂的模型打下基础。

### **感知机的工作原理是什么？** 

单层感知机通过加权求和输入信号并加上偏置值，然后经过阶跃激活函数处理，输出二分类结果。
- 加权求和：输入信号被送往输出层时，会被分别乘以各自的权重，然后求和。
- 偏置值：用于调整输出层的激活阈值。
- 激活函数：在单层感知机中，常用的 **激活函数是阶跃函数**，它将大于某个阈值的结果输出为 1，小于阈值的结果输出为 0。

### **数学公式**

假设我们有一个输入向量 $\mathbf{x}=[x_1, x_2, \ldots, x_n]$，权重向量 $\mathbf{w}=[w_1, w_2, \ldots, w_n]$，以及一个阈值 $b$。感知机的输出 $y$ 可以用以下公式（**阶跃函数**）计算：

<div style="text-align:center">
    \[ 
    y = \begin{cases} 
    1 & \text{if } \sum w_i x_1 + b > 0 \\ 
    0 & \text{if } \sum w_i x_i +b \leq 0
    \end{cases} 
    \]
</div>

这里的 $\sum\limits_{i=1}\limits^{n}w_i x_i$ 表示输入向量与权重向量的点积。如果加权和大于阈值 $b$，则输出为1，表示正类；否则输出为 0，表示负类。

![perceptron-detail-1](images/01-deeplearning_perceptron/perceptron-detail-1.png)

### **感知机的几何解释**

- 在二维空间中，感知机可以被视作 **一条直线**，这条直线将平面划分为两部分。输入向量位于这条直线的一侧或另一侧决定了输出类别。
- 在更高维度中，感知机可以被视作 **一个超平面**，它将空间划分为两部分。

![perceptron-merge](images/01-deeplearning_perceptron/perceptron-merge.png)

### **感知机的训练过程是什么？** 

通过调整权重和偏置值，感知机可以在有限的迭代次数中收敛到一个能够将训练数据集正确分类的 **分离超平面**。

- 定义损失函数：通常使用 **误分类点到分离超平面的距离** 作为损失函数。
- 优化方法：采用 **梯度下降法** 或 **其变种** 来优化损失函数，通过迭代更新权重和偏置值，使损失函数不断减小。
- 迭代更新：在每次迭代中，使用当前的权重和偏置值对训练数据集进行预测，计算预测值与真实标签之间的误差，并根据误差值来调整权重和偏置值。

![perceptron-detail-2](images/01-deeplearning_perceptron/perceptron-detail-2.png)