### Perceptron Definition

假设输入空间（特征空间）是 $ \chi \in R^n $, 输出空间是Y = { +1, -1 }, 输入 $ x \in \chi $ 表示实例的特征向量，对应于输入空间（特征空间）的点；
输出 $ y \in Y $表示实例的类别。由输入空间到输出空间的如下函数
$$ f(x) = sign(\omega \cdot x + b)         \; (2.1)$$

称为**感知机**。 其中$ \omega 和 b $称为**感知机模型参数**， $ \omega \in R^n $ 叫做 **权值(weight) 或权值向量(weight vector)**, $ b \in R^n $叫做 **偏置(bias)**， $ \omega \cdot x 表示 \omega 和 x的内积$。 sign是符号函数，即：

$$
sign(x) = 
\begin{cases}
+1,&x \geq 0 \\
-1,&x<0 
\end{cases}
 \; (2.2)
$$

感知机是一种**线性分类模型，属于判别模型**。 感知机模型的假设空间是定义在**特征空间中的所有线性分类模型(linear classification model) 或线性分类器(linear classifier)**, 即函数集合$ \lbrace f \mid f(x) = \omega \cdot x + b \rbrace $

#### 线性方程的解释
线性方程
$$ \omega \cdot x + b =0 $$
对应于特征空间$ R^n $ 中的一个超平面S， 其中$ \omega $是超平面的**法向量**, b 是超平面的**截距**。这个超平面将特征空间划分为两个部分。位于两部分的点（特征向量）分别被分为正、负两类。因此，**超平面S** 称为**分离超平面(separating hyperplane)**。

**特征空间也就是整个n维空间，样本的每个属性都叫一个特征**，特征空间的意思是在这个空间中可以找到样本所有的属性组合。

**感知机学习**，由训练数据集（实例的特征向量及类别）
$$ T = \lbrace (x_1, y_1), (x_2, y_2), \cdots , (x_N, y_N)\rbrace $$

其中，$ x_i \in \chi = R^n, y_i \in Y=\lbrace-1, +1\rbrace, i = 1,2, \cdots, N $ 求得感知机模型（2.1），即求得模型参数$\omega, b$。

**感知机预测**，通过学习得到得感知机模型，对于新得输入实例给出其对应得输出类别。

### 数据集的线性可分性

定义2.2 给定一个数据集
$$ T = \lbrace (x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \rbrace $$

其中，$ x_i \in \chi = R^n, y_i \in Y=\lbrace-1, +1\rbrace, i = 1,2, \cdots, N $ ,如果存在某个超平面S

$$ \omega \cdot x + b = 0 $$

能够将数据集的正实例点和负实例点正确地划分到超平面的两侧，即对所有$y_i=+1$的实例$ \mathit i$， 有$ \omega \cdot x + b > 0 $, 所有$y_i=-1$的实例i， 有$ \omega \cdot x + b < 0 $, 称数据集T为**线性可分数据集(linear separable data set) **, 否则，称为线性不可分。



### 感知机的学习策略

假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面。

为了找出这样的超平面，即**确定感知机模型参数 $ \omega , b $**, 需要确定一个**学习策略，即定义（经验）损失函数，并将损失函数极小化**。

- 损失函数的**一个自然选择是误分类点的总数**。但是，这样的损失函数不是参数$ \omega, b$的连续可到函数，不易优化。
- 另一个选择是**误分类点到超平面S的函数间距，即：**，
$$ \sum_{i=0}^n \mid \omega \cdot x_i + b \mid $$
**函数间距的缺陷**在于等比例放大缩小$ \omega, b $后，**超平面并没有改变，但是函数间距等比例放大或缩小了**。

- 所以，常用的是**几何间距，即：**
$$ \cfrac {1}{\parallel \omega \parallel _{2}} \sum_{i=0}^n \mid \omega \cdot x_i + b \mid $$
其中，
$$ \parallel \omega \parallel _2 = \sqrt {\sum_{i=1}^N w_i^2 } $$

### 感知机学习算法 之 原始形式

对于误分类数据而言：$ -y_i (\omega \cdot x + b) > 0 $

**误分类点$x_i$到超平面S的距离为**
$$ -\cfrac {1}{\parallel \omega \parallel} y_i (\omega \cdot x + b) $$

因此，所有误分类点到超平面S的总距离为：
$$ - \cfrac {1}{\parallel \omega \parallel} \sum_{x_i \in M} y_i(\omega \cdot x_i + b)$$

其中，假设超平面S的误分类点的集合为M。
#因为$ \cfrac {1}{\parallel \omega \parallel} $为固定值，可以不考虑，就得到感知机学习的损失函数。
因为感知机学习目的是**没有一个误分类点**， 因此，不存在等比例缩小距离的问题，这里可以用函数间隔而不是集合间隔。

给定训练数据集
$$ T = \lbrace (x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \rbrace $$

其中，$ x_i \in \chi = R^n, y_i \in Y=\lbrace-1, +1\rbrace, i = 1,2, \cdots, N $ 。
感知机$ sign(\omega \cdot x + b) $ 歇息的损失函数定义为：
$$ L(\omega，b) = - \sum_{x_i \in M} y_i(\omega \cdot x_i + b) \;\;\;\;\;\;\;\; (2.4)$$

其中M为误分类点的集合。**这个损失函数就是感知机学习的经验风险函数**。

一个特定的样本点的损失函数：**在误分类时是参数$ \omega, b$的线性函数，在正确分类时是0**。
因此，**给定训练数据集T，损失函数$ L(\omega, b)$ 是 $ \omega, b $的连续可导函数**。

**感知机学习的策略是在假设空间中选取使损失函数式（2.4）最小的模型参数$ \omega, b$, 即感知机模型**。

### 感知机学习算法 之 原始形式
感知机学习算法使对以下最优化问题的算法。

给定训练数据集
$$ T = \lbrace (x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N) \rbrace $$

其中，$ x_i \in \chi = R^n, y_i \in Y=\lbrace-1, +1\rbrace, i = 1,2, \cdots, N $ 。
求参数$\omega, b $, 使其为以下损失函数极小化问题的解
$$ min_{\omega, b} L(\omega, b) = -\sum_{x_i \in M} y_i(\omega \cdot x_i + b) $$

其中 M为误分类点的集合。


感知机学习算法是**误分类驱动的**，不存在等比例缩小参数使得距离缩小的问题，因此，可以用函数间隔而不是几何间隔。
当然用几何间隔也可以，但是多了一步计算量。

具体采用**随机梯度下降法(stochastic gradient descent, SGD)**

- 1. 任选取超平面$\omega_0, b_0 $
- 2. 采用梯度下降法极小化目标函数
$$ L(\omega, b) = -\sum_{x_i \in M} y_i(\omega \cdot x_i + b) $$
$$ \nabla_{\omega} L(\omega, b) = - \sum_{x_i \in M} y_i x_i   \;\;\;针对\omega 求偏导$$
$$ \nabla_{b} L(\omega, b) = - \sum_{x_i \in M} y_i \;\;\;针对b求偏导$$

- 3. 更新$\omega, b$
$$ \omega \leftarrow \omega + \eta y_i x_i $$
$$ b \leftarrow b+ \eta y_i $$

$$ - \cfrac {1}{\parallel \omega \parallel} \sum_{x_i \in M} y_i(\omega \cdot x_i + b)$$
$$ \sum_{x_i \in M} $$
$$ \sum_{x_i \in M} y_i(\omega \cdot x_i + b) $$