# 第二章 感知机
## 2.1 感知机模型

**定义2.1（感知机）**  假设输入空间（特征空间）是$\mathcal{X} \subseteq \mathbb(R)^n$，输出空间是$\mathcal{Y}={+1,-1}$，输入$x \in \mathcal{X}$表示实例的特征向量，对应于输入空间（特征空间）的点；输出$y \in \mathcal{Y}$表示实例的类别。由输入空间到输出空间的如下函数：
$$f(x)=sign(w\cdot x+b)$$
称为感知机。其中$w$和$b$为感知机模型参数，$w \in \mathbb{R}^n$叫做权值（weight）或权值向量（weight vector），$b \in \mathbb{R}$叫做偏置（bias），$w\cdot x$表示$w$和$x$的内积。sign是符号函数。

感知机是一种线性分类模型，属于判别模型。感知机模型的假设空间定义在特征空间中的所有线性分类模型（linear classification model）或线性分类器（linear classifier）。

### 2.2.2 感知机学习策略
假设超平面S的所有误分类点的集合为M，所有误分类点到超平面S的总距离为：
$$-\frac{1}{\| w\|}\sum_{x_i\in M}y_i(w\cdot x_i+b)$$
忽略$\frac{1}{\| w\|}$得到感知机学习的损失函数。

感知机$sign(w\cdot x+b)$的损失函数（经验风险函数）定义为：
$$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$$


## 2.3 感知机学习算法
对给定的训练集$T={(x_1,y_1),(x_2,y_2),…,(x_N,y_N)}$，其中$x_i \in \mathcal{X}=\mathbb{R}^n$，$y_i \in \mathcal{Y}={-1,1}$，$i=1,2,…,N$，求参数$w$，$b$，使其为下述损失函数极小化的解
$$\mathop{\min}_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b)$$
采用随机梯度下降法（stochastic gradient descent）

假设误分类点M是固定的，损失函数$L(w,b)$的梯度由
$$\triangledown_wL(w,b)=-\sum_{x_i\in M}y_ix_i$$
$$\triangledown_bL(w,b)=-\sum_{x_i\in M}y_i$$
随机选取一个误分类点$(x_i,y_i)$，对$w$,$b$进行更新：
$$w\leftarrow w+\eta y_ix_i$$
$$b\leftarrow b+\eta y_i$$
其中$\eta$（$0<\eta\leqslant 1$）是步长，统计学习中又称为学习率（learning rate）。通过迭代可以是损失函数不断减小，直到为0

### 2.3.3 感知机学习算法的对偶形式
对偶形式的基本想法是，将$w$和$b$表示为实例$x_i$和标记$y_i$的线性组合形式，通过求解其系数而求得$w$和$b$。不失一般性，假设$w$和$b$的初始值均为0。通过对误分类点$(x_i,y_i)$逐步修改$w$和$b$，假设经过n次修改，$w$和$b$关于$(x_i,y_i)$的增量分别为$\alpha_iy_ix_i$和$\alpha_iy_i$，这里$\alpha_i = n_i\eta$，最后学习到的$w$，$b$可以分别表示为：
$$w=\sum_{i=1}^N\alpha_iy_ix_i$$
$$b=\sum_{i=1}^N\alpha_iy_i$$
这里，$\alpha_i\geqslant 0,i=1,2,…,N$，当$\eta=1$时，表示第i个实例点由于误分而进行更新的次数，实例点更新次数越多，意味着距离超平面越近，越难正确分类。

### 算法2.2（感知机算法的对偶形式）
输入：线性可分的数据集$T={(x_i,y_1),(x_2,y_2),…,(x_N,y_N)}$,其中$x_i \in \mathbb{R}^n,y_i\in{-1,+1},i=1,2,…,N$；学习率$\eta(0<\eta\leqslant 1)$

输出：$\alpha,b$：感知机模型$f(x)=sign(\sum_{j=1}^N\alpha_jy_jx_j\cdot x+b)$，其中$\alpha = (\alpha_1,\alpha_2,…,\alpha_N)^T$。

（1）$\alpha\leftarrow0,b\leftarrow0$

（2）在训练集中选取数据$(x_i,y_i)$；

（3）如果$y_i(\sum_{j=1}^N\alpha_jy_jx_j\cdot x_i+b)\leqslant 0$，
$$\alpha_i\leftarrow\alpha_i+eta$$
$$b\leftarrow b+\eta y_i$$

（4）转至（2）直到没有误分类数据。

## 习题
### 2.1 
对于异或（XOR）,$x_1=(1,1),y_1=-1;x_2=(1,0),y_2=1;x_3=(0,1),y_3=1;x_4=(0,0),y_4=-1$。
若存在感知机模型满足，即存在$w$和$b$，使得$y_i(w \cdot x_i+b)>0,i=1,2,3,4$
即:
$$w_1+w_2+b<0$$
$$w_1+b>0$$
$$w_2+b>0$$
$$b<0$$
将上式1,4与2,3分别相加可得矛盾。因此感知机无法表示异或

### 2.2
正实例点$x_1=(1,2)^T,x_2=(2,3)^T$，负实例点$x_3=(2,1)^T,x_4=(3,-1)^T$
采用对偶形式求解，Gram矩阵为：
$$\mathbb{G}=|x_i\cdot x_j|=\begin{bmatrix}
5&8&4&1\\
8&13&7&3\\
4&7&5&5\\
1&3&5&10
\end{bmatrix}$$
求解迭代过程如下：

|k  | 0 |1|2|
|----|----|----|----|
|||$x_1$|$x_3$|
|$\alpha_1$|0|1|0|
|$\alpha_2$|0|0|0|
|$\alpha_3$|0|0|1|
|$\alpha_4$|0|0|0|
|$b$|0|1|0|

得到的感知机模型为:
$$f(x)=sign(-x^{(1)}+x^{(2)})$$

In [1]:
import numpy as np
x=np.array([[1,2],[2,3],[2,1],[3,-1]])
y=np.array([1,1,-1,-1])
a=np.array([0,0,0,0])
b=0
res=0
j=0
inp=np.array([a[0]*y[0]*x[0],a[1]*y[1]*x[1],a[2]*y[2]*x[2],a[3]*y[3]*x[3]])
times=0
while j<4:
    print("迭代次数："+str(times))
    print("误分点为：x"+str(j))
    print(a)
    print(b)
    print(res)
    print("___________________")
    a[j]+=1
    b+=y[j]
    j=0
    times+=1
    for k in range(4):
        inp[k]=a[k]*y[k]*x[k]
    while j <4:
        res = y[j]*(sum(np.sum(inp*np.array([x[j],x[j],x[j],x[j]]),axis=1)+b))
        if res>0:
            j+=1
        else:
            break
inp=np.array([a[0]*y[0]*x[0],a[1]*y[1]*x[1],a[2]*y[2]*x[2],a[3]*y[3]*x[3]])
print(np.sum(inp,axis=0))
print(b)

迭代次数：0
误分点为：x0
[0 0 0 0]
0
0
___________________
迭代次数：1
误分点为：x2
[1 0 0 0]
1
-8
___________________
[-1  1]
0
