# 第二章 感知机
- 判别模型
- 优点是易于实现
- 二分类问题
- 线性分类模型

## 2.1 模型

$f(x)=sign(w \cdot x + b)$

其中 $w \in R^n , b \in R$ w 叫做权值向量(weight)，b叫做偏置(bias);sign是符号函数。

模型的假设空间为：
${f|f(x) = w \cdot x + b}$

In [1]:
import numpy as np

class Perceptron():
    def __init__(self,dim = 1):
        self.dim = dim
        self.w = None
        self.b = None
        self._init_params()
        
    def _init_params(self):
        self.w = np.random.normal(size = (1,self.dim))
        self.b = np.random.normal()
    
    def __call__(self,x):
        return np.sign(np.dot(self.w,x.T) + self.b).reshape(-1,1)
                       
test_model = Perceptron(5)
xs = np.array([[1,2,3,4,5]])
test_model(xs)

array([[1.]])

### 几何意义

对于特征空间 $R^n$ 中的一个超平面， $w$ 是超平面的法向量， b是超平面的截距。，位于超平面两边的点被分为两类，因此叫做分离超平面(separating hyperplane)

In [2]:
import matplotlib.pyplot as plt

def line(x):
    return np.sign(np.dot([1,1],x.T)-9.5)

random_data = np.random.randint(0,10,size=(30,2))
label = line(random_data)
for d,l in zip(random_data,label):
    if l > 0:
        makers = 'o'
    else:
        makers = 'x'
        
    plt.scatter(d[0],d[1],color = 'b',marker=makers)
plt.plot([9.5,0],[0,9.5])
plt.plot([3.5,6],[5.5,8])
plt.annotate('[1,1]',[5.5+0.5,8-0.5])
plt.annotate('w.x+b',[9.5-1.5,1.5])
plt.axes().set_aspect('equal')
plt

  "Adding an axes using the same arguments as a previous axes "


<module 'matplotlib.pyplot' from '/home/xion/anaconda3/lib/python3.7/site-packages/matplotlib/pyplot.py'>

# 2.2 学习策略

## 2.2.1 线性可分数据集
给定一个数据集

$T =\{ \{x_1,y_1\},\{x_2,y_2\},\dots\{x_n,y_n\}\}$

如果存在一个超平面S $w \cdot x +b = 0$ 能够将数据集合所有的正实例和负实例完全分到平面两侧，那么这个数据集就叫做线性可分的，否则，称数据集T为线性不可分。

## 2.2.2 感知机学习策略(loss)

损失函数的自然选择是误分类点的数量，但是这样的损失函数是一个离散值。不易优化，所以选择一个连续值，所有误分类点到超平面的距离之和。


点到平面的距离公式为：

$\frac 1 {||w||} |w \cdot x_0 +b|$ （1）

$||w||$ 是 w 的 l2 范数

对于误分类的点来说有

$-y_i (w \cdot x +b) > 0 $ (2)

结合(1)和（2）, 假设误分类的点的集合为 M，那么可以得到损失函数为：

$- \frac 1 {||w||} \sum_{x_i \in M} y_i (w \cdot x_i + b)$


这里的||w||可以忽略，整理得到

$L(w,b) = - \sum_{x_i \in M} y_i (w \cdot x_i + b)$

In [3]:
import numpy as np

class PerceptronLoss():
    def __init__(self,model):
        self.w = model.w 
        self.b = model.b 
        self.model = model
        
    
    def __call__(self,xs,labels):
        return self.loss(xs,labels) 
    
    def loss(self,xs,labels):
        predict = self.model(xs)
        if (predict==labels).all():
            return 0
        need_index = (predict!=labels).reshape(-1)
        
        wrong_sample = predict[need_index]
        wrong_xs = xs[need_index,:]
        
        return np.sum(wrong_sample * np.dot(self.w,wrong_xs.T) + self.b)
            
# 假设数据的分布是从这样一个线性模型中产生的       
true_model = Perceptron(5)
true_model.w = np.array([1,10,-10,10,-10])
true_model.b = np.array(1)

data = np.random.randint(-20,20,size=(50,5))
labels = true_model(data)


true_model_loss = PerceptronLoss(true_model)
# 因为符合模型分布，所以损失为0
print('the loss of true model is %s' % true_model_loss(data,labels))

# 如果使用新的还没训练的模型，那么损失就不是0
loss = PerceptronLoss(test_model)
print('the loss of a new model is %s' % loss(data,labels))

the loss of true model is 0
the loss of a new model is -458.476085759703


## 2.3 感知机学习算法

我们要求解的问题为：

$min_{w,b}L(w,b)= - \sum_{x_i \in M} y_i(w \cdot x_i +b)$

### 梯度下降法

感知机学习的算法叫做随机梯度下降法。

损失函数的在w,和b上的梯度分别为：

$\nabla _w L(w,b) = - \sum_{x_i \in M}y_i x_i$

$\nabla _b L(w,b) = - \sum_{x_i \in M}y_i  $

随机选取一个误分类点，(x_i,y_i),对 w 和 b 进行更新

$w \gets w + \eta y_i x_i$


$b \gets b + \eta y_i $
直到 loss 为 0

In [4]:
class SGDOptimizer():

    def __init__(self,model,lr = 0.01):
        self.lr = lr
        self.model = model
        
    # 一个样本的更新，实际情况下，会使用一批样本更新，这里主要是为了演示效果
    def one_sample_optim(self,x,y):
        model = self.model
        if (model(x)[0] == y):
            return 
        model.w +=self.lr * y * x
        model.b += self.lr * y
        
optimizer = SGDOptimizer(test_model)

test_model._init_params()

print('True w:%s True b:%s' %(true_model.w,true_model.b))
epoch = 100
for e in range(epoch):
    step = 0
    for x,y in zip(data,labels):
        step +=1
        optimizer.one_sample_optim(x,y)    
        if step % 10 ==9:
            print('test_mode w:{} b:{}'.format(
                np.around(test_model.w,decimals=2),
                np.around(test_model.b,decimals=2)
            ))
    loss_data = loss(data,labels)
    print('[Epoch:{}]model loss: {}'.format(e,loss_data))
    if loss_data == 0:
        break
    

True w:[  1  10 -10  10 -10] True b:1
test_mode w:[[-1.    1.79 -1.17 -0.23 -0.71]] b:[-1.1]
test_mode w:[[-0.73  1.77 -0.94  0.09 -0.86]] b:[-1.1]
test_mode w:[[-0.65  1.7  -0.94  0.03 -0.99]] b:[-1.11]
test_mode w:[[-0.36  1.75 -0.85  0.16 -1.07]] b:[-1.11]
test_mode w:[[-0.47  1.56 -0.83  0.36 -1.23]] b:[-1.12]
[Epoch:0]model loss: -16.06336369068795
test_mode w:[[-0.47  1.56 -0.83  0.36 -1.23]] b:[-1.12]
test_mode w:[[-0.31  1.51 -0.72  0.54 -1.24]] b:[-1.11]
test_mode w:[[-0.31  1.51 -0.72  0.54 -1.24]] b:[-1.11]
test_mode w:[[-0.31  1.51 -0.72  0.54 -1.24]] b:[-1.11]
test_mode w:[[-0.31  1.51 -0.72  0.54 -1.24]] b:[-1.11]
[Epoch:1]model loss: -16.06336369068795
test_mode w:[[-0.31  1.51 -0.72  0.54 -1.24]] b:[-1.11]
test_mode w:[[-0.15  1.46 -0.61  0.72 -1.25]] b:[-1.1]
test_mode w:[[-0.15  1.46 -0.61  0.72 -1.25]] b:[-1.1]
test_mode w:[[-0.15  1.46 -0.61  0.72 -1.25]] b:[-1.1]
test_mode w:[[-0.15  1.46 -0.61  0.72 -1.25]] b:[-1.1]
[Epoch:2]model loss: -16.06336369068795
test_mod

多次运行可以发现，选取的初始值不同，或者选取不同的分类点，最后的解也不同

## 算法收敛性

需要证明，对于**线性可分数据集**， 经过有限的迭代，可以得到一个完全正确分类的超平面以及感知模型。

为了便于推导，将偏执b记入权重向量w, 即 $\hat w = (w^T,b)^T$。 并且将输入向量扩充为$\hat x = (x^T,1)^T$

那么显然$\hat w \cdot \hat b = w \cdot x + b$

证明:

---

由于数据集是线性可分的，那么使$||\hat w_opt||=1$,切$w_0 = 0^n,b_0 = 0$ 切对于所有样本点，均有

$y_i(w_{opt}x_i+b)>0$

即

$y_i(\hat w_{opt} \hat x)>0$

假设，$\gamma = min_i{y_i(\hat w_{opt} \hat x)}$

那么，对于所有的i均有

$y_i(\hat w_{opt} \hat x)>\gamma$

---

如果存在误分类的点，那么就需要更新 w,b

$w_k \gets w_{k-1} + \eta y_i x_i$


$b_k \gets b_{k-1} + \eta y_i $

由于

$\hat w = (w^T,b)^T$

$\hat x = (x^T,1)^T$

可以得到

$\hat w_k =  w_{k-1} + \eta y_i \hat x_i$

---

需要构造 $ y_i(\hat w_{opt} \cdot \hat x_i)$

可以如下构造
$\hat w_k \cdot \hat w_{opt} = w_{k-1} \cdot \hat w_{opt} + \eta y_i \hat w_{opt}\hat x_i \ge \hat w_{k-1} \cdot \hat w_{opt} + \eta \gamma $

那么可以递推得到


$\hat w_k \cdot \hat w_{opt} \ge \hat w_{k-1} \cdot \hat w_{opt} + \eta \gamma \ge \hat w_{k-2} \cdot \hat w_{opt} + 2 \eta \gamma \ge \dots \ge n \eta \gamma$

->

$\hat w_k \cdot \hat w_{opt} \ge k \eta \gamma$

---

由于$||\hat w_opt||$已经定义为1了，还需要为$||\hat w||$求一个上边界

$||\hat w_k ||^2 = ||\hat w_{k-1}|| + 2 \eta y_i \hat w_k{-1} + \eta ^2 ||\hat x_i||^2  $

$ \le ||\hat w_{k-1}|| + \eta ^2 ||\hat x_i||^2 $

$ \le ||\hat w_{k-1}|| + \eta ^2 R^2 $

$ \le ||\hat w_{k-2}|| + 2 \eta ^2 R^2 $
 
$ \le n \eta ^2 R^2$

得到
$||\hat w_k ||^2 \le \eta ^2 R^2$

---


结合上面的上界和下界

$\hat w_k \cdot \hat w_{opt} \ge k \eta \gamma$

$||\hat w_k||^2 \le k\eta^2R^2$

可以得到

$k\eta \gamma \le \hat w_k  \hat w_{opt} \le ||\hat w_k||||\hat w_opt|| \le \sqrt k \eta R$

由于$||w_{opt}||$为1，因此可以 得到

$k^2 \eta^2 \le k R^2$

最终得到

$k\le (\frac R \eta)^2$

## 对偶问题

对偶问题的基本思想是 将 w 和 b 表示为 $x_i$ 和 $y_i$ 的线性组合，通过求解线性组合的系数求解 w 和 b。 假设$w_0$ 和 $b_0$ 的初始值为0。那么有

$w \gets w + \eta y_i x_i$

$b \gets  b + \eta y_i$

逐步修改 w,b 假设修改n次，w，b可以表示为

$w  = \sum_i \alpha _i y_i x_i$

$b = \sum_i \alpha _i y_i$

其中$\alpha_i = n_i \eta $ n_i 表示 第i个点更新过多少次。

### 感知机算法的对偶形式

#### 输入：　线性可分的数据集$T = \{(x_1,y_1),(x_2,y_2),\dots, (x_N,y_N)\}$, 其中　$x_i \in R^n$, $y_i \in \{-1,+1\}$,学习率$\eta (0<\eta<1)$

#### 输出： $\alpha,b$;感知机模型　$f(x)=sign(\sum_{j=1}\alpha_jy_jx_j \cdot x +b)$,其中$\alpha = (\alpha_1,\alpha_2,\dots,\alpha_N)^T$ 



#### 算法步骤：
1. $\alpha \gets 0, b \gets 0$
2. 在训练集中选择$(x_i,y_i)$
3. 如果　$y_i(\sum_{j=1} \alpha_jy_jx_j \cdot x_i +b ) \le 0$,

    $\alpha_i \gets \alpha_i + \eta $
    
    $b \gets b + \eta y_i$
4. 直到２.中没有错误分类的数据

这里有一个技巧，由于整个计算过程中的计算量基本都在3 中的$x_j \cdot x_i$中，并且这些计算会被反复进行，这里可以先把结果存储下来。整个矩阵叫做　Gram　矩阵。

Gram 矩阵　＝　$[x_i \cdot x_j]_{N x N}$

$Gram_{ij} = x_i \cdot x_j$


#### 思考

这里一开始阅读的时候有些不理解，有几个问题需要解释下：

**１.为什么没有按照对偶问题的定义$\alpha_i y_i$ 表示ｂ，而是直接求b。**

其实我认为，按照按照对偶问题的定义，应该把ｂ表示线性组合， $b = \sum_i \alpha _i y_i$ 再求解。
但是,这里的例子主要是对w进行对偶求解。 如果把b也表示为对偶形式，求解的方法和效果也是一样的。


**２.这里的Ｎ是什么**

这里的Ｎ是样本集合的大小，如果有Ｎ个样本，$\alpha$ 就是Ｎ维的向量

**3.为什么出现误分类的时 $\alpha_i \gets \alpha_i + \eta $**

因为$\alpha_i= n_i \eta$ 如果第ｉ个样本误分类了，那么$n_i$就需要+1.

$\hat \alpha_i$ 表示更新后的$\alpha_i$

表现在$\alpha_i$　上就是　

$\hat \alpha_i = (n_i + 1) \eta$,因为迭代到目前$\alpha_i = n_i \eta$

所以

$\hat \alpha_i =\alpha_i +  \eta$

**4.对偶算法简单理解。**

对偶算法求得了$\alpha$,其中 $\alpha_i$ 表示了第i个样本在最终得到最优平面前，分类错误的次数。
最终通过分类错误的次数来求解w和b。$w = \sum_{i=1} \alpha_iy_ix_i$也是由梯度下降得到的。因此它是由梯度下降法引申而来的。

**5.什么是对偶问题**

dual翻译为了对偶，dual的含义之一：a notion of paired concepts that mirror one another。称之为镜像问题可能更容易理解。

In [21]:
import itertools
class DualOptimizer():

    def __init__(self,model,data,labels,lr = 0.1):
        # learning rate, it is the same as eta
        self.lr = lr
        self.model = model
        self.data = data
        self.labels = labels.reshape(-1)
        print(self.labels.size)
        self.alpha = np.zeros((len(data)))
        self.N = len(data)
        self.gram_matrix = np.zeros((self.N,self.N))
        self.generate_gram_matrix()
        self.stop =False
                                   
                                   
    # gram 矩阵
    def generate_gram_matrix(self):
        for i,j in itertools.product(range(self.N),range(self.N)): 
            self.gram_matrix[i][j]  = np.dot( self.data[i],self.data[j])
            
    
    # 对偶形式表示的感知机
    def dual_forward(self,i):
        # 等同于w.x 这里使用gram的缓存
        w_x = np.sum(self.alpha * self.labels * self.gram_matrix[i])   
        # b 也表示为 对偶形式
        b = np.sum(self.alpha * self.labels)
        
        
        return np.sign(w_x+b)
        
    # 一轮更新 
    def optim_one_epoch(self):
        wrong_sample = 0
        for i,d,l in zip(range(self.N),self.data,self.labels):
            predict = self.dual_forward(i)
            if predict * self.labels[i] <=0:
                self.alpha[i] += self.lr
                wrong_sample +=1
                
        print('[Wrong sample]: %s' % wrong_sample)
        if wrong_sample == 0:
            self.stop = True
        
        
    def update_model_params(self):
        w = np.sum(self.alpha * self.labels * data.T ,axis = 1)   
        b = np.sum(self.alpha * self.labels)
        self.model.w = w
        self.model.b = b

In [28]:
test_model._init_params()
optim = DualOptimizer(test_model,data,labels,lr=1)
epoch = 0 
while not optim.stop:
    print('[Epoch]: {}'.format(epoch,))
    optim.optim_one_epoch()
    print('[alpha]: {}'.format(optim.alpha))
    epoch +=1
    if epoch == 200:
        break
        
        
optim.update_model_params()
loss_data = loss(data,labels)
print('[model loss: {}]'.format(loss_data))
print('[model] w: {} b: {}'.format(test_model.w,test_model.b))
    

50
[Epoch]: 0
[Wrong sample]: 9
[alpha]: [1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0.
 0. 1. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.
 0. 0.]
[Epoch]: 1
[Wrong sample]: 6
[alpha]: [1. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 1. 0. 0.
 0. 2. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 2. 0. 0. 0.
 0. 0.]
[Epoch]: 2
[Wrong sample]: 3
[alpha]: [1. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 2. 1. 0. 0.
 0. 3. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 2. 0. 0. 0.
 0. 0.]
[Epoch]: 3
[Wrong sample]: 3
[alpha]: [1. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 1. 0. 0. 0. 0. 0. 2. 0. 2. 1. 0. 0.
 0. 4. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 3. 0. 0. 0.
 0. 0.]
[Epoch]: 4
[Wrong sample]: 2
[alpha]: [1. 1. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 2. 0. 0. 0. 0. 0. 2. 0. 2. 1. 0. 0.
 0. 5. 0. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0. 3. 0. 0. 0.
 0. 0.]
[Epoch]: 5
[Wrong sample]: 3
[alpha]:

# 习题

## 2.1

设集合$T = \{((0,0)-1),((0,1)1),((1,0),1),((1,1),-1) \}$

如果T是线性可分的，那么就有

w.(0,0) +b <0
w.(0,1) +b >0
w.(1,0) +b >0
w.(1,1) +b <0

化简

b<0
w2+b>0
w1+b>0
w1+w2+b<0

上面的式子是矛盾的，因此，亦或逻辑不是线性分类的。




## 2.2
上面代码已经实现

## 2.3

凸壳： $conv(S) = {x = \sum_{i=1}\lambda_ix_i|\sum_{i=1} \lambda_i = 1,\lambda_i \ge 0 } $

---
### 必要性

正样本集合记为X 负样本集合记为Z

如果conv(X)和conv(Z)相交，那么一定有一点，记为xz，满足下面等式

$y(xz) = \sum_{n}\alpha_n(w\cdot x^n + b) = \sum_{m}\beta_m(w\cdot z^m+b)$

$\sum_n \alpha _i = 1,\alpha _i \ge 0 $

$\sum_m \beta _i = 1,\beta _i \ge 0 $

线性可分，所以有：

$y(x^n) = w \cdot x^n +b >0$

$y(z^m) = w \cdot z^m +b <0$
(1)

由于alpha 和beta 都是非负数的

$y(xz) = \sum_{n}\alpha_n(w\cdot x^n + b) = \sum_{m}\beta_m(w\cdot z^m+b)$(2)

(2)和(1)冲突

因此,如果线性可分，那么凸壳是不相交的


### 充分性


正样本集合记为X 负样本集合记为Z

假设conv(X) 与 conv(Z)的距离为
$dist(conv(X),conv(Z)) = min||x-z||,x \in X ,z \in Z$

假设$dist(\hat x ,\hat z) = dist(conv(X),conv(Z)) $, 那么对于有$x \in X$都有 $dist(x,\hat x) \ge dist(\hat x ,\hat z)$

令

$w = \hat x - \hat z$

$b = -\frac {\hat x \cdot \hat x - \hat z \cdot \hat z} {2}$

对于所有的x都有

$w.x +b = \frac {||\hat z - x||^2 - ||\hat x - x||^2} 2$

$=\frac {dist(x,z)^2 - dist(x,\hat x)^2 2$

$> 0$

对于所有的负样本点也有wz+b <0

所有线性可分

# 总结

证明题费劲！