## 感知机（perceptron）


### 原始算法

输入：训练数据集$T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$，其中$x_i\in X=R^n$，$y_i\in Y={-1,+1}，i = 1,2,...，N$；学习率 $\eta (0<\eta\leqslant1)$;

输出：$w,b$；感知机模型$f(x)=sing(w\cdot x+b)$.

(1) 选取初值$w_0,b_0$

(2) 在训练集中选取数据$(x_i,y_i)$

(3) 如果$y_i(w\cdot x_i+b)\leqslant0$ 

  $w \leftarrow w+\eta y_i x_i$ 
  
  $b \leftarrow b+\eta y_i$
 
(4) 转至（2），直到训练集中没有误分类点
 

### 理解：

#### 损失函数

感知机的损失函数为 $L(w,b)= -\sum_{x_i\in M} y_i(w\cdot x_i+b)$ M为超平面的误分点集合

损失函数是误分点到超平面的距离。对于误分类数据来说，损失函数符合当$w\cdot x_i+b<0$时，$y_i = -1$。$w\cdot x_i+b>0$时，$y_i = +1$.一定要注意所有的都是对于误分点来说的！

#### 随机梯度下降

目标是极小化损失函数，w，b的值是根据损失函数对其求梯度给出，并根据学习率进行更新。

In [3]:
import numpy as np

def Train(X_train, Y_train):
    #获取维度参数
    m, n = np.shape(X_train)
    #初始化w，b
    w = np.zeros((n, 1))
    b = 0

    while True:
        count = m     #统计修改次数，若没有变化，则退出while语句
        for i in range(m):
            result = Y_train[i]*(np.dot(X_train[i], w) + b)
            if result <= 0:           #计算yi(w*xi+b)
                count -= 1
                #更新w，b
                for j in range(n):
                    w[j] = w[j] + Y_train[i]*X_train[i][j] 
                b = b + Y_train[i]

                print("w:(",w,")","b:",b)
                break

        if count== m:
            break
    return w,b

def main():
    X_train = np.array(([3, 3], [4,3], [1,1]))
    Y_train = np.array(([1,1,-1]))
    print(Train(X_train, Y_train))

if __name__ == '__main__':
    main()

('w:(', array([[3.],
       [3.]]), ')', 'b:', 1)
('w:(', array([[2.],
       [2.]]), ')', 'b:', 0)
('w:(', array([[1.],
       [1.]]), ')', 'b:', -1)
('w:(', array([[0.],
       [0.]]), ')', 'b:', -2)
('w:(', array([[3.],
       [3.]]), ')', 'b:', -1)
('w:(', array([[2.],
       [2.]]), ')', 'b:', -2)
('w:(', array([[1.],
       [1.]]), ')', 'b:', -3)
(array([[1.],
       [1.]]), -3)
