## 感知机模型
### 感知机定义
感知机是由输入空间到输出空间的如下函数$$f(x)=sign(w*x+b)$$ 其中$w$和$b$称为感知机模型参数，$w\in\mathbb{R^n}$叫做权值向量，$b\in\mathbb{R}$叫做偏置(bias)，$w*x$是内积，$sign$是符号函数，即
$$sign(x)=\begin{cases}
+1 & x>=0\\
-1 & x<0\end{cases}$$
感知机是线性分类模型，属于判别类型。  
几何解释如下：线性方程$$w*x+b=0$$对应特征$R^n$的一个超平面$S$，其中$w$是法向量，$b$是截距。超平面把空间分为两个部分。  
如果存在超平面$S$把数据集正负实例点完全正确地划分到超平面的两侧，即对所有的$y_i=+1$，$w*x+b>0$；对所有的$y_i=-1$，$w*x+b<0$，则称数据集为线性可分数据集。
### 感知机策略
假设数据集线性可分，为确定把正负实例点完全正确分开的超平面，需要确定参数$w,b$，需要定义损失函数并极小化。  
定义损失函数为误分类点到超平面的总距离  
首先，任意一点到超平面的距离为$$\frac{1}{||w||_2}|w*x_0+b|$$
其次，对于误分类的点，$$-y_i*(w*x_i+b)>0$$正确分类的点有$w*x_i+b=0$  
定义损失函数为$$L(w,b)=-\sum_{x_i \in M}y_i*(w*x_i+b)$$
最小化损失函数即可。


L0：非零元素个数，$||x||_0$  
L1范数：非零元素绝对值的和$||x||_1$   
L2范数：平方和再开方$||x||_2$  
平面方程：$f(x_1,x_2,x_3,...,x_n)=0$    
点$(x_0,y_0,z_0)$到平面$A*x+B*y+C*z+D=0$的距离：$\frac{|A*x_0+B*y_0+C*z_0+D|}{\sqrt{A^2+B^2+C^2}}$

In [13]:
#encoding=utf-8
import pandas as pd
import random
import time
from sklearn.model_selection import train_test_split #sklearn.cross_validation不可用
from sklearn.metrics import accuracy_score

class Perceptron(object):
    
    def __init__(self):
        self.learning_step=0.001
        self.max_iteration=5000
        
    def train(self, features, labels):
        self.w=[0.0]*(len(features[0])+1)#初始化w,b为0，b在最后一位
        correct_count=0
        while correct_count<self.max_iteration:
            index=random.randint(0,len(labels)-1)
            x=list(features[index])
            x.append(1.0)#方便与b相乘
            y=2*labels[index]-1#label为1，化为1；label为0，化为-1
            wx=sum([self.w[j]*x[j] for j in range(len(self.w))])
            if wx*y>0:#分类正确
                correct_count+=1
                continue
            for i in range(len(self.w)):#分类错误，更新w
                self.w[i]+=self.learning_step*(y*x[i])#步长*w[i]的梯度
                
    def _predict(self, x):
        wx=sum([self.w[j]*x[j] for j in range(len(self.w))])
        return int(wx>0)
    
    def predict(self, features):
        labels=[]
        for feature in features:
            x=list(feature)
            x.append(1)
            labels.append(self._predict(x))
        return labels

print("start reading data...")
time_1=time.time()
raw_data=pd.read_csv('data/train_binary.csv', header=0)#header=0，第0行为列索引
data=raw_data.values#从dataFrame转化为数组
features=data[::,1::]#取每一行；从index=1的列开始，取每一列
labels=data[::,0]#取每一行；只要第index=0的列
train_features,test_features,train_labels,test_labels=train_test_split(features,
                                                                       labels, 
                                                                       test_size=0.33, #测试集大小
                                                                       random_state=0)#定下random_state值，那么每次划分结果一样
time_2=time.time()
print("reading data costs %f seconds"%(time_2-time_1))

print("start training")
p=Perceptron()
p.train(train_features, train_labels)

time_3=time.time()
print('tarining costs %f seconds'%(time_3-time_2))

print('start predicting')
test_predict=p.predict(test_features)
time_4=time.time()
print('predicting costs %f seconds'%(time_4-time_3))

score=accuracy_score(test_labels, test_predict)
print('the accuracy score is %f'%score)

start reading data...
reading data costs 4.078558 seconds
start training


AttributeError: 'Perceptron' object has no attribute 'max'

In [11]:
import pandas as pd

data=pd.read_csv('data/02train.csv',header=0)#header=0表示第0行为列索引
print(data.head(5))
#解释s[i:j:k]是，根据该“片第从i到j与第k步”。何时i和j缺席，整个序列是和s[::k]意思是“每k个项目”

   label  pixel0  pixel1  pixel2  pixel3  pixel4  pixel5  pixel6  pixel7  \
0      1       0       0       0       0       0       0       0       0   
1      0       0       0       0       0       0       0       0       0   
2      1       0       0       0       0       0       0       0       0   
3      4       0       0       0       0       0       0       0       0   
4      0       0       0       0       0       0       0       0       0   

   pixel8    ...     pixel774  pixel775  pixel776  pixel777  pixel778  \
0       0    ...            0         0         0         0         0   
1       0    ...            0         0         0         0         0   
2       0    ...            0         0         0         0         0   
3       0    ...            0         0         0         0         0   
4       0    ...            0         0         0         0         0   

   pixel779  pixel780  pixel781  pixel782  pixel783  
0         0         0         0         0         