# 感知器

感知机(Perceptron)是一种[二元](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/supervised/BasicNotions.ipynb)[线性分类器](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/supervised/BasicNotions.ipynb),是最简单的前向人工神经网络.1957由Rosenblatt在康奈尔航空研究室提出,受到心理学家McCulloch和数理逻辑学家Watt Pitts关于人工神经元数学模型的启发,开发出的模仿人类具有感知能力的试错,调整的机器学习方法.

## 算法

感知机有多种算法,比如最基本的感知机算法,感知机边界算法和多层感知机.我们这里介绍最基本的感知机算法.

以一组[线性可分的二元d维数据集](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/appendix/BasicNotions.ipynb)$ X =\{ (\vec{x_i}, y_t):y_t \in \{-1,1 \}, i \in [1,n]\}$为训练集,我们寻找一个[分隔超平面](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/appendix/BasicNotions.ipynb)$\vec{w^*} \cdot \vec{x} = 0$.
1. 初始化$\vec{w_0} = \vec{0}$,记$t=0$
2. 从$X$中拿出一个数据点$\vec{x_i}$,如果$\vec{w^*} \cdot \vec{x}> 0$,预测$\hat{y_i} = 1$,否则$\hat{y_i} = -1$
3. 如果$ y_i \neq \hat{y_i}$,更新一次 $\vec{w_t+1} = \vec{w_t} + y_i * \vec{x_i}, t=t+1  $
4. 重复2和3,直到遍历$X$

## 收敛性和复杂度
由[Novikoff定理](http://www.cs.columbia.edu/~mcollins/courses/6998-2012/notes/perc.converge.pdf)可知,最多经过$ \frac{R^2}{\gamma ^2}$步迭代就会收敛,其中$R,\gamma $分别为数据集中元素的长度的最大值和到[分割超平面](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/appendix/BasicNotions.ipynb)的最小[几何距离](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/appendix/BasicNotions.ipynb).

感知机算法复杂度是$O(n)$

## 优缺点

感知机最大的特点是简单,并且[错误边界](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/appendix/BasicNotions.ipynb)可控.但基本感知机算法无法处理非线性可分数据集和亦或(XOR)问题,因为基本感知机算法只是在平面画条线,无法把$\{ (-1,-1), (1,1)\}$和$\{ (1,-1), (1,-1)\}$区分开.

## 发展

模仿神经科学,我们可以把感知机刻画成一个只有输入层和输出层的神经网络. ![感知机](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/source/img/Perceptron.png?raw=true)
Rosenblatt等人意识到引入隐藏层,也就是在输入层和输出层之间加入新的层并加入激活函数,![多层感知机](https://github.com/HAOzj/Classic-ML-Methods-Algo/blob/master/ipynbs/source/img/MLP.png?raw=true)可以解决线性不可分的问题.加上上世纪80年代,反向算法的提出,带动了神经网络,以至于现在如火如荼的深度学习的研究.


## ***应用sklearn的相关接口***

在sklearn中用于监督学习的感知器相关接口有:

### 单节点的线性感知器

+ `sklearn.linear_model.Perceptron`单节点感知器
+ `sklearn.linear_model.SGDClassifier`快速梯度下降分类器,和单节点感知器同样的底层实现.只是出了可以描述感知器也可以描述一些其他算法

`Perceptron()`和`SGDClassifier(loss=”perceptron”, eta0=1, learning_rate=”constant”, penalty=None)`是一样的.

单节点感知器是一种适用于大规模学习的一种简单算法.优点在于

+ 不需要设置学习率（learning rate）。
+ 不需要正则化处理。
+ 仅使用错误样本更新模型
+ 使用合页损失(hinge loss)的感知机比SGD略快,所得模型更稀疏.

### 多层感知器(全连接的神经网络)

+ `neural_network.MLPClassifier([…])`多层感知器分类器
+ `neural_network.MLPRegressor([…])`多层感知器回归器

sklearn毕竟不是专业的神经网络算法工具.由于计算量大,要用神经网络还是推荐使用诸如tensorflow,theano,keras这样的专业框架配合gpu使用.本文也不会过多的涉及神经网络.

***例:使用[iris数据集](http://archive.ics.uci.edu/ml/datasets/Iris)训练模型***

iris是一个知名的数据集,有4维连续的特征和三种标签.

In [1]:
import requests
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder,StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report

### 数据获取

这个数据集很经典因此很多机器学习框架都为其提供接口,sklearn也是一样.但更多的情况下我们还是要处理各种来源的数据.因此此处我们还是使用最传统的方式获取数据

In [2]:
csv_content = requests.get("http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data").text

In [3]:
row_name = ['sepal_length','sepal_width','petal_length','petal_width','label']

In [4]:
csv_list = csv_content.strip().split("\n")

In [5]:
row_matrix = [line.strip().split(",") for line in csv_list]

In [6]:
dataset = pd.DataFrame(row_matrix,columns=row_name)

In [7]:
dataset[:10]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,label
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


### 数据预处理

由于特征为float类型而标签为标签类别数据,因此标签需要为其编码,特征需要标准化.我们使用z-score进行归一化

In [8]:
encs = {}

encs["feature"] = StandardScaler()
encs["feature"].fit(dataset[row_name[:-1]])
table = pd.DataFrame(encs["feature"].transform(dataset[row_name[:-1]]),columns=row_name[:-1])

encs["label"]=LabelEncoder()
encs["label"].fit(dataset["label"])
table["label"] = encs["label"].transform(dataset["label"])

In [9]:
table[:10]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,label
0,-0.900681,1.032057,-1.341272,-1.312977,0
1,-1.143017,-0.124958,-1.341272,-1.312977,0
2,-1.385353,0.337848,-1.398138,-1.312977,0
3,-1.506521,0.106445,-1.284407,-1.312977,0
4,-1.021849,1.26346,-1.341272,-1.312977,0
5,-0.537178,1.957669,-1.170675,-1.050031,0
6,-1.506521,0.800654,-1.341272,-1.181504,0
7,-1.021849,0.800654,-1.284407,-1.312977,0
8,-1.748856,-0.356361,-1.341272,-1.312977,0
9,-1.143017,0.106445,-1.284407,-1.44445,0


In [10]:
table.groupby("label").count()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,50,50,50,50
1,50,50,50,50
2,50,50,50,50


### 数据集拆分

In [11]:
train_set,validation_set = train_test_split(table)

In [12]:
train_set.groupby("label").count()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,33,33,33,33
1,42,42,42,42
2,37,37,37,37


In [13]:
validation_set.groupby("label").count()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
label,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,17,17,17,17
1,8,8,8,8
2,13,13,13,13


### 训练模型

In [14]:
mlp = MLPClassifier(
    hidden_layer_sizes=(100,50),
    activation='relu',
    solver='adam', 
    alpha=0.0001, 
    batch_size='auto', 
    learning_rate='constant', 
    learning_rate_init=0.001)

In [15]:
mlp.fit(train_set[row_name[:-1]], train_set["label"])



MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(100, 50), learning_rate='constant',
       learning_rate_init=0.001, max_iter=200, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=None,
       shuffle=True, solver='adam', tol=0.0001, validation_fraction=0.1,
       verbose=False, warm_start=False)

In [16]:
pre = mlp.predict(validation_set[row_name[:-1]])

### 模型评估

In [17]:
print(classification_report(validation_set["label"],pre))

             precision    recall  f1-score   support

          0       1.00      0.94      0.97        17
          1       0.70      0.88      0.78         8
          2       0.92      0.85      0.88        13

avg / total       0.91      0.89      0.90        38

