本章将涵盖如下内容：
+ 培养对机器学习算法的直观认识
+ 使用pandas、numpy和matplotlib读取、处理和可视化数据
+ 使用python实现线性分类算法 

5
# 2.1 人造神经元-早期机器学习概览
为了理解大脑的工作原理以设计人工智能系统，沃伦·麦卡洛可与沃尔特·皮茨在1943年提出了第一个脑神经元的抽象模型，也称作麦卡洛可-皮茨神经元（MCP），神经元是大脑中互相连接的神经细胞，它可以处理和传递化学和电信号，如下图所示  
![2-1](../syn_pic/py_machine_learning/2-1.png)
麦卡洛可和皮茨将神经细胞描述为一个具备二进制输出的逻辑门  
几年后，弗兰克·罗森布拉特基于MCP神经元模型提出了第一个感知器学习法则。在规则中提出了一个自学习算法，此算法可以自动通过优化得到权重系数，此系数与输入值的乘积决定了神经元是否被激活  
我们把问题看作一个二值分类的任务，把两类分别记为1(正类别)和-1(负类别) 5  
我们可以定义一个激励函数$\varphi (z)$,它以特定的输入值x与相应的权值向量w的线性组合作为输入，其中，z也称作净输入($z=w_1x_1+\dots+w_mx_m$):  
$$w=\left[\begin{matrix}w_1 \cr \dots \cr w_m\end{matrix}\right],x=\left[\begin{matrix}x_1 \cr \dots \cr x_m\end{matrix}\right]$$  
此时，对于一个特定样本$x^{(i)}$的激励，也就是$\varphi(z)$的输出，如果其值大于预设的阈值$\theta$，我们将其划分到1类，否则为-1类  
在感知器算法中，激励函数$\varphi (z)$是一个简单的分段函数  
$$\phi{(z)}=\begin{cases}1&若z\ge\theta \cr -1&其他\end{cases}$$
5  
我们可以把阈值$\theta$移到等式的左边，并增加一个初始项权重记为$w_0=-\theta$且设$x_0=1$，这样我们就可以把z写成一个更加紧凑的形式：  
$$z=w_0x_0+w_1x_1+\dots+w_mx_m=w^Tx,\theta(z)=\begin{cases}1&若z\ge\theta \cr -1&其他\end{cases}$$
注意：下面的小节中，使用向量点积来表示x和w乘积的和，而上标T则表示转置，它使得行向量和列向量之间能够互相转换  
下图中，左图说明了感知器模型的激励函数如何将输入$z=w^Tx$转换到二值输出(-1或1),右图说明了感知器模型如何将两个可区分类别进行线性区分  
![2-2](../syn_pic/py_machine_learning/2-2.png)
5  
MCP神经元和罗森布拉特阈值感知器的理念就是，通过模拟的方式还原大脑中单个神经元的工作方式：它是否被激活。最初的规则可总结为如下几步：  
1. 将权重初始化为零或一个极小的随机数  
2. 迭代所有训练样本$x^{(i)}$，执行如下操作：
    1. 计算输出值$\hat{y}$
    2. 更新权重
    
5  
这里的输出值是指通过前面定义的单位阶跃函数预测得出的类标，而每次对权重向量中每一权重w的更新方式为：  
$$w_j: = w_j + \Delta{w_j}$$
对于用于更新权重$w_j$的值$\Delta w_j$, 可通过感知器学习规则计算获得：
$$\Delta{w_j} = \eta(y^{(i)}-\hat{y}^{(i)})x_j^{(i)}$$
其中，$\eta$为学习速率（一个介于0.0到1.0之间的常数）,$y^{(i)}$为第i个样本的真实类标，$\hat{y}^{(i)}$为预测得到的类标 5  
需特别注意，权重向量中的所有权重值是同时更新的，这意味着在所有的权重$\Delta{w_j}$更新前，我们无法重新计算$\hat{y}^{(i)}$  
具体地，对于一个二维数据集，可通过下式进行更新：  
$$\Delta{w_0} = \eta(y^{(i)} - output^{(i)})$$
$$\Delta{w_1} = \eta(y^{(i)} - output^{(i)})x_1^{(i)}$$
$$\Delta{w_2} = \eta(y^{(i)} - output^{(i)})x_2^{(i)}$$
5  
对于如下式所示的两种场景，若感知器对类标的预测正确，权重可不做更新：  
$$\Delta{w_j} = \eta(-1^{(i)} - (-1^{(i)}))x_j^{(i)} = 0$$
$$\Delta{w_j} = \eta(1^{(i)} - 1^{(i)})x_j^{(i)} = 0$$
但是，在类标预测错误的情况下，权重的值会分别趋向于正类别或者负类别的方向：  
$$\Delta{w_j} = \eta(1^{(i)} - (-1^{(i)}))x_j^{(i)} = \eta(2)x_j^{(i)}$$
$$\Delta{w_j} = \eta(-1^{(i)} - 1^{(i)})x_j^{(i)} = \eta(-1)x_j^{(i)}$$
5  
为了对乘法因子x_j^{(i)}有个更直观的认识，我们看另一个简单的例子，其中  
$$\hat{y}^{(i)}=+1，y^{(i)}=-1，\eta=1$$  
假定$x_j^{(i)} = 0.5$, 且模型将此样本错误地分到了-1类别内  
在此情况下，我们应将相应的权值增1，以保证下次遇到此样本时使得激励$x_j^{(i)} = w_j^{(i)}$能将其更多地判定为正类别，这也相当于增大其值大于单位阶跃函数阈值的概率，以使得此样本被判定为+1类  
$$\Delta{w_j} = (1^{(i)} - (-1^{(i)}))0.5^{(i)} = (2)0.5^{(i)}=1$$
5  
权重的更新与$x_j^{(i)}$的值成比例。例如，如果有另外一个样本$x_j^{(i)}=2$被错误分到了-1类别中，我们应更大幅度地移动决策边界，以保证下次遇到此样本时能正确分类  
$$\Delta{w_j} = (1^{(i)} - (-1^{(i)}))2^{(i)} = (2)2^{(i)}=4$$
需要注意的是：感知器收敛的前提是两个类别必须是线性可分的，且学习速率足够小  
如果两个类别无法通过一个线性决策边界进行划分，可以为模型在训练数据集上的学习迭代次数设置一个最大值，或者设置一个允许错误分类样本数量的阈值——否则，感知器训练算法将永远不停地更新权值  
![2-3](../syn_pic/py_machine_learning/2-3.png)
5  
![2-4](../syn_pic/py_machine_learning/2-4.png)
上图说明了感知器如何接受样本x的输入，并将其与权值w进行加权以计算净输入。进而净输入被传递到激励函数（在此为单位阶跃函数），然后生成值为+1或者-1的二值输出，并以其作为样本的预测类标  
在学习阶段，此输出用来计算预测的误差并更新权重 5 
# 2.2 使用Python实现感知器学习算法
在上一节中，我们已经学习了罗森布拉特感知器的工作方式，现在使用Python来实现它，并且将其应用于第1章中提到的鸢尾花数据集中  

In [None]:
import numpy as np
'''
python	numpy	Array creation routines	np.zeros()
python	numpy	Array objects	ndarray.shape
python	python	Built-in Functions	range()
python	python	Built-in Functions	zip()
python	Sequence Types — list, tuple, range	s.append()	s.append()
python	numpy	Linear algebra (numpy.linalg)	np.dot()
python	numpy	Indexing routines	np.where()
'''
class Perceptron(object):
    """感知器分类器
    
    参数
    ----------
    eta : float
        学习速率 (介于 0.0 和 1.0)
    n_iter : int
        训练集的最大迭代次数

    属性
    ----------
    w_ : 1d-array
        权重
    errors_ : list
        被错误分类的样本数量列表
    5 
    """
    def __init__(self, eta = 0.01, n_iter = 10):
        self.eta = eta
        self.n_iter = n_iter
    
    def fit(self, X, y):
        """使用训练集训练模型
        
        参数
        ----------
        X : {array-like}, shape = [n_samples, n_features]
            训练特征集，n_samples是样本量，n_features是特征数量
    y : array-like, shape = [n_samples]
        目标类标
        
    返回
    ----------
    self : object
    5
        """
        self.w_ = np.zeros(1 + X.shape[1]) 
        self.errors_ = []
        
        for _ in range(self.n_iter):
            errors = 0
            for xi, target in zip(X, y):
                update = self.eta * (target - self.predict(xi))
                self.w_[1:] += update * xi
                self.w_[0] += update
                errors += int(update != 0.0)
            self.errors_.append(errors)
        return self
    
    def net_input(self, X):
        """计算净输入（净输入函数）
        """
        return np.dot(X, self.w_[1:]) + self.w_[0]

    def predict(self, X):
        """单位阶跃函数（激励函数），返回类标 5"""
        return np.where(self.net_input(X) >= 0.0, 1, -1)

在感知器实现过程中，我们实例化一个Perceptron对象时，给出了一个学习速率eta和在训练数据集上进行迭代的次数n_iter  
通过fit方法，我们将self.w_中的权值初始化为一个零向量$R^{m+1}$，其中m是数据集中维度(特征)的数量，我们在此基础上增加一个0权重列(也就是激励函数的阈值，通过与激励函数的等式被移到式子中)  
与python的列表类似，numpy也使用方括号([])对一维数组进行索引。对二维数组来说，第1个索引值对应数组的行，第2个索引值对应数组的列  
初始化权重后，fit方法循环迭代数据集中的所有样本，并根据前面章节讨论过的感知器学习规则来更新权重  
我们使用predict方法来计算类标，这个方法在fit方法中被调用，用于计算权重更新时的类标，在完成模型训练后，predict方法也用于预测未知数据的类标 5  
此外，在每次迭代的过程中，我们收集每轮迭代中错误分类样本的数量，并将其存放于列表self.errors_中，以便后续对感知器在训练中表现的好坏做出判定  
另外在net_input方法中使用的np.dot方法用于计算项链的点积$w^Tx$  
除了使用numpy的a.dot(b)或np.dot(a,b)计算两个数组a和b的点积之外，还可以通过类似sum(i\*j for i,j in zip(a,b))这样的经典python for循环结构来计算  
numpy的优势在于其算术运算的向量化。我们可充分利用现代处理器单指令流多数据流架构的支持快速完成运算，而不是循环地对每个元素逐一进行计算  5
## 基于鸢尾花数据集训练感知器模型  
为了测试前面实现的感知器算法，我们从鸢尾花数据集中挑选了setosa和versicolor两种花的信息作为测试数据（二分类），当然也可以通过one-vs.all技术扩展到多类别的分类器应用中  
另外出于可视化方面的原因，我们只考虑数据集中sepal-length和petal-length这两个特征  

In [None]:
'''
python	conda	conda install	==
python	sklearn	datasets	load_iris()
python	sklearn	datasets	load_iris() as_frame
python	sklearn	datasets	load_iris() frame
python	pandas	dataframe	d.tail()
'''
from sklearn.datasets import load_iris
iris = load_iris(as_frame=True)
df = iris.frame
iris.frame.tail()

**遇到问题-conda无法升级scikit-learn==0.23.1**  
**背景**  

由于load_iris() 需要scikit-learn版本在0.23以上
所以我通过conda install升级scikit-learn
结果提示兼容性问题：The environment is inconsistent, please check the package plan carefully 5  
**计划**
1. 搜集相关资料
2. 分析相关资料
3. 制订解决方案

5  
**方案**
资料链接
1. https://stackoverflow.com/questions/55527354/the-environment-is-inconsistent-please-check-the-package-plan-carefully 
建议：conda install anaconda
2. https://www.cnpython.com/qa/124929
建议：conda install anaconda
3. https://blog.csdn.net/sinat_37267278/article/details/103305673
同1
4. https://blog.csdn.net/qq_34970603/article/details/106419573
https://www.jianshu.com/p/19422477cc3c
建议：conda install anaconda
5. https://www.jianshu.com/p/19422477cc3c
建议： conda install anaconda + conda update --all
5  

采用conda install anaconda  
解决问题 5  
python	conda	conda install	ERROR 5  
——————  
提取前100个类标，其中分别包含50个山鸢尾类标和50个变色鸢尾类标

In [None]:
'''
5
python	pandas	dataframe	d.iloc[]
python	pandas	series	s.values
python	pandas	dataframe	d.values
python	matplotlib	Pyplot function overview	plt.scatter()
python	matplotlib	Pyplot function overview	plt.scatter() marker
python	matplotlib	Pyplot function overview	plt.scatter() c
python	matplotlib	collections	label
python	matplotlib	Pyplot function overview	xlabel()
python	matplotlib	Pyplot function overview	ylabel()
python	matplotlib	Pyplot function overview	legend() loc
python	matplotlib	Pyplot function overview	figure() figsize
python	matplotlib	Pyplot function overview	xlim()
python	matplotlib	Pyplot function overview	ylim()

'''
import matplotlib.pyplot as plt

y = df.iloc[:100,4].values
y = np.where(y == 0, -1, 1)
X = df.iloc[:100, [0,2]].values
plt.figure(figsize = (8,5))
plt.scatter(X[:50, 0], X[:50, 1],
           c = 'red', marker = 'o', label = 'setosa')
plt.scatter(X[50:, 0], X[50:, 1],
           c = 'blue', marker = 'x', label = 'versicolor')
plt.xlabel('sepal length(cm)')
plt.ylabel('petal length(cm)')
plt.legend(loc = 'upper left')
plt.ylim(0,6)
plt.xlim(4,7.5)
plt.show()

现在，我们可以利用抽取出的鸢尾花数据子集来训练感知器了  
同时，我们还将绘制每次迭代的错误分类数量的折线图，以检验算法是否收敛并找到可以分开两种类型鸢尾花的决策边界  
**遇到问题-算法不收敛**  
+ 方案1：剔除异常点
+ 方案2：检查并调整算法

由于该代码来源书籍，只有数据集与书本不一致，故采用方案1  
5  
**发现原因**  
特征选择代码错误, 原书的数据集和现有数据集特征存放位置不同  

In [None]:
'''
python	matplotlib	Pyplot function overview	plot()
python	matplotlib	lines	marker
'''
ppn = Perceptron(eta = 0.1, n_iter = 10)
ppn.fit(X, y)
plt.plot(range(1, len(ppn.errors_) + 1), ppn.errors_, marker = 'o')
plt.xlabel('Epochs')
plt.ylabel('Number of misclassifications')
plt.xlim(1,10)
plt.show()

如上图所示，我们的分类器在第6次迭代后就已经收敛，并且具备对训练样本进行正确分类的能力。下面通过一个简单的函数来实现对二维数据集决策边界的可视化  

In [None]:
'''
5
python	numpy	Array manipulation routines	unique()
python	Built-in Functions	len()	len()
python	matplotlib	colors	ListedColormap()
python	numpy	The N-dimensional array (ndarray)	min()
python	numpy	The N-dimensional array (ndarray)	max()
python	numpy	Array creation routines	arange() step
python	numpy	Array creation routines	meshgrid()
python	numpy	The N-dimensional array (ndarray)	ravel()
python	numpy	The N-dimensional array (ndarray)	ndarray.T
python	numpy	The N-dimensional array (ndarray)	reshape()
python	matplotlib	Pyplot function overview	contourf()
python	Built-in Functions	enumerate()	enumerate()
'''
from matplotlib.colors import ListedColormap

def plot_decision_regions(X, y, classifier, resolution = 0.02):
    # 设置散点生成器和色图
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])
    
    # 绘制决策边界
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                          np.arange(x2_min, x2_max, resolution)) 
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha = 0.4, cmap = cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())
    
    # 绘制样本分类
    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x = X[y == cl, 0], y = X[y == cl, 1],
                   alpha = 0.8, c = cmap(idx),
                   marker = markers[idx], label = cl)


In [None]:
'''
meshgrid详解 
python	numpy	Array creation routines	linspace() num

nx, ny = (3, 2) # 可以另外测试 nx, ny = (4, 3)
x = np.linspace(0, 1, nx)
y = np.linspace(0, 1, ny)
xv, yv = np.meshgrid(x, y)
print(x)
print('-'*6)
print(y)
print('-'*6)
print(xv)
print('-'*6)
print(yv)
'''

In [None]:
plot_decision_regions(X, y, classifier = ppn)
plt.xlabel('sepal length(cm)')
plt.ylabel('petal length(cm)')
plt.legend(loc = 'upper left')
plt.show()

Frank Rosenblatt从数学上证明了：如果两个类别可以通过线性超平面进行划分，则感知器算法一定会收敛 5  
# 2.3 自适应线性神经元及其学习的收敛性 
在Frank Rosenblatt提出感知器算法几年之后， Bernard Widrow和他的博士生Tedd Hoff提出了Adaline算法， 这可以看作对之前算法的改进  
Adaline算法阐明了代价函数的核心概念，并且对其作了最小化优化，这是理解逻辑斯蒂回归、支持向量机和后续章节涉及的回归模型等基于回归的高级机器学习分类算法的基础  
基于Adaline规则的权重更新是通过一个连续的线性激励函数来完成的，而不像Rosenblatt感知器那样使用单位阶跃函数，这是二者的主要区别  
Adeline算法中作用于净输入的激励函数$\varphi (z)$是简单的恒等函数， 即$\varphi(w^Tx)=w^Tx$  
线性激励函数在更新权重的同时，我们使用量化器对类标进行预测，量化器与前面提到的单位阶跃函数类似，如下图所示 5  
![2-5](../syn_pic/py_machine_learning/2-5.png)
与前文介绍的感知器算法的示意图进行比较，可以看出区别在于：这里使用线性激励函数的连续型输出值，而不是二类别分类类标来计算模型的误差以及更新权重 5  
## 2.3.1 通过梯度下降最小化代价函数
机器学习中监督学习算法的一个核心组成在于：在学习阶段定义一个待优化的目标函数。这个目标函数通常是需要我们做最小化处理的代价函数  
在Adaline中，我们可以将代价函数J定义为通过模型得到的输出与实际类标之间的误差平方和（SSE）  
$$J(w) = \frac{1}{2}\Sigma_i{(y^{(i)}-\phi(z^{(i)}))^2}$$
在此，系数1/2只是出于方便的考虑， 它使我们更容易导出梯度， 具体将在下一段落中介绍  
与单位阶跃函数相比，这种连续型激励函数的主要优点在于：其代价函数是可导的 5  
此代价函数的另一个优点在于：它是一个凸函数；这样，我们可以通过简单、高效的梯度下降优化算法来得到权重，且能保证在对鸢尾花数据集中样本进行分类时代价函数最小  
我们将梯度下降的原理形象地描述为下山，直到获得一个局部或者全局最小值  
在每次迭代中，根据给定地学习速率和梯度地斜率，能够确定每次移动地步幅，我们按照步幅沿着梯度方向前进一步  
![2-6](../syn_pic/py_machine_learning/2-6.png)
通过梯度下降，我们可以基于代价函数J(w)沿梯度$\nabla J(w)$方向做一次权重更新： 5  
$$w: = w + \Delta{w}$$
在此，权重增量$\nabla{w}$定义为负梯度与学习速率$\eta$地乘积：  
$$\Delta{w} = - \eta\Delta{J(w)}$$
为了计算代价函数地梯度，我们需要计算代价函数相对于每个权重$w_j$的偏导$\frac{\partial{J}}{\partial{w_i}} = - \Sigma_i{(y^{(i)}-\phi{(z^{(i)})})x_j^{(i)}}$  
这样我们就可以把对权重$w_j$的更新写作$\Delta{w_j} = - \eta \frac{\partial{J}}{\partial{w_i}} = \mu \Sigma_i{(y^{(i)} - \phi(z^{(i)}))x_j^{(i)}}$  
5  
由于所有权重被同时更新，Adaline学习规则可记为：$w = w + \Delta{w}$  
对于熟悉代数的读者来说，误差平方和代价函数对于第j个权重的偏导，可通过下列步骤得到：  
![2-7](../syn_pic/py_machine_learning/2-7.png)
虽然Adaline学习规则与感知器规则看起来类似，不过$\varphi{(z^{(i)})}$中的$z^{(i)} = w^Tx^{(i)}$是实数，而不是整数类标  
此外，权重的更新是基于训练集中所有样本完成的，这也是此方法被称作“批量”梯度下降的原因 5  
## 2.3.2 使用Python实现自适应线性神经元  
感知器规则与Adaline非常相似，我们将在前面实现的感知器代码的基础上修改fit方法，将其权重的更新改为通过梯度下降最小化代价函数来实现Adaline算法  

In [None]:
'''
python	numpy	The N-dimensional array (ndarray)	dot()
python	numpy	The N-dimensional array (ndarray)	sum()
5  
'''
class AdalineGD(object):
    """自适应线性神经元分类器
    
    参数
    ----------
    eta : float
        学习速率 (介于 0.0 和 1.0)
    n_iter : int
        训练集的最大迭代次数

    属性
    ----------
    w_ : 1d-array
        权重
    errors_ : list
        被错误分类的样本数量列表 
    """
    def __init__(self, eta = 0.01, n_iter = 50):
        self.eta = eta
        self.n_iter = n_iter
    
    def fit(self, X, y):
        """使用训练集训练模型
        
        参数
        ----------
        X : {array-like}, shape = [n_samples, n_features]
            训练特征集，n_samples是样本量，n_features是特征数量
    y : array-like, shape = [n_samples]
        目标类标
        
    返回
    ----------
    self : object
        """
        self.w_ = np.zeros(1 + X.shape[1]) 
        self.cost_ = []
        
        for _ in range(self.n_iter):
            output = self.net_input(X)
            errors = (y - output)
            self.w_[1:] += self.eta * X.T.dot(errors)
            self.w_[0] += self.eta * errors.sum()
            cost = (errors**2).sum() / 2.0
            self.cost_.append(cost)
        return self
    
    def net_input(self, X):
        """计算净输入（净输入函数）
        """
        return np.dot(X, self.w_[1:]) + self.w_[0]

    def activation(self, X):
        """计算线性激励值
        """
        return self.net_input(X)
        
    def predict(self, X):
        """单位阶跃函数（激励函数），返回类标"""
        return np.where(self.activation(X) >= 0.0, 1, -1)

与感知器中针对每一个样本做一次权重更新不同，我们基于训练数据集通过self.eta\*errors.sum()来计算梯度的第0个位置的权重  
通过self.eta\*X.T.dot(errors)来计算1到m位置的权重，其中X.T.dot(errors)是特征矩阵与误差向量之间的乘积  
我们设置一个列表self.cost_来存储代价函数的输出值以检查本轮训练后算法是否收敛  
矩阵与向量的乘法计算类似于将矩阵中的每一行单独作为一个行向量与原列向量的点积计算。例如  
![2-8](../syn_pic/py_machine_learning/2-8.png)
5  
在实践中，为优化收敛效果，常常需要通过实验来找到合适的学习速率$\eta$  

In [None]:
'''
python	matplotlib	Pyplot function overview	subplots() figsize
python	matplotlib	axes	plot()
python	numpy	Mathematical functions	log10()
python	matplotlib	axes	set_xlabel()
python	matplotlib	axes	set_ylabel()
python	matplotlib	axes	set_title()
'''
fig, ax = plt.subplots(nrows = 1, ncols = 2, figsize = (8, 4))
ada1 = AdalineGD(n_iter = 10, eta = 0.01).fit(X, y)
ax[0].plot(range(1, len(ada1.cost_) + 1),
          np.log10(ada1.cost_), marker = 'o')
ax[0].set_xlabel('Epochs')
ax[0].set_ylabel('log(Sum-squared-error)')
ax[0].set_title('Adaline - Learning rate 0.01')
ada2 = AdalineGD(n_iter = 10, eta = 0.0001).fit(X, y)
ax[1].plot(range(1, len(ada2.cost_) + 1),
          ada2.cost_, marker = 'o')
ax[1].set_xlabel('Epochs')
ax[1].set_ylabel('Sum-squared-error')
ax[1].set_title('Adaline - Learning rate 0.0001')
plt.show()

左边的图像显示了学习速率过大可能会出现的问题——并没有使代价函数的值尽可能的低，反而因为算法跳过了全局最优解，导致误差随着迭代次数增加而增大  
下图说明了我们如何通过更改特定的权重参数值来最小化代价函数J（左子图）。右子图则展示了，如果学习速率选择过大会发生说明情况  
![2-9](../syn_pic/py_machine_learning/2-9.png)
5 
本书涉及的许多机器学习算法要求对特征值范围进行特征缩放，以优化算法的性能。梯度下降就是通过特征缩放而收益的众多算法之一  
标准化的特征缩放方法可以使数据具备标准正态分布的特性。例如，为了对第j个特征的值进行标准化处理，只需要将其值与所有样本的平均值$\mu_j$相减，并除以其标准差$\sigma_j$  
$$x_j'=\frac{x_j-\mu_j}{\sigma_j}$$
这里的$x_j$使包含训练样本n中第j个特征的所有值的向量  
标准化可以简单地通过numpy的mean和std方法来完成： 5  

In [None]:
'''
python	numpy	Array creation routines	copy()
python	numpy	The N-dimensional array (ndarray)	mean()
python	numpy	The N-dimensional array (ndarray)	std()
'''
X_std = np.copy(X)
X_std[:, 0] = (X[:, 0] - X[:, 0].mean()) / X[:, 0].std()
X_std[:, 1] = (X[:, 1] - X[:, 1].mean()) / X[:, 1].std()

在进行标准化操作后，我们以学习速率$\eta = 0.01$再次对Adaline进行训练，看看它是否是收敛的 ：  

In [None]:
ada = AdalineGD(n_iter = 15, eta = 0.01)
ada.fit(X_std, y)
plot_decision_regions(X_std, y, classifier = ada)
plt.title('Adaline - Gradient Descent')
plt.xlabel('sepal length [standardized]')
plt.xlabel('petal length [standardized]')
plt.legend(loc = 'upper left')
plt.show()
plt.plot(range(1, len(ada.cost_) + 1), ada.cost_, marker = 'o')
plt.xlabel('Epochs')
plt.ylabel('Sum-squared-error')
plt.show()

如上图所示， 以$\eta = 0.01$为学习速率， Adaline算法在经过标准化特征处理的数据上训练可以收敛。虽然所有样本都被正确分类，但是其误差平方和（SSE）的值仍旧不为零 5  
## 2.3.3 大规模机器学习与随机梯度下降
假定现在有一个包含几百万条数据的巨大数据集，对许多机器学习应用来说，这个量是非同寻常的  
由于向全局最优点移动的每一步都需要使用整个数据集来进行评估，因此这种情况下使用批量梯度下降的计算成本非常高  
一个常用的替代批量梯度下降的优化算法是随机梯度下降，有时也称作迭代梯度下降或者在线梯度下降  
与基于所有样本$x^{(i)}$的累积误差更新权重的策略不同：  
$$\Delta{w} = \eta\Sigma_i{(y^{(i)}-\phi(z^{(i)}))}x^{(i)}$$
5  
我们每次使用一个训练样本渐进地更新权重：  
$$\eta(y^{(i)}-\phi(z^{(i)}))x^{(i)}$$
虽然随机梯度下降可看作对梯度下降地近似，但是由于权重更新更频繁，通常它能更快收敛  
由于梯度的计算是基于单个训练样本来完成的，因此其误差曲面不及梯度下降的平滑，但这也使得随机梯度下降更容易跳出小范围的局部最优点  
当实现随机梯度下降时，通常使用随着时间变化的自适应学习速率来替代固定学习速率$\eta$，例如：$\frac{c_1}{[迭代次数] + c_2}$，其中$c_1$和$c_2$均为常数 5  
清注意，随机梯度下降不一定会得到全局最优解，但会趋近于它  
随机梯度下降的另一个优势是我们可以将其用于在线学习。使用在线学习，系统可以及时地适应变化，同时如果考虑存储成本的话，也可以将训练数据在完成对模型的更新后丢弃  
小批次学习是介于梯度下降和随机梯度下降之间的一种技术。可以将小批次学习理解为相对较小的训练数据子集上应用梯度下降——例如，一次使用50个样本  
与梯度下降相比，由于权重的更新更加频繁，因此收敛速度更快  
此外，小批次学习使得我们可以用向量化操作来替代for循环，从而进一步提高学习算法的计算效率 5  
我们在Adaline学习规则的基础上将学习算法中的权重更新改为通过随机梯度下降来实现即可。现在把fit方法改为使用单个训练样本来更新权重  
此外，我们增加了一个partial_fit方法，对于在线学习，此方法不会重置权重。为了检验算法在训练后是否收敛，我们将每次迭代后计算出的代价值作为训练样本的平均消耗   
此外，我们还增加了一个shuffle训练数据选项，每次迭代前重排训练数据避免在优化代价函数阶段陷入循环。通过random_state参数，我们可以指定随机数种子以保持多次训练的一致性    

In [None]:
'''
5 
python	Built-in Functions	sum()	sum()
python	numpy	The N-dimensional array (ndarray)	ravel()
python	numpy	Random sampling (numpy.random)	permutation()
'''
from numpy.random import seed  
class AdalineGD(object):
    """自适应线性神经元分类器 5
    
    参数
    ----------
    eta : float
        学习速率 (介于 0.0 和 1.0)
    n_iter : int
        训练集的最大迭代次数

    属性
    ----------
    w_ : 1d-array
        权重
    errors_ : list
        被错误分类的样本数量列表 
    shuffle : bool(default: True)
        每次迭代随机重排训练数据
        当值为True时则会避免代价函数陷入循环
    random_state : int(default: None)
        设置重排的随机种子和初始化权重  
    """
    def __init__(self, eta = 0.01, n_iter = 10,
                shuffle = True, random_state = None):
        self.eta = eta
        self.n_iter = n_iter
        self.w_initialized = False
        self.shuffle = shuffle
        if random_state:
            seed(random_state)
    
    def fit(self, X, y):
        """使用训练集训练模型 5
        
        参数
        ----------
        X : {array-like}, shape = [n_samples, n_features]
            训练特征集，n_samples是样本量，n_features是特征数量
        y : array-like, shape = [n_samples]
        目标类标
        
        返回
        ----------
        self : object
        """
        self._initialize_weights(X.shape[1])
        self.cost_ = []
        
        for i in range(self.n_iter):
            if self.shuffle:
                X, y = self._shuffle(X, y)
            cost = []
            for xi, target in zip(X, y):
                cost.append(self._update_weights(xi, target))
            avg_cost = sum(cost)/len(y)
            self.cost_.append(avg_cost)            
        return self
    
    def partial_fit(self, X, y):
        """不重新初始化权重来训练数据集"""
        if not self.w_initialized:
            self._initialize_weights(X.shape[1])
        if y.ravel().shape[0] > 1:
            for xi, target in zip(X, y):
                self._update_weights(xi, target)
        else:
            self._update_weights(X, y)
        return self
    
    def _shuffle(self, X, y):
        """重排训练数据"""
        r = np.random.permutation(len(y))
        return X[r], y[r]
    
    def _initialize_weights(self, m):
        '''初始化零权重向量'''
        self.w_ = np.zeros(1 + m)
        self.w_initialized = True
        
    def _update_weights(self, xi, target):
        """
        使用自适应规则更新权重 5
        """
        output = self.net_input(xi)
        error = (target - output)
        self.w_[1:] += self.eta * xi.dot(error)
        self.w_[0] += self.eta * error
        cost = 0.5 * error ** 2
        return cost
    
    def net_input(self, X):
        """计算净输入（净输入函数）
        """
        return np.dot(X, self.w_[1:]) + self.w_[0]

    def activation(self, X):
        """计算线性激励值
        """
        return self.net_input(X)
        
    def predict(self, X):
        """单位阶跃函数（激励函数），返回类标"""
        return np.where(self.activation(X) >= 0.0, 1, -1)

分类器AdalineSGD中_shuffle方法的工作原理如下：通过numpy.random的permutation函数，我们生成一个包含0~100的不重复的随机序列  
这些数字可以作为索引帮助打乱我们的特征矩阵和类标向量  

In [None]:
ada = AdalineSGD(n_iter = 15, eta = 0.01, random_state = 1)
ada.fit(X_std, y)
