In [None]:
'''
python	sklearn	datasets	load_iris() feature_names
python	sklearn	datasets	load_iris() target
python	sklearn	datasets	load_iris() data
'''
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data[:, [2, 3]]
y = iris.target
iris.feature_names

In [None]:
'''
python	sklearn	model_selection	train_test_split()
'''
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size = 0.3, random_state = 0)

In [None]:
'''
5
'''
from sklearn.preprocessing import StandardScaler
sc = StandardScaler() 
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

In [None]:
'''
python	sklearn	Linear Models	Perceptron() max_iter
python	sklearn	Linear Models	Perceptron() eta0
'''
from sklearn.linear_model import Perceptron
ppn = Perceptron(max_iter = 40, eta0 = 0.1, random_state = 0)
ppn.fit(X_train_std, y_train)

In [None]:
'''
python	str	format()	format() d
'''
y_pred = ppn.predict(X_test_std)
print('Misclassified samples: {:d}'.format((y_test != y_pred).sum()))

In [None]:
'''
python	sklearn	Classification metrics	accuracy_score()
'''
from sklearn.metrics import accuracy_score
print('Accuracy: {:.2f}'.format(accuracy_score(y_test, y_pred)))

In [None]:
'''
python	numpy	Array manipulation routines	unique()
python	matplotlib	colors	ListedColormap()
python	numpy	The N-dimensional array (ndarray)	min()
python	numpy	The N-dimensional array (ndarray)	max()
python	numpy	Array creation routines	meshgrid()
python	matplotlib	Pyplot function overview	contourf()
python	matplotlib	Pyplot function overview	scatter() alpha
python	matplotlib	collections	label
'''

from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt

def plot_decision_regions(X, y, classifier,
                          test_idx = None, resolution = 0.02):
    # 设置散点生成器和色图
    markers = ('s', 'x', 'o', '^', 'v')
    colors = ('red', 'blue', 'lightgreen', 'gray', 'cyan')
    cmap = ListedColormap(colors[:len(np.unique(y))])
    
    # 绘制决策边界
    x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution),
                          np.arange(x2_min, x2_max, resolution)) 
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha = 0.4, cmap = cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())
    
    # 绘制样本分类
    X_test, y_test = X[test_idx, :], y[test_idx]
    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x = X[y == cl, 0], y = X[y == cl, 1],
                   alpha = 0.8, color = cmap(idx),
                   marker = markers[idx], label = cl)

    # 高亮测试样本
    if test_idx:
        X_test, y_test = X[test_idx, :], y[test_idx]
        plt.scatter(X_test[:, 0], X_test[:, 1], c = 'yellow',
                   alpha = 0.5, linewidth = 1, marker = 'o',
                   s = 55, label = 'test set')

In [None]:
'''
python	numpy	Array manipulation routines	vstack()
python	numpy	Array manipulation routines	hstack()
python	matplotlib	Pyplot function overview	legend() loc

'''
import numpy as np
X_combined_std = np.vstack((X_train_std, X_test_std))
y_combined = np.hstack((y_train, y_test))
plot_decision_regions(X = X_combined_std,
                     y = y_combined,
                     classifier = ppn,
                     test_idx = range(105,150))
plt.xlabel('petal length [standardized]')
plt.ylabel('petal length [standardized]')
plt.legend(loc = 'upper left')
plt.show()

In [None]:
'''
python	numpy	Mathematical functions	exp()
python	matplotlib	Pyplot function overview	axvline()
python	matplotlib	lines	color
python	matplotlib	Pyplot function overview	axhspan()
python	matplotlib	patches	Patch() facecolor
python	matplotlib	patches	Patch() alpha
python	matplotlib	patches	Patch() linestyle
python	matplotlib	Pyplot function overview	axhline()
python	matplotlib	lines	linestyle

'''
def sigmoid(z):
    return 1.0 / (1.0 + np.exp(-z))
z = np.arange(-7, 7, 0.1)
phi_z = sigmoid(z)
plt.plot(z, phi_z)
plt.axvline(0.0, color='k')
plt.axhspan(0.0, 1.0, facecolor='1.0', alpha=1.0, linestyle='dotted')
plt.axhline(y=0.5, linestyle='dotted', color='black')
plt.axhline(y=0, linestyle='dotted', color='black')
plt.axhline(y=1.0, linestyle='dotted', color='black')
plt.yticks([0.0, 0.5, 1.0])
plt.ylim(-0.1, 1.1)
plt.xlabel('z')
plt.ylabel('$\phi (z)$')
plt.show()

In [None]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression(C=1000.0, random_state=0)
lr.fit(X_train_std, y_train)
plot_decision_regions(X_combined_std,
                     y_combined, classifier=lr,
                     test_idx=range(105,150))
plt.xlabel('petal length [standardized]')
plt.ylabel('petal width [standardized]')
plt.legend(loc='upper left')
plt.show()

在进入下一步之前，先计算一下sigmoid函数的偏导：  
![3-3](../syn_pic/py_machine_learning/3-3.png)  
我们的目标时求得能够使对数似然函数最大化的权重值，在此需按如下公式更新所有权重：  
$$w_j:=w_j+\eta\sum_{i=1}^n{(y^{(i)}-\phi(z^{(i)}))x^{(i)}}$$
由于我们是同时更新所有的权重的，因此可以将更新规则记为： 5  
$$w:=w+\Delta{w}$$
其中，$\Delta{w}$定义为：  
$$\Delta{w}=\eta\nabla{l(w)}$$
由于最大化对数似然函数等价于最小化前面定义的代价函数J，因此可以将梯度下降的更新规则定义为：  
$$\Delta{w_j}=-\eta\frac{\partial{J}}{\partial{w_j}}=\eta\sum_{i=1}^n{(y^{(i)}-\phi{(z^{(i)})x^{(i)}})}$$
$$w:=w+\Delta{w},\Delta{w}=-\eta\nabla{J(w)}$$
5  
这等价于第2章中的梯度下降规则 5  
## 3.3.4 通过正则化解决过拟合问题  
过拟合是机器学习中的常见问题，它是指模型在训练数据集上表现良好，但是用于未知数据时性能不佳  
如果一个模型出现了过拟合问题，我们也说此模型有高方差，这有可能是因为使用了相关数据中过多的参数，从而使得模型变得国于复杂。同样，模型也可能面临欠拟合（高偏差）问题  
![3-4](../syn_pic/py_machine_learning/3-4.png)  
如果我们多次重复训练一个模型，如使用训练数据集中不同的子集，方差可以用来衡量模型对特定样本实例预测的一致性。可以说模型对训练数据中的随机性是敏感的  
相反，当我们在不同的训练数据集上多次重建模型时，偏差可以从总体上衡量预测值与实际值之间的差异;偏差并不是由样本的随机性导致的，它衡量的是系统误差 5  
偏差-方差权衡就是通过正则化调整模型的复杂度。正则化是解决共线性（特征间高度相关）的一个很有用的方法，它可以过滤掉数据中的噪音，并最终防止过拟合  
### 问题：为什么正则化可以防止过拟合？
> 由于过拟合本质是过多的特征被启用导致的，导致模型泛化性变差，所以防止过拟合要降低特征的数量，可以通过使w个数减少，问题就变成让W向量中项的个数最小化，方法就是让w变成或趋近于0，因为向量中0元素对应的x是没有任何权重的 5  
### 问题：什么是L2正则化？
> L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的正则项$\|W\|^2$最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦 5  

正则化背后的概念是引入额外的信息（偏差）来对极端参数权重做出惩罚。最常用的正则化形式被称为L2正则化，有时也称作L2收缩或权重衰减，写作  
$$\frac{\lambda}{2}\|{w}\|^2=\frac{\lambda}{2}\sum_{j=1}^mw_j^2$$
其中，$\lambda$为正则化系数  
**特征缩放之所以重要，其中一个原因就是正则化。为了使得正则化起作用，需要确保所有特征保持统一** 5  
使用正则化方法时，我们只需在逻辑斯蒂回归的代价函数中加入正则化项，以降低回归系数带来的副作用：  
$$J(w)=\left\{\sum_{i=1}^n{-log(\phi(z^{(i)}))+(1-y^{(i)})(-log(1-\phi(z^{(i)})))}\right\}+\frac{\lambda}{2}\|w\|^2$$  
通过正则化系数，保持权值较小时，我们就可以控制模型与训练数据的拟合程度  
前面用到了sklearn中的LogisticRegression类，其中的参数C来自支持向量机中的约定，它时正则化系数的倒数：  
$$C=\frac{1}{\lambda}$$
5  
由此，我们可以将逻辑斯蒂回归中经过正则化的代价函数写作  
$$J(w)=C\left\{\sum_{i=1}^n{-log(\phi(z^{(i)}))+(1-y^{(i)})(-log(1-\phi(z^{(i)})))}\right\}+\frac{\lambda}{2}\|w\|^2$$
因此，减小正则化参数倒数C的值相当于增加正则化的强度，这可以通过绘制对两个权重系数进行L2正则化后的图像予以展示  

In [None]:
'''
5
python	Concrete exceptions	ValueError	Integers to negative integer powers are not allowed
python	sklearn	Linear Models	LogisticRegression() C
python	sklearn	Linear Models	LogisticRegression() coef_
python	matplotlib	lines	label
python	matplotlib	Pyplot function overview	xscale()
'''
weights, params = [], []
for c in np.arange(-5, 5):
    lr = LogisticRegression(C=10.0**c, random_state=0) # 原书写着C=10**c 会引起ValueError
    lr.fit(X_train_std, y_train)
    weights.append(lr.coef_[1])
    params.append(10.0**c) # 原书写着C=10**c 会引起ValueError    
weights = np.array(weights)
plt.plot(params, weights[:, 0],
        label='petal length')
plt.plot(params, weights[:, 1], linestyle='--',
        label='petal width')
plt.ylabel('weight coefficient')
plt.xlabel('C')
plt.legend(loc='upper left')
plt.xscale('log')
plt.show()

通过结果图像可以看到，如果我们减小参数C的值，也就是增加正则化项的强度，可以导致权重系数逐渐收缩 5  
# 3.4 使用支持向量机最大化分类间隔
另一种性能强大且广泛应用的学习算法是支持向量机，它可以看作对感知器的扩展。在SVM中，我们的优化目标是最大化分类间隔  
此处间隔是指两个分离的超平面间（决策边界）的距离，而最靠近超平面的训练样本称作支持向量，如下图所示：  
![3-5](../syn_pic/py_machine_learning/3-5.png)  
5  
## 3.4.1 对分类间隔最大化的直观认识
决策边界间具有较大的间隔意味着模型具有较小的泛化误差，而较小的间隔则意味着模型可能过拟合  
为了对间隔最大化有个直观认识，我们仔细观察一下两条平行的决策边界，我们分别称其为正负超平面，可表示为：  
$$w_0+w^Tx_{pos}=1$$(1)
$$w_0+w^Tx_{neg}=-1$$(2)  
如果我们将等式（1）（2）相减，可以得到： 5  
$$\Rightarrow{w^T(x_{pos}-x_{neg})=2}$$ 
我们可以通过向量w的长度来对其进行规范化，做如下定义：  
$$\|w\|=\sqrt{\sum_{j=1}^m{w_j^2}}$$
由此可以得到如下等式：  
$$\frac{w^T(x_{pos}-x_{neg})}{\|w\|}=\frac{2}{\|w\|}$$
5  
上述等式的左侧可以解释为正、负超平面间的距离，也就是我们要最大化的间隔  
在样本正确划分的前提下，最大化分类间隔也就是使$\frac{2}{\|w\|}$最大化，这也是SVM目标函数，记为：  
$$w_0+w^Tx^{(i)}\ge1若y^{(i)}=1$$
$$w_0+w^Tx^{(i)}\lt-1若y^{(i)}=-1$$
这两个方程可以解释为：所有的负样本都落在负超平面一侧，而所有的正样本则在超平面划分出的区域中。它们可以写成更紧凑的形式： 5  