## 机器学习概述

## 线性回归
### 如何拟合
#### 两种技巧
- 绝对值技巧（absolute trick）

[![M0tMrj.md.png](https://s2.ax1x.com/2019/11/16/M0tMrj.md.png)](https://imgchr.com/i/M0tMrj)

- 先初始化一条拟合直线$ y = w_{1}x+w_{2} $
- 为了优化拟合效果，数据中的任意一点都想让直线离自己更近一些，那该如何移动这条直线呢？
- 依据绝对值技巧，我们可以不断的更新直线的两个参数
- 设定一个叫做学习率的值$ \alpha $，用来调节参数优化的幅度

[![M0NnFx.md.png](https://s2.ax1x.com/2019/11/16/M0NnFx.md.png)](https://imgchr.com/i/M0NnFx)

但是，对于绝对值技巧来说，
- 我们要依据点与直线的上下关系，更改参数优化的符号；
- 而且，参数优化的幅度是点与坐标轴的距离，而不是点与直线的距离。

- 平方值技巧（Square Trick）

[![M0aZPx.md.png](https://s2.ax1x.com/2019/11/16/M0aZPx.md.png)](https://imgchr.com/i/M0aZPx)

在平方值技巧中，我们把点到直线的距离（$ q - q^{'} $）添加到了参数优化中，这样做还有一个好处就是：
- 因为距离的存在，我们不需要再去判定点与直线的位置关系了

#### 梯度下降（Gradient Descent）
[![M0df9P.md.png](https://s2.ax1x.com/2019/11/16/M0df9P.md.png)](https://imgchr.com/i/M0df9P)

沿着误差对参数梯度值的反向去更新参数，用学习率来控制参数优化的幅度。

那么如何评价线性回归中的误差呢？
- 平均绝对误差（Mean Absolute Error，MAE）
- 平均平方误差（Mean Squared Error，MSE）


-  平均绝对误差
[![M0wHKO.md.png](https://s2.ax1x.com/2019/11/16/M0wHKO.md.png)](https://imgchr.com/i/M0wHKO)

- 平均平方误差
[![M00Nz6.md.png](https://s2.ax1x.com/2019/11/16/M00Nz6.md.png)](https://imgchr.com/i/M00Nz6)

这里为什么要额外除以2呢？是为了方便求导之后没有任何常数，而且也不会改变最后的收敛结果。

其实，上面提到的四种方法其实是两两等效的，即绝对值技巧等效于平均绝对误差的梯度下降，平方技巧等效于平均平方误差的梯度下降。下面我们来证明一下后者：

- 对于任意一点(p,q)，拟合后的均方误差函数为$ Error = \frac{1}{2}(q - q^{'})^2 $
    - 其中，$ q^{'} = w_{1}p+w_{2} $
- 应用梯度下降算法后，得到的权重更新为$ \frac{\partial }{\partial w_{i}}Error = \frac{\partial Error}{\partial q^{'}}\cdot \frac{\partial q^{'}}{\partial w_{i}} $
    - 对于$ w_{1} $，更新为$w_{1}-( -(q - q^{'})p) $
    - 对于$ w_{2} $，更新为$w_{2}- (-(q - q^{'}))$
- 得到的优化值与用平方技巧是完全一致的。

目前，我们已经掌握了优化线性回归的方法，但是，当数据量非常大时，我们还需要考虑一点：优化的速度。

### 提升梯度训练的速度
- 全部参与训练 （Batch Gradient Descent）： 把所有的值计算，相加，然后更新参数
- 随机取值训练（Stochastic Gradient Descent）：每次随机取一个点进行计算，更新参数，然后再取一个点
- 分组参与训练（Mini-Batch 。。。）：把数据分成数据量差不多的组，每个组包含很少的数据，对每个组进行计算，相加，更新参数，然后计算下一个组
- 随机分批次梯度训练 （Mini-Batch 。。。

### 多项式回归

当你的数据并非是线性相关，而是这样分布的情况下，就应该考虑使用多项式回归了。优化的方式与线性回归是一致的，只不过参数多了一些而已。
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

In [15]:
#示例代码
# Add import statements
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

# Load the data
train_data = pd.read_csv('data.csv')
X = train_data['Var_X'].values.reshape(-1, 1)
y = train_data['Var_Y'].values

# Create polynomial features
poly_feat = PolynomialFeatures(degree = 4)
X_poly = poly_feat.fit_transform(X) # intercept=1,x,x^2,x^3,x^4 ,so the shape of X_poly is (?,5)

#Create a LinearRegression object and fit it to the polynomial predictor features
poly_model = LinearRegression(fit_intercept = False).fit(X_poly, y)

### 正则化

上面讲到了一阶的线性回归与多项式线性回归，一阶的可能会有一些错误，但是它的模型十分简单，多项式可能会更精确，但它的模型非常复杂，那我们该以一个什么样的标准去选择他们呢？这就引入了**正则化(Regularization)**，我们将模型的复杂度也加入到模型的优化中，添加到模型误差的后面。 

根据算法不同，可以分为如下两种：
- L1正则化，即使用绝对值和去进行惩罚
- L2正则化，即使用平方和去进行惩罚
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

但针对不同的业务场景，对模型误差和复杂度的要求也不同，所以，我们还要对模型复杂度的惩罚程度进行设定，这就是$\lambda$，一般的，使用较小的$\lambda$时，模型复杂度的惩罚比较低，所以更倾向于选择误差小但是偏复杂的模型，反之亦反。

应用L1正则化的模型为Lasso回归，应用L2正则化的模型为岭回归

二者相比有如下优缺点：
- L1：计算的效率不高（计算绝对值比较麻烦，但如果是稀疏矩阵除外）；更适合稀疏矩阵；可以用来进行特征筛选，也就是可以把待估系数精确收缩到0；
- L2：计算效率高（方便计算导数）；不适合稀疏矩阵；不能将待估系数精确收缩为0 。

能不能收缩到0，可以看如下示意图更直观：

![](https://img1.doubanio.com/view/note/large/public/p9136858.jpg)

### 特征缩放（Feature Scaling）

特征缩放可以将数据收缩到相同的范围内，主要方法有两种：
- Standardizing：利用均值和标准差，将数据转为-1到1之间，均值为0的数据空间；
```
df["height_standard"] = (df["height"] - df["height"].mean()) / df["height"].std()
```
- Normalizing：利用最大和最小值，将数据转为0到1之间的空间。
```
df["height_normal"] = (df["height"] - df["height"].min()) / (df["height"].max() - df['height'].min())
                      ```

#### 什么时候应该使用特征缩放
- 当你使用的是基于距离的模型时（SVM，KNN等）
- 当你实施正则化时

## 感知机（Perceptron Algorithm）