>PRML的第一章的绪论部分主要讲了一些机器学习的基本概念。如：训练集、测试集、泛化、有监督学习、无监督学习、特征抽取等基本概念。我这里就不搬运了，这是一个逐步熟悉和了解的过程。
<br>

# 1.1 多项式曲线拟合
- **输入**
训练集 【本例只展示10个数据点】
$$x\equiv (x_1,...,x_N)^T$$
$$t\equiv (t_1,...,t_N)^T$$

- **输出**
拟合曲线

## 1.1.1 代码如下

```python
import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
X = np.linspace(0, 1, 10)
y = np.sin(2*np.pi*X) + np.random.normal(0.1, 0.1, 10)  # 加入噪声
X_true = np.linspace(0, 1, 256, endpoint=True)
y_true = np.sin(2*np.pi*X_true)

plt.scatter(X, y, c="b", alpha=0.6)
plt.plot(X_true, y_true, c="g")
plt.show()
```
<center>
![](https://raw.githubusercontent.com/markup1/Photos/master/17-8/1.1.png)
</center>
 <center>图1.1</center>
如上图所示，可以看到绿色的是潜在的待发现的函数$\sin(2\pi x)$，也就是我们最终想预测到对拟合曲线，但是现在根据输入【10个点的数据集】来进行拟合的。
<br>


## 1.1.2 一些推导
我们用一个公式来拟合这些点。假设这个公式是一个关于$x$的多项式。
$$y(x,\omega)=\omega_0+\omega_1x+\omega_2x^2+...+\omega_Mx^M=\sum_{j=0}^{M}{\omega_jx^j}$$

- 上面公式中$M$表示多项式的阶数
- 当$M=1$时，为简单的线性回归方程

**当$M=0$或$M=1$时，拟合曲线如下图红线所示**
<center>
![](https://raw.githubusercontent.com/markup1/Photos/master/17-8/1.2.png)
</center>
<center>图1.2</center>
我们肉眼可以看到，拟合效果是非常差的。我们怎么量化这种训练时的误差呢？故引出下面常见的一种度量方法。
**每个数据点的预测值$y(x_n,\omega)$和真实值$t_n$之间的平方和**
$$E(\omega)=\frac{1}{2}\sum_{n=1}^{N}{[y(x_n,\omega)-t_n]^2}$$
- 这个$E(\omega)$很明显越小越好

**接下来我们看一看当$M$较大时候的曲线**
<center>
![](https://raw.githubusercontent.com/markup1/Photos/master/17-8/1.3.png)
</center>

<center>图1.3</center>
可以看到当$M=3$时，拟合曲线较好。当$M=9$时所有的点都在拟合的曲线上了，但是这样回造成**过拟合**
>在统计学中，过拟合（英语：overfitting，或称过度拟合）现象是指在拟合一个统计模型时，使用过多参数。对比于可获取的数据总量来说，一个荒谬的模型只要足够复杂，是可以完美地适应数据。——[维基百科](https://zh.wikipedia.org/wiki/%E9%81%8E%E9%81%A9)

**解决过拟合的方法较多，如调节模型参数数量，让模型变得简单；加入正则项惩罚模型的复杂度，增加训练集的个数**

<center>
![](https://raw.githubusercontent.com/markup1/Photos/master/17-8/1.4.png)
</center>
<center>图1.4</center>
**正则化**

我们给误差函数(1.2)增加一个惩罚项。如下所示：
$${E}(\omega)=\frac{1}{2}\sum_{n=1}^{N}{[y(x_n,\omega)-t_n]^2}+\frac{\lambda }{2} \left \| \omega \right \|^2$$

其中$$\left \| \omega \right \|^2=\omega^T\omega=\omega_{0}^{2}+\omega_{1}^{2}+ ...+\omega_{M}^{2}$$

- **统计学**  : 收缩法(shrinkage)【xgboost也会用到此方法】
- **神经网络**: 权值衰减(weight decay)
