# 数据拟合

给定一个样本$\vec{x}$，有$n$个特征。使用列向量表示$(x^1, x^2, \cdots, x^n)$，其中$x^i$表示第$i$个特征。线性模型的形式为：
$$
f(\vec{x}) = \vec{w} \cdot \vec{x} + b
$$
其中$\vec{w}=(w^1, w^2, \cdots, w^n)$是每个特征对应的权重生成的权重向量，用以表达各个特征在预测中的重要性。

多项式函数的数学公式是：
$$
f(x) = a_0 + a_1x + a_2x^2 + \cdots + a_nx^n
$$

给定一对数组，对数据进行多项式拟合是常遇到的工作。在 Numpy 中有多个与多项式有关的函数：
- `numpy.polyfit()`，拟合函数，对一组数据进行多项式拟合，获得多项式系数；
- `numpy.poly1d()`，根据多项式系数，构造多项式
- `numpy.polyval()`，计算多项式函数的值。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## 直线拟合

直线可以理解为一元多项式：
$$
f(x) = a_0 + a_1x
$$

下面根据一些数据来拟合一条直线：

In [None]:
xdata = (0.21, 0.26, 0.27, 0.27, 0.45, 0.5, 0.8, 1.1, 1.4, 2.0)
ydata = (130, 70, 185, 220, 200, 270, 300, 450, 500, 800)
plt.plot(xdata, ydata, '.')

In [None]:
# 进行线性拟合（多项式为一元）
deg = 1
z1 = np.polyfit(xdata, ydata, deg)
z1

In [None]:
# 进行多项式计算
x = np.arange(0, 2.2, 0.01)
y = np.polyval(z1, x)

In [None]:
plt.plot(xdata, ydata, '.')
plt.plot(x, y)
plt.show()

## 多项式拟合

创建一个带有误差的正弦周期的数据集。

In [None]:
xstart, xstop, ndata = -2*np.pi, 2*np.pi, 128
xdata = np.linspace(xstart, xstop, ndata)
ydata = np.sin(xdata) + np.random.normal(scale=0.5, size=ndata)
plt.plot(xdata, ydata, '.')

In [None]:
# 分别用3、5, 7阶来拟合数据
z1 = np.polyfit(xdata, ydata, 3)
z2 = np.polyfit(xdata, ydata, 5)
z3 = np.polyfit(xdata, ydata, 7)

In [None]:
# 计算多项式值
x = np.linspace(xstart, xstop, 1024)
y1 = np.polyval(z1, x)
y2 = np.polyval(z2, x)
y3 = np.polyval(z3, x)

In [None]:
plt.plot(xdata, ydata, '.')
plt.plot(x, y1, label='3')
plt.plot(x, y2, label='5')
plt.plot(x, y3, label='7')
plt.legend()
plt.show()