## 普通最小二乘法的局限性

我们学习了使用最小二乘法来求解线性回归以及多项式回归问题。同时，在多项式回归的章节中，我们了解到多项回归其实可以看作是一种特殊的线性回归形式，也就是说回归方法的核心就是线性回归。

- <a href="#普通最小二乘法的矩阵表示">普通最小二乘法的矩阵表示</a>
- <a href="#希尔伯特矩阵的OLS线性拟合示例----说明最小二乘法的局限性">希尔伯特矩阵的OLS 线性拟合示例----说明最小二乘法的局限性</a>
    - <a href="#2.1皮尔逊相关系数">2.1皮尔逊相关系数</a>
    - <a href="#2.2最小二乘线性拟合">2.2最小二乘线性拟合</a>

---

### 普通最小二乘法的矩阵表示

首先，回顾一下线性回归的内容。在线性回归中，我们需要求解：

$$ f(x)=\sum_{i=1}^{m}w_i x_i =w^Tx \tag1$$

当我们使用普通最小二乘法（OLS）进行学习时（平方损失函数），就变成最小化目标函数：

$$F=\sum_{i=1}^{n}(y_{i}-w^Tx)^2  \tag2$$

我们可以把 $(2)$ 式改写为向量表示：

$$F={\left \| y-Xw \right \|_{2}}^{2}  \tag3$$

<div style="color: #999;font-size: 12px;font-style: italic;">* $\left \| y-Xw \right \|_{2}$ 表示 2-范数，即向量元素绝对值的平方和再开方。</div>

$(3)$ 式中，$X$ 为 $(x_{1},x_{2},……,x_{n})^{T}$ 数据构成的矩阵；$y$ 为 $(y_{1},y_{2},……,y_{n})^{T}$ 构成的列向量。同时，公式 $(3)$ 的解析解为：

$$\hat{w} = (X^{T}X)^{-1}X^{T}y \tag4$$

公式 $(4)$ 成立的条件就是 $\left | X^{T}X \right |$ 不能为 `0`。
而当变量之间的相关性较强（多重共线性），或者 $m$ 大于 $n$ 时，$(4)$ 式中的 $X$ 不是满秩（$rank(A)\neq dim(x)$）矩阵。从而使得 $\left | X^{T}X \right |$ 的结果趋近于 `0`，造成拟合参数的数值不稳定性增加，这也就是普通最小二乘法的局限。

---

### 希尔伯特矩阵的OLS线性拟合示例----说明最小二乘法的局限性

线性代数中，希尔伯特矩阵是一种系数都是单位分数的方块矩阵。具体来说一个希尔伯特矩阵 $H$ 的第 $i$ 横行第 $j$ 纵列的系数是：

$$H_{{ij}}={\frac  {1}{i+j-1}} \tag5$$

一个 `5x5` 的希尔伯特矩阵如公式$(6)$所示：

$$
H_{5}={\begin{bmatrix}1&{\frac  {1}{2}}&{\frac  {1}{3}}&{\frac  {1}{4}}&{\frac  {1}{5}}\\[4pt]{\frac  {1}{2}}&{\frac  {1}{3}}&{\frac  {1}{4}}&{\frac  {1}{5}}&{\frac  {1}{6}}\\[4pt]{\frac  {1}{3}}&{\frac  {1}{4}}&{\frac  {1}{5}}&{\frac  {1}{6}}&{\frac  {1}{7}}\\[4pt]{\frac  {1}{4}}&{\frac  {1}{5}}&{\frac  {1}{6}}&{\frac  {1}{7}}&{\frac  {1}{8}}\\[4pt]{\frac  {1}{5}}&{\frac  {1}{6}}&{\frac  {1}{7}}&{\frac  {1}{8}}&{\frac  {1}{9}}\end{bmatrix}}\tag6
$$

这里介绍希尔伯特矩阵的原因，是因为下面打算使用希尔伯特矩阵的数值完成一个最小二乘法的线性拟合实验。而希尔伯特矩阵每列数据之间存在较强的线性相关性，正好符合 `1.1` 节中提到的 $\left | X^{T}X \right |$ 的结果趋近于 `0`。

这里，我们使用 `Scipy` 提供的 `hilbert()` 方法，直接创建一个 `10x10` 的希尔伯特矩阵

In [3]:
"""生成 10x10 的希尔伯特矩阵
"""
from scipy.linalg import hilbert

x = hilbert(10)
x

array([[1.        , 0.5       , 0.33333333, 0.25      , 0.2       ,
        0.16666667, 0.14285714, 0.125     , 0.11111111, 0.1       ],
       [0.5       , 0.33333333, 0.25      , 0.2       , 0.16666667,
        0.14285714, 0.125     , 0.11111111, 0.1       , 0.09090909],
       [0.33333333, 0.25      , 0.2       , 0.16666667, 0.14285714,
        0.125     , 0.11111111, 0.1       , 0.09090909, 0.08333333],
       [0.25      , 0.2       , 0.16666667, 0.14285714, 0.125     ,
        0.11111111, 0.1       , 0.09090909, 0.08333333, 0.07692308],
       [0.2       , 0.16666667, 0.14285714, 0.125     , 0.11111111,
        0.1       , 0.09090909, 0.08333333, 0.07692308, 0.07142857],
       [0.16666667, 0.14285714, 0.125     , 0.11111111, 0.1       ,
        0.09090909, 0.08333333, 0.07692308, 0.07142857, 0.06666667],
       [0.14285714, 0.125     , 0.11111111, 0.1       , 0.09090909,
        0.08333333, 0.07692308, 0.07142857, 0.06666667, 0.0625    ],
       [0.125     , 0.11111111, 0.1      

In [4]:
"""希尔伯特转置矩阵与原矩阵相乘
"""
import numpy as np

np.linalg.det(np.matrix(x).T * np.matrix(x))

-7.933946394895335e-92

可以看到，这里的 $\left | X^{T}X \right |$ 的结果的确趋近于 `0`。

### 2.1皮尔逊相关系数

皮尔逊相关系数（Pearson Correlation Coefficient）通常用于度量两个变量 `X` 和 `Y` 之间的线性相关程度，其值介于 `-1` 与 `1` 之间。其中，数值越趋近于 `1` 表示相关程度越高，反之趋近于 `-1` 则表示线性相关度越低。

Pandas 提供了直接计算相关系数的方法，从而计算出上方 `10x10` 的希尔伯特矩阵中，数据列之间的相关性系数。

In [5]:
"""计算希尔伯特矩阵每列数据的相关性系数
"""
import pandas as pd

pd.DataFrame(x, columns=['x%d'%i for i in range(1,11)]).corr()

Unnamed: 0,x1,x2,x3,x4,x5,x6,x7,x8,x9,x10
x1,1.0,0.985344,0.965392,0.948277,0.93423,0.922665,0.913025,0.904883,0.897921,0.891902
x2,0.985344,1.0,0.995632,0.988183,0.98072,0.973927,0.967905,0.962598,0.957918,0.953774
x3,0.965392,0.995632,1.0,0.99816,0.994616,0.990719,0.986928,0.983393,0.980155,0.977207
x4,0.948277,0.988183,0.99816,1.0,0.999065,0.99712,0.994845,0.992525,0.990281,0.988163
x5,0.93423,0.98072,0.994616,0.999065,1.0,0.999465,0.998294,0.99686,0.995346,0.993839
x6,0.922665,0.973927,0.990719,0.99712,0.999465,1.0,0.999669,0.998914,0.997959,0.996922
x7,0.913025,0.967905,0.986928,0.994845,0.998294,0.999669,1.0,0.999782,0.999271,0.998608
x8,0.904883,0.962598,0.983393,0.992525,0.99686,0.998914,0.999782,1.0,0.99985,0.999491
x9,0.897921,0.957918,0.980155,0.990281,0.995346,0.997959,0.999271,0.99985,1.0,0.999893
x10,0.891902,0.953774,0.977207,0.988163,0.993839,0.996922,0.998608,0.999491,0.999893,1.0


如上所示，`10x10` 的希尔伯特矩阵中，每一列数据间都存在着较高的数值相关性。

### 2.2最小二乘线性拟合

上面由希尔伯特矩阵对应的示例数据集中，假设已知的 $x_{1}$ 到 $x_{10}$ 服从线性分布：

$$ y= w_{1} * x_{1} + w_{2} * x_{2} +……+w_{10} * x_{10}\tag7$$

接下来我们先使用 NumPy 随机生成 `w` 参数，并得到实际对应的 `y` 值。

In [7]:
"""定义线性分布函数及实际参数
"""
from scipy.optimize import leastsq
import numpy as np
from scipy.linalg import hilbert

x = hilbert(10) # 生成 10x10 的希尔伯特矩阵
np.random.seed(10) # 随机数种子能保证每次生成的随机数一致
w = np.random.randint(2,10,10) # 随机生成 w 系数
y_temp = np.matrix(x) * np.matrix(w).T # 计算 y 值
y = np.array(y_temp.T)[0] #将 y 值转换成 1 维行向量

print("实际参数 w: ", w)
print("实际函数值 y: ", y)

实际参数 w:  [3 7 6 9 2 3 5 6 3 7]
实际函数值 y:  [14.14761905 10.1232684   8.12233045  6.8529637   5.95634643  5.28188478
  4.75274309  4.32480306  3.97061256  3.67205737]


接下来，我们便使用前面课程中学习到的最小二乘法对数据集进行线性拟合，并求出拟合得到的参数。

In [8]:
"""使用最小二乘法线性拟合
"""
func=lambda p,x: np.dot(x, p) # 函数公式
err_func = lambda p, x, y: func(p, x)-y # 残差函数
p_init=np.random.randint(1,2,10) # 全部参数初始化为 1

parameters = leastsq(err_func, p_init, args=(x, y)) # 最小二乘法求解
print("拟合参数 w: ",parameters[0])

拟合参数 w:  [ 2.99597742e+00  7.15961429e+00  4.61038157e+00  1.28402721e+01
  5.70279917e-01  5.01698396e-03 -1.65269884e+01  7.36451063e+01
 -6.34617952e+01  2.91675108e+01]


你会发现，实际参数 $w$ 和拟合参数 $w$ 差距非常大。这也就印证了普通最小二乘法的局限性。