# 2.收缩方法(shrink method)
 又称正则化（regularization)

## 2.1 背景简介：
如果数据的特征比样本点要多，即($n<p$)时，输入数据的矩阵不是满秩矩阵。就不能再使用之前的线性回归方法对参数进行求解。$X^TX$矩阵奇异，逆矩阵不存在。为了解决这一问题，统计学家引入了一些缩减方法，如：岭回归，Lasso，LAR，PCA回归以及子集选择等。本节将逐一介绍。  

## 2.2 岭回归(Ridge regression)
岭回归是一种专用于共线性数据分析的有偏估计回归方法，实际上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息，降低精度为代价获得回归系数更符合实际，更可靠的回归方法，对病态数据的拟合要强于最小二乘法。
### 思想：  
简单说来，岭回归就说在矩阵$X^TX$上加一个$\lambda I$从而使得矩阵非奇异，进而能对$X^TX+\lambda I$求逆，其中矩阵$I$是一个$p\times p$维的单位矩阵，对角线上元素全为1，其他元素全为0.而$\lambda$是一个用户定义的数值。  
在这种情况下，回归系数的计算公式将变成：  
$$\hat{\theta}=(X^TX+\lambda I)^{-1}X^Ty\qquad (*)$$


### 理论推导：
岭回归通过对系数大小施加惩罚，在平方误差的基础上添加了正则项，解决了普通最小二乘法的一些问题。岭系数最小化惩罚残差平方和：  
$$ \min\limits_{\theta}\dfrac{1}{2}\lVert X\theta-y \rVert _2^2+\dfrac{1}{2}\lambda \lVert \theta \rVert _2^2$$
这里，$\lambda\ge0$是控制收缩量的复杂参数:$\lambda$值越大，收缩量越大，从而系数对于共线性更加稳健。

回归系数的计算公式也可由损失函数最小化求得。数学推导如下：
$$\dfrac{1}{2}\lVert X\theta-y \rVert _2^2+\dfrac{1}{2}\lambda \lVert \theta \rVert _2^2=
\dfrac{1}{2}\theta^TX^TX\theta-\theta^TX^Ty+\dfrac{1}{2}y^Ty+\dfrac{\lambda}{2}\theta^T\theta$$
对函数求导，得$X^TX\theta-X^Ty+\lambda\theta$，令其等于0，得到参数的估计值与(*)式结果相同。

#### 思考：岭回归中的岭指的是什么？  
岭回归使用了单位矩阵乘以常量$\lambda$，观察其中的单位矩阵，可以看到1贯穿整个对角线，其余元素全为0.形象地，在0构成的平面上有一条1组成的'岭'，这就是岭的由来。
#### 注意：
通常岭回归方程的R平方值会稍低于普通回归分析，但回归系数的显著性往往明显高于普通回归，在存在共线性问题和病态数据偏多的研究中有较大的实用价值。
### 问题：岭回归要对数据标准化吗？
因为无论ridge regression和lasso，它们的cost function求解，不中心化求出来的beta都不一样，普通的线性回归就没有任何问题

In [9]:
import numpy as np
def ridgereg(X_stand,y,lam):
    p=X_stand.shape[1]
    xTxlam=X_stand.T*X_stand+lam*np.eye(p)
    if np.linalg.det(xTxlam)== 0:
        print('This matrix is singular')
        return
    theta=xTxlam.I*(X_stand.T*ymat)
    return theta
def ridgetest(X,y):
    n=len(y)
    Xmat=np.hstack((np.ones((n,1)),np.mat(X)))
    ymat=np.mat(y).T
    Xmean=np.mean(Xmat,axis=0)
    Xvar=np.var(Xmat,axis=0)
    Xmat=(Xmat-Xmean)/Xvar
    
# 为什么要检查行列式是否为0:
# 当lam设定为0时，岭回归回到普通线性回归，有可能会产生错误。

In [11]:
X=[[0,0],[1,1],[2,2]]
y=[0,1,2]
w=ridgereg(X,y,0)
print('w is :\n',w)
X1=[[0,0],[1,1.1],[2,2]]
y1=[0,1,2]
w1=ridgereg(X1,y1,0.2)
print('w1 is :\n',w1)
X2=[[0,0],[1,1],[2.1,2]]
y2=[0,1,2]
w2=ridgereg(X2,y2,0.2)
print('w2 is :\n',w2)
X3=[[0,0],[1,1.1],[2,2]]
y3=[0,1.1,2]
w3=ridgereg(X3,y3,0.2)
print('w3 is :\n',w3)

This matrix is singular
w is :
 None
w1 is :
 [[ 0.02810869]
 [ 0.48454022]
 [ 0.46981662]]
w2 is :
 [[ 0.04609791]
 [ 0.47656149]
 [ 0.45838203]]
w3 is :
 [[ 0.05487886]
 [ 0.46981662]
 [ 0.4886896 ]]
