# 普通最小二乘法(Ordinary least squares)
普通最小二乘法是统计学中用于估计线性回归模型当中未知参数的一个模型，它是通过最小化给定数据集中用来预测的变量的值与线性函数预测出的值的均方误差，来选择参数的。几何上也很直观，比如下图当中的单一回归，数据集中的所有点与拟合出的函数曲线的距离越小，说明该模型拟合数据集的效果越好。
![single regressor](https://upload.wikimedia.org/wikipedia/commons/3/3a/Linear_regression.svg)

In [1]:
from sklearn import linear_model

In [2]:
reg = linear_model.Ridge(alpha=.0000000001)
reg.fit([[0,0],[0,0],[1,1],],[0,.1,1])

Ridge(alpha=1e-10, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [3]:
reg.coef_

array([0.47500056, 0.47499944])

In [4]:
reg.intercept_

0.050000000023750046

## Linear least squares,Lasso,ridge regression有何本质区别？
**Linear regression**一般只对low dimension适用，比如n=50,p=5,而且这五个变量还不存在multicolinearity.  
**Ridge Regression**的提出就是为了解决multicolinearity的，加一个L2 penalty term也是因为算起来方便。然而它并不能shrink parameters to 0.所以没法做variable selection.  
**LASSO**是针对Ridge Regression的没法做variable selection的问题提出来的，L1 penalty虽然算起来麻烦，没有解析解，但是可以把某些系数shrink到0.  
然而LASSO虽然可以做variable selection,但是不consistent,而且当n很小时至多只能选出n个变量；而且不能做group selection.  
于是有了在L1和L2 penalty之间做个权重就是**elastic net**,针对不consistent有了**adaptive lasso**,针对不能做group selection有了**group lasso**,在graphical models里有了graphical lasso.然后有人说unbiasedness,sparsity and continuity这三条都满足多好，于是有了**MCP**和**SCAD**同时满足这三条。penalized regression太多了，上面提到的都是比较popular的方法。  
摘自[知乎](https://www.zhihu.com/question/38121173)

### Ridge Regression
![公式](http://scikit-learn.org/stable/_images/math/48dbdad39c89539c714a825c0c0d5524eb526851.png)

α>0，它是一个控制收缩量的复杂参数：值越大，收缩量越大，从而系数对collinearity更加robust

In [5]:
from sklearn import linear_model
reg = linear_model.Ridge(alpha=5000)
reg1 = linear_model.Ridge(alpha=0.000005) 

In [6]:
reg.fit([[0,0],[0,0],[1,1]],[0,.1,1])

Ridge(alpha=5000, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [7]:
reg1.fit([[0,0],[0,0],[1,1]],[0,.1,1])

Ridge(alpha=5e-06, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [8]:
reg.coef_

array([0.00012663, 0.00012663])

In [9]:
reg1.coef_

array([0.47499822, 0.47499822])

从上面的结果可以看出，α越大，系数w越小。所以岭回归的作用就是一个优化策略，通过控制α来控制收缩量，可以控制系数的收缩量变化到最小直至忽略不计(LASSO才可以收缩系数到0)，系数近似于0，相应的自变量也近似不参与计算，从而优化函数的形式更加简单，更加便于计算，以及解决过拟合的现象。摘选一张图来说明：
![image](v2-a16faf9cbd5ab920cca8119190943b8d_hd.jpg)

参考文章：  
1.[回归系列之L1和L2正则化](https://www.jianshu.com/p/a47c46153326)  
2.[机器学习中使用正则化来防止过拟合是什么原理](https://www.zhihu.com/question/20700829)  
并没有完全看完，待续。。。

## Lasso
最小化的目标函数为：
![image](http://scikit-learn.org/stable/_images/math/07c30d8004d4406105b2547be4f3050048531656.png)

代码实现如下：

In [11]:
from sklearn import linear_model
reg = linear_model.Lasso(alpha=0.1)
reg.fit([[0,0],[1,1]],[0,1])

Lasso(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

In [12]:
reg.predict([[1,1]])

array([0.8])