# Linear Model Document
## 小结

* MLS：有正规方程（非迭代）、梯度下降
* RR：有正规方程（非迭代）、梯度下降
* KRR：有正规方程（非迭代）、梯度下降（全量）
* Lasso：
* LR：梯度下降、牛顿法（迭代）
* L2LR：梯度下降、**牛顿法（迭代）**
* KLR：梯度下降（全量）、牛顿法（迭代）

其中KRR和KLR的参数$\beta$ 都能写作特征集的线性组合有

$$\beta = \sum_i \alpha_i \phi(x_i)$$

但LR这边都没有正规方程，都需要迭代计算

## Linear Regression

代表了**经验风险最小化**

目标函数为：

$$\min_{\beta} = \sum_{i=1}^n \left( y_i - \beta^T x_i\right)^2$$

矩阵形式可以写作：

$$L = (y-X\beta)^T(y-X\beta)$$

* 正规方程

$$\beta = (X^TX)^{-1}X^Ty$$

* 梯度下降minibatch

## Ridge Regression

代表了**结构风险最小化**

目标函数为

$$\min_{\beta} = \sum_{i=1}^n \left( y_i - \beta^T x_i\right)^2 + \lambda \beta^T\beta$$

矩阵形式可以写作

$$L = (y-X\beta)^T(y-X\beta) + \lambda \beta^T\beta$$

对$\beta$求导有

$$ \begin{eqnarray} 
	\Delta &=& -2X^Ty+2X^TX\beta + 2\lambda \beta \\ 
	\Delta &=& 0 \\
	\end{eqnarray}$$

可以使用

* 正规方程	

$$\beta = (X^TX+\lambda I)^{-1}X^Ty$$

* 梯度下降minibatch

$$ \begin{eqnarray} 
	\beta^{(r+1)} &=& \beta^{(r)} - \eta \Delta \\
	 &=& (1-2\eta\lambda) \beta^{(r)} +2\eta X^T(y-X\beta)
	\end{eqnarray}$$

### Intercept
通常我们不会希望截距项为0。需要单独考虑截距项

* 正规方程：令

$$\lambda I = \left[\begin{array}{ccccc}
		0 & \ldots & \ldots & \ldots & \ldots\\ 
		\ldots & \lambda & \ldots & \ldots & \ldots \\
		\ldots & \ldots & \lambda & \ldots & \ldots \\
		\ldots & \ldots & \ldots & \ldots & \ldots \\
		\ldots & \ldots & \ldots & \ldots & \lambda
	\end{array}\right]$$

* 梯度下降：

对更新公式：

$$\left[\begin{array}{ccccc}
		\beta_0 \\
		\beta_1 \\
		\ldots \\
		\beta_{d} 
	\end{array}\right] = 
	\left[\begin{array}{ccccc}
		\beta_0 + 2\eta X^T[0,:](y-X\beta) \\
		(1-2\eta\lambda)\beta_1 + 2\eta X^T[1,:](y-X\beta) \\
		\ldots \\
		(1-2\eta\lambda)\beta_1 + 2\eta X^T[d,:](y-X\beta)
	\end{array}\right]$$
	
* 不考虑截距项

把y中心化，这样我们就不需要考虑截距项了。可以按照原来的方法来解

## Kernel Ridge Regression 

和SVR有很强的相关关系。损失函数不同

* RR损失函数为军方误差
* **SVR损失函数为$\max(0, |y-f(x)| - \epsilon)$**

### 求解：
* 正规方程：

正规方程变为

$$\begin{eqnarray}
	\beta &=& (\Phi^T\Phi+\lambda I_d)^{-1} \Phi^T y \\
	& = & \Phi^T(\Phi\Phi^T+\lambda I_d)^{-1}y\\
	&=& \sum_i \alpha_i\phi(x_i)
\end{eqnarray}$$
注意：把后面这个部分看作是一个向量，使用列加和的形式

有
$$\alpha = (K+\lambda I)^{-1} y$$

* 梯度下降

把公式$\beta = \sum_i \alpha_i \phi(x_i)$带入Ridge Regression目标函数有

$$\min_{\alpha} = \sum_{i=1}^n \left( y_i - \sum_j \alpha_j K_{i,j}\right)^2 + \lambda \sum_{ij}\alpha_i\alpha_iK_{ij}$$

对$\alpha$求导梯度下降更新【可以用minibatch吗】

### Intercept
对于惩罚来说，和上面的是一样的，可以把对应的$\lambda I_d$对应的intercept的$\lambda$修改为0

* 此外，需要有

$$\phi(x_i) = \left[\begin{array}{ccccc}
		1 \\
		\phi(x_{i1})\\
		\phi(x_{i2})\\
		\ldots \\
		\phi(x_{id})
	\end{array}\right]$$

则有(假设有d个特征，1个intercept)

$$K_{n\times n} = \Phi^T_{n \times d}\Phi_{n\times d} + 1_{n \times n}$$

## Lasso Regression

目标函数为

$$\min_{\beta} = \sum_{i=1}^n \left( y_i - \beta^T x_i\right)^2 + \lambda ||\beta||_1$$

半矩阵形式可以写作

$$L = (y-X\beta)^T(y-X\beta) + \lambda \sum |\beta|$$

由于绝对值存在不可导（在$\beta = 0$处），我们需要定义**sub-gradient**

$$ -c <\left.\frac{\partial \sum |\beta|}{\partial \beta}\right|_{\beta=0} <c$$

位于左导数和右导数的中间


### Lasso和Ridge经典比较图

![lasso_ridge](./graph/lasso_ridge.png)

注意图下解释

## Elastic Network

