### Linear regression

Input: $$
X =
  \begin{bmatrix}
  1 & 2 & \cdots & 3\\
  4 & 4 & \cdots & 6\\
  7 & 8 & \cdots & 9\\
  \vdots & \vdots & \ddots & \vdots \\
  11 & 12& \cdots & 13\\
  \end{bmatrix}_{m*n}
,
Y =
  \begin{bmatrix}
  9\\
  11\\
  13\\
  \vdots\\
  19\\
  \end{bmatrix}_{m*1}
$$

Assume $y|x;\theta \sim \mathcal{N}(\mu, \sigma^2)$.
And linear function fits all curves.

Hypothesis: $$
  H_\theta(x) = \sum\limits_{i=0}^n \theta_i x_i
$$

Loss Function of all samples: $$
  L(\theta) = \sum\limits_{j=0}^m \frac{1}{2m} (H_\theta(x)^j - y^j)^2
$$

Partial Derivative for every $\theta$: $$
  \frac{\partial L(\theta)}{\partial \theta_i} = \frac{1}{m} \sum\limits_{j=0}^m (H_\theta(x)^j - y^j) x_i^j
$$

Gradient descent optimization of $\theta$: $$
  \theta_i = \theta_i - \frac{1}{m} \sum\limits_{j=0}^m (H_\theta(x)^j - y^j) x_i^j
$$


在实际线性回归拟合中，对于Input，m代表数据量，n代表要拟合出的方程系数，一般$m \gg n$。

当我们把线性回归拟合看作解方程组时，要求解的未知数$\theta$有n个，就不严谨的认为一共有 n行 n个方程组成了方程组。行列式
$\begin{vmatrix} X \end{vmatrix}_{n*n} \neq 0$，根据克莱姆法则，方程组有唯一解。

从矩阵的角度看，非齐次线性方程组 X$\theta =
Y$，系数矩阵X的秩等于增广矩阵$\overline{X}$（即$\begin{pmatrix}XY\end{pmatrix}$），$r(X)=r(\overline{X})=n$，方程组有唯一解，$\begin{vmatrix}
X \end{vmatrix}_{n*n}
$是非奇异方阵。如果$r(X)=r(\overline{X})=r<n$，方程组有无穷多组解，就是我们说的可能优化到局部最优点。

从n维空间中的向量角度看，$X_1,X_2,...,X_n$
线性无关，且是极大线性无关组，是一组基，则向量组X的秩（也是列秩）$r(X)=n$。$r(X)<n$，则方程有很多局部最优点。极大线性无关组不唯一，有几个极大线性无关组，就有几个全局最优解。


#### Loss function 用平方误差而不是绝对值误差？$^{[1]}$

以真实值为中心，预测点因为噪音（高斯白噪声）而偏离，假设偏离越远概率越小，符合正态分布曲线（基于中心极限定理），而不是符合拉普拉斯分布。那么预测值发生的概率正比于$e^{-(H_\theta(x) - y)^{2}}$，真实y可以理解为正态分布的期望。

根据贝叶斯公式，执果索因，$$
P(y|D) ∝ P(y) * P(D|y).$$
<br>
y 是真实值直线，D 是所有数据点。
先验概率 P(y)是均匀的，因为哪条直线也不比另一条更优越。
$P(D|y)$是真实值直线生成数据点的概率，假设各个数据点独立，<br> <br> $$
\begin{align}
  P(D|y) &= P(D_1|y) * P(D_2|y) * ... * P(D_n|y) \\
         &= a * e^{-(H_\theta(x)^1 - y^1)^{2}} * e^{-(H_\theta(x)^1 - y^1)^{2}} * ... * e^{-(H_\theta(x)^n - y^n)^{2}} \\
         &= a * e^{-\sum\limits_{j=1}^n (H_\theta(x)^j - y^j)^{2}}
\end{align}
$$
所以最大化后验概率$P(y|D)$，就是最小化$\sum\limits_{j=1}^n (H_\theta(x)^j - y^j)^{2}$

这是基于高斯噪声分布、贝叶斯公式和最大似然估计的，对线性回归的推导。

#### Lasso regression, Ridge regression
Lasso regression 是linear regression 加入L1正则化，相当于给模型引入了先验知识，$\theta$服从零均值的拉普拉斯分布。

拉普拉斯分布：$p(\theta) = \mathcal{N}(\theta|\mu,b) = \frac{1}{2b} exp(-\frac{|\theta - \mu|}{b})$
$$
\begin{align}
L(\theta) &= P(y;\theta,x) + P(\theta) \\
&= \sum\limits_{j=0}^m \frac{1}{2m} ((\sum\limits_{i=0}^n \theta_i x_i)^j - y^j)^2 
\end{align}
$$

Ridge regression 是linear regression 加入L2正则化，相当于给模型引入了先验知识，$\theta$服从零均值的高斯分布。

高斯分布：$p(\theta) = \mathcal{N}(\theta|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(\theta - \mu)^2}{2\sigma^2})$

给定观察数据D，贝叶斯方法最大化后验概率估计参数$\theta$。

$$
\begin{align}
\theta^* &= \operatorname*{arg\ max}_{\theta} p(\theta|D) \\
&= \operatorname*{arg\ max}_{\theta} \frac{p(D|\theta) p(\theta)}{p(D)} \\
&= \operatorname*{arg\ max}_{\theta} p(D|\theta) p(\theta)
\end{align}
$$

#### References：
[1] [数学之美番外篇：平凡而又神奇的贝叶斯方法](http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/)