## 1 算法简介

线性回归是⼀种 **「监督学习」(superviesed learning)** 算法，即给定⼀个训练集，去学习⼀个假设函数，⽤来尽量精确地预测每个样本对应的输出。从输出变量的离散程度来看，监督学习算法可以分为两类。线性回归属于回归算法，其输出变量 **「连续」** ；而另⼀类监督学习算法是分类算法，其输出变量离散。

线性回归的假设函数为：

$$h_{\theta}(x)=\sum_{i=1}^n \theta_i x_i = \theta^T x$$

线性回归的代价函数为：

$$J(\theta)=\frac{1}{2}\sum_{i=1}^m (h_{\theta}(x^{(i)})-y^{(i)})^2$$

$m$个样本，每个样本有$n$个特征。

线性回归的学习目标：通过训练集找出使代价函数最小的一组参数$\theta$（又称最小二乘法LMS algorithm(least mean squares)）.

## 2 求解方法

对于线性回归代价函数的求解，有两种可选⽅法：**「梯度下降」(gradient descent)** 与 **「正规方程」(normal equations)**。

### 2.1 梯度下降

梯度下降是⼀种求解最优化问题的迭代⽅法，具体步骤为：

1. 随机选取初始的 $\theta$

2. 不断地以梯度的方向修正 $\theta$

3. 最终使$J(\theta)$收敛至局部最优（在最小二乘中，局部最优即全局最优）

$$\theta_j:= \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta)$$

$\alpha$称为学习率(learning rate)，太小会导致收敛缓慢，太大会导致错过最优点，需要谨慎选择。

对公式进一步推导（假设只有一个样本点），得到：

$$\frac{\partial}{\partial \theta_j}J(\theta)=\frac{\partial}{\partial \theta_j} \frac{1}{2}(h_{\theta}(x)-y)^2$$

$$=(h_{\theta}(x)-y)\cdot \frac{\partial}{\partial \theta_j}(\sum_{i=0}^n \theta_i x_i - y)$$

$$=(h_{\theta}(x) - y)x_j$$

将上述结果代回公式得到：

$$\theta_j:=\theta_j + \alpha (y^{(i)}-h_{\theta}(x^{(i)})) x_j^{(i)}$$

注意公式中通过数学变换将减号变成了加号， 方便之后与逻辑回归的结果作比较.

#### 2.1.1 分类

梯度下降主要可以分为两类：**「批量梯度下降(Batch gradient descent)」** 和 **「随机梯度下降」(Stochastic gradient descent)：

* 批量梯度下降：每次计算梯度都需要遍历所有的样本点，当样本量很大时， 计算速度会十分缓慢

* 随机梯度下降：每次只考虑⼀个样本点，而不是所有样本点，计算速度会提高， 但是收敛过程会比较曲折， 可能无法精确收敛至最优值

随机梯度下降的一种优化形式是 **「⼩批量梯度下降(Mini-batch gradient descent)」**，利用矩阵**并行运算**，一次处理小批量的样本点，有时可以比随机梯度下降速度更快。

#### 2.1.2 梯度方向的选择

选择梯度⽅向的原因是它是使代价函数减小（下降）最大的方向，我们可以利用柯西不等式对这一结论进行证明：

当 $\theta$ 改变一个很小的量时，利用泰勒公式，忽略一阶导数之后的项，得：

$$\Delta J \approx \frac{\partial J}{\partial \theta_0} \Delta \theta_0 + \frac{\partial J}{\partial \theta_1} \Delta \theta_1+...+\frac{\partial J}{\partial \theta_n} \Delta \theta_n$$

定义如下变量：

$$\Delta \theta = (\Delta \theta_0,\Delta \theta_1,...\Delta \theta_n)^T$$

$$\triangledown J = (\frac{\partial J}{\partial \theta_0},\frac{\partial J}{\partial \theta_1},...,\frac{\partial J}{\partial \theta_n})^T$$

将其代回上式，得:

$$\Delta J \approx \triangledown J \cdot \Delta \theta$$

根据柯西不等式，有（等号当且仅当 $\Delta \theta$ 与$\triangledown J$ 线性相关时成立）：

$$|\Delta J| \approx |\triangledown J \cdot \Delta \theta| \leq \parallel \triangledown J \parallel \cdot \parallel \Delta \theta \parallel $$

因此，要使 $\Delta J$最小，即$|\Delta J|$ 最大且$\Delta J < 0$，而当且仅当$\Delta \theta = -\alpha \triangledown J(\alpha > 0)$时满足条件，即沿着梯度方向调整$\theta$。

### 2.2 正规方程

我们可以通过 **「正规方程」** 直接求出 $\theta$ 的解析解。推导过程如下：

#### 2.2.1 矩阵导数

对一个将$m \times n$ 的矩阵映射至实数的函数，定义其导数为：

$$\triangledown_A f(A) = \left[
\begin{matrix}
 \frac{\partial f}{\partial A_{11}}   & \cdots & \frac{\partial f}{\partial A_{1n}}     \\
 \vdots  & \ddots & \vdots \\
 \frac{\partial f}{\partial A_{m1}}    & \cdots & \frac{\partial f}{\partial A_{mn}}    \\
\end{matrix}
\right]$$

对一个$n \times n$方阵，它的 **「迹」** 定义为 **「对角线元素之和」**：

$$trA = \sum_{i=1}^n A_{ii}$$

易证明迹操作具有如下性质（各矩阵为⽅阵）：

$$trAB = trBA$$

$$trABC = trBCA = trCAB$$

$$trABCD = trBCDA = trCDAB = tr DABC$$

同样易证明如下性质($a$为实数）：

$$trA = trA^T$$

$$tr(A+B)=trA + trB$$

$$traA = atrA$$

基于以上定义，可以证明一些关于矩阵导数的性质（最后一个等式只针对非奇异矩阵）：

$$\triangledown_A trAB = B^T$$

$$\triangledown_{A^T} f(A) = (\triangledown_A f(A))^T$$

$$\triangledown_A trABA^T C = CAB + C^T A B^T$$

$$\triangledown_A|A|=|A|(A^{-1})^T$$

#### 2.2.2 最小二乘重现

对于训练集，可以写成如下的形式：

