# 线性回归

线性回归问题是最基本的一种ML方法，其中使用线性方程作为预测方程h(x)。解决线性回归问题的过程其实就是找到线性方程中合适的参数的过程。
基本步骤可以分为：

1. 使用有限的Train Set找到最匹配的线性预测方程(hypothesis function)参数；
2. 使用得到的预测方程预测实际问题；

其中预测方程一般定义为
### hypothesis函数
$$ h(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \cdot \cdot \cdot + \theta_n x_n $$ 
n个feature的线性回归问题拥有n+1个参数，如果使用矩阵表示\\( h(X) = \Theta ^ T X \\)
其中的\\( \Theta \\)和\\( X \\)都是一个列向量，\\( \begin{bmatrix}
\theta_0 \\ 
\theta_1 \\ 
\theta_2 \\
.\\
.\\
.\\
\theta_n
\end{bmatrix}
\\) 和 \\( \begin{bmatrix}
1 \\
x_1 \\ 
x_2 \\
.\\
.\\
.\\
x_n
\end{bmatrix}
\\)。为了使用Train Set得到最拟合的参数\\( \Theta \\)，提出Cost函数，考量所有Train Set中预测值和真实值之间的差异和，使得该和最小化。
为了找到使该Cost函数最小的参数\\( \Theta \\)，使用了比较常见的梯度下降算法。

### 代价函数
$$ Cost(\Theta) = \frac{1}{2m}\sum_{i=1}^{m}(h(x^i) - y^i)^2 $$

### 梯度下降算法
repeat until convergence {

\\( \theta_i := \theta_i - \alpha \frac{\partial Cost(\Theta)}{\partial \theta_i} \\)

}

其中\\( \frac{\partial Cost(\Theta)}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^{m} (h(x^i) - y^i) x_{j}^{i} \\)，而\\( \alpha \\)决定了单次迭代的步长，如果太小，可能要经过很多次才能得到绝对最优解，而太大的话，可能永远无法收敛到最优解，一直在来回震荡。

如果按照矩阵方式进行该算法计算，其中关键的偏导可以表示为
$$
\begin{bmatrix}
x_{1}^{1}  & x_{1}^{2} & .  & . & . & x_{1}^{m} \\
x_{2}^{1}  & x_{2}^{2} & .  & . & . & x_{2}^{m} \\
x_{3}^{1}  & x_{3}^{2} & .  & . & . & x_{3}^{m} \\
. & . & .  & . & . & . \\
x_{n}^{1}  & x_{n}^{2} & .  & . & . & x_{n}^{m} \\
\end{bmatrix}
.
\begin{bmatrix}
h(X^{1}) - y^1)\\ 
h(X^{2}) - y^2)\\ 
h(X^{3}) - y^3)\\ 
.\\
h(X^{m}) - y^m)\\ 
\end{bmatrix}
=
\begin{bmatrix}
 \sum_{i=1}^{m} (h(x^i) - y^i) x_{1}^{i} \\ 
 \sum_{i=1}^{m} (h(x^i) - y^i) x_{2}^{i} \\ 
 \sum_{i=1}^{m} (h(x^i) - y^i) x_{3}^{i} \\ 
. \\
 \sum_{i=1}^{m} (h(x^i) - y^i) x_{n}^{i} \\ 
\end{bmatrix}
$$