## 线性回归
### 模型
假设有 $n$ 条数据, $m$ 个属性. 线性回归模型是通过参数 $\{w_i\}$ 和属性 $\{ x_{ij} \}$ 的**线性**组合来「拟合(预测)」标签列
$$
y_i = w_1x_{i1} + \cdots + w_mx_{im} + b = w^Tx_i + b \quad i = 1, 2, \cdots, n
$$
其中，$w, x_i \in \mathbb{R}^m$
> *举例：房价预测，销量预测，票房预测*

### 求解
> 参数估计 $w, b$

#### 损失函数
- 均方误差 MSE
$$
L = \frac{1}{2n}\sum_{i=1}^n(y_i - \hat{y_i})^2 = \frac{1}{2n}\sum_{i=1}^n(w^Tx_i + b - \hat{y_i})^2
$$
- 平均绝对误差 MAE
$$
L = \frac{1}{n}\sum_{i=1}^n \bigl\lvert y_i - \hat{y_i} \bigr\rvert = \frac{1}{n}\sum_{i=1}^n \bigl\lvert w^Tx_i + b - \hat{y_i} \bigr\rvert
$$

**MSE VS MAE**
- MSE: 计算的是样本点的预测值与真实值的**欧式距离**
  - 使用梯度下降更新参数时，越接近收敛点，导数越小
  - 对误差大的点“惩罚”相对更大，所以，存在异常值时，对结果影响较大
  
- MAE: 计算的是样本点的预测值与真实值的**绝对差**
  - 绝对值计算导数比平方麻烦，而且导数值(迭代步长)不变，计算效果差
  - 优点是受离群异常值影响小

#### 求解
最小化损失函数
$$
\min_{w, b}~L = \min_{w,b}~\frac{1}{2n}\sum_{i=1}^n(w^Tx_i + b - \hat{y_i})^2
$$
- 微积分法
  $$
  \begin{aligned}
  \frac{\partial L}{\partial w_j} &= \frac{1}{n}\sum_{i=1}^nx_{ij}(w^Tx_i + b - \hat{y_i})\\
  \frac{\partial L}{\partial b} &= b + \frac{1}{n}\sum_{i=1}^n(w^Tx_i - \hat{y_i})
  \end{aligned}
  $$
  其中，$x_{ij}$ 表示第 $i$ 个样本的第 $j$ 个属性
- 线性代数法  
  最小二乘法，$A^TA x = A^Tb$
- 机器学习  
  利用**梯度下降**更新参数
  $$
  w^{n+1} = w^n - \alpha \nabla w^n
  $$

### 正则化
尽可能采用「简单」的模型，可以有效提高泛化预测精度。如果模型过于「复杂」，变量值稍微有点变动，就会引起预测精度问题。
> 正则化之所以有效，就是因为其限制参数搜索空间，降低了特征的权重，使得模型更为简单。（趋向于 0）

- L1 正则化  
  LASSO 回归，w 服从**零均值拉普拉斯分布**
  所有权重 w 参数的绝对值之和逼迫更多 w 为零，也就是变稀疏。
  > 实现特征的自动选择。
- L2 正则化  
  Ridge 回归，w 服从**零均值正态分布**
  增加所有权重 w 参数的平方之和，逼迫所有 w 尽可能趋向零但不为零。
  > 使模型简单

在用线性回归模型拟合数据之前，首先要求数据应符合或近似符合正态分布，否则得到的拟合函数不正确。