# 线性回归
最适用于线性数据
线性回归会根据训练数据生成直线模型。如果训练数据包含非线性关系，你需要选择：调整数据（进行数据转换）、增加特征数量（参考下节内容）或改用其他模型。


## **容易受到异常值影响**

线性回归的目标是求取对训练数据而言的 “最优拟合” 直线。如果数据集中存在不符合总体规律的异常值，最终结果将会存在不小偏差。

# 模型
## 用数据拟合直线

$$
y=wx+b
$$

- $w$：斜率。改变$w$，即旋转直线。
- $b$：斜率。改变$b$，即平移直线。

## 梯度下降Gradient Descent

Error Function

Gradient of Error Function

$$
w_i = w_i\rightarrow\frac{\partial}{\partial{w_i}}Error
$$

在实际中，会增加学习率，来逐步调整。
沿着负梯度方向移动来降低误差函数。

图形解释

为什么不直接解数学方差组，而是采用梯度下降？

如果n很多，n个未知数和n元方程组的求解非常复杂。需要大量的时间和计算力。根据推导方差，主要是矩阵的逆求解步骤。

梯度下降不能给出完全正确的结果，但是可以无限接近最佳答案。

## 误差函数

**平均绝对值误差Mean Absolute Error(MAE)**

图形解释。线段。并非是到直线的距离。

$$
Error=\frac{1}{m}\sum_{i=1}^{n}{|y-\hat y|}
$$

使用总数或者均值，没有影响。

**均方误差Mean Squared Error(MSE)**

图形解释。面积

$$
Error=\frac{1}{2m}\sum_{i=1}^{n}{(y-\hat y)^2}
$$

增加$\frac{1}{2}$是为了后续方便。

## 最小化误差函数

$$
w_i = w_i\rightarrow\alpha\frac{\partial}{\partial{w_i}}Error
$$

## 批量梯度下降法与随机梯度下降法
- **批量梯度下降法：同时**在每个数据点应用均方（或绝对）误差，并重复这一流程很多次。
- **随机梯度下降法：逐个地**在每个数据点应用均方（或绝对）误差，并重复这一流程很多次。
问题是，实际操作中使用哪种方法？

实际上，在大部分情况下，两种都不用。思考以下情形：如果你的数据十分庞大，两种方法的计算速度都将会很缓慢。线性回归的最佳方式是将数据拆分成很多小批次。每个批次都大概具有相同数量的数据点。然后使用每个批次更新权重。这种方法叫做*`小批次梯度下降法`*。


### MAE VS. MSE

- What's better? MAE or MSE?
- 没有绝对答案，他们用于不同的情况和目的；

可以区分2者的情况。



# scikit-learn 中的线性回归

In [None]:
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X, y)
# model 变量是拟合到数据 X 和 y的线性回归模型。拟合模型意味着寻找拟合训练数据的最佳线条。

# 预测
model.predict([ 127, 248])

# 多元线性回归

$$
y=w_1x_1+w_2x_2+......+w_nx_n+b
$$

如果模型有多个预测器变量，则很难用图形呈现，但幸运的是，关于线性回归的所有其他方面都保持不变。我们依然可以通过相同的方式拟合模型并作出预测。

# 多项式回归

将$x^i$分别视为一个变量。

### 正则化Regularition

改善模型，确保不会过度拟合的技巧

计算误差时，考虑模型的复杂性。

**L1正则化**

L2正则化

实际情况中。

火箭发射：Requires low error, OK if it's complex

社交网络：Requires simplicity, OK with errors

惩罚模型复杂度的程度是可以调整的。

**L1 Vs. L2**

L1:较低效的计算（Computationally Ineffient）,除非数据稀疏时；可以用于特征选择。

L2:较高效的计算，对非稀疏数据更友好。