# 线性回归简介

- 定义：利⽤回归⽅程(函数)对⼀个或多个⾃变量(特征值)和因变量(⽬标值)之间关系进⾏建模的⼀种分析⽅式
- 线性回归的分类：
    - 线性关系
    - 非线性关系

# 线性回归api初步使用

$$
h(w)=w_{1} x_{1}+w_{2} x_{2}+w_{3} x_{3} \ldots+\mathrm{b}=w^{T} x
$$

- sklearn.linear_model.LinearRegression(fit_intercept=True)
    - 参数：
        - fit_intercept：是否计算偏置
    - 属性：
        - fit_intercept：是否计算偏置
        - LinearRegression.coef_：回归系数

## 步骤分析

- 获取数据集
- 数据基本处理（该案例中省略）
- 特征工程（该案例中省略）
- 机器学习
- 模型评估（该案例中省略）

## 代码过程

In [1]:
#导入模块
from sklearn.linear_model import LinearRegression
#构造数据集
x = [[80, 86],
    [82, 80],
    [85, 78],
    [90, 90],
    [86, 82],
    [82, 90],
    [78, 80],
    [92, 94]]
y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]

#机器学习-模型训练

#实例化api
estimator=LinearRegression()
#使用fit方法进行训练
estimator.fit(x,y)
#打印对应系数
print("线性回归的系数是：\n",estimator.coef_)
#打印预测结果
print("线性回归的预测结果是：\n",estimator.predict([[100,80]]))

线性回归的系数是：
 [0.3 0.7]
线性回归的预测结果是：
 [86.]


# 线性回归的损失和优化

&emsp;&emsp;当真实结果与我们预测的结果存在一定误差时，我们需要将这个误差衡量出来。

## 损失函数

$$
\begin{aligned}
\mathrm{J}(\mathrm{w}) &=\left(\mathrm{h}\left(x_{1}\right)-y_{1}\right)^{2}+\left(\mathrm{h}\left(x_{2}\right)-y_{2}\right)^{2}+\cdots+\left(\mathrm{h}\left(x_{m}\right)-y_{m}\right)^{2} \\
&=\sum_{i=1}^{m}\left(\mathrm{~h}\left(x_{i}\right)-y_{i}\right)^{2}
\end{aligned}
$$

- yi为第i个训练样本的真实值
- h(xi)为第i个训练样本特征值组合预测函数
- 又称最小二乘法

## 优化函数

目的是找到最小损失对应的W值（权重）  
- 线性回归经常使用的两种优化算法
    - 正规方程
    - 梯度下降法

### 正规方程

$$
w=\left(X^{T} X\right)^{-1} X^{T} y
$$

理解：X为特征值矩阵，y为目标值矩阵。直接求到最好的结果。  
缺点：当特征过多过于复杂时，求解速度太慢且得不到结果。  
（正规方程一步到位，梯度下降一步一步来）

### 梯度下降

$$
\theta_{i+1}=\theta_{i}-\alpha \frac{\partial}{\partial \theta_{i}} J(\theta)
$$
- 在单变量函数中，梯度其实就是函数的微分，代表着函数在某个给定点切线的斜率；
- 在多变量函数中，梯度其实是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向；
- α在梯度下降算法中被称作为学习率或者步⻓；
- 梯度前加⼀个负号，代表着是在下降

### 正规方程与梯度下降对比

| 梯度下降 |正规方程 |
| --- | --- |
| 需要选择学习率 | 不需要 |
| 需要迭代求解 | 一次运算得出 |
|特征数量较大可以使用 | 需要计算方程，时间复杂度O(n3) |

算法选择依据：
- 小规模数据：
    - 正规方程：LinearRegression(不能解决拟合问题)
    - 岭回归
- 大规模数据：
    - 梯度下降：SGDRegressor

***
## 梯度下降算法

- α（步长）：决定了在梯度下降迭代的过程中，每⼀步沿梯度负⽅向前进的⻓度。
- x（特征）：指的是样本中输⼊部分。
- h (x) = θ + θ x（特征函数）：在监督学习中，为了拟合输⼊样本，⽽使⽤的假设函数，记为h (x)。
- 损失函数：为了评估模型拟合的好坏，通常⽤损失函数来度量拟合的程度。

### 梯度下降法算法
- 全梯度下降算法(Full gradient descent),
- 随机梯度下降算法(Stochastic gradient descent),
- ⼩批量梯度下降算法(Mini-batch gradient descent),
- 随机平均梯度下降算法(Stochastic average gradient descent)

### 全梯度下降算法(FG)


$$
\theta_{i}=\theta_{i}-\alpha \sum_{j=1}^{m}\left(h_{\theta}\left(x_{0}^{(j)}, x_{1}^{(j)}, \ldots x_{n}^{(j)}\right)-y_{j}\right) x_{i}^{(j)}
$$

- 批量梯度下降法，具体做法也就是在更新参数时使⽤所有的样本来进⾏更新
- 计算训练集所有样本误差，对其求和再取平均值作为⽬标函数
- 因为计算整个数据集上的梯度，故速度会很慢
- 批梯度下降法同样也不能在线更新模型，即在运⾏的过程中，不能增加新的样本

### 随机梯度下降算法(SG)
$$
\theta_{i}=\theta_{i}-\alpha\left(h_{\theta}\left(x_{0}^{(j)}, x_{1}^{(j)}, \ldots x_{n}^{(j)}\right)-y_{j}\right) x_{i}^{(j)}
$$

&emsp;&emsp;其每轮计算的⽬标函数不再是全体样本误差，⽽仅是单个样本误差，即每次只代⼊计算⼀个样本⽬标函数的梯度来更新权重，再取下⼀个样本重复此过程，直到损失函数值停⽌下降或损失函数值⼩于某个可以容忍的阈值。  
&emsp;&emsp;但是由于，SG每次只使⽤⼀个样本迭代，若遇上噪声则容易陷⼊局部最优解

### ⼩批量梯度下降算法(mini-batch)
$$
\theta_{i}=\theta_{i}-\alpha \sum_{j=t}^{t+x-1}\left(h_{\theta}\left(x_{0}^{(j)}, x_{1}^{(j)}, \ldots x_{n}^{(j)}\right)-y_{j}\right) x_{i}^{(j)}
$$

&emsp;&emsp;每次从训练样本集上随机抽取⼀个⼩样本集，在抽出来的⼩样本集上采⽤FG迭代更新权重。

###  随机平均梯度下降算法(SAG)
$$
\theta_{i}=\theta_{i}-\frac{\alpha}{n}\left(h_{\theta}\left(x_{0}^{(j)}, x_{1}^{(j)}, \ldots x_{n}^{(j)}\right)-y_{j}\right) x_{i}^{(j)}
$$

&emsp;&emsp;会给每个样本都维持⼀个平均值,后期计算的时候,参考这个平均值。

### api使用

- 正规方程：
    - sklearn.linear_model.LinearRegression(fit_intercept=True)
    - 参数：
        - fit_intercept：是否计算偏置
    - 属性：
        - LinearRegression.coef_：回归系数
        - LinearRegression.intercept_：偏置


- 梯度下降：
    - sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling',eta0=0.01)
    - 定义：实现了随机梯度下降学习，它⽀持不同的loss函数和正则化惩罚项来拟合线性回归模型
    - 参数：
        - loss:损失类型
            - loss=”squared_loss”: 普通最⼩⼆乘法
        - fit_intercept：是否计算偏置
        - learning_rate : string, optional
            - 学习率填充
            - 'constant': eta = eta0
            - 'optimal': eta = 1.0 / (alpha * (t + t0)) [default]
            - 'invscaling': eta = eta0 / pow(t, power_t)
            - 对于⼀个常数值的学习率来说，可以使⽤learning_rate=’constant’ ，并使⽤eta0来指定学习率
     - 属性：
         - SGDRegressor.coef_：回归系数
         - SGDRegressor.intercept_：偏置

***
# 案例：波士顿房价预测

## 基本步骤
- 获取数据
- 数据基本处理---分割数据
- 特征工程---标准化
- 机器学习---线性回归
- 模型预测

## 回归性能分析
$$
M S E=\frac{1}{m} \sum_{i=1}^{m}\left(y^{i}-\bar{y}\right)^{2}
$$
（注意：yi是预测值，y为真实值）

api调用：  
- sklearn.metrics.mean_squared_error(y_true, y_pred)
    - 均⽅误差回归损失
    - y_true:真实值
    - y_pred:预测值
    - return:浮点数结果

## 正规方程

In [14]:
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor
from sklearn.metrics import mean_squared_error

#获取数据
boston=load_boston()
#print(boston)

#数据基本处理---分割数据
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target,test_size=0.2)

#特征工程---标准化
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.fit_transform(x_test)

#机器学习---线性回归
estimator=LinearRegression()
estimator.fit(x_train,y_train)

print("这个模型的偏置是：\n",estimator.intercept_)
print("这个模型的系数是：\n",estimator.coef_)

#模型评估
y_pre=estimator.predict(x_test)
print("预测值是：\n",y_pre)

ret=mean_squared_error(y_test,y_pre)
print("均方差是：\n",ret)

这个模型的偏置是：
 22.81237623762382
这个模型的系数是：
 [-1.20360076  1.03052186  0.4698835   0.47906963 -1.7466153   3.09549361
 -0.22698449 -3.05932442  2.76146472 -2.30902676 -2.15148921  0.42798269
 -3.70694201]
预测值是：
 [16.83119988 19.40286752 25.2483401  23.0773477  25.14717104 39.15923928
 10.13979422 21.81375998 14.87785666 34.76291739 25.62603336 41.42176003
 19.37358879 30.70546662 20.55411695  6.48826428 33.90878768 25.63765953
 21.41496983 13.97560701 21.05920101 17.12300809 19.0061098  17.65407697
 25.03033241 15.83793008 23.72629459 18.50168512 18.8037346  20.29062717
 20.6964419  28.33930224 29.88296412 38.91419252 28.35167827 15.05853625
 24.04654791 21.59158934 20.69005457 26.15764458 28.83365489 39.16638021
 34.30453821 22.0944951  24.28387348 28.19809582 20.02265043 24.45139565
 29.4050658  40.00187763 26.03952492  5.996994   31.53256446 24.27868584
 19.33193923 37.99239936 16.36746516 16.41377532 28.44012717 25.83886674
 18.7175901  16.24453225 16.09295538 33.34280082 34.26347295 21

## 梯度下降

In [21]:

#获取数据
boston=load_boston()
#print(boston)

#数据基本处理---分割数据
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target,test_size=0.2)

#特征工程---标准化
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.fit_transform(x_test)

#机器学习---线性回归（梯度下降）
estimator=SGDRegressor(max_iter=1000,learning_rate="constant",eta0=0.1)
#estimator=SGDRegressor(max_iter=1000)
estimator.fit(x_train,y_train)

print("这个模型的偏置是：\n",estimator.intercept_)
print("这个模型的系数是：\n",estimator.coef_)

#模型评估
y_pre=estimator.predict(x_test)
print("预测值是：\n",y_pre)

ret=mean_squared_error(y_test,y_pre)
print("均方差是：\n",ret)

这个模型的偏置是：
 [-14914.82008193]
这个模型的系数是：
 [-1.84582354e+04  2.22671674e+03  6.63420582e+03  1.64454106e+04
  2.39183683e+04 -2.56662315e+03 -1.05475786e+04  1.40348944e+04
 -3.51092356e+04 -1.64726431e+04 -1.55699718e+04 -1.95199631e+04
  3.03604711e+01]
预测值是：
 [  38454.697528    -44763.05809783    7395.89951343   37455.95069708
   22841.90330686   35155.02766964  -96609.25695224   -1972.03888843
 -124859.2555308     9477.42678105   -1060.17710647 -148966.47364975
   14279.85015934 -127494.41225167    6204.42682814    7783.05386893
    2902.78929205   63679.52006146   -8618.58316868   -6838.13850181
  -50790.71234192   79949.49695798  -16099.8207738   -25047.37900352
    2050.13084705    7065.05639716   99875.00575204    8480.88439721
 -126499.92087864   47617.61375811   36502.85450898   26987.79175734
 -211513.03656035   42621.99359699   16143.26836821  -23822.51011239
  -16869.07466359  -25345.11103618  -64717.61479554   55023.18627326
   19430.56872299 -188797.60606825 -100571.2433095

# 过拟合和欠拟合

- 欠拟合：
    - 在训练集上表现不好，在测试集上也表现不好；
    - 解决方案：
        - 添加其他的特征项
        - 添加多项式特征


- 过拟合：
    - 在训练集上表现好，在测试集上表现不好
    - 解决方案：
        - 重新清洗数据集
        - 增大数据的训练量
        - 正则化
        - 减少特征维度，防止维灾难


- 正则化：
    - 定义：通过限制高次项的系数防止过拟合
    - L1正则化：直接把高次项系数变为0
        - Lassos回归
    - L2正则化：把⾼次项前⾯的系数变成特别⼩的值
        - Ridge回归（岭回归）