### 线性回归 Linear Regression

#### 应用场景
- 房价预测
- 销售额度预测
- 贷款额度预测
#### 原理
线性回归（Linear Regression）是利用回归方程（函数）对一个或多个自变量（特征值）和因变量（目标值）之间关系进行建模的一种分析方程。

- 单变量回归：只有一个自变量
- 多元回归：多个自变量
通用公式  
$$h(w)=w_1x_1+w_2x_2+w_3x_3\dots+b=w^Tx+b$$
其中$w,x$可以理解为矩阵：$w=\begin{pmatrix}b\\w_1\\w_2\end{pmatrix},x=\begin{pmatrix}1\\x_1\\x_2\end{pmatrix}$,$b$为偏置  
其实就是$y=kx+b$

- 找到特征值与目标值间函数关系，这个关系可以理解为线性模型
广义的线性模型：
- 线性关系：单特征与目标值的关系呈直线关系，两个特征与目标值呈现平面关系
- 非线性关系：不能用一个直线或平面来拟合
- ***线性关系一定是线性模型***
- ***线性模型不一定是线性关系***

我们应该怎样从一大堆数据里求出回归方程呢？ 假定输入数据存放在矩阵 $x$ 中，而回归系数存放在向量 $w$ 中。那么对于给定的数据 $X1$，预测结果将会通过 $Y = X1^T w$给出。现在的问题是，手里有一些 $X$ 和对应的 $y$，怎样才能找到 $w$ 呢？一个常用的方法就是找出使误差最小的 $w$ 。这里的误差是指预测 $y$ 值和真实 $y$ 值之间的差值，使用该误差的简单累加将使得正差值和负差值相互抵消，所以我们采用平方误差（实际上就是我们通常所说的最小二乘法）。

### 损失和优化
目标:求模型参数  
模型参数能够使得预测准确  

例如，假设某房屋价格与环境参数存在如下关系：
- $真实房价=0.02*中心区域距离+0.04*城市一氧化氮浓度\dots$  

那么现在我们随意指定（猜测）一个关系

- $预测房价=0.25*中心区域距离+0.14*城市一氧化氮浓度\dots$

真实值和预测结果是存在一定误差的，衡量误差的函数便是：损失函数

损失函数:
一般是最小二乘法（又称最小平方法）一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。

如何去求模型的 $w$ ,使得损失最小？  
线性回归常用优化算法：
- 正规方程 Normal Equation （较少使用）
  - 可以比喻成一个天才
  - 当特征过多过复杂时，求解速度太慢并且得不到结果
  - 小数据场景有优势
  - 直接求解$w$，$X$为特征值矩阵，$y$为目标值矩阵，直接求的最好结果
$$w = (X^TX)^{-1}X^Ty$$



- 梯度下降 Gradient Descent（较多使用）
  - 可以比喻成是勤奋努力的普通人
  - 不断地改进、试错直到成功
  - $\alpha$ 为学习速率，需要手动指定，$\alpha$右边整体表示函数下降的方向
  - 面对规模十分庞大的数据集，能找到较好的结果
$$
w1 := w1 - \alpha\frac{{\partial}cost(w0+w1x1)}{{\partial}w1}
$$
$$
w0 := w0 - \alpha\frac{{\partial}cost(w0+w1x1)}{{\partial}w1}
$$

### API
~~~python
sklearn.linear_model.LinearRegression
~~~
- 通过正规方程优化
- fit_intercept: 是否计算偏置
- LinearRegression.coef_: 回归系数
- LinearRegression.intercept_: 偏置

~~~python
sklearn.linear_model.SGDRegressor
~~~
- SGDRegressor 类实现了随机梯度下降学习，支持不同的loss函数和正则化惩罚项来拟合线性回归模型
- loss:损失类型
  - squared_error：普通最小二乘法
  - huber
  - epsilon_insensitive
  - squared_epsilon_insensitive
- fit_intercept: 是否计算偏置
- learning_rate: 学习率的算法，eta是学习率
  - ‘constant’: eta = eta0
  - ‘optimal’: eta = 1.0 / (alpha * (t + t0))
  - ‘invscaling’: eta = eta0 / pow(t, power_t) 逐步减小学习率
    - power_t：默认是0.25
  - ‘adaptive’: eta = eta0
- SGDRegressor.coef_: 回归系数
- SGDRegressor.intercept_: 偏置

In [27]:
# Boston house price
# length: 506
# CRIM - 城镇人均犯罪率                                                              ------【城镇人均犯罪率】
# ZN - 占地面积超过25,000平方英尺的住宅用地比例。               ------【住宅用地所占比例】
# INDUS - 每个城镇非零售业务的比例。                                      ------【城镇中非商业用地占比例】
# CHAS - Charles River虚拟变量（如果是河道，则为1;否则为0  ------【查尔斯河虚拟变量，用于回归分析】
# NOX - 一氧化氮浓度（每千万份）                                             ------【环保指标】
# RM - 每间住宅的平均房间数                                                      ------【每栋住宅房间数】
# AGE - 1940年以前建造的自住单位比例                                     ------【1940年以前建造的自住单位比例 】
# DIS -波士顿的五个就业中心加权距离                                        ------【与波士顿的五个就业中心加权距离】
# RAD - 径向高速公路的可达性指数                                             ------【距离高速公路的便利指数】
# TAX - 每10,000美元的全额物业税率                                          ------【每一万美元的不动产税率】
# PTRATIO - 城镇的学生与教师比例                                             ------【城镇中教师学生比例】
# B - 1000（Bk - 0.63）^ 2其中Bk是城镇黑人的比例                   ------【城镇中黑人比例】
# LSTAT - 人口状况下降％                                                            ------【房东属于低等收入阶层比例】
# MEDV - 自有住房的中位数报价, 单位1000美元                         ------【自住房屋房价中位数】



In [28]:
# 获取数据集
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
boston = load_boston()
boston.data.shape



    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

(506, 13)

In [29]:
# 划分数据集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(boston.data,boston.target,random_state=22)
x_train

array([[1.80028e+00, 0.00000e+00, 1.95800e+01, ..., 1.47000e+01,
        2.27610e+02, 1.21400e+01],
       [2.14090e-01, 2.20000e+01, 5.86000e+00, ..., 1.91000e+01,
        3.77070e+02, 3.59000e+00],
       [2.99160e-01, 2.00000e+01, 6.96000e+00, ..., 1.86000e+01,
        3.88650e+02, 1.30000e+01],
       ...,
       [4.41700e-02, 7.00000e+01, 2.24000e+00, ..., 1.48000e+01,
        3.90860e+02, 6.07000e+00],
       [5.90050e-01, 0.00000e+00, 2.18900e+01, ..., 2.12000e+01,
        3.85760e+02, 1.11200e+01],
       [1.11081e+01, 0.00000e+00, 1.81000e+01, ..., 2.02000e+01,
        3.96900e+02, 3.47700e+01]])

In [30]:
# 标准化
from sklearn.preprocessing import StandardScaler
std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.transform(x_test)
x_train

array([[-0.20918739, -0.52054534,  1.24477931, ..., -1.72807526,
        -1.35897227, -0.08447646],
       [-0.43088174,  0.3974553 , -0.7606374 , ...,  0.30003249,
         0.24261973, -1.25661718],
       [-0.41899191,  0.3140007 , -0.59985326, ...,  0.0695657 ,
         0.36670935,  0.03342307],
       ...,
       [-0.45463067,  2.4003658 , -1.28976339, ..., -1.6819819 ,
         0.3903914 , -0.91662782],
       [-0.37833557, -0.52054534,  1.582426  , ...,  1.26799301,
         0.33574053, -0.22431079],
       [ 1.09172307, -0.52054534,  1.02845156, ...,  0.80705943,
         0.45511517,  3.0179264 ]])

In [31]:
# 预估器

# 使用正规方程优化
from sklearn.linear_model import LinearRegression
line = LinearRegression()
line.fit(x_train, y_train)
print("line coef_:",line.coef_)
print("line intercept_:",line.intercept_)





line coef_: [-0.64817766  1.14673408 -0.05949444  0.74216553 -1.95515269  2.70902585
 -0.07737374 -3.29889391  2.50267196 -1.85679269 -1.75044624  0.87341624
 -3.91336869]
line intercept_: 22.62137203166228


In [32]:
# 使用梯度下降优化
from sklearn.linear_model import SGDRegressor
sgd = SGDRegressor()
sgd.fit(x_train, y_train)
print("sgd coef_:",sgd.coef_)
print("sgd intercept_:",sgd.intercept_)

sgd coef_: [-0.53193036  0.94238144 -0.46270788  0.75302461 -1.70467432  2.80901494
 -0.18054647 -3.08906517  1.62059772 -0.93274257 -1.71390531  0.90184191
 -3.90576195]
sgd intercept_: [22.60308145]


In [37]:
# 网格搜索对梯度下降调参
from sklearn.model_selection import GridSearchCV
estimator = SGDRegressor()
params = {
    "penalty":["l2","l1","elasticnet"],
    "learning_rate":["constant","optimal","invscaling","adaptive"],
    "eta0":[0.1,0.01,0.005,0.001]
}
grid = GridSearchCV(estimator,params,n_jobs=-1)
grid.fit(x_train, y_train)
print("best_estimator_",grid.best_estimator_)
print("best_score_",grid.best_score_)


sgdGS = SGDRegressor(eta0=grid.best_params_["eta0"],learning_rate=grid.best_params_["learning_rate"],penalty=grid.best_params_["penalty"])
sgdGS.fit(x_train, y_train)

print("sgdGS coef_:",sgdGS.coef_)
print("sgdGS intercept_:",sgdGS.intercept_)

best_estimator_ SGDRegressor()
best_score_ 0.6908118957589295
sgdGS coef_: [-0.45453792  0.7900262  -0.50798626  0.82352197 -1.46464809  2.94375814
 -0.17221067 -2.80360658  1.32451916 -0.75453759 -1.6912992   0.88494938
 -3.93564441]
sgdGS intercept_: [22.60340085]
