# 线性回归模型

## 1. 相关系数
### 1.1 两个变量之间的相关系数
我们先考虑下两个连续变量之间的统计关系。

![simple_regression](images/simple_regression.gif)

在线性回归分析开始前，一般计算自变量和因变量的相关系数，我们把这一步称之为相关分析。  

相关系数r检验y和x两个变量之间的线性相关的显著程度，其算式为

$$
r = \frac{\sum{(x_i-\bar{x})(y_i-\bar{y})}}{\sqrt{\sum{(x_i-\bar{x})^2\sum{(y_i-\bar{y})^2}}}}
$$

数学上可以证明：r在[-1, 1]范围，有：
- r>0时，y与x有一定的正线性相关，越接近1正的相关性越大
- r<0时，y与x有一定的负线性相关，越接近-1负的相关性越大

### 1.2 相关性系数的实现

调用scipy.stats.pearsonr计算相关系数：
```python
import scipy.stats as stats
r = stats.pearsonr(x1, x2)
```

也可以使用`pd.DataFrame.corr()`来计算相关系数矩阵，然后绘制图形，详细见下一节。
```python
df = pd.DataFrame([(.2, .3), (.0, .6), (.6, .0), (.2, .1)],
                                columns=['dogs', 'cats'])
df.corr(method='pearson')
      dogs  cats
dogs   1.0   0.3
cats   0.3   1.0
```

## 2. 一元线性回归的理论

**输出变量Y**被称为被解释变量、因变量、结果，而**输入变量X**可以被称为解释变量、自变量、效果、预测因子。

$$
Y_i = \beta_0+\beta_1X_i+u_i 
$$

$$
i是第i次观测，i=1,2,...,n;Y_i是被解释变量，\beta_0是截距；\beta_1是总体回归线的斜率，u_i是误差项
$$


线性回归拟合一个具有系数的线性模型，以最小化数据集内观测目标与线性逼近预测目标之间的残差平方和。数学上，它解决了这样一个问题:

$$
min\{\sum^{n}_{i=1}(Y-\beta_0-\beta_1X_i)^2\}
$$

### 2.1 OLS方法

![OLS](images/OLS.png)

为了最小化预测误差平方和$\sum^{n}_{i=1}(Y-\beta_0-\beta_1X_i)^2$，首先将该式关于$b_0$和$b_1$求偏导数，可以得到以下两个等式：

$$
\frac{\partial \sum(Y_i-\beta_0-\beta_1X_i)^2}{\partial\beta_0}
= -2\sum(Y_i-\beta_0-\beta_1X_i)^2
$$
$$
\frac{\partial \sum(Y_i-\beta_0-\beta_1X_i)^2}{\partial\beta_1}
= -2\sum(Y_i-\beta_0-\beta_1X_i)X_i
$$

令上面2个偏导数等于零，整理后得到OLS估计量$\beta_0$和$\beta_1$必须满足的两个方程：

$$
\bar{Y}-\hat{\beta_0}-\hat{\beta_1}\bar{X}=0
$$
$$
\frac{1}{n}\sum{X_i}{Y_i} - \hat{\beta_0}\bar{X}-\hat{\beta_1}\frac{1}{n}\sum^n_{i=1}X^2_i = 0
$$

解上述关于$\hat{\beta_0}$和$\hat{\beta_1}$的方程组，得到

$$
\hat{\beta_1}=\frac{\frac{1}{n}\sum_{i=1}^n X_i Y_i-\bar{XY}}{\frac{1}{n}\sum_{i=1}^n X_i^2 - \bar{X}^2}
$$
$$
\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X}
$$

## 3. 多元线性回归的理论

![multi_regression](images/multi_regression.png)

多元回归模型是：

$$
Y_i = \beta_0 + \beta_1X_{1i} + \beta_2X_{2i} + ... +\beta_kX_{ki} + \mu_i,i=1,...,n
$$

其中：

- $Y_i$是被解释变量的第$i$个观测值；$X_{1i},X_{2i},...,X_{ki}$是$k$个解释变量的第$i$个观测值；$\mu_i$是误差项。
- 总体回归线表示的是$Y$和$X$之间的总体平均关系。
- $\beta_1$是$X_1$的斜率系数；$\beta2$是$X_2$的斜率系数，等等。
- 截距$\beta_0$是当所有解释变量$X$取值为零时$Y$期望值。




估计量$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta_k}$为使得预测误差平方和$\sum^n_{i=1}(Y_i-\beta_0-\beta_1X_{1i}-...-\beta_kX_{ki})^2$达到最小的$\beta_0,\beta_1,...,\beta_k$取值。

预测值$\hat{Y_i}$和残差$\hat{u_i}$分别为：

$$
\hat{Y_i}=\hat{\beta_0} + \hat{\beta_1}X_{1i} + ... + \hat{\beta_k}X_{ki}, i=1,...,n
$$

$$
\hat{u_i}=Y_i-\hat{Y_i}, i=1,...,n
$$

其中估计量$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta_k}$和残差$\hat{u_i}$都是利用$n$组样本观测数据$(X_{1i}, ..., X_{ki},Y_i), i=1,...n$计算得到的。它们分别是未知真实总体系数$\beta_0,\beta_1,...,\beta_k$和误差项$\mu_i$的估计量。

我们使用OLS方法求的$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta_k}$，为普通最小二乘(OLS)估计量。


## 4. 模型评价指标

### 4.1 SER

回归标准误（SER）是对误差项$\mu_i$标准差的估计，故SER可用来度量$Y$的分布在回归线周围的离散程度。

$$
SER = s_{\hat{u}}=\sqrt{s^2_{\hat{u}}}
$$





### 4.2 $R^2$

$$
R^2 = \frac{ESS}{TSS}=\frac{\sum^n_{i=1}{(\hat{Y_i}-\bar{Y})^2}}{\sum^n_{i=1}{(Y_i-\bar{Y})^2}}
$$

$$
R^2 = \frac{ESS}{TSS}=1-\frac{SSR}{TSS}
$$

$$
R^2 = 1-\frac{SSR}{TSS}
$$

$$
SSR为残差平方和
$$




### 4.3 调整$R^2$

$$
\bar{R}^2=1-\frac{n-1}{n-k-1}\frac{SSR}{TSS}=1-\frac{s^2_\hat{u}}{s^2_Y}
$$

$$
k:斜率系数和截距的数量
$$

## 5. 线性回归的实现

线性回归的Python实现主要使用sklearn机器学习库linear_model模块下的LinearRegression类。
```python
class sklearn.linear_model.LinearRegression(*, fit_intercept=True, copy_X=True, n_jobs=None, positive=False)[source]¶
```

|类别|名称|含义|
|---|---|---|
|**参数**|**fit_intercept**|默认为True，是否计算模型的截距，如果设为False，是指数据是以原点为中心的，不会计算截距。|
|**属性**|**coef_**|线性回归问题的估计系数。|
||**intercept_**|线性模型中的独立项，也就是截距|
|**方法**|**fit(X, y)**|训练模型（或称估计器、学习器）|
||**predict(X)**|在训练后，使用模型预测|
||**score(X, y)**|用来计算模型的精度|
||**get_params()**|获得模型的参数|

### 5.1 模型输入X和y

上述回归模型中使用$X$和$y$的数据结构如下，$X$包含多个样本，以及每个样本的属性，也就是自变量，和X的每个样本对应的就是我们的预测目标$y$，也就是因变量。

在实际编程中，一般使用pd.DataFrame来表示$X$和$y$。

![X&y](images/X&y.png)

### 5.2 实现流程
针对于多元回归分析，其一般化的流程如下：

![regression_steps](images/regression_steps.jpg)

1）创建学习器，也就是初始化线性回归模型
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
```

也可以这样表述：
```python
from sklearn import linear_model
model = linear_model.LinearRegression()
```

2）训练模型
```python
model.fit(X, y)
```

3）生成预测结果
```python
predicted_y = model.predict(X)
```

4）计算模型预测精度和拟合优度$R^2$
```python
precision = model.score(X, y)
```
```python
from sklearn.metrics import r2_score
r2 = r2_score(predicted_y, y)
```

5）生成汇总信息（summary）
```python
print("系数: %s" %model.coef_)
print("截距: %.4f" %model.intercept_)
print("样本内(IS)训练集精度:%.2f" %precision)
print("拟合优度R-squared: %.2f" % r2)
```

## 参考
1. https://www.jmp.com/en_us/statistics-knowledge-portal/what-is-regression.html
2. 詹姆斯\*斯托克，马克\*沃森《计量经济学》第三版
1. sklearn官网：[链接](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)