# 线性回归的理论

## 1. 相关系数的理论
我们先考虑下两个连续变量之间的统计关系。

![simple_regression](image/simple_regression.gif)

在线性回归分析开始前，一般计算自变量和因变量的相关系数，我们把这一步称之为相关分析。  

相关系数r检验y和x两个变量之间的线性相关的显著程度，其算式为

$$
r = \frac{\sum{(x_i-\bar{x})(y_i-\bar{y})}}{\sqrt{\sum{(x_i-\bar{x})^2\sum{(y_i-\bar{y})^2}}}}
$$

数学上可以证明：r在[-1, 1]范围，有：
- r>0时，y与x有一定的正线性相关，越接近1正的相关性越大
- r<0时，y与x有一定的负线性相关，越接近-1负的相关性越大

## 2. 一元线性回归的理论

一元线性回归是统计学中的一种线性回归模型，用于建立一个因变量（也称为响应变量、被解释变量）与一个自变量（也称为解释变量）之间的线性关系。

### 2.1 解释变量和被解释变量

一元线性回归的表达形式如下：

$$
Y_i = \beta_0+\beta_1X_i+u_i 
$$

$$
i是第i次观测，i=1,2,...,n;Y_i是被解释变量，\beta_0是截距；\beta_1是总体回归线的斜率，u_i是误差项
$$


输出变量 $Y$ 被称为被解释变量、因变量、响应变量、结果，而输入变量 $X$ 可以被称为解释变量、自变量、预测因子。

## 2.2 最小二乘法（OLS方法）

<img src='image/OLS.png' width=600>

线性回归拟合一个具有系数的线性模型，以最小化数据集内观测目标与线性逼近预测目标之间的残差平方和。数学上，它解决了这样一个问题:

$$
min\{\sum^{n}_{i=1}(Y-\hat{Y_i})^2\}
$$

这里的 $Y_i$ 为观测的值，$\hat{Y_i}$ 为预测值。

因为 $\hat{Y_i}$ 满足直线方程：$\hat{Y_i} = \beta_0+\beta_1X_i$ ，代入上式后，目标函数变成：


$$
min\{\sum^{n}_{i=1}(Y-\beta_0-\beta_1X_i)^2\}
$$

为了最小化预测误差平方和$\sum^{n}_{i=1}(Y-\beta_0-\beta_1X_i)^2$，首先将该式关于$\beta_0$和$\beta_1$求偏导数，可以得到以下两个等式：

$$
\frac{\partial \sum(Y_i-\beta_0-\beta_1X_i)^2}{\partial\beta_0}
= -2\sum(Y_i-\beta_0-\beta_1X_i)
$$
$$
\frac{\partial \sum(Y_i-\beta_0-\beta_1X_i)^2}{\partial\beta_1}
= -2\sum(Y_i-\beta_0-\beta_1X_i)X_i
$$

令上面2个偏导数等于零，整理后得到OLS估计量 $\hat{\beta_0}$ 和 $\hat{\beta_1}$ 必须满足的两个方程：

$$
\bar{Y}-\hat{\beta_0}-\hat{\beta_1}\bar{X}=0
$$
$$
\frac{1}{n}\sum{X_i}{Y_i} - \hat{\beta_0}\bar{X}-\hat{\beta_1}\frac{1}{n}\sum^n_{i=1}X^2_i = 0
$$

这里的 $\bar{Y}$ 为 $Y_i$ 的均值，$\bar{X}$ 为 $X_i$ 的均值。

解上述关于$\hat{\beta_0}$和$\hat{\beta_1}$的方程组，得到

$$
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2}
$$
$$
\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}
$$

## 3. 多元线性回归的理论

![multi_regression](image/multi_regression.png)

作为一元线性回归的扩展形式，多元线性回归用于建立一个因变量与多个自变量之间的线性关系。

多元回归模型是：

$$
Y_i = \beta_0 + \beta_1X_{1i} + \beta_2X_{2i} + ... +\beta_kX_{ki} + \mu_i,i=1,...,n
$$

其中：

- $Y_i$是被解释变量的第$i$个观测值；$X_{1i},X_{2i},...,X_{ki}$是$k$个解释变量的第$i$个观测值；$\mu_i$是误差项。
- 总体回归线表示的是$Y$和$X$之间的总体平均关系。
- $\beta_1$是$X_1$的斜率系数；$\beta2$是$X_2$的斜率系数，等等。
- 截距$\beta_0$是当所有解释变量$X$取值为零时$Y$期望值。




估计量$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta_k}$为使得预测误差平方和$\sum^n_{i=1}(Y_i-\beta_0-\beta_1X_{1i}-...-\beta_kX_{ki})^2$达到最小的$\beta_0,\beta_1,...,\beta_k$取值。

预测值$\hat{Y_i}$和残差$\hat{u_i}$分别为：

$$
\hat{Y_i}=\hat{\beta_0} + \hat{\beta_1}X_{1i} + ... + \hat{\beta_k}X_{ki}, i=1,...,n
$$

$$
\hat{u_i}=Y_i-\hat{Y_i}, i=1,...,n
$$

其中估计量$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta_k}$和残差$\hat{u_i}$都是利用$n$组样本观测数据$(X_{1i}, ..., X_{ki},Y_i), i=1,...n$计算得到的。它们分别是未知真实总体系数$\beta_0,\beta_1,...,\beta_k$和误差项$\mu_i$的估计量。

我们使用OLS方法求的$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta_k}$，为普通最小二乘(OLS)估计量。


## 4. 模型评价指标


### 4.1 SER

回归标准误（SER）是指对回归系数的标准误。在统计学中，标准误是一个用于衡量样本统计量与总体统计量之间差异的指标。对于回归分析中的回归系数，标准误可以帮助我们评估回归系数的稳定性和可靠性。

对于简单线性回归模型，回归标准误可以通过下式计算得到：

$$ SER = \sqrt{\frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{n-2}} $$

其中：
- $ y_i $ 表示第 $ i $ 个观测值的因变量值；
- $ \hat{y}_i $ 表示第 $ i $ 个观测值的预测值（根据回归方程预测的值）；
- $ n $ 表示样本数量。


回归标准误的意义在于：
- 它是回归系数估计值的标准差，用于评估回归系数的稳定性和精确度。
- 它可以用于构建置信区间和进行假设检验，例如t检验。
- 通过比较不同模型的回归标准误，可以帮助我们选择最合适的模型。

总之，回归标准误是回归分析中一个重要的指标，用于评估回归系数的可靠性和模型的拟合效果。


### 4.2 R平方

$R^2$（R-squared，R平方）是回归分析中用于评估模型拟合优度的统计指标之一。它是一个介于0和1之间的值，表示因变量的变异性中被自变量解释的比例。$R^2$越接近1，说明模型拟合得越好；$R^2$越接近0，则说明模型对数据的拟合程度较差。



$R^2 $ 的计算公式如下：

$$
R^2 = \frac{ESS}{TSS}=\frac{\sum^n_{i=1}{(\hat{Y_i}-\bar{Y})^2}}{\sum^n_{i=1}{(Y_i-\bar{Y})^2}}
$$

$$
R^2 = \frac{ESS}{TSS}=1-\frac{SSR}{TSS}
$$

$$
R^2 = 1-\frac{SSR}{TSS}
$$

其中：
- $ SSR $ 是残差平方和，表示模型预测值与实际观测值之间的差异的平方和；
- $ TSS $ 是总平方和，表示实际观测值与因变量均值之间的差异的平方和。



换句话说，$R^2$ 是残差平方和占总平方和的比例的补数。它衡量了模型所能解释的因变量变异性的比例，即模型对数据的拟合程度。$R^2$ 的取值范围为0到1，其中1表示模型完美拟合数据，0表示模型未能解释因变量的任何变异性。

在回归分析中，$R^2$ 通常作为一个重要的指标来评估模型的拟合优度。然而，需要注意的是，$R^2$ 并不是模型拟合程度的唯一评价指标，有时候模型的解释能力可能不够好，但 $R^2$ 仍然较高，因此在进行模型评估时，需要结合其他指标进行综合考虑。

## 参考
1. https://www.jmp.com/en_us/statistics-knowledge-portal/what-is-regression.html
2. 詹姆斯\*斯托克，马克\*沃森《计量经济学》第三版