# 回归分析

- 一元线性回归：相关关系、OLS、拟合优度、显著性检验、
回归预测
- 多元线性回归：多重共线性、变量选择与逐步回归


# 一元线性回归

## 相关关系

Pearson相关系数

$$
r=\frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^2 \sum(y-\bar{y})^2}}
$$


- r<0: 负相关
- r=0: 无关
- r>0: 正相关


```py
df.corr() # pandas
np.corrcoef # numpy
```

## 一元线性回归模型

$$
y=\beta_0+\beta_1x+\epsilon
$$

$\epsilon$的假设：
- 正态性
- 方差齐性
- 独立性

估计回归方程

$$
\hat{y}=\hat{\beta}_0+\hat{\beta}_1x
$$

### OLS

$$
\hat{\beta}_1=\frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}\\
\hat{\beta}_0=\bar{y}-\hat{\beta}_1\bar{x}
$$

### 拟合优度


$r^2$:

$$
r^2=\frac{\sum(\hat{y}_i-\bar{y})^2}{\sum(y_i-\bar{y})^2}
$$

估计标准差

$$
s_e=\sqrt{
    \frac{\sum(y_i-\hat{y}_i)^2}{n-2}
}
$$

### 显著性检验

#### 线性关系检验

 1. 提出假设

 $$
H_0: \beta_1=0\\
H_1: \beta_1\ne 0
 $$
2. 计算检验统计量F
$$
F=\frac{SSR/1}{SSE/(n-2)} \sim F(1,n-2)
$$

SSR: 回归平方和
$$
SSR=\sum(\hat{y}_i-\bar{y})^2
$$

SSE: 残差平方和

$$
SSE=\sum(y_i-\hat{y}_i)^2
$$

3. 做出决策。

确定显著性水平$\alpha$,并根据分子自由度
$df_i1$和分母自由度$df_2=n-2$求出统计量P值。若$P>\alpha$,
则拒绝$H_0$a, 表明两个变量之间的线性关系显著。

#### 回归系数检验和推断

**回归系数检验**简称**t检验**，用于检验自变量对因变量
的影响是否显著。

在一元线性回归中，只有一个自变量，因此回归系数检验与线性
关系检验等价（多元则不等价）。

检验假设为：

$$
H_0:\beta_1=0\\
H_1: \beta_1 \ne 0
$$

检验统计量：

$$
t=\frac{\hat{\beta_1}}{s_\hat{\beta_1}}\sim t(n-2)\\
s_\hat{\beta_1}=\frac{s_e}{\sqrt{
    \sum x_i^2-\frac{1}{n}(\sum x_i)^2
}}
$$

确定显著性水平$\alpha$，根据自由度$d f =n-2$，计算出
统计量P值，若$P<\alpha$，则拒绝$H_0$，表明x对y是
显著的

回归系数$\beta_1$在$1-\alpha$置信水平下的置信区间：

$$
\hat{\beta_1}\pm t_{\alpha/2}(n-2)\frac{s_e}{\sqrt{
    \sum_{i=1}^n(x_i-\bar{x})^2
}}
$$

常数项$\beta_0$在$1-\alpha$置信水平下的置信区间：
$$
\hat{\beta_0}\pm t_{\alpha/2}(n-2)s_e
\sqrt{\frac{1}{n}+\frac{\bar{x}}{\sum_{i=1}^n(x_i-\bar{x})^2}}
$$

### 回归方程预测

平均值置信区间

对于给定的$x_0$，平均值$E(y_0)$在$1-\alpha$置信
水平下的置信区间为

$$
\hat{y_0}\pm t_{\alpha/2 }s_e \sqrt{
    \frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}
}
$$

$x_0$偏离$\bar{x}$越远，y的平均值的置信区间变得越宽，估计
效果越不好

个别值的置信区间

对于给定的$x_0$，y的一个个个别值在$1-\alpha$置信水平
下的预测区间为：


$$
\hat{y_0}\pm t_{\alpha/2 }s_e \sqrt{1+
    \frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}
}
$$

### 残差检验模型的假定

#### 残差

**异方差**: 如果对所有的x值，$\epsilon$的方差不同，则违背
$\epsilon$同方差的假设。

第i个观察值的残差为
$$
e_i=y_i-\hat{y_i}
$$


#### 正态性
用**标准化残差**检验$\epsilon$的正态性，即残差除以标准差
后的结果：

$$
z_{e_i}=\frac{e_i}{s_e}=\frac{y_i-\hat{y_i}}{s_e}
$$

如果假定成立，则标准化残差分布也应该服从正态分布。

# 多元线性回归

回归模型
$$
y=\pmb{\theta}\pmb{X}+\epsilon
$$

回归方程

$$
\hat{y}=\hat{\pmb{\theta}}\pmb{X}
$$

## OLS正规方程

$$
\hat{\pmb{\theta}}=(\pmb{X}^TX)^{-1}X^Ty
$$

## 多重多线性

变量之间存在相关，即**多重共线性**，会导致**过拟合**。

解决共线性(过拟合)方法
- 向前选择
- 向后剔除
- 逐步回归
- 岭回归