# 实验13-回归分析

回归分析是一种统计学方法，用于研究变量之间的关系。它主要用于分析一个或多个自变量(解释变量)与因变量(被解释变量)之间的关系。

> 解释变量和被解释变量之间不一定是因果关系，只是表明两者之间存在某种关系。

### 回归分析的类型

1. **线性回归**：
   - **简单线性回归**：只包含一个自变量和一个因变量，关系模型为直线形式，即 $ Y = \beta_0 + \beta_1X + \epsilon $，其中 $ \beta_0 $ 是截距，$ \beta_1 $ 是斜率，$ \epsilon $ 是误差项。
   - **多元线性回归**：包含多个自变量，模型为 $ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_nX_n + \epsilon $。

2. **非线性回归**：
   - 当变量之间的关系不是直线关系时使用，例如多项式回归、对数回归等。

> 把非线性回归转化为线性回归，可以通过变量转换、多项式回归等方法。但是转化后可能在某些区间出现较大偏差,这时候考虑转回非线性回归。

### 回归分析的步骤
1. **确定变量**：选择哪个是因变量，哪些是自变量。
2. **数据收集**：收集相关的数据。
3. **建立模型**：选择合适的回归模型。
4. **参数估计**：使用统计方法估计模型参数。
5. **模型评估**：通过统计测试检验模型的适用性。
6. **结果解释**：解释模型结果，进行决策或预测。

### 一元线性回归模型及基本假设

#### 基本假设

1. **独立性**:对于不同的x值，y值之间是相互独立的。
2. **线性关系**:y的期望是x的线性函数。
3. **同方差性**:对于不同的x值，y的方差是相同的。
4. **正态性**:对于不同的x值，y值是正态分布的。

> 从应用角度来说,只需要注意这些假设在什么情形下成立，以及如何检验它们是否成立.以血压与年龄问题为例，如果x是毫不相关的一些人的年龄，他们的血压y应是相互独立的，但若x是同一人在不同年代的年龄，血压就不会独立

#### 回归系数的最小二乘估计

对于简单线性回归模型 $ Y = \beta_0 + \beta_1X + \epsilon $，回归系数的最小二乘估计为：
$$
\hat \beta_1=\frac{\sum_{i=1}^{n}(X_i-\bar X)(Y_i-\bar Y)}{\sum_{i=1}^{n}(X_i-\bar X)^2}
$$
$$
\hat \beta_0=\bar Y-\hat \beta_1\bar X
$$
称$\hat \beta_0,\hat \beta_1$为回归系数的最小二乘估计。
可以证明,$\hat \beta_0,\hat \beta_1$是$\beta_0,\beta_1$的`线性无偏最小方差估计`

#### 一元线性回归的统计分析


1. **误差方差的估计**
   随机误差$\epsilon$的大小由误差方差$\sigma^2$来衡量，$\sigma^2$越小，回归方程的拟合程度越好。
    - **残差**：$ e_i = Y_i - \hat Y_i $
    - **残差平方和**：$ SSE = \sum_{i=1}^{n}(Y_i-\hat Y_i)^2 $
    - **误差方差的估计**：$\hat\sigma^2= s^2 = \frac{SSE}{n-2} $

2. **回归系数的区间估计和假设检验**
  - $\beta_1$的区间估计：$ \hat \beta_1 \pm t_{(n-2),1-\alpha/2} \cdot \frac{s}{\sqrt{\sum_{i=1}^{n}(X_i-\bar X)^2}} $,可以根据区间是否包含0来判断是否显著,如果不包含0,则说明x与y之间存在显著的线性关系。
  - $\beta_0$的区间估计：$ \hat \beta_0 \pm t_{(n-2),1-\alpha/2} \cdot s \sqrt{\frac{1}{n}+\frac{\bar X^2}{\sum_{i=1}^{n}(X_i-\bar X)^2}} $

3. 模型的有效性检验
   - **回归方程的显著性检验**：$ F = \frac{MSR}{MSE} = \frac{SSR/1}{SSE/(n-2)} $，服从自由度为$(1,n-2)$的F分布。
   - **回归系数的显著性检验**：$ t = \frac{\hat \beta_1}{s/\sqrt{\sum_{i=1}^{n}(X_i-\bar X)^2}} $，服从自由度为$(n-2)$的t分布。
   - 其中，$ SSR = \sum_{i=1}^{n}(\hat Y_i-\bar Y)^2 $，$ MSR = SSR/1 $, $ MSE = SSE/(n-2) $, $ F = MSR/MSE $,$SST = \sum_{i=1}^{n}(Y_i-\bar Y)^2 $。
   - **判定系数**：$ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $，表示回归方程对总变差的解释程度。
   - **调整判定系数**：$ R_{adj}^2 = 1 - \frac{SSE/(n-2)}{SST/(n-1)} $，考虑了自变量个数和样本量对判定系数的影响。
   - **残差分析**：通过残差图、正态概率图等检验模型的有效性。
   - **方差分析表**：用于检验回归方程的显著性。

#### 利用一元线性模型进行预测

