<a href="https://colab.research.google.com/github/nctlcnt/MyNotebooks/blob/main/week_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 1 - 回归分析简介（Introduction to Regression Analysis）

## 1.1 什么是回归分析？（What is Regression Analysis?）

回归分析旨在研究统计变量之间的函数关系。数据通常表示为一个随机向量 $(Y, x)$ 的多次观测。

* **解释变量（x）**：一个p维向量 $x = (X_1, ..., X_p)^⊤$，又称为：

  * 解释变量（explanatory variables）
  * 回归变量（regressors）
  * 预测变量（predictors）
  * 输入变量（input variables）
  * 自变量（independent variables）

* **响应变量（Y）**：也称为：

  * 响应变量（response variable）
  * 目标变量（target variable）
  * 输出变量（output variable）
  * 结果变量（outcome variable）
  * 因变量（dependent variable）

Y 可以是：

* 连续型（如实数）
* 离散型（有限类别或有序类别）

**假设约定**：

* Y 通常看作是随机变量
* x 通常看作是固定的观测值

---

## 响应变量与解释变量的尺度类型

Y 与 x 的数据类型可以为：

* **名义型（Nominal）**：分类，如二元结果（如是否患病），或多类别（如血型）
* **有序型（Ordinal）**：有顺序但无间距意义，如教育程度
* **连续型（Continuous）**：理论上可取任意实数，如身高、收入

x 也可为：

* **定性变量（qualitative）**：如性别，被称为**因子（factor）**
* **定量变量（quantitative）**：如年龄，被称为**协变量（covariate）**

---

## 响应变量 vs. 解释变量的常见组合与分析方法

| 响应变量类型  | 解释变量类型 | 推荐方法                |
| ------- | ------ | ------------------- |
| 连续      | 二分类    | t检验                 |
| 名义（多类别） | 类别     | 方差分析（ANOVA）         |
| 有序      | 类别     | 有序逻辑回归              |
| 连续      | 多变量    | 多元回归                |
| 二分类     | 类别     | Logistic回归、Probit回归 |
| 计数型     | 类别     | 对数线性模型、泊松回归         |



---

## 回归的一般目标

我们希望找到一个形式如下的“良好”函数关系：

$$
Y = f(x) + \varepsilon
$$

其中：

* $f(x)$ 是系统部分，表示解释变量对响应变量的影响
* $\varepsilon$ 是独立于 $x$ 的随机误差项，且满足 $E[\varepsilon] = 0$

![](Page16_Regression_Surface.png)
*图示：Y 对两个解释变量 $X_1, X_2$ 的回归曲面*

---

## 应用型回归分析的含义

> “如果不能计算，我们就不谈它。”

尽管课程聚焦实际可计算的方法，但仍强调理解背后的理论基础。这是因为：

> “没有比好理论更实用的东西了。” — Kurt Lewin

---

## 回归分析与统计学习的框架

* **统计学习（Statistical Learning）**：是理解数据的一整套工具，分为两类：

  * **监督学习（Supervised Learning）**：有“标签”（Y），例如回归、分类等
  * **无监督学习（Unsupervised Learning）**：无响应变量Y，例如聚类

本课程完全基于监督学习框架，重点在于：

> 建立模型来预测/估计响应变量 Y

---

## 学生应具备的先验知识

### 线性代数

* 向量空间
* 线性无关
* 矩阵乘法、对角化、投影等

### 多元微积分

* 偏导数
* 极值点
* 多重积分

### R语言编程

* 数据类型、数组处理、优化思维

### 概率与统计基础

* 分布（正态、泊松等）
* 条件期望、协方差矩阵
* 最大似然估计的渐近性质等【5:19-20†source】

---

## 1.2 参数模型的估计（Estimation of Parametric Models）

---

### 📌 参数估计的两种主要方法

1. **参数法（Parametric approach）**

   * 假设 $f(x)$ 的函数形式，例如：

     $$
     f(x) = \beta_0 + \beta_1 X_1 + \ldots + \beta_p X_p
     $$
   * 然后估计这些参数（如 $\beta_0, \beta_1, \ldots, \beta_p$）

2. **非参数法（Nonparametric approach）**

   * 不假设函数形式（$f$ 未知）
   * 优点：更灵活
   * 缺点：需要更大的样本量，参数维度不固定

---

### 🔍 最大似然估计法（Maximum Likelihood Estimation, MLE）

* 定义：给定观测值 $y = [Y_1, Y_2, \dots, Y_n]^\top$，假设它们的联合概率密度为 $f(y; \theta)$

* **似然函数**（Likelihood Function）：

  $$
  L(\theta; y) = f(y; \theta)
  $$

  此函数视作参数 $\theta$ 的函数，y 固定

* 最大似然估计（MLE）定义为：

  $$
  \hat{\theta} = \arg\max_{\theta \in \Theta} L(\theta; y)
  $$

  或等价地最大化对数似然函数（更常用）：

  $$
  l(\theta; y) = \log L(\theta; y)
  $$

---

### ✅ 如何计算MLE？

1. 求导并设为0：

   $$
   \frac{\partial l(\theta; y)}{\partial \theta_j} = 0,\quad j = 1,\dots, p
   $$

2. 检查二阶导数矩阵（Hessian）是否在估计点为负定矩阵：

   $$
   \frac{\partial^2 l(\theta; y)}{\partial \theta_j \partial \theta_k}
   $$

   若成立，则该点为局部最大值

3. 边界情况：也要检查 $\theta$ 是否在参数空间边界上存在更大值

---

### 🔁 MLE的性质：不变性（Invariance）

* **不变性定理**：
  若 $g(\theta)$ 是 $\theta$ 的任意函数，则：

  $$
  \hat{g(\theta)} = g(\hat{\theta})
  $$

* 其他重要性质：

  * 一致性（Consistency）
  * 充分性（Sufficiency）
  * 渐近效率性（Asymptotic Efficiency）
  * 渐近正态性（Asymptotic Normality）

![](Page31_LogLikelihood_Surface.png)
*图示：对数似然函数的三维可视化图*

---

### 🧪 示例：泊松分布中的MLE

假设 $Y_1, Y_2, \ldots, Y_n \sim \text{Poisson}(\theta)$，独立同分布，其概率密度为：

$$
f(y_i; \theta) = \frac{\theta^{y_i} e^{-\theta}}{y_i!}
$$

* 似然函数：

  $$
  L(\theta; y) = \prod_{i=1}^n \frac{\theta^{y_i} e^{-\theta}}{y_i!}
  $$
* 对数似然函数：

  $$
  \log L(\theta; y) = \sum_{i=1}^n y_i \log \theta - n \theta + \text{const}
  $$
* 设导数为0解得：

  $$
  \hat{\theta} = \frac{1}{n} \sum_{i=1}^n y_i
  $$

---

### 🔍 最小二乘法（Least Squares Estimation）

考虑：

* $Y_i \sim \text{某分布}$，期望为 $\mu_i(\beta)$，其中 $\beta$ 是需要估计的参数向量

**普通最小二乘（OLS）**：最小化平方误差和

$$
SS = \sum_{i=1}^n [Y_i - \mu_i(\beta)]^2
$$

求导设为0得到估计：

$$
\frac{dSS}{d\beta_j} = 0, \quad j = 1, ..., p
$$

---

### 🔧 加权最小二乘法（Weighted Least Squares）

当观测值 $Y_i$ 的方差不等时，使用加权形式：

$$
WSS = \sum_{i=1}^n w_i [Y_i - \mu_i(\beta)]^2
$$

其中 $w_i = \frac{1}{\sigma_i^2}$，方差越大的点权重越小。

一般形式：

$$
WSS = (y - \mu)^\top V^{-1} (y - \mu)
$$

其中 $V$ 是协方差矩阵。

---

### 📌 关键评论总结

1. **最小二乘法** 不依赖于Y的分布假设，但MLE需要指定分布。
2. 在某些模型下，MLE与最小二乘法给出相同的估计值。
3. 许多实际问题中估计需借助数值优化方法完成。

> 阅读推荐：Dobson 教材第13–16页

## 1.3 模型拟合（Model Fitting）

---

### 🔧 模型拟合的四个关键步骤

1. **模型设定（Model Specification）**：

   * 明确响应变量 $Y$ 与解释变量 $X$ 之间的函数关系
   * 指定 $Y$ 的概率分布（如正态、泊松、二项等）

2. **参数估计（Parameter Estimation）**：

   * 使用最大似然估计或最小二乘法等方法估计模型中的参数（如 $\beta$）

3. **模型适配性检验（Checking Model Adequacy）**：

   * 通过残差、图形诊断、拟合优度等方法评估模型是否适合数据

4. **推断（Inference）**：

   * 计算置信区间、进行假设检验等

---

### 📘 实例研究：澳大利亚女性健康长期追踪研究

（Australian Longitudinal Study on Women’s Health, Lee et al., 2005）

* **研究背景**：居住在偏远乡村地区的女性比城市女性更少就诊，是否因为更健康或是因为结构性限制？

#### 研究设计：

* 对象：年龄 70–75 岁的女性
* 地点：新南威尔士州（NSW）
* 分组：

  * **Town group**：乡镇居民
  * **Country group**：农村居民
* 条件：1996年GP就诊次数 ≤ 3 次
* 社会经济地位一致

#### 建模方式：

设 $Y_{jk}$ 表示第 $j$ 组第 $k$ 位女性的慢性疾病数，则：

$$
Y_{jk} \sim \text{Poisson}(\theta_j)
$$

**零假设（H₀）**：

$$
\theta_1 = \theta_2 = \theta
$$

**备择假设（H₁）**：

$$
\theta_1 \ne \theta_2
$$

---

### 🧮 在R中实现对数似然比较

* **H₀下的对数似然函数**：

  $$
  \ell_0(\theta) = \sum_{j=1}^2 \sum_{k=1}^{K_j} \left[ y_{jk} \log \theta - \theta - \log y_{jk}! \right]
  $$

  * 最佳估计：

  $$

  \hat{\theta} = \frac{\sum_{j=1}^2 \sum_{k=1}^{K_j} y_{jk}}{N}
  
  $$

  其中 $N = K_1 + K_2$

* **H₁下的对数似然函数**：

  $$
  \ell_1(\theta_1, \theta_2) = \sum_{k=1}^{K_1} [y_{1k} \log \theta_1 - \theta_1 - \log y_{1k}! ] + \sum_{k=1}^{K_2} [y_{2k} \log \theta_2 - \theta_2 - \log y_{2k}! ]
  $$

  * 最佳估计：

    $$
    \hat{\theta}_1 = \frac{1}{K_1} \sum_{k=1}^{K_1} y_{1k},\quad \hat{\theta}_2 = \frac{1}{K_2} \sum_{k=1}^{K_2} y_{2k}
    $$

---

### 📉 残差分析：判断模型拟合优度

* **标准化残差**：

  $$
  r = \frac{Y - \hat{\theta}}{\sqrt{\hat{\theta}}}
  $$

* 在泊松假设下：

  * $r_i^2 \sim \chi^2_1$
  * 总体：

    $$
    \sum_{i=1}^n \frac{(Y_i - \hat{\theta}_i)^2}{\hat{\theta}_i} \sim \chi^2_{n - p}
    $$

* 本例中：

  * H₀ 残差平方和为：46.8457（自由度48）
  * H₁ 残差平方和为：43.6304（自由度47）

  差值为 3.2153，**看似不大**，但需要更具体的统计检验（如似然比检验）才能判断其显著性。

---

### 📊 可视化建议

* 使用残差图、QQ图、拟合值 vs. 残差图等检查模型的残差结构和异常值
* 比较不同模型（如泊松 vs. 负二项）拟合效果
* 使用 `glm()` 或 `poisson.test()` 等R函数进行估计与拟合

## 1.4 模型准确性的评估（Assessing Model Accuracy）

---

### 🎯 模型评估的核心问题

我们希望衡量模型预测结果与实际观测值之间的差距。

---

### 🧮 均方误差（Mean Squared Error, MSE）

对于训练数据中的 $n$ 个观测对 $(x_i, y_i)$，模型预测为 $\hat{f}(x_i)$，则：

$$
\text{MSE}_{\text{train}} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{f}(x_i))^2
$$

但要注意：

> **低训练误差不代表模型具有良好的泛化能力**，可能是过拟合！

---

### 🧪 测试误差（Test Error）

更有意义的是测量模型对**新数据**的预测效果（即测试集误差）：

$$
\text{MSE}_{\text{test}} = \mathbb{E}[(y_0 - \hat{f}(x_0))^2]
$$

其中 $(x_0, y_0)$ 是来自同一分布的**新观测对**，但不在训练集中。

---

### ✅ 评估方式

* 若**测试集可用**：直接计算测试误差
* 若不可用，可使用\*\*交叉验证（cross-validation）\*\*等方法估计测试误差
* 若只看训练误差，容易**低估真实误差**

---

### ⚖️ 偏差-方差权衡（Bias-Variance Trade-off）

对于固定的输入 $x_0$，其预测误差可分解为三部分：

$$
\text{MSE}(x_0) = \underbrace{\text{Bias}^2[\hat{f}(x_0)]}_{系统误差} + \underbrace{\text{Var}[\hat{f}(x_0)]}_{模型不稳定性} + \underbrace{\text{Var}[\varepsilon]}_{\不可避免的噪声}
$$

#### 解读：

* **Bias（偏差）**：

  * 由于模型过于简单而产生的系统误差
  * 例如：强加线性关系，而真实是非线性

* **Variance（方差）**：

  * 由于模型对训练数据过度拟合，导致对小扰动敏感
  * 灵活模型（如高次多项式）方差高

* **不可约误差（Irreducible Error）**：

  * 来自本质上的噪声（随机性），无法消除

---

### 📉 灵活性与误差的变化关系

随着模型**灵活性提高**：

* 偏差（Bias）↓
* 方差（Variance）↑

> 存在一个最优“灵活度”，使总误差最小

---

### 🧮 分类问题中的准确率评估

对于分类任务（响应变量为类别）：

* **训练误差率**（Training Error Rate）定义为：

$$
\text{ER}_{\text{train}} = \frac{1}{n} \sum_{i=1}^n I(y_i \ne \hat{y}_i)
$$

其中：

* $\hat{y}_i$：模型对第 $i$ 个样本的预测
* $I(\cdot)$：指示函数（预测错误记为1，否则为0）

---

### 🧠 贝叶斯分类器（Bayes Classifier）

最小化**平均错误率**（expected prediction error, EPE）的理想分类器：

* 对每个测试点 $x_0$，预测最可能的类别：

$$
\hat{y}_0 = \arg\max_j \Pr(Y = j \mid X = x_0)
$$

* 如果是二分类问题（类1与类2）：

  * 若 $\Pr(Y=1|X=x_0) > 0.5$，预测为类1
  * 否则为类2

* 贝叶斯误差率（不可达的下界）为：

$$
\text{Bayes Error} = 1 - \mathbb{E} \left[ \max_j \Pr(Y = j | X) \right]
$$

---

### 👣 K近邻分类器（K-Nearest Neighbors, KNN）

实际中无法获得真实的 $\Pr(Y|X)$，KNN用于估计：

#### 步骤：

1. 给定测试点 $x_0$，找到训练集中最近的 K 个点（邻域 $N_0$）
2. 统计每个类别在邻域中出现的频率：

   $$
   \Pr(Y = j | X = x_0) \approx \frac{1}{K} \sum_{i \in N_0} I(y_i = j)
   $$
3. 预测为概率最高的类别

#### 注意：

* K 小 → 灵活度高 → 易过拟合（低偏差，高方差）
* K 大 → 更平滑 → 可能欠拟合（高偏差，低方差）

---

### 📈 可视化示意（PPT图示）

* **图6**：展示贝叶斯决策边界
* **图7-10**：展示KNN在不同K值下（K=1、10、100）对数据的分类边界与贝叶斯边界的对比情况

---

### ✅ 模型评估结论

* 模型不仅要拟合训练集，还应泛化至新数据
* 需平衡偏差与方差，避免过拟合或欠拟合
* 不同问题使用不同指标：

  * 回归用MSE
  * 分类用错误率（或精确率、召回率等）