# 自由度（Degrees of Freedom, DoF）
### 引入:
> 为什么使用样本均值，样本方差的估计使用 \( n - 1 \)?
$$s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$$

[最初学习视频](https://www.youtube.com/watch?v=VDlnuO96p58)

---
## 数学推导:
> 总体方差定义为：
$$\sigma^2=\mathrm{Var}(X)=\mathbb{E}\left[(X-\mu)^2\right]$$
> 有:
$$\mathbb{E}[S_n^2]=\mathbb{E}\left[\frac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2\right]=\frac{n-1}{n}\sigma^2$$
> 可见：
- $S_{n}^{2}$ 是 $\sigma^{2}$ 的偏小估计，带有系统误差
> 改为n-1:
$$\mathbb{E}[S_{n-1}^2]=\mathbb{E}\left[\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2\right]=\sigma^2$$
- 为无偏估计

## 有没有更为直观的理解方式 ? 
### 以下引入自由度自由度（DoF）:

> 在统计分析中，自由度（Degrees of Freedom, DoF）是指在估计某个统计量（如均值、方差、协方差、回归系数）时， *数据中可以自由变化的独立数值的个数，也即在给定某些约束条件下，样本值中能够自由取值的数量。*

---
假设有 $n$ 个一维样本数据：

$$
\mathbf{X} = \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} \in \mathbb{R}^n
$$

## 数据中心化(使用样本均值)后的自由度分析:
> 样本均值：
> $$
\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i
$$
> 残差向量（中心化后）：
> $$
\mathbf{R} = \mathbf{X} - \bar{x} \cdot \mathbf{1} = (\mathbf{I} - \frac{1}{n} \mathbf{1}\mathbf{1}^\mathrm{T})\mathbf{X} = \mathbf{H}\mathbf{X}
$$
> 其中：
- $\mathbf{1} \in \mathbb{R}^n$ $(n\times 1)$：全 1 向量
- $\mathbf{H} = \mathbf{I} - \frac{1}{n} \mathbf{1}\mathbf{1}^\mathrm{T}$ $(n\times n)$：中心化矩阵（投影矩阵）

### 拥有约束：残差和为零:

$$
\sum_{i=1}^n (x_i - \bar{x}) = 0 \quad \Rightarrow \quad \mathbf{1}^\mathrm{T} \mathbf{R} = 0
$$

这是一个线性约束条件，意味着：

残差向量 $\mathbf{R}$ $(n\times 1)$ 被限制在一个正交于常数向量 $\mathbf{1}$ 的 $(n - 1)$ 维子空间中。

### 矩阵角度：

- 原始空间：$\mathbb{R}^n$，维度为 $n$
- **被估计的参数：样本均值（是 $\mathbf{1}$ 的方向），消耗了 1 个维度**
- 残差向量必须正交于 $\mathbf{1}$，即只能在 $\mathbb{R}^n$ 中的一个 $(n - 1)$ 维子空间中活动


## 已知 *总体期望* 时的自由度分析:

> 假设已知总体期望 $\mu$，那么定义误差为：
> $$
\mathbf{E} = \mathbf{X} - \mu \cdot \mathbf{1}
$$
> 此时：
- $\mu$ 是一个外部固定常量
- 每个数据点与 $\mu$ 的差值都是独立自由的
- 没有额外约束存在
> 所以：
$$
\text{自由度} = n
$$


## 两者对比:
> 使用样本均差估计:
$$X=
\begin{bmatrix}
X_1-\bar{X} \\
X_2-\bar{X} \\
\vdots \\
X_n-\bar{X}
\end{bmatrix}+\bar{x}
\begin{bmatrix}
1 \\
1 \\
\vdots \\
1
\end{bmatrix}$$
> 使用总体期望估计:
$$X=
\begin{bmatrix}
X_1-\mu \\
X_2-\mu \\
\vdots \\
X_n-\mu
\end{bmatrix}+\mu
\begin{bmatrix}
1 \\
1 \\
\vdots \\
1
\end{bmatrix}$$

| 分解类型     | 表达式                                                  | 是否估计参数 | 约束数量 | 自由度     |
|----------|------------------------------------------------------|--------|------|---------|
| 残差（中心化）  | $\mathbf{R} = \mathbf{X} - \bar{x} \cdot \mathbf{1}$ | 是      | 1    | $n - 1$ |
| 误差（总体期望） | $\mathbf{E} = \mathbf{X} - \mu \cdot \mathbf{1}$     | 否      | 0    | $n$     |


## 总结:
>从以上推导可以看出:
**当使用样本均值时，自然的将各个样本数据大部分分量表达局限至某个空间，降低了自由度，使得数据围绕样本均值的偏差看起来更小，所以需要除以 n−1 来放大估计，才能让方差的平均值准确反映总体的真实变异程度.**

加上以上数据方差的估计，许多场景中也常会应用 **自由度修正**：

| 场景               | 是否使用 $n-1$ | 原因说明             |
|------------------|------------|------------------|
| 样本方差估计           | ✅          | 样本均值已消耗 1 个自由度   |
| 线性回归误差估计         | ✅          | 每个模型参数消耗自由度      |
| PCA 协方差估计        | ✅          | 中心化数据引入约束        |
| 假设检验（t / F 检验）   | ✅          | t / F 分布需要自由度确定  |
| 贝叶斯估计中的协方差推断     | ✅          | 确保后验推断不会偏小       |
| 神经网络中的 BatchNorm | ❌ 一般不用     | 实践中使用有偏估计，但有理论讨论 |
