# 投影矩阵（Projection Matrix）

---

## 0. 核心概念：投影是在做“分解”

给定向量 $x\in\mathbb{R}^n$ 和一个子空间 $S\subseteq \mathbb{R}^n$，**正交投影**要把 $x$ 分解为

$$
x = \underbrace{p}_{\in S} + \underbrace{r}_{\perp S}
$$

- $p$：落在子空间 $S$ 内的部分（我们想要的“投影”）
- $r$：残差（误差），并且 **与子空间正交**（$\perp S$）

若存在一个矩阵 $P$ 使得对任意 $x$ 都有

$$
p = Px,
$$

则 $P$ 就叫**投影矩阵**。

---

## 1. 投影矩阵的两个“定义级”性质

### 1.1 幂等性（投两次 = 投一次）

$$
\boxed{P^2 = P}
$$

直觉：已经被投到目标子空间里了，再投一次不会改变结果。

### 1.2 对称性（只对“正交投影”成立）

$$
\boxed{P^T = P}
$$

直觉：这是“**垂直落下去**”的投影（欧式距离意义下最近点投影）。  
如果 $P$ 不对称，它仍可能满足 $P^2=P$，但那是 **斜投影（oblique projection）**，不再对应“最近距离”。

---

## 2. 正交投影为什么是“最近点”

**正交投影的定义（最小二乘形式）**：

$$
p^*=\arg\min_{p\in S}\|x-p\|_2^2
$$

令最优残差

$$
r = x - p^*.
$$

取任意 $z \in S$，在子空间内做微小扰动 $p^*+\epsilon z$，定义

$$
f(\epsilon)=\|x-(p^*+\epsilon z)\|_2^2=\|r-\epsilon z\|_2^2.
$$

展开：

$$
f(\epsilon)=\|r\|_2^2-2\epsilon\, r^T z+\epsilon^2\|z\|_2^2.
$$

因为 $p^*$ 是最优点，所以 $f(\epsilon)$ 在 $\epsilon=0$ 处取极小值，因此一阶导为 0：

$$
f'(0)=-2r^T z=0,\quad \forall z\in S.
$$

因此

$$
r \perp S.
$$

**最短距离投影 ⇔ 残差正交于子空间**。


---

## 3. 投影到列空间 $\mathrm{Col}(A)$

设 $A\in\mathbb{R}^{n\times k}$，目标子空间为

$$
S=\mathrm{Col}(A)
$$

即 $S$ 由 $A$ 的列向量张成。任何 $p\in S$ 都可写为 $p=Ac$。

要把 $x$ 投影到 $S$，等价于求

$$
\hat c=\arg\min_{c\in\mathbb{R}^k}\|x-Ac\|_2^2
\quad\Rightarrow\quad
p = A\hat c
$$

---

## 4. 向量变量 $c$ 求梯度 $\nabla_c f$

目标函数是关于 **系数向量 $c$** 的标量函数：

$$
f(c)=\|x-Ac\|_2^2
$$

- 已知：$x$ 和 $A$
- 未知：$c$
- 所以“求导”是对 **向量变量 $c$** 求梯度 $\nabla_c f$

---

## 5. 推导正规方程Normal Equations
从 $\nabla_c f=0$ 来

把目标展开为二次型：

$$
f(c)=(x-Ac)^T(x-Ac)
$$

展开：

$$
f(c)=x^Tx -2c^TA^Tx + c^TA^TAc
$$

对 $c$ 求梯度（$\nabla_c f$）：

- $\nabla_c (b^T c)= b$
- $\nabla_c (c^T M c)= (M+M^T)c$，若 $M$ 对称则 $=2Mc$

这里 $A^TA$ 对称，因此：

$$
\nabla_c f(c)=-2A^Tx + 2A^TAc
$$

令梯度为 0：

$$
-2A^Tx + 2A^TA\hat c = 0
$$

两边除以 2：

$$
\boxed{A^TA\hat c = A^Tx}
$$

这就是**正规方程**。

---

## 6. 从正规方程得到投影矩阵 $P$

若 $A$ 满列秩（$A^TA$ 可逆），则

$$
\hat c=(A^TA)^{-1}A^Tx
$$

投影向量：

$$
p=A\hat c=A(A^TA)^{-1}A^Tx
$$

因此投影矩阵为

$$
\boxed{P = A(A^TA)^{-1}A^T}
$$

残差（投影到正交补）：

$$
\boxed{r = x - Px = (I-P)x}
$$

并且可以验证：

- $P^2=P$（幂等）
- $P^T=P$（对称，正交投影）

---

## 7. 等价几何解释：正规方程 = 残差与列空间正交

令残差 $r=x-A\hat c$。  
正规方程

$$
A^T(A\hat c-x)=0
$$

等价于

$$
\boxed{A^T r = 0}
$$

意思是：残差 $r$ 与 $A$ 的每一列都正交  
$\Rightarrow\ r\perp \mathrm{Col}(A)$，这正是正交投影的条件。

---

## 8. 特殊情况：正交归一基（最简形式）

如果子空间 $S$ 有一个正交归一基 $Q\in\mathbb{R}^{n\times k}$，满足

$$
Q^TQ=I,
$$

那么投影矩阵就是

$$
\boxed{P=QQ^T}
$$

直觉：  
- $Q^Tx$ 得到 $x$ 在每个基向量方向上的坐标  
- $Q(Q^Tx)$ 把这些坐标“合成”回子空间中的向量

---

## 9. 与 SVD / 四个子空间的关系

若 $A=U\Sigma V^T$，秩为 $r$。  
列空间 $\mathrm{Col}(A)$ 由 $U$ 的前 $r$ 列张成，记为 $U_r$。则

$$
\boxed{P_{\mathrm{col}(A)} = U_rU_r^T}
$$

这说明：SVD 把空间分解成正交方向，投影只需要保留对应的子空间基即可。

---

## 10. 斜投影（Oblique Projection）：只满足 $P^2=P$ 但不满足 $P^T=P$

- **一般投影**：只要求 $P^2=P$
- **正交投影**：额外要求 $P^T=P$

斜投影的几何含义：不是“垂直落下去”，而是沿某个固定斜方向“推到”子空间上，所以不保证最短距离。

### 10.1 一个 2D 反例（投影到 x 轴）

正交投影到 x 轴：

$$
P_\perp=
\begin{bmatrix}
1&0\\
0&0
\end{bmatrix}
,\quad
P_\perp^T=P_\perp
$$

斜投影（仍投到 x 轴，但沿斜方向）：

$$
P_{\text{obl}}=
\begin{bmatrix}
1&1\\
0&0
\end{bmatrix}
$$

验证幂等：

$$P_{\text{obl}}^2=
\begin{bmatrix}
1&1\\
0&0
\end{bmatrix}
\begin{bmatrix}
1&1\\
0&0
\end{bmatrix}=
\begin{bmatrix}
1&1\\
0&0
\end{bmatrix}
=P_{\text{obl}}
$$

但它不对称：

$$
P_{\text{obl}}^T=
\begin{bmatrix}
1&0\\
1&0
\end{bmatrix}
\neq
P_{\text{obl}}
$$

而且它把 $(x_1,x_2)$ 映射为 $(x_1+x_2,0)$，明显不是“最近点”。

---

## 11. 常见应用（线代 / 工程 / ML）

1) **最小二乘拟合 / 线性回归**  
$$
\hat x = Px,\quad P=A(A^TA)^{-1}A^T
$$
含义：用 $A$ 的列空间来“解释”观测 $x$。

2) **去掉某些方向（残差投影）**  
$$
x_\perp = (I-P)x
$$
用于去均值、去 nuisance 子空间、去某些已知干扰模式等。

3) **约束优化中的可行方向/切空间**  
线性约束下的更新方向常需要投影到可行子空间（或其正交补）上。

4) **ML：限制梯度更新方向（子空间优化）**  
$$
g_{\text{proj}} = Pg,\quad g_\perp=(I-P)g
$$
例如只允许在某个子空间更新参数/表示，或去掉某些方向的梯度分量。

---

## 12. 总结

- 投影分解：$x = Px + (I-P)x$
- 投影矩阵最核心性质：$\;P^2=P$
- **正交**投影额外性质：$\;P^T=P$
- 投到列空间 $\mathrm{Col}(A)$：
$$
\boxed{P=A(A^TA)^{-1}A^T}
$$
- 若有正交归一基 $Q$：$\;\boxed{P=QQ^T}$
- 若 $A=U\Sigma V^T$：$\;\boxed{P=U_rU_r^T}$
