
## 第1部分：四个基本子空间（The Four Fundamental Subspaces）

### 背景介绍

给定一个矩阵 $A \in \mathbb{R}^{m \times n}$，它表示一个线性变换：

$$
A: \mathbb{R}^n \rightarrow \mathbb{R}^m
$$

线性代数中有四个非常重要的子空间构成矩阵 $A$ 的**结构核心**，分别是：

| 子空间名称         | 记号              | 所在空间           | 维度                   | 含义                                    |
| ------------- | --------------- | -------------- | -------------------- | ------------------------------------- |
| 列空间（列子空间）     | $\text{Col}(A)$ | $\mathbb{R}^m$ | $\text{rank}(A)$     | $A$ 所有列向量的线性组合空间                      |
| 空间核（零空间）      | $\text{N}(A)$   | $\mathbb{R}^n$ | $n - \text{rank}(A)$ | 解方程 $Ax = 0$ 的所有解构成的空间                |
| 行空间（行子空间）     | $\text{Row}(A)$ | $\mathbb{R}^n$ | $\text{rank}(A)$     | $A$ 所有行向量的线性组合空间                      |
| 左零空间（零空间的正交补） | $\text{N}(A^T)$ | $\mathbb{R}^m$ | $m - \text{rank}(A)$ | 解 $A^Ty = 0$ 的所有 $y \in \mathbb{R}^m$ |

---

### 1. 列空间 $\text{Col}(A)$

**定义：**

$$
\text{Col}(A) = \text{span}\{ a_1, a_2, ..., a_n \},\quad a_i 为 A 的第 i 列
$$

**含义：** 所有线性组合 $Ax$ 的结果都在这个空间中，因此：

* **是线性变换 $A$ 的像（Image）**
* **列空间维度 = 秩 rank(A)**

**几何解释：**
如果 $A \in \mathbb{R}^{3 \times 2}$，那么列空间是 3D 空间中的一个平面（二维子空间）。

---

### 2. 空间核 $\text{N}(A)$

**定义：**

$$
\text{N}(A) = \{ x \in \mathbb{R}^n \mid Ax = 0 \}
$$

**含义：** 所有被映射到零向量的输入向量 $x$，即线性系统的解空间。

**维度：**

$$
\dim \text{N}(A) = n - \text{rank}(A)
$$

**几何解释：** 如果 $A \in \mathbb{R}^{3 \times 3}$，秩为 2，那么核空间是三维空间中的一条直线（1D子空间）。

---

### 3. 行空间 $\text{Row}(A)$

**定义：**

$$
\text{Row}(A) = \text{span of the rows of } A
$$

**性质：**

* 和列空间一样，其维度 = $\text{rank}(A)$
* 实际上是 $A^T$ 的列空间：$\text{Row}(A) = \text{Col}(A^T)$

**几何意义：**

* 表示线性方程组中“约束”的方向

---

### 4. 左零空间 $\text{N}(A^T)$

**定义：**

$$
\text{N}(A^T) = \{ y \in \mathbb{R}^m \mid A^Ty = 0 \}
$$

**含义：** 左乘 $A$ 时消去的方向（正交于列空间）

**维度：**

$$
\dim \text{N}(A^T) = m - \text{rank}(A)
$$

---

### 四个子空间之间的正交关系

对于 $A \in \mathbb{R}^{m \times n}$：

* $\text{N}(A) \perp \text{Row}(A)$
* $\text{N}(A^T) \perp \text{Col}(A)$

也就是说：

$$
\mathbb{R}^n = \text{Row}(A) \oplus \text{N}(A) \\
\mathbb{R}^m = \text{Col}(A) \oplus \text{N}(A^T)
$$

这个“直和”分解让我们可以从代数结构中明确看出整个空间被“分块”。

---

### 举例分析

考虑：

$$
A = \begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix} \in \mathbb{R}^{2 \times 3}
$$

* 列空间是 $\mathbb{R}^2$ 中的二维子空间（秩为2）
* 空间核是 $\mathbb{R}^3$ 中的一维空间（因为 $n - \text{rank}(A) = 1$）
* 行空间是 $\mathbb{R}^3$ 中秩为2的平面
* 左零空间是 $\mathbb{R}^2$ 中的零空间（因为秩已满，左零空间为 0）

---

### 应用场景

* **机器学习** 中维度压缩、降维（PCA中投影在主子空间）
* **最小二乘拟合**中，误差垂直于列空间
* **神经网络中矩阵秩**影响模型表达能力
* **图神经网络中拉普拉斯矩阵的零空间**对应图的连通成分

---

### 小结表格

| 子空间        | 空间所在           | 基本定义                  | 维度                   |
| ---------- | -------------- | --------------------- | -------------------- |
| 列空间 Col(A) | $\mathbb{R}^m$ | 所有列向量组合 $Ax$          | $\text{rank}(A)$     |
| 空间核 N(A)   | $\mathbb{R}^n$ | 满足 $Ax = 0$ 的所有 $x$   | $n - \text{rank}(A)$ |
| 行空间 Row(A) | $\mathbb{R}^n$ | 所有行向量组合               | $\text{rank}(A)$     |
| 左零空间 N(Aᵗ) | $\mathbb{R}^m$ | 满足 $A^Ty = 0$ 的所有 $y$ | $m - \text{rank}(A)$ |







## 第2部分：矩阵空间、秩 / 矩阵与小世界图

---

### 第一节：矩阵空间与秩的核心理解

#### 1. 什么是矩阵空间？

矩阵空间是指**由所有指定维度的矩阵组成的向量空间**，例如：

* 所有 $m \times n$ 实矩阵构成的空间，记作 $\mathbb{R}^{m \times n}$
* 可以在这个空间内定义加法、数乘等运算

**常见子空间：**

* 所有对称矩阵构成的子空间
* 所有对角矩阵、稀疏矩阵、上三角矩阵等

#### 向量空间公理验证（以 $\mathbb{R}^{m \times n}$ 为例）：

* 闭合性（加法和数乘）
* 交换律与结合律
* 零矩阵作为加法单位元
* 存在负元
* 数乘的分配律、结合律等

> 所有 $m \times n$ 矩阵在加法和标量乘法下，构成了一个 $mn$ 维的向量空间。

---

#### 2. 秩（Rank）的几何与代数意义

**定义：**

$$
\text{rank}(A) = \text{矩阵 A 的最大线性无关列数（列秩） = 最大线性无关行数（行秩）}
$$

**直觉理解：**

* 一个矩阵能把输入向量空间“挤压”成多小的维度？这就是秩。
* Rank 表示矩阵的“信息量”或“维度压缩能力”。

**代数性质：**

* $\text{rank}(A) = \dim \text{Col}(A) = \dim \text{Row}(A)$
* $\text{rank}(A) + \dim \text{N}(A) = n$
* $\text{rank}(A) + \dim \text{N}(A^T) = m$

**几何解释（可视化）**：

* $A \in \mathbb{R}^{3 \times 3}$ 且秩为 1：把空间压缩到一条直线
* 秩为 2：压缩成一个平面
* 秩为 3：满秩，不压缩

**计算方式：**

* 高斯消元后保留下来的非零行数即为秩
* 也可以通过 SVD 中非零奇异值的个数判断

---

### 第二节：矩阵与图的联系（以小世界图为例）

图神经网络中的很多概念依赖图的矩阵表示，本节讲解图结构（尤其是小世界图）与矩阵的关系。

#### 图的矩阵表示（Graph Matrices）

给定一个无向图 $G = (V, E)$，其中有 $n$ 个节点，常见的矩阵表示包括：

1. **邻接矩阵 $A \in \mathbb{R}^{n \times n}$**

$$
A_{ij} =
\begin{cases}
1, & \text{if there is an edge between node } i \text{ and } j \\
0, & \text{otherwise}
\end{cases}
$$

2. **度矩阵 $D$**（对角矩阵）

$$
D_{ii} = \sum_j A_{ij}
$$

3. **拉普拉斯矩阵 $L = D - A$**

* 用于捕捉图中节点的连接与“变动阻力”
* 连接谱图理论与信号处理

---

#### 小世界图（Small-World Networks）

**背景：** 小世界网络（如社交网络、蛋白质互作网络）同时具有：

* **高聚类系数**（邻居之间也互相连接）
* **小平均路径长度**（任意两点之间路径较短）

**最著名模型：Watts-Strogatz Model**

* 从规则环状图出发（每个点连接 $k$ 个近邻）
* 以概率 $p$ 随机重连边，形成跳跃边（shortcuts）

---

#### 小世界图的矩阵特征

1. **邻接矩阵结构稀疏但具有块状聚集性**

   * 非零元素集中在对角线附近（局部连接）
   * 随机重连带来远离对角线的“跳跃边”

2. **拉普拉斯矩阵谱分布具有特殊性质**

   * 第二小特征值（Fiedler value）小，意味着图结构紧凑但分块明显

3. **奇异值 / 特征值降得慢**

   * 表示小世界图的复杂性和信号可压缩性较低（重要用于图信号处理和降噪）

---

#### 小世界图与矩阵分析的实际应用

| 应用场景         | 所用矩阵             | 分析目的                    |
| ------------ | ---------------- | ----------------------- |
| 社交网络聚类       | 邻接矩阵、拉普拉斯矩阵      | 社区发现（Cluster Detection） |
| 图神经网络传播建模    | 度矩阵归一化传播         | 控制信息流扩散                 |
| 图信号降噪        | 图傅里叶变换（基于L的特征向量） | 滤波图中高频噪声                |
| 生物网络分析（如PPI） | 邻接矩阵             | 分析功能模块的联通性              |

---

### 小结

| 概念                             | 含义                | 与图神经网络关系        |
| ------------------------------ | ----------------- | --------------- |
| 矩阵空间 $\mathbb{R}^{m \times n}$ | 所有 m 行 n 列矩阵构成的空间 | 描述输入特征与邻接结构转换关系 |
| 秩 Rank                         | 最大线性无关行/列数        | 模型表达能力上限，降维基础   |
| 小世界图                           | 高聚类 + 小路径         | 现实网络建模、GNN卷积基础  |
| 邻接矩阵 $A$                       | 描述图结构             | GNN中用于信息传播      |
| 拉普拉斯矩阵 $L$                     | $D - A$           | 图频谱分析、图平滑、GFT   |






## 第3部分：正交向量和正交子空间（Orthogonal Vectors and Subspaces）

---

### 一、什么是正交（Orthogonality）

#### 1. 正交的定义

给定两个向量 $\mathbf{u}, \mathbf{v} \in \mathbb{R}^n$，如果它们的**内积为 0**，我们称它们**正交**（perpendicular）：

$$
\mathbf{u} \cdot \mathbf{v} = \sum_{i=1}^{n} u_i v_i = 0
$$

或者：

$$
\mathbf{u}^T \mathbf{v} = 0
$$

---

#### 2. 几何直觉

* 内积为 0 ⇨ 两向量垂直（夹角为 90°）
* 单位正交（orthonormal） ⇨ 彼此正交且模长为 1

---

### 二、正交向量的性质

| 性质       | 内容               |
| -------- | ---------------- |
| 向量组正交    | 向量之间两两正交         |
| 正交组线性无关  | 任意一组非零正交向量一定线性无关 |
| 正交向量易于表示 | 在正交基下，投影与分解更简单   |
| 正交矩阵方便运算 | 正交矩阵的逆等于转置       |

---

### 三、正交子空间（Orthogonal Subspaces）

---

#### 1. 正交子空间的定义

若两个子空间 $S \subseteq \mathbb{R}^n$、$T \subseteq \mathbb{R}^n$，满足：

$$
\forall \mathbf{s} \in S,\ \forall \mathbf{t} \in T,\quad \mathbf{s}^T \mathbf{t} = 0
$$

则称 $S$ 与 $T$ 正交，记作：

$$
S \perp T
$$

---

#### 2. 核与行空间的正交关系

对于任意矩阵 $A \in \mathbb{R}^{m \times n}$：

* 核空间 $\text{N}(A)$ 与行空间 $\text{Row}(A)$ 正交：

$$
\text{N}(A) \perp \text{Row}(A)
$$

* 左零空间 $\text{N}(A^T)$ 与列空间 $\text{Col}(A)$ 正交：

$$
\text{N}(A^T) \perp \text{Col}(A)
$$

---

#### 3. 正交补（Orthogonal Complement）

给定子空间 $S \subseteq \mathbb{R}^n$，其正交补为：

$$
S^\perp = \{ \mathbf{x} \in \mathbb{R}^n \mid \forall \mathbf{s} \in S,\ \mathbf{x}^T \mathbf{s} = 0 \}
$$

**性质：**

* $\dim(S) + \dim(S^\perp) = n$
* $\mathbb{R}^n = S \oplus S^\perp$

这就是正交分解空间的基础，如后续的**最小二乘法**与**投影**会大量用到。

---

### 四、正交投影与向量分解（预备）

若 $\mathbf{v} \in \mathbb{R}^n$，$\mathbf{u} \in \mathbb{R}^n$ 是单位向量，则：

* $\mathbf{v}$ 在 $\mathbf{u}$ 方向上的投影为：

$$
\text{proj}_{\mathbf{u}}(\mathbf{v}) = (\mathbf{v}^T \mathbf{u}) \mathbf{u}
$$

* $\mathbf{v}$ 可以正交分解为：

$$
\mathbf{v} = \text{proj}_{\mathbf{u}}(\mathbf{v}) + \text{remainder}
$$

> 这一分解是后续“最小二乘”、“Gram-Schmidt 正交化”、“QR 分解”的基础。

---

### 五、实例讲解：正交空间之间的构造与关系

考虑矩阵：

$$
A =
\begin{bmatrix}
1 & 2 \\
3 & 4 \\
5 & 6
\end{bmatrix} \in \mathbb{R}^{3 \times 2}
$$

* $\text{Col}(A) \subset \mathbb{R}^3$：列空间为二维平面
* $\text{N}(A^T) \subset \mathbb{R}^3$：维度为 $3 - 2 = 1$，即一条直线
* $\text{Col}(A) \perp \text{N}(A^T)$

可通过求解 $A^T y = 0$ 得到左零空间方向，验证其与 $A$ 的列空间正交。

---

### 六、正交在图神经网络中的应用

图神经网络中“信息的传播”和“噪声的滤除”都强烈依赖正交性概念。

| 应用方向      | 正交相关内容        | 解释                |
| --------- | ------------- | ----------------- |
| 图卷积中的频谱滤波 | 拉普拉斯矩阵的特征向量正交 | 实现图信号变换           |
| 图嵌入与表示学习  | 正交基分解图结构      | 保持低维嵌入间的正交性可提高区分性 |
| 图节点特征去冗余  | 基于正交约束的解耦机制   | 避免特征共线性，提升表达能力    |
| 图对比学习     | 增加正负样本的正交性    | 提高判别性与鲁棒性         |

---

### 小结表格

| 概念    | 定义                | 几何意义 | 应用场景      |
| ----- | ----------------- | ---- | --------- |
| 向量正交  | 内积为0              | 垂直   | 投影、分解     |
| 子空间正交 | 所有向量两两正交          | 正交补  | 最小二乘、QR分解 |
| 正交组   | 多个互相正交的非零向量组      | 易分解  | 正交矩阵构造    |
| 正交补   | 所有与子空间正交的向量组成的子空间 | 空间直和 | 解空间分解     |







## 📘 第4部分：投影、投影矩阵和最小二乘法（Projection, Projection Matrices & Least Squares）

---

###  一、投影的几何直觉

####  定义

给定一个向量 $\mathbf{b} \in \mathbb{R}^n$，将其**投影**到子空间 $S$ 上，就是在 $S$ 中找到一个向量 $\mathbf{p} \in S$，使得：

$$
\mathbf{p} = \arg\min_{\mathbf{x} \in S} \|\mathbf{b} - \mathbf{x}\|_2
$$

也就是说，**投影是使残差最小的近似解**。

---

###  二、投影到一个向量（直线）上

#### ⭐ 投影公式（单位向量）

若 $\mathbf{u} \in \mathbb{R}^n$ 是单位向量，则：

$$
\text{proj}_{\mathbf{u}}(\mathbf{b}) = (\mathbf{b}^T \mathbf{u}) \mathbf{u}
$$

若 $\mathbf{u}$ 非单位向量，投影为：

$$
\text{proj}_{\mathbf{u}}(\mathbf{b}) = \frac{\mathbf{b}^T \mathbf{u}}{\mathbf{u}^T \mathbf{u}} \cdot \mathbf{u}
$$

---

####  投影矩阵（一个向量）

我们可以写出一个“投影操作”的矩阵表示：

设 $\mathbf{u} \in \mathbb{R}^n$，则：

$$
P = \frac{\mathbf{u} \mathbf{u}^T}{\mathbf{u}^T \mathbf{u}} \quad \text{是一个 } n \times n \text{ 投影矩阵}
$$

有：

$$
P \mathbf{b} = \text{投影后的向量}
$$

---

###  三、投影到子空间（多个正交基）

若 $S \subseteq \mathbb{R}^n$ 是一个 $k$-维子空间，由 $\mathbf{u}_1, \dots, \mathbf{u}_k$ 正交向量张成（列向量组成矩阵 $U \in \mathbb{R}^{n \times k}$），则：

$$
P = U U^T
$$

* $P$ 是正交投影矩阵
* $P^2 = P$，$P^T = P$（投影矩阵是对称幂等的）

---

###  四、投影到一般子空间：最小二乘法（Least Squares）

现在考虑一个方程组：

$$
A \mathbf{x} = \mathbf{b}
$$

* 若 $A \in \mathbb{R}^{m \times n}$ 且 $m > n$，则是**超定系统**
* 通常**无精确解**
* 目标是找到**最接近解** $\hat{\mathbf{x}}$，使：

$$
\hat{\mathbf{x}} = \arg\min_{\mathbf{x}} \| A \mathbf{x} - \mathbf{b} \|_2
$$

---

####  最小二乘法核心公式

推导如下：

目标函数为平方误差：

$$
\min_{\mathbf{x}} \| A \mathbf{x} - \mathbf{b} \|_2^2
$$

令梯度为 0：

$$
\nabla_{\mathbf{x}} = 2 A^T (A \mathbf{x} - \mathbf{b}) = 0
$$

得到**法方程（Normal Equation）**：

$$
A^T A \mathbf{x} = A^T \mathbf{b}
$$

若 $A^T A$ 可逆，解为：

$$
\hat{\mathbf{x}} = (A^T A)^{-1} A^T \mathbf{b}
$$

这个解就是将 $\mathbf{b}$ 投影到列空间 $\text{Col}(A)$ 上，使残差 $\mathbf{b} - A\hat{\mathbf{x}}$ 垂直于 $\text{Col}(A)$。

---

####  残差向量的正交性质

设：

* $\mathbf{p} = A\hat{\mathbf{x}}$：是 $\mathbf{b}$ 在 $\text{Col}(A)$ 上的投影
* $\mathbf{e} = \mathbf{b} - \mathbf{p}$：是误差

则：

$$
A^T \mathbf{e} = 0 \Rightarrow \mathbf{e} \perp \text{Col}(A)
$$

---

###  五、最小二乘的投影矩阵

将投影操作记作矩阵：

$$
P = A (A^T A)^{-1} A^T
$$

则：

* $P \in \mathbb{R}^{m \times m}$ 是**投影矩阵**
* $P \mathbf{b} = A \hat{\mathbf{x}}$ 是 $\mathbf{b}$ 在列空间上的投影
* $P^2 = P$, $P^T = P$

---

###  六、投影矩阵性质总结

| 性质            | 说明                                         |
| ------------- | ------------------------------------------ |
| 幂等性 $P^2 = P$ | 多次投影等于一次投影                                 |
| 对称性 $P^T = P$ | 自伴（Symmetric）                              |
| 特征值只有 0 和 1   | 1 对应于投影空间，0 对应于正交补                         |
| 残差正交于列空间      | $A^T (\mathbf{b} - A\hat{\mathbf{x}}) = 0$ |

---

###  七、应用场景举例

| 场景       | 使用内容                  | 目的           |
| -------- | --------------------- | ------------ |
| 线性回归     | 最小二乘求参数 $\hat{\beta}$ | 拟合数据         |
| 信号降噪     | 投影到主成分方向              | 消除噪声         |
| 图嵌入      | 将节点特征投影到低维空间          | 表征学习         |
| 图神经网络    | 控制信息传播方向              | 避免过平滑、冗余信息积累 |
| 神经网络参数压缩 | 低秩投影保留重要方向            | 模型压缩、加速推理    |

---

###  小结

| 概念                         | 说明                       |
| -------------------------- | ------------------------ |
| 投影                         | 将向量逼近到子空间上               |
| 最小二乘解                      | 使 $A x \approx b$ 的最佳近似解 |
| 投影矩阵 $P = A(A^TA)^{-1}A^T$ | 用于计算投影向量                 |
| 残差 $e = b - Ax$ 正交于列空间     | 解的几何解释                   |

---

###  练习题（推荐自测）

1. 给出 $A = \begin{bmatrix}1 & 1 \\ 1 & -1\end{bmatrix}$，计算：

   * $P = A(A^TA)^{-1}A^T$
   * 对任意 $b \in \mathbb{R}^2$，计算 $Pb$
2. 用 numpy 代码实现：

   * 最小二乘解
   * 投影矩阵可视化
3. 证明投影矩阵是对称且幂等的






##  第5部分：正交矩阵与正交化方法

---

###  一、什么是正交矩阵（Orthogonal Matrix）

####  定义

一个**方阵** $Q \in \mathbb{R}^{n \times n}$ 是**正交矩阵**，当它的列（或行）向量组成一个**标准正交基**，即：

$$
Q^T Q = I \quad \text{或} \quad Q Q^T = I
$$

换句话说：

$$
Q^{-1} = Q^T
$$

---

####  正交矩阵的性质

| 性质          | 说明                                                    |
| ----------- | ----------------------------------------------------- |
| 保长度         | $\| Qx \| = \| x \|$（长度不变）                            |
| 保角度         | $\langle Qx, Qy \rangle = \langle x, y \rangle$（内积不变） |
| 保正交         | $x \perp y \Rightarrow Qx \perp Qy$                   |
| 行列式为 ±1     | $\det(Q) = \pm 1$                                     |
| 对称正交矩阵是反射矩阵 | $Q^T = Q$, $Q^2 = I$                                  |

---

###  二、正交矩阵的几何意义

* 正交矩阵是**刚体变换**：旋转 + 反射，不会拉伸或压缩空间
* **应用广泛**：图像旋转、信号旋转、空间变换、稳定数值运算

---

###  三、如何将一组向量正交化？——Gram-Schmidt 正交化过程

---

####  问题背景

给定线性无关向量组 $\{ a_1, a_2, \dots, a_n \}$，如何构造一个**正交（甚至标准正交）向量组** $\{ q_1, q_2, \dots, q_n \}$？

---

####  Gram-Schmidt 算法步骤

1. 令：

$$
q_1 = \frac{a_1}{\|a_1\|}
$$

2. 对于 $k = 2$ 到 $n$，依次计算：

   * 从原始向量 $a_k$ 中减去它在之前每个 $q_j$ 上的投影：

$$
\tilde{q}_k = a_k - \sum_{j=1}^{k-1} \text{proj}_{q_j}(a_k)
= a_k - \sum_{j=1}^{k-1} (a_k^T q_j) q_j
$$

* 标准化：

$$
q_k = \frac{\tilde{q}_k}{\|\tilde{q}_k\|}
$$

最终得到正交（或标准正交）向量组。

---

####  Gram-Schmidt 特点

| 特点     | 内容                           |
| ------ | ---------------------------- |
| 输入     | 一组线性无关向量                     |
| 输出     | 一组正交（或标准正交）向量                |
| 可数值不稳定 | 当向量接近线性相关时，误差积累              |
| 改进方法   | Modified Gram-Schmidt（数值更稳定） |

---

###  四、QR 分解：将矩阵分解为正交×上三角

---

####  定义

给定一个 $m \times n$ 的矩阵 $A$，其中 $m \geq n$，可以将其分解为：

$$
A = QR
$$

其中：

* $Q \in \mathbb{R}^{m \times n}$：列正交矩阵（即 $Q^T Q = I$）
* $R \in \mathbb{R}^{n \times n}$：上三角矩阵

---

####  QR 分解的步骤（基于 Gram-Schmidt）

1. 对 $A$ 的列向量 $a_1, \dots, a_n$ 应用 Gram-Schmidt，得到 $q_1, \dots, q_n$
2. 将这些列向量组装为 $Q$
3. 计算：

$$
R_{ij} = q_i^T a_j
$$

---

####  QR 分解的几何理解

* $Q$：提供正交基底，定义子空间方向
* $R$：提供在这些方向上的坐标（投影系数）

---

####  QR 分解的应用

| 应用      | 内容                              |
| ------- | ------------------------------- |
| 解最小二乘问题 | 利用 $A = QR$，把问题变成求解 $Rx = Q^Tb$ |
| 计算特征值   | QR 迭代法                          |
| 正交投影    | $QQ^T$ 即为投影矩阵                   |
| 数值稳定性强  | 不用求逆，适合大规模矩阵                    |

---

###  五、QR 与最小二乘法的联系

若我们要解：

$$
A x = b,\quad A = QR
$$

则：

$$
Rx = Q^T b \Rightarrow x = R^{-1} Q^T b
$$

* 避免计算 $A^T A$
* 更适合数值实现（尤其在机器学习中处理大矩阵）

---

###  六、图神经网络中的正交矩阵应用

| 场景    | 正交性作用                           |
| ----- | ------------------------------- |
| 图卷积核  | 保持传播中信号能量不变                     |
| 特征提取  | 图嵌入空间中正交方向表示不同语义                |
| 表征学习  | 增强表达多样性，减少冗余特征                  |
| 图对比学习 | 引入正交正则项强化对比目标（如 BGRL、SimGCL）    |
| 参数学习  | 保持变换矩阵的正交性防止过拟合（Orthogonal GCN） |

---

### 小结

| 概念           | 定义 / 意义                 |
| ------------ | ----------------------- |
| 正交矩阵         | $Q^T Q = I$，长度角度不变，变换稳定 |
| Gram-Schmidt | 从任意线性无关向量组构造正交向量组       |
| QR 分解        | $A = QR$，将矩阵分解为方向 × 坐标  |
| 投影矩阵         | $QQ^T$，最小二乘与信息压缩基础      |
| 正交约束         | 保持学习表示之间的“独立性”          |

---

###  补充练习（推荐自测）

1. 对向量组 $a_1 = [1, 1, 0]^T,\ a_2 = [1, 0, 1]^T$，使用 Gram-Schmidt 构造正交组
2. 对 $A = \begin{bmatrix} 1 & 1 \\ 0 & 1 \\ 1 & 0 \end{bmatrix}$，手工做 QR 分解
3. 实现 QR 分解的 Python 代码，并验证 $Q^T Q = I$







##  第6部分：特征值与特征向量（Eigenvalues & Eigenvectors）

---

###  一、基本定义与直觉理解

####  定义

设 $A \in \mathbb{R}^{n \times n}$，若存在非零向量 $\mathbf{v} \in \mathbb{R}^n$ 和标量 $\lambda \in \mathbb{R}$，使得：

$$
A \mathbf{v} = \lambda \mathbf{v}
$$

则称：

* $\lambda$ 是 $A$ 的**特征值（eigenvalue）**
* $\mathbf{v}$ 是对应的**特征向量（eigenvector）**

> 特征向量是在线性变换 $A$ 下，只发生“拉伸”或“压缩”而不改变方向的向量。

---

####  几何直觉

* 一般线性变换会改变向量方向和大小
* 只有**特征向量**在作用下方向不变，仅被按特征值比例缩放

例如，旋转矩阵没有实数特征值；对称矩阵具有互相正交的实特征向量。

---

###  二、特征值与特征向量的求解方法

---

####  求解步骤

1. 由定义：

$$
A \mathbf{v} = \lambda \mathbf{v} \Rightarrow (A - \lambda I) \mathbf{v} = 0
$$

2. 为了有非零解（即特征向量存在）：

$$
\det(A - \lambda I) = 0
$$

这就是**特征方程**，解出所有 $\lambda$

3. 对于每个 $\lambda$，求解：

$$
(A - \lambda I) \mathbf{v} = 0
$$

即可得到对应特征向量

---

####  例子

设：

$$
A = \begin{bmatrix} 2 & 1 \\ 1 & 2 \end{bmatrix}
$$

1. 解特征值：

$$
\det(A - \lambda I) = \begin{vmatrix} 2-\lambda & 1 \\ 1 & 2-\lambda \end{vmatrix} = (2-\lambda)^2 - 1 = \lambda^2 - 4\lambda + 3 = 0
\Rightarrow \lambda = 1,\ 3
$$

2. 分别求出两个特征值下的特征向量即可。

---

###  三、特征空间、重数、对角化

---

####  特征空间

对于每个特征值 $\lambda$，所有对应的特征向量（加零向量）组成一个子空间，称为**特征空间**

---

####  重数的概念

* **代数重数（algebraic multiplicity）**：特征值 $\lambda$ 在特征方程中的重根次数
* **几何重数（geometric multiplicity）**：特征空间的维数（即线性无关的特征向量个数）

总有：

$$
\text{几何重数} \leq \text{代数重数}
$$

---

####  可对角化条件

若 $A \in \mathbb{R}^{n \times n}$ 有 $n$ 个线性无关的特征向量，则可对角化：

$$
A = PDP^{-1}
$$

其中：

* $P$：由特征向量组成的矩阵
* $D$：对角矩阵，对角线上是特征值

---

###  四、特征分解与对称矩阵

####  对称矩阵的性质

若 $A = A^T$，则：

| 性质        | 内容                                                   |
| --------- | ---------------------------------------------------- |
| 所有特征值都是实数 | 不会出现复数特征值                                            |
| 存在正交特征向量组 | 可构造正交矩阵对角化                                           |
| 可正交对角化    | $A = Q \Lambda Q^T$（类似于 $PDP^{-1}$，但 $Q^T = Q^{-1}$） |

---

###  五、特征值与矩阵性质关系

| 矩阵类型               | 特征值含义                             |
| ------------------ | --------------------------------- |
| 对称矩阵               | 实数、正交特征向量                         |
| 正定矩阵               | 所有特征值 > 0                         |
| 奇异矩阵（不可逆）          | 存在特征值 0                           |
| 正交矩阵               | 所有特征值模长为 1                        |
| 拉普拉斯矩阵 $L = D - A$ | 半正定，最小特征值为 0，第二小值揭示连通性（Fiedler 值） |

---

###  六、特征分解在图神经网络中的应用

图神经网络常使用的**图拉普拉斯矩阵**就是对称半正定矩阵，常用其**特征分解**进行**图傅里叶变换**、频谱滤波等操作。

####  图中的特征值用途示例

| 应用          | 说明                                    |
| ----------- | ------------------------------------- |
| 图傅里叶变换（GFT） | 用特征向量构建变换基                            |
| 谱图卷积        | 滤波器作用于特征值上的谱域乘积                       |
| 图嵌入学习       | 最小化高阶特征向量之间的距离（如 Laplacian Eigenmaps） |
| 社区发现        | 基于特征向量（如 Fiedler vector）划分图的子结构       |

---

###  七、总结表格

| 概念                | 定义 / 性质                                    |
| ----------------- | ------------------------------------------ |
| 特征值 $\lambda$     | 满足 $A\mathbf{v} = \lambda\mathbf{v}$ 的缩放因子 |
| 特征向量 $\mathbf{v}$ | 被 $A$ 缩放而不改变方向的非零向量                        |
| 特征空间              | 每个特征值对应的所有向量组成的空间                          |
| 可对角化              | 存在 $A = P D P^{-1}$，便于简化计算                 |
| 对称矩阵分解            | $A = Q \Lambda Q^T$，正交对角化                  |
| 图中意义              | 特征值 = 频率，特征向量 = 模式                         |

---

###  自测练习建议

1. 手工求解：

   * $A = \begin{bmatrix} 4 & 1 \\ 2 & 3 \end{bmatrix}$ 的特征值与特征向量
2. 用 `numpy.linalg.eig` 编程验证你的结果
3. 证明对称矩阵的特征向量正交
4. 画出图拉普拉斯矩阵 $L$ 的特征值分布，对比不同图结构的谱特征（如链、环、小世界图）






##  第7部分：对称矩阵与正定矩阵（Symmetric & Positive Definite Matrices）

---

###  一、对称矩阵（Symmetric Matrix）

---

####  定义

一个矩阵 $A \in \mathbb{R}^{n \times n}$ 是**对称矩阵**，当：

$$
A = A^T
$$

即矩阵关于主对角线对称。

---

####  对称矩阵的基本性质

| 性质       | 说明                                              |
| -------- | ----------------------------------------------- |
| 所有特征值为实数 | 不会出现复数特征值                                       |
| 特征向量可正交  | 可构造正交特征向量组                                      |
| 可正交对角化   | 存在 $A = Q \Lambda Q^T$，其中 $Q$ 为正交矩阵             |
| 等价于自伴算子  | 对称矩阵 = 实自伴算子（Hermitian if complex）              |
| 保内积结构    | $\langle Ax, y \rangle = \langle x, Ay \rangle$ |

---

####  几何意义

* 对称矩阵代表的是“方向一致性”的线性变换。
* 在高维空间中，作用于向量时不会扭曲方向，只在正交方向上缩放。

---

###  二、正定矩阵（Positive Definite Matrix）

---

####  定义

一个对称矩阵 $A \in \mathbb{R}^{n \times n}$ 是**正定矩阵**，当对任意非零向量 $x \in \mathbb{R}^n$，都有：

$$
x^T A x > 0
$$

如果满足 $x^T A x \geq 0$，则是**半正定矩阵（positive semi-definite, PSD）**。

---

####  常见例子

| 矩阵                  | 是否正定     | 理由                                    |
| ------------------- | -------- | ------------------------------------- |
| 单位矩阵 $I$            | 正定       | 任意 $x^T x > 0$                        |
| 协方差矩阵               | 半正定      | 统计中常用，描述变量相关性                         |
| $A^T A$             | 半正定 / 正定 | 若 $A$ 满秩则正定                           |
| 图拉普拉斯矩阵 $L = D - A$ | 半正定      | $x^T L x = \sum (x_i - x_j)^2 \geq 0$ |

---

####  判断正定性的等价条件

若 $A \in \mathbb{R}^{n \times n}$ 是对称矩阵，以下条件等价于“正定”：

| 条件                       | 说明           |
| ------------------------ | ------------ |
| 所有特征值 $\lambda_i > 0$    | 代数判据         |
| 所有主子式 > 0                | Sylvester 判据 |
| 存在满秩 $R$ 使 $A = R^T R$   | Cholesky 分解  |
| 任意非零 $x$，有 $x^T A x > 0$ | 函数型判据        |

---

###  三、正定矩阵与优化的关系

---

####  凸函数与 Hessian 矩阵

设函数 $f(x)$ 可微，若其 Hessian 矩阵 $H(x) = \nabla^2 f(x)$ 满足：

* $H(x) \succ 0$（正定） ⇒ 严格凸函数
* $H(x) \succeq 0$（半正定） ⇒ 凸函数

> 这是凸优化理论的基础，用于判断最小值是否存在、是否唯一。

---

####  应用场景

| 应用              | 正定性角色                         |
| --------------- | ----------------------------- |
| 最小二乘法中的 $A^T A$ | $A$ 满秩时为正定，确保解唯一              |
| 机器学习模型损失函数      | 二阶导数正定 ⇒ 凸损失函数 ⇒ 易优化          |
| 主成分分析（PCA）      | 协方差矩阵为半正定，特征值决定主成分方向          |
| 图嵌入             | 拉普拉斯矩阵正半定，谱嵌入源自最小化 Rayleigh 商 |
| 多变量高斯分布         | 协方差矩阵必须正定，否则无法构造密度函数          |

---

###  四、Cholesky 分解

---

####  定义

若 $A \in \mathbb{R}^{n \times n}$ 是正定对称矩阵，则存在唯一下三角矩阵 $L$，使得：

$$
A = L L^T
$$

这叫做**Cholesky 分解**。

---

####  优点

* 比 $LU$ 更快、更稳定
* 避免求逆，适用于解正定线性系统
* 可用于高斯过程、贝叶斯回归等模型推断

---

###  五、图神经网络中的正定矩阵

---

####  图拉普拉斯矩阵的正定性

图的标准拉普拉斯矩阵 $L = D - A$ 是对称正半定：

* 最小特征值为 0 ⇒ 反映图的连通性
* 若图连通，则 $\lambda_1 = 0 < \lambda_2 \leq \dots \leq \lambda_n$

---

####  拉普拉斯正定性在 GNN 中的用途

| 用途        | 正定矩阵的意义                             |
| --------- | ----------------------------------- |
| 谱图卷积（GCN） | 利用 $L$ 的谱分解设计滤波器                    |
| 图聚类       | 使用拉普拉斯特征向量构造低维表示                    |
| GNN 正则项设计 | $x^T L x$ 表示节点之间差异，常用于平滑正则化         |
| 图自监督学习    | 拉普拉斯正定性用于设计 contrastive loss 的稳定性下界 |

---

###  六、小结表格

| 概念    | 内容                         |
| ----- | -------------------------- |
| 对称矩阵  | $A = A^T$，具有实特征值，正交特征向量    |
| 正定矩阵  | 任意 $x^T A x > 0$，特征值全正     |
| 半正定矩阵 | 任意 $x^T A x \geq 0$，允许零特征值 |
| 判断标准  | 特征值、主子式、Cholesky、代数式       |
| 应用    | 优化、协方差分析、谱方法、GNN           |

---

###  推荐练习

1. 判断以下矩阵是否正定/半正定：

   * $A = \begin{bmatrix} 2 & -1 \\ -1 & 2 \end{bmatrix}$
   * $B = \begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}$

2. 编写 Python 程序：

   * 利用 `numpy.linalg.eig` 计算特征值判断正定性
   * 使用 `scipy.linalg.cholesky` 实现 Cholesky 分解

3. 设计一个图结构，计算其拉普拉斯矩阵的特征值，解释图结构与正定性的关系。






##  第8部分：复矩阵与快速傅里叶变换（Complex Matrices & FFT）

---

###  一、复数与复向量基础

---

####  复数定义

复数 $z \in \mathbb{C}$ 的形式为：

$$
z = a + bi, \quad a, b \in \mathbb{R},\ i^2 = -1
$$

其中：

* $a$ 是实部，$b$ 是虚部
* $|z| = \sqrt{a^2 + b^2}$ 是模
* $\bar{z} = a - bi$ 是共轭

---

####  复向量与复矩阵

* 复向量 $\mathbf{z} \in \mathbb{C}^n$
* 复矩阵 $A \in \mathbb{C}^{m \times n}$

复矩阵的**共轭转置**定义为：

$$
A^H = \bar{A}^T
$$

即先取复共轭，再转置。

---

####  Hermitian（自伴）矩阵

若：

$$
A = A^H
$$

则称 $A$ 是**Hermitian 矩阵**，是复数域中对称矩阵的推广。

**性质：**

* 所有特征值为实数
* 特征向量可以正交

---

### 二、复特征值与谱分解

---

####  正交性定义（复数域）

对复向量 $\mathbf{x}, \mathbf{y} \in \mathbb{C}^n$，定义内积为：

$$
\langle \mathbf{x}, \mathbf{y} \rangle = \mathbf{y}^H \mathbf{x}
$$

若 $\langle \mathbf{x}, \mathbf{y} \rangle = 0$，则 $\mathbf{x} \perp \mathbf{y}$

---

####  复特征分解的拓展

对于 Hermitian 矩阵 $A \in \mathbb{C}^{n \times n}$，可对角化为：

$$
A = U \Lambda U^H
$$

其中：

* $U \in \mathbb{C}^{n \times n}$ 是单位酉矩阵（复正交矩阵）
* $\Lambda \in \mathbb{R}^{n \times n}$ 是实对角矩阵（特征值）

---

###  三、傅里叶变换与离散傅里叶变换（DFT）

---

####  傅里叶变换简介

傅里叶变换是一种将**时域信号**转换为**频域表示**的方法。其核心思想是：**任意信号都可以看作一组不同频率的正弦波的叠加**。

---

####  离散傅里叶变换（DFT）

对于长度为 $n$ 的复向量 $x = (x_0, x_1, \dots, x_{n-1})$，其 DFT 是：

$$
X_k = \sum_{j=0}^{n-1} x_j \cdot e^{-2\pi i k j / n}, \quad k = 0, \dots, n-1
$$

可以写成矩阵形式：

$$
\mathbf{X} = F_n \cdot \mathbf{x}
$$

其中 $F_n \in \mathbb{C}^{n \times n}$ 是 DFT 矩阵，定义为：

$$
(F_n)_{k,j} = \omega_n^{k j}, \quad \omega_n = e^{-2\pi i / n}
$$

---

####  DFT 矩阵的性质

| 性质           | 说明                      |
| ------------ | ----------------------- |
| $F_n$ 是单位酉矩阵 | $F_n^H F_n = nI$（可逆）    |
| 正交变换         | DFT 保长度和能量（Parseval 定理） |
| 特征值在单位圆上     | 所有特征值模为 1               |
| 傅里叶基         | $F_n$ 的列向量为复指数信号，构成基    |

---

###  四、快速傅里叶变换（FFT）

---

####  背景

* 直接计算 DFT 的时间复杂度是 $O(n^2)$
* **快速傅里叶变换（FFT）** 是一种高效算法，将复杂度降为：

$$
O(n \log n)
$$

---

####  FFT 的基本思想

利用 DFT 的对称性和周期性，将 DFT 分解为**偶数项**与**奇数项**：

$$
X_k = E_k + \omega_n^k O_k
$$

其中 $E_k$ 是偶项 DFT，$O_k$ 是奇项 DFT，可递归计算。

> 这称为 **Cooley-Tukey FFT 算法**，是目前最常用的 FFT 实现。

---

####  应用举例

| 应用             | 内容                                  |
| -------------- | ----------------------------------- |
| 信号处理           | 滤波、频谱分析、语音识别                        |
| 卷积加速           | 使用频域乘法进行快速卷积（CNN、GNN）               |
| 谱图学习           | 图信号 → 频域表示                          |
| Transformer 变体 | FourierFormer、FNet 利用 FFT 替代注意力     |
| GNN 中谱滤波器      | $g(L) x$ 可在频域设计为 $g(\Lambda) U^T x$ |

---

###  五、在图神经网络中的作用

---

####  图信号频谱分析

* 给定图拉普拉斯矩阵 $L = U \Lambda U^T$
* $U$：拉普拉斯特征向量，构成“图傅里叶基”
* 图信号 $x$ 在频域中的表示为：

$$
\hat{x} = U^T x
$$

* 对信号进行谱滤波：

$$
g(L) x = U g(\Lambda) U^T x
$$

> 这就是**谱图卷积**的核心思想！

---

####  相关GNN模型

| 模型                   | FFT/DFT 应用方式                    |
| -------------------- | ------------------------------- |
| Spectral GCN         | 使用 $L = U \Lambda U^T$，在频域设计滤波器 |
| ChebNet              | 使用 Chebyshev 多项式近似频谱卷积          |
| FNet / FourierFormer | 替代 attention 使用 DFT 实现编码器       |
| GraphWave            | 用频谱特征分布表达节点结构特征                 |

---

###  推荐练习与代码实现

1. 用 numpy 编写：

   * DFT 矩阵构造
   * 使用 `np.fft.fft()` 与矩阵乘法结果对比
2. 实现 1D 卷积与 FFT 加速卷积对比
3. 对小型图构建拉普拉斯矩阵，手动进行谱分解和图傅里叶变换

---

###  总结表格

| 概念          | 内容                        |
| ----------- | ------------------------- |
| 复矩阵         | 具有复数元素，可用于傅里叶分析、谱分析       |
| Hermitian   | 满足 $A = A^H$，特征值实数，特征向量正交 |
| DFT         | 离散傅里叶变换，将信号变换到频域          |
| DFT矩阵 $F_n$ | 酉矩阵，构造频率基底                |
| FFT         | 快速算法，复杂度降为 $O(n \log n)$  |
| GNN 应用      | 频域滤波、谱嵌入、频谱卷积核设计等         |




## 第9部分：相似矩阵与若尔当标准型（Similarity & Jordan Form）

---

### 一、什么是相似矩阵（Similar Matrices）

---

#### 定义

两个 $n \times n$ 的方阵 $A$、$B$ 是**相似矩阵**，当存在一个可逆矩阵 $P$，使得：

$$
B = P^{-1} A P
$$

即 $A$ 与 $B$ 是通过**相似变换**联系的。

---

#### 相似矩阵的性质

| 性质       | 内容                                                 |
| -------- | -------------------------------------------------- |
| 相同的特征值   | 相似矩阵具有完全相同的特征值（含重数）                                |
| 相同的行列式和迹 | $\det(A) = \det(B),\ \text{Tr}(A) = \text{Tr}(B)$  |
| 保持矩阵多项式  | $f(A) \sim f(B)$（如 $A^2 + A + I \sim B^2 + B + I$） |
| 表示相同线性变换 | 仅在不同基底下的表达不同                                       |

---

#### 直观理解

相似矩阵代表了“同一个线性变换在不同坐标系中的表示”。

> 如同二维平面上的向量 $[1,0]$ 和 $[\cosθ, \sinθ]$，在不同基下坐标不同，但本质一样。

---

### 二、对角化回顾与限制

---

#### 可对角化的充要条件

矩阵 $A \in \mathbb{R}^{n \times n}$ 可对角化，若存在 $A = P D P^{-1}$，其中：

* $D$：对角矩阵，包含特征值
* $P$：列为特征向量

---

#### 但有些矩阵不可对角化

示例：

$$
A = \begin{bmatrix} 1 & 1 \\ 0 & 1 \end{bmatrix}
$$

其特征值只有一个 $\lambda = 1$，且只存在一个线性无关特征向量，**不能对角化**。

这类矩阵需要更广义的表示方式 ⇒ **若尔当标准型（Jordan Canonical Form）**

---

### 三、若尔当块（Jordan Block）

---

#### Jordan 块定义

若 $\lambda$ 是某矩阵的特征值，则对应的**若尔当块**是：

$$
J_k(\lambda) =
\begin{bmatrix}
\lambda & 1      &        & 0 \\
0      & \lambda & \ddots &   \\
       & \ddots & \ddots & 1 \\
0      &        & 0      & \lambda \\
\end{bmatrix}_{k \times k}
$$

即：对角线为 $\lambda$，上对角线为 1，其余为 0

---

#### 若尔当块的结构说明

* 上对角线的 1 表示这个块内的向量之间不是完全线性独立
* 用于表达“广义特征向量”之间的嵌套关系
* 若只有对角线 ⇒ 就是普通可对角化情况

---

### 四、若尔当标准型（Jordan Canonical Form）

---

#### 定义

任意一个 $n \times n$ 的方阵 $A$，都存在一个可逆矩阵 $P$，使得：

$$
A = P J P^{-1}
$$

其中 $J$ 是由若干个若尔当块组成的**分块上三角矩阵**，称为 $A$ 的**若尔当标准型**。

---

#### 若尔当形式的意义

* 若尔当标准型是比对角化更广义的相似化表达
* 它揭示了矩阵**线性变换的本质结构**
* 提供了处理**不可对角化矩阵**（如缺少足够特征向量）的方法

---

#### 例子：不可对角化矩阵的 Jordan 表示

设：

$$
A = \begin{bmatrix} 3 & 1 \\ 0 & 3 \end{bmatrix}
$$

只有一个特征向量 ⇒ 不可对角化

Jordan 形式：

$$
J = \begin{bmatrix} 3 & 1 \\ 0 & 3 \end{bmatrix}
$$

这已经是若尔当形式（一个 $2 \times 2$ 的 Jordan 块）

---

### 五、广义特征向量与 Jordan 链

---

#### 原因：当一个特征值的**几何重数**小于其**代数重数**时，需构造广义特征向量链：

广义特征向量定义：

若 $(A - \lambda I)^k \mathbf{v} = 0$，但 $(A - \lambda I)^{k-1} \mathbf{v} \neq 0$，则称 $\mathbf{v}$ 是**阶数为 k 的广义特征向量**

这些广义特征向量会组成一个链：

$$
(A - \lambda I)\mathbf{v}_k = \mathbf{v}_{k-1}, \dots, (A - \lambda I)\mathbf{v}_2 = \mathbf{v}_1
$$

最终可以构造出 Jordan 块。

---

### 六、Jordan 形式的计算（简要步骤）

---

#### 步骤概要

1. 求特征值及其代数重数
2. 求每个特征值的特征空间（几何重数）
3. 判断是否可对角化（若所有几何重数 = 代数重数 ⇒ 可对角化）
4. 若不能对角化，则构造广义特征向量链，构造若尔当块
5. 拼接各 Jordan 块形成 $J$，构造对应的变换矩阵 $P$

---

#### 实际计算挑战大，一般使用数值库（如 MATLAB 的 `jordan()`）

---

### 七、Jordan 形式的应用场景

---

#### 1. 矩阵幂 / 指数的简化计算

$$
A^k = P J^k P^{-1}
$$

若 $J$ 为对角矩阵或 Jordan 块形式，则 $J^k$ 更易计算。

---

#### 2. 矩阵微分方程解

解如下线性系统：

$$
\frac{d\mathbf{x}}{dt} = A \mathbf{x}
$$

若 $A$ 可对角化，解为：

$$
\mathbf{x}(t) = e^{At} \mathbf{x}_0 = P e^{Jt} P^{-1} \mathbf{x}_0
$$

其中 $e^{Jt}$ 可在 Jordan 块上逐块计算。

---

#### 3. 深度学习稳定性分析

某些理论分析中涉及 Jacobian、Hessian 的结构与谱特性 —— 若尔当分解帮助理解其收敛性与收敛速度。

---

### 八、与图神经网络的联系（扩展思考）

---

虽然 GNN 中多数操作基于**对称矩阵**（如拉普拉斯矩阵），不涉及复杂的 Jordan 分解，但在如下高级问题中仍有价值：

| 场景      | 作用                                          |
| ------- | ------------------------------------------- |
| 图稳定性分析  | 检查传播矩阵是否幂稳定，需要分析幂级行为 ⇒ Jordan 形式            |
| 矩阵函数计算  | $f(A) = P f(J) P^{-1}$，用于扩展谱滤波形式            |
| 图卷积理论推广 | 若考虑非对称图或非 Hermitian 邻接矩阵时，Jordan 形式比对角分解更通用 |

---

### 总结表格

| 概念        | 内容                               |
| --------- | -------------------------------- |
| 相似矩阵      | 存在 $P$ 使 $B = P^{-1} A P$，共享核心性质 |
| Jordan 块  | 单个特征值对应的一类不可对角化结构                |
| Jordan 形式 | 任何矩阵都可相似变换为的标准形式（含多个块）           |
| 广义特征向量    | 解决特征向量不足的问题                      |
| 应用        | 幂计算、微分方程、稳定性分析、谱方法拓展             |

---

### 建议练习题

1. 判断下列矩阵是否可对角化，若不可，写出其 Jordan 形式：

   $$
   A = \begin{bmatrix} 4 & 1 \\ 0 & 4 \end{bmatrix}, \quad B = \begin{bmatrix} 2 & 0 \\ 0 & 3 \end{bmatrix}
   $$
2. 利用 Python 中的 `scipy.linalg` 包，计算任意矩阵的特征值、广义特征向量
3. 推导一个 $3 \times 3$ 矩阵的 Jordan 形式，并用其计算 $A^3$




## 第10部分：奇异值分解（Singular Value Decomposition, SVD）

---

### 一、奇异值分解的定义

---

给定任意矩阵 $A \in \mathbb{R}^{m \times n}$，不要求方阵或对称，奇异值分解将其分解为三个矩阵的乘积：

$$
A = U \Sigma V^T
$$

其中：

* $U \in \mathbb{R}^{m \times m}$ 是正交矩阵（列向量两两正交且范数为1），称为**左奇异向量矩阵**
* $\Sigma \in \mathbb{R}^{m \times n}$ 是对角矩阵，对角线上为非负实数，称为**奇异值矩阵**
* $V \in \mathbb{R}^{n \times n}$ 是正交矩阵（列向量两两正交且范数为1），称为**右奇异向量矩阵**

奇异值按大小顺序排列：

$$
\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_r > 0
$$

其中 $r = \text{rank}(A)$。

---

### 二、奇异值、奇异向量的含义

---

* **奇异值 $\sigma_i$**：反映矩阵 $A$ 在对应奇异向量方向上的伸缩因子
* **左奇异向量 $u_i$**：表示在 $\mathbb{R}^m$ 空间中，输入空间被映射到的正交基
* **右奇异向量 $v_i$**：表示在 $\mathbb{R}^n$ 空间中输入矩阵的正交基

---

### 三、奇异值与特征值的关系

---

* $A^T A \in \mathbb{R}^{n \times n}$ 和 $A A^T \in \mathbb{R}^{m \times m}$ 都是对称半正定矩阵。
* $A^T A$ 的特征值为 $\sigma_i^2$，对应的特征向量即为 $V$ 中的列向量。
* $A A^T$ 的特征值也为 $\sigma_i^2$，对应特征向量为 $U$ 中的列向量。

---

### 四、奇异值分解的计算过程

---

1. 计算 $A^T A$ 的特征值分解：

$$
A^T A = V \Lambda V^T
$$

其中 $\Lambda = \text{diag}(\sigma_1^2, \ldots, \sigma_r^2)$

2. 计算左奇异向量：

$$
U = A V \Sigma^{-1}
$$

其中 $\Sigma^{-1}$ 是奇异值的倒数对角矩阵。

---

### 五、奇异值分解的几何意义

---

* 将 $A$ 看作从 $\mathbb{R}^n$ 映射到 $\mathbb{R}^m$ 的线性变换。
* $V$ 给出输入空间的正交基，$U$ 给出输出空间的正交基。
* $\Sigma$ 给出对应基向量的缩放因子。

---

### 六、奇异值分解的性质

---

| 性质           | 说明                                   |
| ------------ | ------------------------------------ |
| 所有奇异值非负      | $\sigma_i \geq 0$                    |
| 奇异值唯一        | 奇异值唯一确定，奇异向量不唯一                      |
| 矩阵范数         | 最大奇异值等于矩阵的谱范数（算子范数）                  |
| Frobenius 范数 | $\|A\|_F = \sqrt{\sum_i \sigma_i^2}$ |
| 低秩近似         | 利用前 $k$ 个奇异值和对应向量构造最佳秩 $k$ 近似        |

---

### 七、奇异值分解在应用中的核心价值

---

#### 1. 低秩矩阵近似（矩阵压缩）

$$
A_k = \sum_{i=1}^k \sigma_i u_i v_i^T
$$

它是所有秩不超过 $k$ 的矩阵中，最接近 $A$ 的矩阵（最小 Frobenius 范数误差）

---

#### 2. 主成分分析（PCA）

* PCA 通过 SVD 计算数据协方差矩阵的特征向量，实现降维和数据压缩。
* 右奇异向量矩阵 $V$ 对应主成分方向。

---

#### 3. 图嵌入与降维

* 使用 SVD 对邻接矩阵或拉普拉斯矩阵进行分解，提取节点低维表示。

---

#### 4. 逆矩阵与伪逆计算

* Moore-Penrose 伪逆：

$$
A^+ = V \Sigma^+ U^T
$$

其中 $\Sigma^+$ 是将非零奇异值倒数并转置形成的矩阵。

---

### 八、奇异值分解示例

---

假设：

$$
A = \begin{bmatrix} 3 & 1 \\ 1 & 3 \\ 1 & 1 \end{bmatrix}
$$

通过计算，得到：

* 奇异值 $\sigma_1, \sigma_2$
* 矩阵 $U \in \mathbb{R}^{3 \times 3}$、$\Sigma \in \mathbb{R}^{3 \times 2}$、$V \in \mathbb{R}^{2 \times 2}$

---

### 九、Python实现示例

```python
import numpy as np

A = np.array([[3,1],
              [1,3],
              [1,1]])

U, S, VT = np.linalg.svd(A, full_matrices=True)

print("U =", U)
print("奇异值 =", S)
print("V^T =", VT)
```

---

### 十、总结表格

| 概念             | 说明               |
| -------------- | ---------------- |
| 奇异值 $\sigma_i$ | 非负实数，衡量伸缩强度      |
| 左奇异向量 $u_i$    | $A$ 映射到输出空间的基    |
| 右奇异向量 $v_i$    | 输入空间基向量          |
| 低秩近似           | 保持最大能量的秩 $k$ 近似  |
| 伪逆             | 广义逆，计算最小二乘解      |
| 应用             | 降维、数据压缩、图嵌入、矩阵近似 |

---

###  十一、扩展阅读与思考

* SVD 与 PCA 的关系
* 如何利用 SVD 优化图卷积滤波器设计
* SVD 的数值稳定性和快速算法（随机 SVD、截断 SVD）
* 奇异值谱对深度神经网络权重矩阵训练稳定性的影响





## 第11部分：基变换及图像压缩（Change of Basis & Image Compression）

---

### 一、基变换（Change of Basis）

---

#### 1. 向量基底（Basis）回顾

* 在向量空间 $V$ 中，一组线性无关向量 $\{ \mathbf{b}_1, \mathbf{b}_2, \ldots, \mathbf{b}_n \}$ 称为该空间的基底。

* 任何向量 $\mathbf{v} \in V$ 都可以唯一表示为基底的线性组合：

  $$
  \mathbf{v} = x_1 \mathbf{b}_1 + x_2 \mathbf{b}_2 + \cdots + x_n \mathbf{b}_n
  $$

* 向量 $\mathbf{v}$ 在基底 $B$ 下的坐标是向量 $\mathbf{x} = [x_1, \ldots, x_n]^T$

---

#### 2. 基变换的定义

* 设有两个基底：

  $$
  B = \{\mathbf{b}_1, \ldots, \mathbf{b}_n\}, \quad
  B' = \{\mathbf{b}_1', \ldots, \mathbf{b}_n'\}
  $$

* 一个向量在 $B$ 中的坐标为 $\mathbf{x}$，在 $B'$ 中的坐标为 $\mathbf{x}'$

* 存在一个**基变换矩阵** $P$，满足：

  $$
  \mathbf{x} = P \mathbf{x}'
  $$

  或

  $$
  \mathbf{x}' = P^{-1} \mathbf{x}
  $$

---

#### 3. 基变换矩阵 $P$ 的构造

* $P$ 的列向量是基底 $B'$ 中向量在基底 $B$ 下的坐标表示：

  $$
  P = [ [\mathbf{b}_1']_B, [\mathbf{b}_2']_B, \ldots, [\mathbf{b}_n']_B ]
  $$

---

#### 4. 矩阵在基底变换下的变化

* 矩阵 $A$ 表示线性变换在基底 $B$ 下的矩阵表示

* 在基底 $B'$ 下的表示为：

  $$
  A' = P^{-1} A P
  $$

* 这就是相似变换的定义，连接基变换与相似矩阵的概念

---

### 二、基变换的意义与作用

---

* 基变换让我们能够用更方便的基底来表达和计算问题，比如对角基底让线性变换变得简单

* 在信号处理中，基变换是频域转换、压缩编码的数学基础

* 通过合适基变换，复杂信号可以被稀疏表示，从而有效压缩

---

### 三、图像压缩中的基变换应用

---

#### 1. 图像的矩阵表示

* 灰度图像用二维矩阵表示，每个元素对应像素灰度值

* 彩色图像可看作三个矩阵（R,G,B通道）

---

#### 2. 利用基变换进行压缩

* **目标**：找到基底使图像在新基底下有较少非零系数（稀疏），方便压缩

* 常用方法：奇异值分解（SVD）、离散余弦变换（DCT）、小波变换（Wavelet）

---

#### 3. 基于 SVD 的图像压缩步骤

---

1. **对图像矩阵 $A$ 做 SVD 分解**：

$$
A = U \Sigma V^T
$$

2. **保留前 $k$ 个最大的奇异值及对应奇异向量，构造低秩近似**：

$$
A_k = \sum_{i=1}^k \sigma_i u_i v_i^T
$$

3. **压缩**：存储较小的 $k$，节省存储空间

4. **重构**：用 $A_k$ 近似原图像，误差可控

---

#### 4. 示例说明

* 原图尺寸：$256 \times 256$ 共 65536 个像素点

* 使用 $k=50$ 个奇异值，存储量约 $50 \times (256 + 256 + 1) = 25650$（远小于原图）

* 近似重构质量较好，压缩效果显著

---

### 四、其他常见基变换与图像压缩技术

---

| 技术            | 基底类型  | 说明         | 应用场景       |
| ------------- | ----- | ---------- | ---------- |
| 离散余弦变换（DCT）   | 正交余弦基 | JPEG标准压缩核心 | JPEG图像压缩   |
| 小波变换（Wavelet） | 多尺度基  | 较好时频局部化特性  | JPEG2000压缩 |
| 傅里叶变换（FFT）    | 复指数基  | 频域分析       | 图像频谱滤波     |

---

### 五、基变换与压缩的数学原理

---

#### 1. 能量集中性

* 好的基变换能让信号能量集中在少数几个基向量的系数上

* 这样在截断后仍能保留大部分信息

---

#### 2. 稀疏表示与压缩率

* 稀疏表示使得数据压缩效果显著

* 通过压缩编码（如量化、熵编码）进一步减少数据大小

---

### 六、基变换及图像压缩的 Python 实践示例

---

```python
import numpy as np
import matplotlib.pyplot as plt
from skimage import data, color

# 读取示例图像并转为灰度
img = color.rgb2gray(data.astronaut())
A = img.astype(float)

# SVD 分解
U, S, VT = np.linalg.svd(A, full_matrices=False)

# 保留 k 个奇异值进行重构
k = 50
A_k = np.dot(U[:, :k], np.dot(np.diag(S[:k]), VT[:k, :]))

# 显示压缩前后图像
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
plt.title("Original Image")
plt.imshow(A, cmap='gray')
plt.axis('off')

plt.subplot(1,2,2)
plt.title(f"Compressed Image (k={k})")
plt.imshow(A_k, cmap='gray')
plt.axis('off')

plt.show()
```

---

### 七、小结表格

| 主题     | 内容                |
| ------ | ----------------- |
| 基变换    | 不同基底下向量的坐标变换      |
| 基变换矩阵  | 描述基底之间的线性变换       |
| 矩阵相似变换 | 矩阵表示在不同基底下的形式     |
| 图像压缩   | 利用基变换使图像稀疏，便于压缩存储 |
| SVD压缩  | 利用低秩近似实现高效图像压缩    |

---

### 八、扩展思考

* 选择合适的基底对压缩率和质量的影响
* 小波变换与 DCT 在图像压缩中的比较
* 基变换思想在图神经网络频谱卷积中的体现




## 第12部分：左右逆和伪逆（Left and Right Inverses & Pseudoinverse）

---

### 一、矩阵逆的基础回顾

---

* 对于方阵 $A \in \mathbb{R}^{n \times n}$，如果存在矩阵 $A^{-1}$，满足：

$$
A A^{-1} = A^{-1} A = I_n
$$

则称 $A$ 可逆，$A^{-1}$ 为其逆矩阵。

---

* 逆矩阵唯一且存在的充分必要条件是 $A$ 满秩（秩等于维度 $n$）。

---

### 二、非方阵的逆问题

---

* 当矩阵 $A$ 不是方阵（如 $m \neq n$），或方阵但不满秩时，**逆矩阵不存在**。

* 但在某些应用中，仍希望定义类似“逆”的矩阵，满足部分逆性质。

---

### 三、左右逆矩阵定义

---

#### 1. 左逆矩阵（Left Inverse）

* 对于 $A \in \mathbb{R}^{m \times n}$，如果存在矩阵 $L \in \mathbb{R}^{n \times m}$，使得：

$$
L A = I_n
$$

则称 $L$ 是 $A$ 的**左逆矩阵**。

* 左逆存在条件：$A$ 列满秩（即 $\text{rank}(A) = n$，列向量线性无关）

---

#### 2. 右逆矩阵（Right Inverse）

* 对于 $A \in \mathbb{R}^{m \times n}$，如果存在矩阵 $R \in \mathbb{R}^{n \times m}$，使得：

$$
A R = I_m
$$

则称 $R$ 是 $A$ 的**右逆矩阵**。

* 右逆存在条件：$A$ 行满秩（即 $\text{rank}(A) = m$，行向量线性无关）

---

#### 3. 左逆和右逆不是同时存在（除非是方阵且满秩）

---

### 四、如何求左右逆矩阵

---

* 若 $A$ 列满秩，$m \ge n$，左逆可由：

$$
L = (A^T A)^{-1} A^T
$$

满足：

$$
L A = (A^T A)^{-1} A^T A = I_n
$$

* 若 $A$ 行满秩，$m \le n$，右逆为：

$$
R = A^T (A A^T)^{-1}
$$

满足：

$$
A R = A A^T (A A^T)^{-1} = I_m
$$

---

### 五、Moore-Penrose 伪逆（Pseudoinverse）

---

#### 1. 伪逆定义

* 对任意矩阵 $A \in \mathbb{R}^{m \times n}$，存在唯一的矩阵 $A^+ \in \mathbb{R}^{n \times m}$，称为 Moore-Penrose 伪逆，满足以下四个性质：

$$
\begin{cases}
A A^+ A = A \\
A^+ A A^+ = A^+ \\
(A A^+)^T = A A^+ \\
(A^+ A)^T = A^+ A
\end{cases}
$$

---

#### 2. 伪逆的意义

* 伪逆是一种广义逆，可用于解决线性方程组无解或多解问题，计算最小二乘解等。

---

#### 3. 伪逆的计算方法

---

##### （1）基于奇异值分解（SVD）

假设 $A = U \Sigma V^T$，则：

$$
A^+ = V \Sigma^+ U^T
$$

其中 $\Sigma^+$ 是通过对 $\Sigma$ 非零奇异值取倒数后转置得到的矩阵。

---

##### （2）基于左右逆的特殊情况

* 如果 $A$ 列满秩，左逆存在，伪逆与左逆相同：

$$
A^+ = (A^T A)^{-1} A^T
$$

* 如果 $A$ 行满秩，右逆存在，伪逆与右逆相同：

$$
A^+ = A^T (A A^T)^{-1}
$$

---

### 六、伪逆在最小二乘问题中的应用

---

#### 1. 线性方程组 $A \mathbf{x} = \mathbf{b}$ 最小二乘解

* 当 $A \mathbf{x} = \mathbf{b}$ 无解或不唯一时，最小二乘解为：

$$
\hat{\mathbf{x}} = A^+ \mathbf{b}
$$

* 它使得 $\|A \mathbf{x} - \mathbf{b}\|_2$ 最小。

---

#### 2. 特殊情况说明

| 情况               | 伪逆计算公式                   | 结果          |
| ---------------- | ------------------------ | ----------- |
| $m > n$, $A$ 列满秩 | $A^+ = (A^T A)^{-1} A^T$ | 最小二乘解唯一     |
| $m < n$, $A$ 行满秩 | $A^+ = A^T (A A^T)^{-1}$ | 有无穷解，求最小范数解 |

---

### 七、伪逆的性质总结

---

| 性质  | 内容                   |
| --- | -------------------- |
| 唯一性 | Moore-Penrose 伪逆唯一存在 |
| 一般性 | 对所有矩阵均适用             |
| 兼容性 | 满足四个Penrose条件        |
| 应用广 | 求最小二乘解，数据拟合，信号恢复     |

---

### 八、Python 实现示例

```python
import numpy as np

# 非方阵示例
A = np.array([[1, 2], [3, 4], [5, 6]])

# 计算伪逆
A_pinv = np.linalg.pinv(A)

print("矩阵 A:\n", A)
print("伪逆 A^+:\n", A_pinv)

# 验证最小二乘解
b = np.array([7, 8, 9])
x_ls = A_pinv @ b
print("最小二乘解 x:\n", x_ls)

# 误差
residual = np.linalg.norm(A @ x_ls - b)
print("残差范数:", residual)
```

---

### 九、扩展与应用

---

* 伪逆是机器学习中线性回归、岭回归、Lasso等方法基础

* 在神经网络中用于权重更新及稳定训练

* 在图神经网络中的消息传递可视作矩阵乘积，伪逆帮助解决欠定问题

---

### 十、小结表格

| 主题   | 内容                           |
| ---- | ---------------------------- |
| 左逆矩阵 | 满秩列矩阵的左侧逆矩阵，满足 $L A = I$     |
| 右逆矩阵 | 满秩行矩阵的右侧逆矩阵，满足 $A R = I$     |
| 伪逆   | Moore-Penrose 广义逆，唯一且适用于所有矩阵 |
| 计算方法 | 基于 SVD 及左右逆公式                |
| 应用   | 最小二乘解、信号恢复、数据拟合              |


