# 共轭梯度法（Conjugate Gradient Method,CG）

## 引入问题
> 解决线性系统：
$$
\[
A \mathbf{x} = \mathbf{b}
\]
$$

- $A\in\mathbb{R}^{n\times n}$ 是一个对称正定矩阵（即 $\(A = A^T\)$，且 $\(\mathbf{z}^T A \mathbf{z} > 0\)$ 对所有非零 $\(\mathbf{z}\)$ 成立）
- $\(\mathbf{x}\)$ 是待求解向量
- $\(\mathbf{b}\)$ 是已知向量

> 等价于最小化二次型目标函数：
$$
\[
f(\mathbf{x}) = \frac{1}{2} \mathbf{x}^T A \mathbf{x} - \mathbf{b}^T \mathbf{x}
\]
$$
- 对称正定矩阵$\(A\)$，保证了其是一个 **二次型函数** ，在任意方向上都是一个 **单峰的抛物线（凸函数）**

> 其梯度为：
$$
\[
\nabla f(\mathbf{x}) = A \mathbf{x} - \mathbf{b}
\]
$$
- 最优解满足 $\(\nabla f(\mathbf{x}) = 0\)$，也就是 $\(A \mathbf{x} = \mathbf{b}\)$

---
## 梯度下降法的缺陷

> **传统梯度下降** 每步使用**负梯度方向**更新：
$$
\[
\mathbf{x}_{k+1} = \mathbf{x}_k - \alpha_k \nabla f(\mathbf{x}_k)
\]
$$
> 当 $\(A\)$ 的特征值差距较大（即条件数大）时，下降路径 **被拉扯为“之”字形**，收敛缓慢

---
## 共轭方向的思想

> 选取一组关于对称正定矩阵 $A\in\mathbb{R}^{n\times n}$ 共轭的**搜索方向向量**$(\mathbf{p}_0,\ldots,\mathbf{p}_{n-1})$：
$$
\[
\mathbf{p}_i^T A \mathbf{p}_j = 0 \quad , i \ne j
\]
$$
- 对称正定矩阵 $\(A\)$ 是对向量空间进行一种“拉伸 + 转向”变换
- 共轭 = 在变形空间$\(A\)$中的正交

> 去更新参数：
$$\mathbf{x}_{k+1} = \mathbf{x}_k + \alpha_k \mathbf{p}_k$$

> 共轭梯度法中生成的 n 个**搜索方向向量**$(\mathbf{p}_0,\ldots,\mathbf{p}_{n-1})$是**线性无关**的，它们构成了对称正定矩阵$\(A\)$下的**共轭基底**，又由于函数在任意方向上为一个 **凸函数** ，在每一次梯度下降都做到**一维最优化**，所以共轭梯度法**最多只需要 n 步**就能在该空间内找到最优解。

### 共轭梯度法的推导:
> 初始时：
- 设初始点： $\mathbf{x}_0$
- 初始残差（负梯度）：$\mathbf{r}_0 = \mathbf{b} - A \mathbf{x}_0 = - \nabla f(\mathbf{x}_0)$
- 初始搜索方向：$\mathbf{p}_0 = \mathbf{r}_0$

---
#### 1.推导步长 $\alpha_k$
> 已知方向 $\mathbf{p}_k$ ，为使函数 $f(\mathbf{x})$ （第 $k$ 步）最小：$\alpha_k = \arg \min_{\alpha} f(\mathbf{x}_k + \alpha \mathbf{p}_k)$

> 首先对二次函数求导：
$$
\frac{d}{d\alpha} f(\mathbf{x}_k + \alpha \mathbf{p}_k) = 0
$$

> 展开：
$$
\nabla f(\mathbf{x}_k + \alpha \mathbf{p}_k)^T \mathbf{p}_k = 0
$$

> 又梯度
$$
\nabla f(\mathbf{x}_k + \alpha \mathbf{p}_k) = A(\mathbf{x}_k + \alpha \mathbf{p}_k) - \mathbf{b}
$$

> 所以：

$$
\left(A(\mathbf{x}_k + \alpha \mathbf{p}_k) - \mathbf{b}\right)^T \mathbf{p}_k = 0
$$

$$
\Rightarrow (A \mathbf{x}_k - \mathbf{b})^T \mathbf{p}_k + \alpha \mathbf{p}_k^T A \mathbf{p}_k = 0
$$

> 又
$$
A \mathbf{x}_k - \mathbf{b} = - \mathbf{r}_k
$$

> 所以：
$$
-\mathbf{r}_k^T \mathbf{p}_k + \alpha \mathbf{p}_k^T A \mathbf{p}_k = 0 \Rightarrow \alpha_k = \frac{\mathbf{r}_k^T \mathbf{p}_k}{\mathbf{p}_k^T A \mathbf{p}_k}
$$

- 再更新解：$\mathbf{x}_{k+1} = \mathbf{x}_k + \alpha_k \mathbf{p}_k$
- 再更新残差：$\mathbf{r}_{k+1}=\mathbf{b}-A\mathbf{x}_{k+1}=\mathbf{b}-A(\mathbf{x}_k+\alpha_k\mathbf{p}_k)=\mathbf{r}_k-\alpha_kA\mathbf{p}_k$

#### 2.构造下一个搜索方向 $\mathbf{p}_{k+1}$（核心）

> 使得新方向与之前的方向共轭，即满足：
$$
\mathbf{p}_{k+1}^T A \mathbf{p}_j = 0 \quad , \quad j \le k
$$

> 通常用以下公式构造（结合最新的梯度信息与之前的共轭方向）：
$$
\mathbf{p}_{k+1} = \mathbf{r}_{k+1} + \beta_k \mathbf{p}_k
$$

- 其中 $\beta_k$ 是调整系数，保证新构造的方向与前一方向 $A$-共轭。

$$(\mathbf{r}_{k+1}+\beta_k\mathbf{p}_k)^TA\mathbf{p}_k=0$$

> 解得
$$\beta_k=-\frac{\mathbf{r}_{k+1}^TA\mathbf{p}_k}{\mathbf{p}_k^TA\mathbf{p}_k}$$

> 因为实际计算中$A\in\mathbb{R}^{n\times n}$未知或计算代价高，所以使用**Fletcher–Reeves 形式的共轭梯度法**：
$$
\beta_k = \frac{\mathbf{r}_{k+1}^T \mathbf{r}_{k+1}}{\mathbf{r}_k^T \mathbf{r}_k}
$$

---
***当残差 $\|\mathbf{r}_k\|$ 足够小** 或者 **达到预设最大迭代次数** 时梯度下降停止*，解出 **X**
