# 奇异值分解 (Singular Value Decomposition, SVD) 的数学原理

奇异值分解 (SVD) 是一种强大的矩阵分解技术，它将任意矩阵分解为三个矩阵的乘积，用于许多领域如降维、推荐系统、主成分分析等。

---

## **1. SVD 的定义**

对于任意一个矩阵 $ \mathbf{A} \in \mathbb{R}^{m \times n} $，奇异值分解将其分解为如下形式：

$$
\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\top
$$

其中：
- $ \mathbf{U} \in \mathbb{R}^{m \times m} $ 是一个正交矩阵，列向量是矩阵 $ \mathbf{A} \mathbf{A}^\top $ 的特征向量。
- $ \mathbf{\Sigma} \in \mathbb{R}^{m \times n} $ 是一个对角矩阵，其对角元素是 $ \mathbf{A} $ 的奇异值，按降序排列，非对角元素为零。
- $ \mathbf{V} \in \mathbb{R}^{n \times n} $ 是一个正交矩阵，列向量是矩阵 $ \mathbf{A}^\top \mathbf{A} $ 的特征向量。

---

## **2. 奇异值与特征值的关系**

1. **左奇异向量（$ \mathbf{U} $）**：
   $ \mathbf{U} $ 的列向量是 $ \mathbf{A} \mathbf{A}^\top $ 的特征向量。即：
   $$
   \mathbf{A} \mathbf{A}^\top \mathbf{u}_i = \sigma_i^2 \mathbf{u}_i
   $$

2. **右奇异向量（$ \mathbf{V} $）**：
   $ \mathbf{V} $ 的列向量是 $ \mathbf{A}^\top \mathbf{A} $ 的特征向量。即：
   $$
   \mathbf{A}^\top \mathbf{A} \mathbf{v}_i = \sigma_i^2 \mathbf{v}_i
   $$

3. **奇异值（$ \sigma_i $）**：
   奇异值是 $ \mathbf{A}^\top \mathbf{A} $ 和 $ \mathbf{A} \mathbf{A}^\top $ 的非负特征值的平方根。即：
   $$
   \sigma_i = \sqrt{\lambda_i}, \quad \lambda_i \text{ 是特征值}
   $$

---

## **3. 矩阵分解的几何解释**

1. **左奇异向量 ($ \mathbf{U} $)**：
   - 定义了原始矩阵 $ \mathbf{A} $ 在其列空间中的方向。
   - 代表了数据在原始空间中的正交基。

2. **右奇异向量 ($ \mathbf{V} $)**：
   - 定义了原始矩阵 $ \mathbf{A} $ 的行空间方向。
   - 代表了投影到低维空间后的正交基。

3. **奇异值 ($ \sigma_i $)**：
   - 表示矩阵 $ \mathbf{A} $ 沿每个奇异向量方向的拉伸或压缩程度。

---

## **4. 奇异值分解的构成**

1. $ \mathbf{U} $：列向量是正交的，表示原始空间中主方向的正交基。
   $$
   \mathbf{U}^\top \mathbf{U} = \mathbf{I}
   $$

2. $ \mathbf{\Sigma} $：是一个矩形对角矩阵，只有对角线非零，对角元素为奇异值。
   $$
   \mathbf{\Sigma} =
   \begin{bmatrix}
   \sigma_1 & 0 & \cdots & 0 \\
   0 & \sigma_2 & \cdots & 0 \\
   \vdots & \vdots & \ddots & \vdots \\
   0 & 0 & \cdots & \sigma_r \\
   \end{bmatrix}
   $$

3. $ \mathbf{V} $：列向量是正交的，表示降维空间的基。
   $$
   \mathbf{V}^\top \mathbf{V} = \mathbf{I}
   $$

---

## **5. SVD 的性质**

1. **矩阵秩与奇异值的关系**：
   矩阵 $ \mathbf{A} $ 的非零奇异值的个数等于其秩 $ r $。

2. **低秩近似**：
   使用前 $ k $ 个最大的奇异值和对应的奇异向量，可以构造矩阵的低秩近似：
   $$
   \mathbf{A}_k = \mathbf{U}_k \mathbf{\Sigma}_k \mathbf{V}_k^\top
   $$
   - $ \mathbf{U}_k \in \mathbb{R}^{m \times k} $
   - $ \mathbf{\Sigma}_k \in \mathbb{R}^{k \times k} $
   - $ \mathbf{V}_k \in \mathbb{R}^{n \times k} $

3. **范数关系**：
   - 矩阵的 2 范数等于最大奇异值：
     $$
     \|\mathbf{A}\|_2 = \sigma_1
     $$
   - 矩阵的 Frobenius 范数等于所有奇异值平方和的平方根：
     $$
     \|\mathbf{A}\|_F = \sqrt{\sum_{i=1}^r \sigma_i^2}
     $$


In [None]:
import numpy as np

# np.linglg.svd可以直接计算奇异值分解
def svd(matrix, k=None):
    # 1.计算左奇异矩阵
    AAT = matrix @ matrix.T
    eigvalsU, eigvecsU = np.linalg.eigh(AAT) # 对称矩阵的特征值分解

    # 排序特征值和特征向量
    sortedIndices = np.argsort(eigvalsU)[::-1] # 倒序
    eigvalsU = eigvalsU[sortedIndices]
    eigvecsU = eigvecsU[:, sortedIndices]

    # 取奇异值
    singularValues = np.sqrt(eigvalsU)

    # 2.计算右奇异矩阵
    ATA = matrix.T @ matrix
    eigvalsV, eigvecsV = np.linalg.eigh(ATA) # 对称矩阵的特征值分解
    sortedIndices = np.argsort(eigvalsV)[::-1] # 倒序
    eigvalsV = eigvalsV[sortedIndices]
    eigvecsV = eigvecsV[:, sortedIndices]

    # 左奇异向量
    U = eigvecsU
    # 右奇异向量
    VT = eigvecsV.T
    # 奇异值矩阵
    S = np.diag(singularValues)

    # 3. 低秩近似
    if k is not None:
        U = U[:, :k]
        S = S[:k, :k]
        VT = VT[:k, :]
        approxMatrix = U @ S @ VT
    else:
        approxMatrix = None
    
    return U, S, VT, approxMatrix
