# 如何对一个非方阵做 SVD 分解

## 特别说明
以下介绍的只是便于理解的，从矩阵分解的角度实现的 SVD 算法。SVD 的经典算法有 Golub-Kahan 算法、分治法、Jacobi 法几种，在计算机的实现中，绝大多数不会先去计算协方差矩阵 $X^TX$，然后再做特征值分解的方法。

假设 

$$X=U \Sigma V^T$$

其中 
$X \in \mathbb{R}^{m \times n}$，这里 $m$ 与 $n$ 不一定相等，如果 $m=n$，此时 $X$ 是方阵，可以对这个方阵做特征值分解。进一步如果又有 $X^T=X$，即 $X$ 是对称矩阵，那么这个结论就是在《线性代数》中被广泛介绍的”对称矩阵可对角化“，从上面的等式中，可以看出它可以被分解为：

$U \in \mathbb{R}^{m \times m}$ 是一个正交矩阵（酉矩阵），

$\Sigma \in \mathbb{R}^{m \times n}$ 是一个只有主对角线上有非零元素的“对角矩阵”（请注意这里的对角矩阵不一定是方阵，它与 $X$ 同型），

$V \in \mathbb{R}^{n \times n}$ 是一个正交矩阵（酉矩阵）。

上面可以看成是对一个任意形状的矩阵做因式分解，把它分解成几个矩阵的乘积。我们使用的方法是待定系数法。

首先，我们想利用”对称矩阵可对角化“这个结论，首先我们要构造”对称矩阵“，这是很容易的，因为 $X^TX$ 与 $XX^T$ 就是两个对称矩阵。于是<b><font size='3' color='ff0000'>假设 $X$ 可以被写成 $X=U \Sigma V^T$，那么 $X^TX$ 与 $XX^T$ 就可以被写成</font></b>： 

$$X^TX = (V \Sigma^T U^T)(U \Sigma V^T)=V \Sigma^T (U^TU) \Sigma V^T=V \Sigma^T  \Sigma V^T$$

$$XX^T = (U \Sigma V^T)(V \Sigma^T U^T)=U \Sigma (V^TV) \Sigma^T U^T=U \Sigma  \Sigma^T U^T$$

看到这里，如果觉得比较陌生的朋友，可以翻一翻正交矩阵的定义，上面说了 $U$ 和 $V$ 都是正交矩阵，正交矩阵满足 $U^T=U^{-1}$，因此 $U^TU=E$，同理 $V$ 是正交矩阵，也有类似结论。

其中 $\Sigma^T  \Sigma \in \mathbb{R}^{n \times n}$，$\Sigma \Sigma^T  \in \mathbb{R}^{m \times m}$，都是对角矩阵，它们除了形状不一样以外，非零的部分（都在主对角线上）是相等的。

而 $X^TX \in \mathbb{R}^{n \times n}$、$XX^T \in \mathbb{R}^{m \times m}$ 都是对称矩阵，因此，求解 $U$ 和 $V$ 就变成了**实对称矩阵的对角化问题**，这是在《线性代数》中被研究透了的问题，这里直接给出结论：


+ $V$ 是 $X^TX$ 的特征向量按照列排成的矩阵（按照 $X^TX$ 的特征值从大到小对应排列）；
+ $U$ 是 $XX^T$ 的特征向量按照列排成的矩阵（按照 $XX^T$ 的特征值从大到小对应排列）。

+ $\Sigma$ 是 $\Sigma^T  \Sigma$ 或者 $\Sigma \Sigma^T$ 中非零元素的平方根。

在具体计算的时候，可以先得到矩阵 $X$ 的右奇异向量和奇异值，然后得到矩阵 $X$ 的左奇异向量，具体计算如下：$XV=U\Sigma$，此时认为 $X$ 已知，$V$ 和 $\Sigma$ 已经算出，故 $U=XV\Sigma^{-1}$，即 $u_i = \frac{1}{\sigma_i}Xv_i$。


