# 8 奇异值分解

#### 奇异值分解

奇异值分解 (singular value decomposition, svd) 不是唯一的. 

非零矩阵 $A\in \mathbb C^{m\times n}$, 其可以表示为 $A=UDV^*$, 其中 $U\in \mathbb C^{m\times m}$, 
$V\in \mathbb C^{n\times n}$ 是两个酉矩阵. 且
$$D = \left[\begin{matrix}D_+ & 0\\0&0\end{matrix}\right]\in \mathbb R^{n\times n}$$

其中 $D_+\in \mathbb R^{r\times r}$ 正定对角阵, $r = {\rm rank}(A)$. 

称 $D$ 的所有对角元 (均非负) 为其奇异值 (singular values). 
$U$ 的每一列为对应的左奇异向量 (singular vectors), $V$ 的每一列为对应的右奇异向量.

若 $A$ 为实矩阵, 则 $U,V$ 也可以是实矩阵.

#### 约简的奇异值分解

非零矩阵 $A\in \mathbb C^{m\times n}$ 可以表示为 $A=UD_+V^*$, 其中设 $r = {\rm rank}(A)$.

则 $U\in \mathbb C^{m\times r}$ 满足
$U^*U = I_r$, 而 $V\in \mathbb C^{r\times r}$ 是酉矩阵. 且 $D_+\in \mathbb R^{r\times r}$ 是正定对角阵, 

若 $A$ 为实矩阵, 则 $U,V$ 也可以是实矩阵.


#### 秩 1 矩阵之和的奇异值分解

非零矩阵 $A\in \mathbb C^{m\times n}$, $r={\rm rank}(A)$, 其可表示为秩 1 矩阵之和:

$$A = \sum_{i=1}^r (u_iv_i^*)\sigma_i$$

且满足 $u_i$ **单位且两两正交**, $v_i$ **单位且两两正交**. 则该形式也称奇异值分解.

设 $s = \min\{m,n\}$, 将 $\sigma_i$ 从 $r$ 个补齐至 $s$ 个:

$$\sigma_1\geqslant \sigma_2\geqslant \dotsc\geqslant \sigma_r >0=\sigma_{r+1}=\dotsc=\sigma_s$$

称如上 $s$ 个 $\sigma_i$ 为 $A$ 的奇异值, $u_i,v_i$ 分别为对应的左奇异向量和右奇异向量.

从该形式可见, 若矩阵可以谱分解, 则谱分解就是一种奇异值分解, 奇异值即是自身的特征值.

### 奇异值

非零矩阵 $A\in\mathbb C^{m\times n}$, 设其秩为 $r$, 其 $s$ 个奇异值按降序排列:
$$\sigma_1\geqslant \sigma_2\geqslant \dotsc\geqslant \sigma_r >0=\sigma_{r+1}=\dotsc=\sigma_s$$

奇异值具有如下性质:

0. 奇异值与奇异值分解的方式无关, 只与矩阵本身有关.
1. 奇异值均为非负实数, 且恰有 $r$ 个非零.
2. 若 $m\geqslant n$ 则奇异值的平方对应 $A^*A$ 所有特征值, 否则若 $m<n$ 是 $AA^*$ 的所有特征值. 
3. 若 $m\geqslant n$ 则右奇异向量的对应 $A^*A$ 的特征向量, 否则若 $m<n$ 是 $AA^*$ 的特征向量.
4. 最大奇异值是 2范数: $\sigma_1 = \Vert A\Vert_2$.
5. 酉不变性: 若 $Q_1,Q_2$ 为酉矩阵, 则 $Q_1AQ_2$ 的奇异值与 $A$ 的奇异值相同.

### 像空间与核空间

非零矩阵 $A\in \mathbb C^{m\times n}$ 可以做约简的奇异值分解 $A=UD_+V^*$, 其中设 $D_+$ 为 (满秩的) 正定对角阵.

$${\rm Range}(A) = {\rm Range}(U),\quad {\rm Ker}(A) = {\rm Ker}(V^*)$$

证: 
(1)
$$y\in {\rm Range}(A) \ \Rightarrow\  y = UD_+V^*x\  \Rightarrow\  y \in {\rm Range}(U)\\
y \in {\rm Range}(U)\ \Rightarrow\  y = Ux\ \Rightarrow\  y = UD_+V^*(VD_+^{-1}x)\  \Rightarrow\  y\in {\rm Range}(A) $$

(2)
$$x\in {\rm Ker}(A)\  \Rightarrow\  UD_+V^*x = 0 \ \Rightarrow\  V^*x = D_+^{-1}U^*(UD_+V^*x)=0
\ \Rightarrow\  x \in {\rm Ker}(V^*)\\
y \in {\rm Ker}(V^*)\ \Rightarrow\  V^*x = 0\ \Rightarrow\  UD_+V^*x = 0 \ \Rightarrow\  y\in {\rm Ker}(A) $$

## Moore-Penrose 逆

#### Moore-Penrose 逆

又称伪逆 (pseudoinverse) 或广义逆. 非零矩阵 $A\in \mathbb C^{m\times n}$ 可以做约简的奇异值分解 $A=UD_+V^*$, 其中设 $D_+$ 为 (满秩的) 正定对角阵. 则定义其伪逆 $A^\dag = VD_+^{-1}U^*$. 

则伪逆满足如下性质:

1. $AA^\dag A = A$, $\quad A^\dag AA^\dag = A^\dag$.
2. $AA^\dag$ 与 $A^\dag A$ 均为 Hermite 方阵.
   
证: (1)
$$AA^\dag A = UD_+V^*VD_+^{-1}U^*UD_+V^* = UD_+V^*,\quad VD_+^{-1}U^*UD_+V^*VD_+^{-1}U^*=VD_+^{-1}U^*$$

(2)

$$AA^\dag = UD_+V^*VD_+^{-1}U^* = UU^*,\quad A^\dag A=VD_+^{-1}U^*UD_+V^*=VV^*$$

#### 唯一性

非零矩阵 $A$ 满足上述两条 (实际上是四条) 的 $A^\dag$ 是唯一的, 因此伪逆是唯一的, 与奇异值分解的方式无关.

证: 假设 $AXA = AYA = A,\quad XAX=X,\quad YAY=Y$ 且 $AX,XA,AY,YA$ 均为 Hermite 矩阵.

$$X=XAXAX=XAYAX=(XA)^*(YA)^*X=A^*X^*A^*Y^*X=A^*Y^*X=YAX$$
$$Y=YAYAY=YAXAY=Y(AX)^*(AY)^*=YX^*A^*Y^*A^*=YX^*A^*=YAX$$

说明 $X=Y$, 故 $X$ 是唯一的.

#### 特例

由唯一性可见, 若 $A$ 是可逆矩阵, 则 $A^\dag = A^{-1}$. 
若 $A$ 行满秩, 则 $A^\dag = A^*(AA^*)^{-1}$.
若 $A$ 列满秩, 则 $A^\dag = (A^*A)^{-1}A^*$.

#### 最小二乘法

对于最小二乘问题 $\min \Vert Ax-b\Vert_2^2$, 则 $x = A^\dag b$  是所有最小二乘解中, 二范数最小的 (之一).

证: 熟知任何最小二乘解 $y$ 满足 $A^*Ay=A^*b$. 

令 $x = A^\dag b$, 若 $A^*Ay = A^*b = A^*Ax$, 则 $A^*A(y-x)=0$.

$$\Vert y\Vert_2^2 = \Vert x\Vert_2^2 +\Vert y-x\Vert_2^2 + 2\Re \left(x^*(y-x)\right)\geqslant
\Vert x\Vert_2^2 + 2\Re \left(x^*(y-x)\right) $$

设 $A$ 的奇异值分解为 $A = U_rDV_r^*$, 其中 $U_r,D,V_r^*$ 的形状为 $m\times r, r\times r, r\times n$. 
则 

$$0=A^*A(y-x) = V_rD^2V_r^*(y-x).$$

从而 $$V_r^*(y-x) = D^{-2}V_r^* \left(V_rD^2V_r^*(y-x)\right) = 0.$$

于是 $x^*(y-x) = b^*U_rD^{-1}V_r^*(y-x) = 0$, 证毕.

### 极分解

奇异值分解矩阵 $A=Q_1DQ_2^*$, 则可写作 $A=UP$, 其中 $U=Q_1Q_2^*$ 为酉矩阵, $P=Q_2DQ_2^*$ 是半正定矩阵.

显然 $P= \sqrt {A^*A}$, 且 ${\rm det}(P)=|{\rm det}(A)|$, $\Vert P\Vert_2=\Vert A\Vert_2$. 

由于该分解形似 $z=e^{i\theta}\cdot r$, 故称为极分解 (polar decomposition).

#### 推论

若方阵 $A$ 满足 $\Vert A^*A - I\Vert_2\leqslant \epsilon$, 则存在酉矩阵 $U$ 使得 $\Vert A - U\Vert_2\leqslant \sqrt \epsilon$.

证: 作极分解 $A=UP$ 其中 $U$ 为酉矩阵, $P$ 半正定. 下证 $U$ 符合要求.

$$\epsilon\geqslant \Vert A^*A-I\Vert_2 = \Vert P^2 - I\Vert_2\\

\ \Rightarrow\ |\lambda(P) - 1|\leqslant \sqrt{|\lambda(P)^2 - 1|}\leqslant \sqrt \epsilon
\ \Rightarrow\ \Vert A - U\Vert_2=\Vert P -I\Vert_2\leqslant \sqrt \epsilon$$

注: 修改证明亦可作出局部更紧的估计 $\Vert A - U\Vert_2\leqslant \epsilon$.

In [9]:
import numpy as np
n = 100
for i in range(5):
    A = np.random.randn(n,n)
    U, D, V = np.linalg.svd(A)
    sigma1 = np.linalg.svd(A.T @ A - np.eye(n))[1][0]
    sigma2 = np.linalg.svd(A - U @ V)[1][0]
    print(sigma1**0.5 , ' >= ' , sigma2)

19.377533340609286  >=  18.403319261570278
20.052112514353368  >=  19.077032058755282
18.89337345437539  >=  17.919819250893944
18.742217507920166  >=  17.768876287998445
20.254205574302393  >=  19.27887677969621


## 经典角

若 $\mathcal X,\mathcal Y$ 是实有限维线性空间 $\mathcal V$ 的子空间, 且任取 
$\mathcal X,\mathcal Y$ 各自一组标准正交基 $X=[x_1,\dotsc,x_m]$, $Y=[y_1,\dotsc,y_n]$, 设矩阵
$A = [\langle x_i,y_j\rangle ] = X^TY$ 的所有奇异值为 
$$\sigma_1 \geqslant \dotsc \geqslant \sigma_{\min \{m,n\}}.$$

则称 $\arccos \sigma_{\min \{m,n\}+1-k}$ 为 $\mathcal X$ 与 $\mathcal Y$ 的第 $k$ 个经典角.

经典角与标准正交基的选取无关, 只与子空间本身有关. 

证: 由奇异值的酉不变性显然.

#### 特例

1. 若 $m=1,n=1$, 此时 $\mathcal X,\mathcal Y$ 均为高维空间的直线, 其经典角为夹角.
2. 若 $m=2,n=1$, 此时 $\mathcal X,\mathcal Y$ 均为高维空间的平面直线, 其经典角为平面与直线的夹角.

# 9 正规矩阵

## 正规矩阵

若复方阵 $A$ 满足 $AA^*=A^*A$, 则称它是正规矩阵 (normal matrix). 

对于复方阵 $A$, 以下几条两两等价:

1. $A$ 是正规矩阵, 即 $A^*A=AA^*$.
2. $A$ 可酉对角化, 即存在酉矩阵 $U$ 与对角阵 $D$, $U^*AU=D$. 
3. $A$ 的任意舒尔分解 $A=UDU^*$ 满足 $D$ 必为对角阵.
4. $A=X+iY$ 使得 $X,Y$ 均为 Hermite 阵且 $XY=YX$. 
5. $\Vert A\Vert_F^2 = \sum_{k=1}^n |\lambda_k|^2$
6. $A^*$ 可表示为 $A$ 的多项式, 即 $A^*=f(A)$.
7. $A$ 的任何特征向量是 $A^*$ 的特征向量.

证: 由于舒尔分解属于相似上三角化, $3\Rightarrow 2\Rightarrow 1$ 显然. 下先证 $1\Rightarrow 3$.

假设 $A^*A = AA^*$, 任作舒尔分解 $A=UDU^*$, 其中 $D$ 是上三角, 下证 $D$ 为对角阵. 注意正规矩阵的条件可以推出 $D^*D = DD^*$. 将 $D$ 任意分块成四块使左上块是方阵:$\left[\begin{matrix}D_1 & D_2\\  & D_3\end{matrix}\right]$, 则比较 $D^*D = DD^*$ 两个矩阵的左上角块:

$$D_1^*D_1 = D_1D_1^*+D_2D_2^*$$

从而 $$\Vert D_2\Vert_F^2 = {\rm tr}(D_2D_2^*) = {\rm tr}(D_1^*D_1 - D_1D_1^*) = 0$$

故 $D_2$ 为零矩阵. 由于分块的任意性, $D$ 为对角, 故 $1\Rightarrow 3$ 成立, 从而 1,2,3 互相等价.

<br>

$4\Rightarrow 1$ 显然, $1\Rightarrow 4$ 只需取 $X = \frac{A+A^*}{2}, Y=\frac{A-A^*}{2i}$. 

显然 $3\Leftrightarrow 5$ 因为任作舒尔分解 $A=UDU^*$, $A$ 的特征值模长平方和等于 $D$ 的对角线模长平方和, 总小于等于 $\Vert D\Vert_F^2$, 取等当且仅当 $D$ 对角.

$6\Rightarrow 1$ 显然, $2\Rightarrow 6$ 显然.

$6\Rightarrow 7$ 显然, 最后只需证 $7\Rightarrow 2$, 任作舒尔分解 $A=UDU^*$, 其中 $D$ 为上三角, 下证 $D$ 是对角阵. 

对于 $D=U^*AU$ 的任何特征向量 $u$, $U^*AUu= \lambda u \Rightarrow Uu$ 是 $A$ 的特征向量 $\Rightarrow A^*Uu = \mu Uu\Rightarrow U^*A^*Uu = \mu u$, 即推出 $u$ 也是 $U^*A^*U=D^*$ 的特征向量. 

设 
$$D=\left[\begin{matrix}d_{11} & d_{12} & \dotsc & d_{1n}\\
 & d_{22} & \dotsc & d_{2n}\\
 & & \ddots & \vdots\\
 & & & d_{nn}
\end{matrix}\right],
D^*=\left[\begin{matrix}\overline{ d_{11}} & &  &\\
\overline{ d_{12}} & \overline{ d_{22}} & & \\
\vdots & \vdots & \ddots & \\
\overline{ d_{1n}} &\overline{ d_{2n}} &\dotsc & \overline{d_{nn}}
\end{matrix}\right]$$

注意 $[1,0,\dotsc,0]^T$ 是上三角阵 $D$ 的特征向量, 故其也是 $D^*$ 的特征向量, 从而代入知
$$\overline{ d_{12}} = \dotsc = \overline{ d_{1n}} = 0$$

进一步, $[0,1,0,\dotsc,0]^T$ 是 $D$ 的特征向量, $\overline{ d_{23}} = \dotsc = \overline{ d_{2n}} = 0$, 
继续下去即得 $D$ 为对角阵.