# 第15章 奇异值分解
---
奇异值分解(singular value decomposition, SVD)是一种矩阵因子分解方法, 是线性代数的概念, 但在统计学中有广泛应用，PCA和LSA中都有应用，在本书中定义为基础学习方法.

## 奇异值分解定义与性质

### 定义

矩阵的奇异值分解是指将任意非零的$m\times n$实矩阵$A$表示为以下三个实矩阵乘积形式的运算
$$
A=U\mit\Sigma V^\mathrm T
$$
其中$U$是m阶正交矩阵, $V$是n阶正交矩阵, $\Sigma$是由降序排列的非负对角线元素组成的$m\times n$矩形对角矩阵.
> 如果n阶方阵$A$满足:
$$U^TU = I\quad(即U^{-1}=U^T)$$
那么称$U$为正交矩阵,简称正交阵

满足
$$\Sigma = diag(\sigma_1, \sigma_2, \cdots, \sigma_p) \\
\sigma_1 \geq \sigma_2 \geq  \cdots \geq \sigma_p \geq 0 \\
p = min(m, n)
$$
$U$的列向量$u_i \in \mathbb{R}^{m}$称为$A$的**左奇异向量**(left-singular vector), $V$的列向量$v_i \in \mathbb{R}^{n}$称为$A$的**右奇异向量**(right-singular vector), $\sigma_i$称为**奇异值**(singular value). 矩阵$A$的秩就等于非零奇异值的个数

In [61]:
import numpy as np

np.set_printoptions(suppress=True, precision=4)

In [30]:
# 5 X 4
A = np.array([[1, 0, 0, 0], [0, 0, 0, 4], [0, 3, 0, 0], [0, 0, 0, 0], [2, 0, 0, 0]])
A

array([[1, 0, 0, 0],
       [0, 0, 0, 4],
       [0, 3, 0, 0],
       [0, 0, 0, 0],
       [2, 0, 0, 0]])

In [31]:
u, sigma, v = np.linalg.svd(A)

In [32]:
u

array([[ 0.        ,  0.        , -0.4472136 ,  0.        , -0.89442719],
       [-1.        ,  0.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        , -1.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  0.        ,  1.        ,  0.        ],
       [ 0.        ,  0.        , -0.89442719,  0.        ,  0.4472136 ]])

In [33]:
s_ = np.vstack((np.diag(sigma), np.zeros(4)))
s_

array([[ 4.        ,  0.        ,  0.        ,  0.        ],
       [ 0.        ,  3.        ,  0.        ,  0.        ],
       [ 0.        ,  0.        ,  2.23606798,  0.        ],
       [ 0.        ,  0.        ,  0.        , -0.        ],
       [ 0.        ,  0.        ,  0.        ,  0.        ]])

In [34]:
v  # V^T

array([[-0., -0., -0., -1.],
       [-0., -1., -0., -0.],
       [-1., -0., -0., -0.],
       [-0., -0., -1., -0.]])

In [36]:
np.dot(np.dot(u, s_), v)

array([[1., 0., 0., 0.],
       [0., 0., 0., 4.],
       [0., 3., 0., 0.],
       [0., 0., 0., 0.],
       [2., 0., 0., 0.]])

矩阵的奇异值分解并不是唯一的

### 紧奇异值分解与截断奇异值分解

**紧奇异值分解**是与原始矩阵等秩的奇异值分解:
$$A=U_r\mit\Sigma_r V_r^\mathrm T$$
$\Sigma_r$是矩阵$\Sigma$前r个对角线元素得到.

In [10]:
u_r = u[:, :3]
sigma_r = s_[:3, :3]
v_r = v[:3, :]

In [11]:
np.dot(np.dot(u_r, sigma_r), v_r)

array([[1., 0., 0., 0.],
       [0., 0., 0., 4.],
       [0., 3., 0., 0.],
       [0., 0., 0., 0.],
       [2., 0., 0., 0.]])

**截断奇异值分解**

只取最大的k个奇异值($k < r$)对应的部分:
$$A_{m\times n}\approx U_{m \times k}\sum_{k\times k}V_{k \times n}^T$$
在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了.实际应用中提到的矩阵奇异值分解, 通常指截断奇异值分解.

In [12]:
# k =2
u_k = u[:, :2]
sigma_k = s_[:2, :2]
v_k = v[:2, :]

In [13]:
np.dot(np.dot(u_k, sigma_k), v_k)

array([[0., 0., 0., 0.],
       [0., 0., 0., 4.],
       [0., 3., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### 几何解释
从线性变换的角度理解奇异值分解, $A_{m\times n}$表示了一个从$n$维空间$\mathbf{R}^n$到$m$维空间$\mathbf{R}^m$的一个**线性变换**
$$
T:x\rightarrow Ax\\
x\in\mathbf{R}^n\\
Ax\in \mathbf{R}^m
$$

线性变换可以分解为三个简单的变换：
1. 坐标系的旋转或反射变换，$V^\mathrm{T}$
1. 坐标轴的缩放变换，$\mit\Sigma$
1. 坐标系的旋转或反射变换，$U$
---
#### 例 15.4

In [42]:
A = np.mat([[3, 1], [2, 1]])
u, s, vt = np.linalg.svd(A)

In [43]:
u

matrix([[-0.81741556, -0.57604844],
        [-0.57604844,  0.81741556]])

In [44]:
sigma = np.mat(np.diag(s))
sigma

matrix([[3.86432845, 0.        ],
        [0.        , 0.25877718]])

In [45]:
vt

matrix([[-0.93272184, -0.36059668],
        [-0.36059668,  0.93272184]])

In [46]:
# R^2 的标准正交基
e1 = np.mat([[1], [0]])
e2 = np.mat([[0], [1]])

In [47]:
# V^T旋转变换
vt_e1 = vt*e1
vt_e2 = vt*e2
vt_e1

matrix([[-0.93272184],
        [-0.36059668]])

In [48]:
#sigma 缩放变换
sigma_vt_e1 = sigma * vt_e1
sigma_vt_e2 = sigma * vt_e2
sigma_vt_e1

matrix([[-3.60434355],
        [-0.09331419]])

In [49]:
# U 旋转变换
u_sigma_vt_e1 = u * sigma_vt_e1  # Ae1
u_sigma_vt_e1

matrix([[3.],
        [2.]])

In [50]:
u_sigma_vt_e2 = u * sigma_vt_e2  # Ae2
u_sigma_vt_e2

matrix([[1.],
        [1.]])

### 主要性质

1. $AA^\mathrm{T}$和$A^\mathrm{T}A$的特征分解存在，且可由矩阵$A$的奇异值分解的矩阵表示；
 $$A^TA =(U\Sigma V^T)^T(U\Sigma V^T) = V(\Sigma^T \Sigma)V^T \\
 AA^T =(U\Sigma V^T)(U\Sigma V^T)^T = U(\Sigma \Sigma^T)U^T 
 $$
1. 奇异值, 左奇异向量, 右奇异向量之间的关系:  
  比较$AV = U\Sigma$两端第j列, 得到:
  $$Av_j = \sigma_j u_j, \quad j=1, 2, \cdots, n$$
  类似地, 由$A^TU = V\Sigma^T$得到:
  $$A^Tu_j = \sigma_jv_j, \quad j=1, 2, \cdots, n \\
   A^Tu_j = 0, \quad j=n+1, n+2, \cdots, m
  $$
1. 矩阵$A$的奇异值分解中，奇异值是唯一的，但是矩阵$U$和$V$不是唯一的，所以numpy.linalg.svd中有参数控制是否输出$U$和$V$
1. 矩阵A和$\Sigma$的秩相等, 等于正奇异值$\sigma_i$的个数r(包含重复的奇异值)

In [29]:
np.linalg.svd?

## 奇异值分解的计算
奇异值分解基本定了证明的过程蕴含了奇异值分解的计算方法.
1. 求$W = A^TA$的特征值$\lambda_i$和特征向量$v_i$
1. 求n阶正交矩阵$V = \begin{bmatrix} v_1 \ v_2 \ \cdots \ v_n \end{bmatrix}$ 
1. 求$m \times n$对角矩阵$\Sigma = diag(\sigma_1, \sigma_2, \cdots, \sigma_n)$ 
1. 求m阶正交矩阵U
  对A的前r个正奇异值,令
  $$u_j = \frac 1 {\sigma_j} Av_j, \quad j = 1, 2, \cdots, r$$
  得到
  $$U_1 = \begin{bmatrix} u_1 \ u_2 \ \cdots \ u_n \end{bmatrix}$$
  求$A^T$的零空间的一组标准正交基$\{u_{r+1}, u_{r+2}, \cdots, u_m\}$, 令 
  $$U_2 = \begin{bmatrix}u_{r+1}\ u_{r+2}\ \cdots \ u_m \end{bmatrix}$$
  并令
  $$U = \begin{bmatrix} U_1 \ U_2 \end{bmatrix}$$
1. 得到奇异值分解
---
### 例 15.5

In [51]:
A = np.mat([[1, 1], [2, 2], [0, 0]])

In [52]:
# 1  W的特征值和特征向量
W = A.T * A
W

matrix([[5, 5],
        [5, 5]])

## 矩阵奇异值分解与矩阵近似
奇异值分解也是一种矩阵近似的方法, 这个近似是定义在Frobenius范数意义下的.

### 矩阵的F(Frobenius)范数
矩阵$A \in \mathbb{R}^{m \times n}$的Frobenius范数定义为:
$$||A||_F = (tr(A^TA))^{1/2} = \left( \sum_{i=1}^{m}\sum_{j=1}^{n}a_{ij}^2\right)^{\frac 1 2}$$
就是将矩阵张成向量后的$L_2$范数.

引理: 设矩阵$A \in \mathbf{R}^{m \times n}$, A的奇异值分解为$U\Sigma V^T$, 其中$\Sigma = diag(\sigma_1, \sigma_2, \cdots, \sigma_n)$, 则
$$||A||_F = ||\Sigma||_F = (\sigma_1^2 + \sigma_2^2 + \cdots + \sigma_n^2)^{\frac 1 2}$$

### 矩阵的最优近似
奇异值分解是在平方损失(F范数)意义下对矩阵的最优近似, 即数据压缩
$$
\left\|A-X\right\|_F=\min_{S\in \mathcal M}\left\|A-S\right\|_F\\
\left\|A-X\right\|_F=(\sigma_{k+1}^2+\sigma_{k+2}^2+\cdots+\sigma_n^2)^\frac{1}{2}
$$
特别地, 若$A'=U\Sigma'V^T$, 其中
$$\Sigma' = \begin{bmatrix}\sigma_1 \\
& \ddots&  & &  0& \\ 
& & \sigma_k&  & &  \\
& & & 0 & &   \\
& 0&  &  & \ddots& \\
& & & &  &  0 
\end{bmatrix} = \begin{bmatrix} \Sigma_k & 0 \\ 0 & 0 \end{bmatrix}$$
则 $$\left\|A-A'\right\|_F=(\sigma_{k+1}^2+\sigma_{k+2}^2+\cdots+\sigma_n^2)^\frac{1}{2} = \min_{S\in \mathcal M}\left\|A-S\right\|_F$$
$A'$就是达到最优值的一个矩阵.

### 矩阵的外积展开式
用外积展开式对矩阵A的近似, 将A的奇异值分解看做矩阵$U\Sigma$和$V^T$的乘积
$$U\Sigma = \begin{bmatrix} \sigma_1u_1 & \sigma_2u_2 & \cdots& \sigma_nu_n\end{bmatrix} \\
V^T = \begin{bmatrix} v_1^T \\ v_2^T \\ \vdots \\ v_n^T \end{bmatrix}
$$
则
$$
\begin{aligned}
A&=\sigma_1u_1v_1^\mathrm{T}+\sigma_2u_2v_2^\mathrm{T}+\cdots+\sigma_nu_nv_n^\mathrm{T}\\
&=\sum_{k=1}^nA_k\\
&=\sum_{k=1}^n\sigma_ku_kv_k^\mathrm{T}
\end{aligned}
$$
其中，$u_kv_k^\mathrm{T}$为$m\times n$矩阵.  
设矩阵
$$A_k = \sigma_1u_1v_1^\mathrm{T}+\sigma_2u_2v_2^\mathrm{T}+\cdots+\sigma_ku_kv_k^\mathrm{T}$$
则$A_k$的秩为k, 并且$A_k$是秩为k的矩阵在F范数意义下A的最优近似矩阵.矩阵$A_k$是A的截断奇异值分解

In [65]:
A = np.mat([[0, 20, 5, 0 ,0], [10, 0, 0, 3, 0], [0, 0, 0, 0, 1], [0, 0, 1, 0, 0]])

In [66]:
u, sigma, vt = np.linalg.svd(A)

In [67]:
u

matrix([[ 0.9999, -0.    ,  0.    , -0.0118],
        [ 0.    ,  1.    ,  0.    , -0.    ],
        [ 0.    ,  0.    ,  1.    ,  0.    ],
        [ 0.0118,  0.    ,  0.    ,  0.9999]])

In [68]:
sigma

array([20.617 , 10.4403,  1.    ,  0.9701])

In [69]:
vt

matrix([[ 0.    ,  0.97  ,  0.2431,  0.    ,  0.    ],
        [ 0.9578, -0.    ,  0.    ,  0.2873,  0.    ],
        [-0.    , -0.    ,  0.    ,  0.    ,  1.    ],
        [-0.    , -0.2431,  0.97  ,  0.    ,  0.    ],
        [ 0.2873, -0.    ,  0.    , -0.9578,  0.    ]])