# Descomposición en valores singulares (SVD)

## Definición

La SVD generaliza la EVD a matrices rectangulares, del tipo $\mathbf{A}\in\mathbf{R}^{m\times n}$:
$$\mathbf{A}=\mathbf{U}\mathbf{S}\mathbf{V}^t%
=\sigma_1\boldsymbol{u}_1\boldsymbol{v}_1^t+\cdots+\sigma_r\boldsymbol{u}_r\boldsymbol{v}_r^t$$
* $\mathbf{U}\in\mathbf{R}^{m\times m}$ es una matriz de columnas ortonormales ($\mathbf{U}^t\mathbf{U}=\mathbf{I}$) que llamamos **vectores singulares izquierdos**
* $\mathbf{S}\in\mathbf{R}^{m\times n}$ incluye $r=\min(m, n)$ **valores singulares** $\sigma_i\geq 0$ en su diagonal; ceros en el resto
* $\mathbf{V}\in\mathbf{R}^{n\times n}$ es una matriz de filas y columnas ortonormales ($\mathbf{V}^t\mathbf{V}=\mathbf{V}\mathbf{V}^t=\mathbf{I}$); sus columnas son los **vectores singulares derechos**

## Conexión entre la SVD y la EVD

Si $\mathbf{A}$ es una matriz cuadrada, real, simétrica y definida positiva, se cumple que:
* Los valores singulares son los valores propios
* Los vectores singulares izquierdos y derechos son los vectores propios (salvo cambios de signo):
$$\;\mathbf{A}=\mathbf{U}\mathbf{S}\mathbf{V}^t=\mathbf{U}\mathbf{S}\mathbf{U}^t=\mathbf{U}\mathbf{S}\mathbf{U}^{-1}$$

**Ejemplo:** $\;\mathbf{X}^t=\begin{bmatrix}-1&0&2&3\\-1&2&0&3\end{bmatrix}$

In [1]:
import numpy as np

X = np.array([ [-1, -1], [0, 2], [2, 0], [3, 3] ])
A = np.cov(X.T, bias=True)
L, E = np.linalg.eigh(A)
i = L.argsort()[::-1]; L = L[i]; E = E[:,i]
print("EVD:\n", L, "\n", E, "\n")
U, S, Vt = np.linalg.svd(A)
print("SVD:\n", U, "\n", S, "\n", Vt)

EVD:
 [4. 1.] 
 [[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]] 

SVD:
 [[-0.70710678 -0.70710678]
 [-0.70710678  0.70710678]] 
 [4. 1.] 
 [[-0.70710678 -0.70710678]
 [-0.70710678  0.70710678]]


## SVD truncada

Sea $\mathbf{A}=\mathbf{U}\mathbf{S}\mathbf{V}^t$ la SVD de una matriz $\mathbf{A}\in\mathbf{R}^{m\times n}$. Sea
$\mathbf{\hat{A}}_K=\mathbf{U}_K\mathbf{S}_K\mathbf{V}_K^t$ una aproximación de $\mathbf{A}$ de rango $K$ construida a partir de sus $K$ mayores valores singulares, junto con sus $K$ vectores singulares asociados, izquierdos y derechos.
Se puede comprobar que $\mathbf{\hat{A}}_K$ es la mejor aproximación de $\mathbf{A}$ en norma Frobenius (al cuadrado),
$\lVert\mathbf{A}-\mathbf{\hat{A}}_K\rVert_F^2$.



## PCA con la SVD

Sea $\mathbf{X}\in\mathbb{R}^{N\times D}$ una matriz de datos **centrada** y sea $\mathbf{\Sigma}=\frac{1}{N}\mathbf{X}^t\mathbf{X}$ su matriz de covarianzas empírica. Podemos reducir la dimensión de $\mathbf{X}$ a $K$ dimensiones mediante PCA, a partir de la descomposición propia de $\mathbf{\Sigma}$ truncada con los $K$ mayores valores propios, $\mathbf{E}_K\boldsymbol{\Lambda}_K\mathbf{E}_K^t$:
$$\operatorname{PCA}(\mathbf{X})=\mathbf{X}\mathbf{E}_K%
\quad\text{con}\quad%
\mathbf{E}_K=(\boldsymbol{e}_1, \dotsc, \boldsymbol{e}_K)$$
Nótese que se ha omitido el centrado de datos ya que $\mathbf{X}$ se asume centrada.

Considérese la SVD $K$-truncada de $\mathbf{X}$, $\mathbf{\hat{X}}_K=\mathbf{U}_K\mathbf{S}_K\mathbf{V}_K^t$. Se puede comprobar que vectores singulares derechos de $\mathbf{X}$ son los vectores propios de $\mathbf{X}^t\mathbf{X}$ (y $\mathbf{\Sigma}$), por lo que $\mathbf{V}_K=\mathbf{E}_K$. Además, los valores propios de $\mathbf{\Sigma}$ pueden hallarse a partir de los valores singulares de $\mathbf{X}$ como $\lambda_k=\sigma_k^2/N$. En definitiva, podemos calcular PCA con la SVD:
$$\operatorname{PCA}(\mathbf{X})=\mathbf{X}\mathbf{V}_K%
\approx\mathbf{U}_K\mathbf{S}_K\mathbf{V}_K^t\mathbf{V}_K%
=\mathbf{U}_K\mathbf{S}_K$$
En general, por motivos computacionales, el cálculo de PCA se suele hacer con la SVD en lugar de la EVD.

**Ejemplo:** $\;\mathbf{X}^t=\begin{bmatrix}-1&0&2&3\\-1&2&0&3\end{bmatrix}$

In [2]:
import numpy as np

X = np.array([ [-1, -1], [0, 2], [2, 0], [3, 3] ])

print("Datos centrados:")
m = np.mean(X, axis=0)
X = X - m
print(X)

print("\nPCA con la EVD:\n")
A = np.cov(X.T, bias=True)
L, E = np.linalg.eigh(A)
i = L.argsort()[::-1]; L = L[i]; E = E[:,i]
e1 = E[:, 0]
print("e1: ", e1, "\nPCA:", X @ e1)

print("\nPCA con la SVD:\n", )
U, S, Vt = np.linalg.svd(X)
v1 = Vt[:, 0]
print("v1: ", v1, "\nPCA:", X @ v1)
u1 = U[:, 0]
s1 = S[0]
print("\nu1: ", u1, "s1: ", s1, "\nPCA:", u1 * s1)

Datos centrados:
[[-2. -2.]
 [-1.  1.]
 [ 1. -1.]
 [ 2.  2.]]

PCA con la EVD:

e1:  [0.70710678 0.70710678] 
PCA: [-2.82842712  0.          0.          2.82842712]

PCA con la SVD:

v1:  [0.70710678 0.70710678] 
PCA: [-2.82842712e+00  2.22044605e-16 -2.22044605e-16  2.82842712e+00]

u1:  [-7.07106781e-01  1.07843469e-16 -8.54210252e-18  7.07106781e-01] s1:  4.000000000000001 
PCA: [-2.82842712e+00  4.31373875e-16 -3.41684101e-17  2.82842712e+00]
