# Descomposición de Valor Singular

La descomposición de valor singular SVD, es una factorización de matrices reales (o complejas) que generaliza el proceso de diagonalización.

Esta factorización es aplicable a cualquier matriz rectangular de $m \times n$, a diferencia de la descomposición en eigenvalores y eigenvectores, que requieren que $M$ sea cuadrada y que sus eigenvectores generen al espacio completo.

La factorización para una matriz $M$ es escrita usualmente como

$$
M = U \Sigma V^T
$$

Donde $U$ es una matriz ortogonal de $m \times m$, $\Sigma$ es una matriz diagonal de $m \times n$ con valores no negativos y $V$ es una matriz ortogonal de $n \times n$. 

A los valores de la diagonal de $\Sigma$, los denotamos como $\sigma_i$, cada uno de ellos es lo que llamaremos, $\textbf{Valor singular de M}$.

Esta factorización no es única. En algunas ocasiones, se suelen acomodar los $\sigma_i$ en forma descendente, haciendo de esta manera a $\Sigma$ única pero no necesariamente a $U$ y $V^T$.

## Interpretación Geométrica

En el caso de que $M$ sea una matriz cuadrada e invertible, se tiene que $U,V$ al ser matrices ortogonales, son el grupo de rotaciones o reflexiones en un $\mathbb{R}^n$ y la matriz $\Sigma$ escala cada coordenada por el factor correspondiente en la diagonal.

De esta manera, podemos ver que toda transformación lineal invertible, se puede descomponer como una rotación, un escalamiento y otra rotación. 

Por otro lado, si ocurre que $M$ tiene dimensiones $m \times n$ es una transformación linela que va de $\mathbb{R}^n \longrightarrow \mathbb{R}^m$. En este caso, tenemos que la matriz $M$, sería la composición de una rotación en $\mathbb{R}^n$ dada por $V^T$, una escalación y cambio de espacio vectorial a $\mathbb{R}^m$ y una rotación en $\mathbb{R}^m$. 

Notamos que en general, $\text{rank}(M) \leq \min\{ m,n \}$, es decir, el máximo rango que puede tener nuestra matriz, es el del menor número ya sea de columnas o renglones.

Es decir, $M$ puede mapear un espacio de mayor dimensión a un espacio de menor dimensión $m>n$ o de un espacio de menor dimensión a un espacio de mayor dimensión a uno de menor dimensión $m<n$.

Es importante notar que a diferencia de la descomposición espectral de una matriz ($\mathbf{Diagonalización}$), la factorización en valores singulares puede calcularse incluso en matrices cuyos eigenvectores no formen al espacio completo.

## Relación con las bases

Como $U$ es una matriz ortogonal, entonces $U = (U_1, U_2, ..., U_m)$ sus columnas $U_i$ con $1 \leq i \leq m$ forman una base ortonormal para $\mathbb{R}^m$, de la misma manera,

$$
V^T = \left( \begin{array}\\
 V_1^T \\
 V_2^T \\
 \vdots \\
 V_n^T
 \end{array}
 \right)
$$

Los renglones de $V^T$ forman una base ortonormal para $\mathbb{R}^n$. 

De esta manera, si $M$ es la matriz asociada a la transformación lineal $T$, se tiene que 

$$
\begin{array} \\
T(V_i) = \sigma_i U_i &  1 \leq i \leq \min\{ m,n \}
\end{array}
$$

Es decir, que nuestra matriz $M$, mapea a la base de $\mathbb{R}^n$ dada por los renglones de $V^T$ a la base de $\mathbb{R}^m$ dada por las columnas de $U$. 

En específico, si $m>n$, se tiene que esto ocurrirá para toda la base de $\mathbb{R}^n$, teniendo así las últimas $(m-n)$ columnas de $U$, poca relevancia para la descomposición de $M$.

Por otra parte, si $m<n$, se tiene que los primeros $m$ renglones de $V^T$ mapean por completo a $\mathbb{R}^m$, por lo que los últimos $(n-m)$ renglones de $V^T$ darán combinaciones lineas de los $U_i$, siendo poco relevantes para la factorización de $M$.

Lo anterior se puede ver directamente de la siguiente manera. Suponiendo el caso de $m>n$.

$$
M V_i = (U_1, U_2, ..., U_m) \left( \begin{array}\\
 \sigma_1 V_1^T \\
 \sigma_2 V_2^T \\
  \vdots \\
 \sigma_n V_n^T \\
 \mathbb{O}
 \end{array}
 \right)
 V_i
$$



Donde al ser $V^T$ ortogonal, sus renglones serán ortonormales. Además, notamos que $V_i^T V_j = <V_i, V_j>$ que por la condición de ortonormalidad, se tiene que

$$
<V_i, V_j> = \delta_{ij} \left\{ \begin{array} \\
 1 & si & i=j \\
 0 & si & i \neq j
 \end{array}
 \right.
$$

Por lo que

$$
MV_i = (U_1, U_2, \ ... \ ,\ U_m) \sigma_i e_i
$$

Donde $e_i$ es el i-ésimo vector canónico. Teniendo por último los deseado.

$$
T(V_i) = M V_i = \sigma_i U_i
$$

Notamos que al ser $m>n$, las últimas $(m-n)$ columnas de $U$ no tiene importancia, ya que se anulan con la matriz $\Sigma$. 

De esta manera, surge la idea de crear una factorización con matrices singulares reducida, en la cuál se descompone a la matriz $U = (\hat{U}, \tilde{U})$ y a la matriz $\Sigma$ como

$$
\Sigma =  \left( \begin{array}\\ \hat{\Sigma}\\ \tilde{\Sigma} \end{array} \right)
$$

Siendo nuestra descomposición reducida

$$
M = \hat{U} \hat{\Sigma} V^T
$$


Notamos que la matriz $\hat{U}$ es de $m \times n$, la matriz $\hat{\Sigma}$ es de $n \times n$ regresando aún una matriz de $m \times n$, pero se ha reducido la cantidad de columnas y renglones que carecían de importancia, manteniendo así, toda la información de $M$ pero con exactamente la información necesaria.

Para el caso de $m<n$, se consigue algo similar, descomponiendo a $\Sigma = (\hat{\Sigma} \tilde{\Sigma})$ y a $V^T$ como

$$
V^T =  \left( \begin{array}\\ \hat{V}^T\\ \tilde{V}^T \end{array} \right)
$$

Quedando la factorización

$$
M= U \hat{\Sigma} \hat{V}^T
$$

Al igual que en el caso anterior, se mantiene toda la información de $M$ pero en matrices con menores dimensiones.

## Prueba de la existencia de la factorización

Hasta ahora hemos hablado de las propiedades e interpretaciones de la factorización de nuestra matriz $M$, sin embargo hemos asumido su existencia, por lo que ahora probaremos esto y la misma prueba nos dará un algoritmo para su obtención

Probaremos primero que dada una matriz de $M$ de $m \times n$ arbitraria, la matriz

$$
X = M^T M
$$

Es una matriz de simétrica

Sean $[M]_{ij} = M_{ij}$ los elementos de $M$. Entonces por multiplicación de matrices, tenemos que

$$
[X]_{ij} = \sum_{k=1}^m [M^T]_{ik}[M]_{kj} = \sum_{k=1}^m M_{ki} M_{kj} \\
[X]_{ji} = \sum_{k=1}^m [M^T]_{jk}[M]_{ki} = \sum_{k=1}^m M_{kj}M_{ki}\\
\Rightarrow [X]_{ij} = [X]_{ji}
$$

Por lo que $X$ es una matriz simétrica, $X^T = X$.

Ahora, utilizando el $\textbf{Teorema de Descomposición Espectral}$, sabemos que existe una base de eigenvectores de $X$ que genera al espacio completo, es decir, que representando a esta matriz en la base de eigenvectores, podemos encontrar una matriz diagonal la cuál consiste en los vectores propios de $X$. Sea

$$
V=(V_1, V_2,\ ...\ , V_n)
$$

Donde $V_i$ es el i-ésimo eigenvector de $X$. De esta manera, se tiene que 


$$
V^T X V = D = \left( \begin{array}\\ \hat{D} & 0\\ 0 & 0 \end{array} \right)
$$

Donde $\hat{D}$ es una matriz diagonal de $r \times r$ cuyas entradas son los eigenvalores distintos de cero de $X$. En general, $r \leq \min \{ m,n \}$. 

Al igual que anteriormente, la existencia de ceros en nuestra matriz diagonal, nos permite reducir la expresión de la siguiente manera. 

$$
\left( \begin{array}\\
V_1^T \\
V_2 ^T
\end{array} \right)
X \left(\begin{array}\\ V_1 & V_2\end{array} \right) = 
\left( \begin{array}\\
 V_1^T X V_1 & V_1^T X V_2 \\
 V_2^T X V_1 & V_2^T X V_2
 \end{array} \right) = \left( \begin{array}\\ \hat{D} & 0\\ 0 & 0 \end{array} \right)
$$

Notamos entonces que en particular $V_1^T X V_1 = D$.

Definimos a $[D^{\pm 1/2}]_{ij} = \left\{ \begin{array}\\ (\sqrt{D_{ii}})^{\pm 1} & si  & i=j \\
0 & si & i \neq j \end{array} \right.$

Y definimos también

$$
U_1 = M V_1 D^{-1/2}
$$

Notamos que $D^{-1/2} D^{1/2}= \text{Id}_{r \times r}$, y que nuestra matriz $U_1$ tendrá dimensiones de $m \times r$. Así, se tiene que

$$
U_1 D^{1/2} V_1^T = (M V_1 D^{-1/2}) D^{1/2}V_1^T = M V_1 V_1^T = M
$$

Ahora, como $r \leq m$, para formar una base de ortonormal de $\mathbb{R}^m$ hacen falta $(m-r)$ vectores ortonormales a los obtenidos en $U_1$, que puede verificarse, es una matriz ortogonal. Escogemos $U_2$ con estos vectores ortonormales que completen la base de tal forma que

$$U = (U_1\ \ U_2)$$

Sea ortogonal, de esta manera. tenemos que $U$ es una matriz de $m \times m$. La dimensión de $U_2$ será $m \times (m-r)$.

De la misma manera, definimos a $\Sigma$ 

$$
\Sigma = \left( \begin{array}\\
  \left(\begin{array}\\
  D^{1/2} & 0 \\
  0 & 0 
  \end{array}\right) \\
 0
 \end{array} \right)
$$

Donde el cero de abajo tendrá una dimensión de $(m-r) \times n$ y la parte de arriba será de $r \times n$, siendo su dimensión en general de $m \times n$

De esta manera, al final tenemos que 

$$
( U_1 \ \ U_2) \left( \begin{array}\\
  \left(\begin{array}\\
  D^{1/2} & 0 \\
  0 & 0 
  \end{array}\right) \\
 0
 \end{array} \right)
\left( \begin{array}\\ V_1^T \\ V_2^T \end{array} \right) = 
(U_1\ \ U_2) \left( \begin{array}\\ D^{1/2} V_1^T\\ 0 \end{array} \right)
= U_1 D^{1/2}V_1^T = M
$$

Obteniendo así la factorización deseada

$$
M = U \Sigma V^T
$$

Es inmediato que de esta forma la matriz $M M^T$ tiene como eigenvectores las columnas de $U$, ya que

$$
M M^T = (U \Sigma V^T)\  (V \Sigma U^T) = U \Sigma \Sigma U^T = UDU^T
$$

Siendo $D$ la misma matriz obtenida anteriormente, por lo que $X = M^T M$ y $x^T$ comparten eigenvalores, los eigenvectores de $X$ son las columnas de $V$ y los eigenvalores de $X^T$ son las columnas de $U$. $U,V$ también son conocidos como eigenvectores izquierdo y derecho respectivamente y su relación con diagonalización de $X$ es que si $\lambda_i$ es un eigenvalor de $X$, entonces 

$$
\sigma_i = \sqrt{\lambda_i}
$$

Es un valor singular de $M$. 

## Ejemplo

Como dijimos al principio, esta factorización tiene ventajas sobre la factorización en eigenvectores, ya que esta factorización está disponible para todas las matrices, incluso para aquellas no diagonalizables.

Definamos 

$$
M = \left( \begin{array}\\
 0 & -1 \\
 1 & 0
\end{array} \right)
$$

Al querer calcular los eigenvalores de $A$, se tiene que

$$
p(\lambda) = \lambda^2 +1
$$

De esta manera, al trabajar únicamente en $\mathbb{R}^2$, no hay eigenvalores en nuestro campo, por lo que no podemos encontrar una factorización de eigenvectores en $\mathbb{R}^{2 \times 2}$. 

Ahora, calculemos con el procedimiento anterior la factorización de $M$. 

Notamos que $X = M^T M = \text{Id}$ Así, inmediatamente, se tiene 

$$
X = (e_1\ \ e_2) \text{Id} (e_1\ \ e_2)^T
$$

Por lo que $V =( e_1, e_2)$. Así, definiendo a $U$ como 

$$
U = M V D^{-1/2} = M \text{Id}\ \text{Id} = M
$$

Por lo que la factorización en de $M$ es

$$
M = \left( \begin{array}\\
 0 & -1 \\
 1 & 0
 \end{array} \right)
 \left( \begin{array}\\
 1 & 0 \\
 0 & 1
 \end{array} \right)
 \left( \begin{array}\\
 1 & 0 \\
 0 & 1
 \end{array} \right)
$$

Notamos que claramente, $U$, $V$ son ortogonales y $\Sigma$ es diagonal con los eigenvalores como elementos.

Para entender un poco mejor esto, veamos que nuestra matriz $M$, lo que realiza es una rotación de $\pi/2$ en el sentido positivo, por lo que no existe una dirección que deje invariante, así, no hay eigenvectores en $\mathbb{R}^2$ de esta matriz, sin embargo, supongamos lo siguiente.

Sea $V$ el espacio vectorial $\mathbb{R}^2$ con la base canónica y sea $W$ el espacio vectorial $\mathbb{R}^2$ con la base $\beta$

$$
\beta= \{ (0,1)^T, (-1,0)^T \}
$$

Y sea $T$ la transformación lineal tal que 

$$
T(v) = Mv
$$

De esta manera, la representación matricial de $T$ en las base canónica y $\beta$, será diagonal. Más aún, tendrá los valores singulares de $M$ en la diagoal misma.

Es decir, esta factorización nos permite dotar a nuestros espacio vectoriales de bases distintas de tal forma que en estas, la representación matricial de una tranformación lineal sea diagonal, a diferencia de la factorización de eigenvectores que únicamente nos deja dotar al mismo espacio de una sola base y es válido solo para transformaciones que van del mismo espacio, al mismo espacio.

## Matriz Pseudoinversa

Ahora, utilizaremos la factorización para obtener una matriz pseudo inversa de nuestra matriz $M$. 

Primero definiremos qué es lo que debe cumplir la matriz pseudo-inversa. A la matriz pseudoinversa de $A$, la denotaremos como $A^+$

1) $AA^{+}A = A$

2) $A^+ A A^+ = A^+$

3) $(AA^+)^T = AA^+$

4) $(A^+A)^T = A^+ A$

Ahora, siendo $M$ una matriz de $m \times n$ arbitraria, y siendo

$$
M = U \Sigma V^T
$$

La descomposición en valores singulares de $M$, definimos la pseudoinversa de $M$ como

$$
M^+ = V \Sigma^{+} U^T
$$

Donde $\Sigma^{+}$ será la matriz diagonal que tenga como entradas a los inversos de los valores singulares distintos de cero.

Notamos que

1) $ M M^+ M = U \Sigma V^T V \Sigma^+ U^T U \Sigma V^T = U \Sigma \Sigma^+ \Sigma V^T = U \Sigma V^T = M$

Utilizando que  $U,V$ son matrices ortogonales, y que $\Sigma \Sigma^+ = \Sigma^+ \Sigma$ y que el resultado, es una matriz que contiene una identidad de la misma dimensión que la matriz cuadrada de valores singulares, por lo que

$$
\Sigma \Sigma^+ \Sigma = \Sigma
$$

Con la explicación anterior, la verificación de las otras propiedades resulta similar, así que definida de esta forma $M^+$, podemos afirmar que $M^+$ es la matriz pseudoinversa de $M$.


$M(e_1) = e_2$

$M(e_2) = (-1,0)^T$

$$
Mx=b
$$

$$
x_0=M^+b
$$


$x_0$ minimiza lo siguiente

$$
||Mx - b ||
$$