(VALVECSINGALGSVD)=

# 2.4 Valores, vectores singulares y algoritmos para calcular la SVD

```{admonition} Notas para contenedor de docker:

Comando de docker para ejecución de la nota de forma local:

nota: cambiar `<ruta a mi directorio>` por la ruta de directorio que se desea mapear a `/datos` dentro del contenedor de docker.

`docker run --rm -v <ruta a mi directorio>:/datos --name jupyterlab_optimizacion -p 8888:8888 -d palmoreck/jupyterlab_optimizacion:2.1.4`

password para jupyterlab: `qwerty`

Detener el contenedor de docker:

`docker stop jupyterlab_optimizacion`

Documentación de la imagen de docker `palmoreck/jupyterlab_optimizacion:2.1.4` en [liga](https://github.com/palmoreck/dockerfiles/tree/master/jupyterlab/optimizacion).

```

---

Nota generada a partir de [liga](https://www.dropbox.com/s/s4ch0ww1687pl76/3.2.2.Factorizaciones_matriciales_SVD_Cholesky_QR.pdf?dl=0).

```{admonition} Al final de esta nota el y la lectora:
:class: tip

* Aprenderá algunas definiciones y resultados de los valores y vectores singulares.

* Se proporcionará una lista de algoritmos para calcular la descomposición en valores singulares.

```

En esta nota **asumimos** que $A \in \mathbb{R}^{m \times n}$.

## Valor singular

```{admonition} Definición

El número $\sigma$ se denomina valor *singular* de $A$ si $\sigma = \sqrt{\lambda_{A^TA}} = \sqrt{\lambda_{AA^T}}$ donde: $\lambda_{A^TA}$ y $\lambda_{AA^T}$ es eigenvalor de $A^TA$ y $AA^T$ respectivamente.

```

```{admonition} Observación
:class: tip

La definición se realiza sobre $A^TA$ o $AA^T$ pues éstas matrices tienen el mismo espectro y además sus eigenvalores son reales y no negativos por lo que $\sigma \in \mathbb{R}$ y de hecho $\sigma \geq 0$ (la raíz cuadrada se calcula para un eigenvalor no negativo).

```

## Vector singular izquierdo, vector singular derecho

```{admonition} Definición

Asociado con cada valor singular $\sigma$ existen vectores singulares $u,v$ que cumplen con la igualdad: 

$$Av = \sigma u .$$ 

Al vector $u$ se le nombra **vector singular izquierdo** y al vector $v$ se le nombra **vector singular derecho**.
```

## Descomposición en valores singulares (SVD)

Si $A \in \mathbb{R}^{mxn}$ entonces existen $U \in \mathbb{R}^{mxm}, V \in \mathbb{R}^{nxn}$ **ortogonales** tales que: $A = U\Sigma V^T$ con $\Sigma = diag(\sigma_1, \sigma_2, \dots, \sigma_p) \in \mathbb{R}^{mxn}$, $p = \min\{m,n\}$ y $\sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_p \geq 0$.

Por ejemplo para un caso $m < n$:

$$
\left [
\begin{array}{ccc}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}
\end{array}
\right ]
=
\left [
\begin{array}{cc}
u_{11} & u_{12}\\
u_{22} & u_{22}
\end{array}
\right ]
\left [
\begin{array}{ccc}
\sigma_1 & 0 & 0\\
0 & \sigma_2 & 0
\end{array}
\right ]
\left [
\begin{array}{ccc}
v_{11} & v_{21} & v_{31}\\
v_{12} & v_{22} & v_{32}\\
v_{13} & v_{23} & v_{33}
\end{array}
\right ]
$$

y para un caso $m > n$:

$$
\left [
\begin{array}{cc}
a_{11} & a_{12}\\
a_{21} & a_{22}\\
a_{31} & a_{32}
\end{array}
\right ]
=
\left [
\begin{array}{ccc}
u_{11} & u_{12} & u_{13}\\
u_{22} & u_{22} & u_{23}\\
u_{31} & u_{32} & u_{33}
\end{array}
\right ]
\left [
\begin{array}{cc}
\sigma_1 & 0\\
0 & \sigma_2\\
0 & 0
\end{array}
\right ]
\left [
\begin{array}{cc}
v_{11} & v_{21}\\
v_{12} & v_{22}\\
\end{array}
\right ]
$$

```{admonition} Definición

Las columnas de $U$ nombramos **vectores singulares izquierdos de $A$** y las columnas de $V$ nombramos **vectores singulares derechos de $A$** en $A = U \Sigma V^T$.

```

```{admonition} Comentarios

* La notación $\sigma_1$ hace referencia al valor singular más grande de A, $\sigma_2$ al segundo valor singular más grande de A y así sucesivamente.

* Para cualquier $A \in \mathbb{R}^{m \times n}$ se tiene $A = U \Sigma V^T$. Si $b = Ax = (U \Sigma V^T) x$ entonces:

$$\tilde{b} = U^Tb = U^T  (Ax) = U^T (U \Sigma V^T) x = \Sigma V^Tx = \Sigma \tilde{x}.$$

Lo anterior indica que el producto matricial $Ax$ para cualquier matriz $A$ es equivalente a multiplicar una matriz diagonal por un vector denotado como $\tilde{x}$ que contiene los coeficientes de la combinación lineal de las columnas de $V$ para el vector $x$ . El resultado de tal multiplicación es un vector denotado como $\tilde{b}$ que contiene los coeficientes de la combinación lineal de las columnas de $U$ para el vector $b$. En resúmen, la multiplicación $Ax$ es equivalente a la multiplicación por una matriz diagonal $\Sigma \tilde{x}$ salvo dos cambios de bases, ver [Change of basis](https://en.wikipedia.org/wiki/Change_of_basis), la base de los vectores singulares derechos (columnas de $V$) y la base de los vectores singulares izquierdos (columnas de $U$).


* La SVD que se definió arriba es nombrada *SVD full*, hay otras formas como la **truncada** en la que $U \in \mathbb{R}^{m \times k}$, $V \in \mathbb{R}^{nxk}$ y $\Sigma \in \mathbb{R}^{k \times k}$ con $k \leq r$, **compacta** donde $k=r$ y la *thin* en la que $k=p$:


<img src="https://dl.dropboxusercontent.com/s/8dq0jiw5em93k1j/svd_thin.png?dl=0" heigth="700" width="700">


donde: $r = rank(A)$.

Ver [reduced SVDs](https://en.wikipedia.org/wiki/Singular_value_decomposition#Reduced_SVDs).

```

## Algunas propiedades

Existen diferentes propiedades de los valores y vectores singulares, aquí se enlistan algunas:

* Si $rank(A) = r$ entonces $r \leq p$ y $\sigma_1 \geq \sigma_2 \geq \dots \geq \sigma_r > \sigma_{r+1} = \sigma_{r+2} = \dots = \sigma_p =  0$.

* Si $rank(A) = r$ entonces $A = \displaystyle \sum_{i=0}^r \sigma_i u_i v_i^T$ con $u_i$ $i$-ésima columna de U y $v_i$ $i$-ésima columna de V.

* Geométricamente los valores singulares de una matriz $A \in \mathbb{R}^{mxn}$ son las longitudes de los semiejes del hiperelipsoide $E$ definido por $E = \{Ax : ||x||_2 \leq 1\}$ y los vectores $u_i$ son direcciones de estos semiejes; los vectores $vi$'s tienen norma igual a $1$ por lo que se encuentran en una circunferencia de radio igual a $1$ y como $Av_i = \sigma u_i$ entonces $A$ mapea los vectores $v_i$'s a los semiejes $u_i$'s respectivamente:


<img src="https://dl.dropboxusercontent.com/s/1yqoe4qibyyej53/svd_2.jpg?dl=0" heigth="700" width="700">

* La SVD da bases ortogonales para los $4$ espacios fundamentales de una matriz: espacio columna, espacio nulo izquierdo, espacio nulo y espacio renglón:

<img src="https://dl.dropboxusercontent.com/s/uo9s9f0nqi43s6d/svd_four_spaces_of_matrix.png?dl=0" heigth="600" width="600">


* Si $t < r$ y $r=rank(A)$ entonces $A_t =  \displaystyle \sum_{i=0}^t \sigma_i u_i v_i^T$ (SVD truncada) es una matriz de entre todas las matrices con $rank$ igual a t, que es más *cercana* a A. La cercanía se mide con la norma **matricial** Euclidiana y de Frobenius, en el caso de Frobenius es la única matriz que cumple lo anterior.

## Algunas aplicaciones

Algunas de las aplicaciones de la SVD se encuentran:

* Procesamiento de imágenes y señales.
* Sistemas de recomendación (Netflix).
* Mínimos cuadrados.
* Componentes principales.
* Reconstrucción de imágenes.

## Métodos numéricos para calcular SVD


```{margin} 

En *NumPy* con [numpy.linalg.svd](https://numpy.org/doc/stable/reference/generated/numpy.linalg.svd.html) podemos calcular la SVD de $A$, obsérvese en la ayuda  que se regresa $V^T$ y no $V$.

```


Algunos métodos para calcular la descomposición en valores singulares de una matriz son:

* Método de rotaciones de Jacobi ***one sided***, ver {ref}`rotaciones de Jacobi para matrices simétricas <ROTJACMATSIM>` en el que se utiliza el ***two sided***.

* [Bidiagonalización](https://en.wikipedia.org/wiki/Bidiagonalization). 

* [Método de la potencia](https://en.wikipedia.org/wiki/Power_iteration) en el que se utiliza el **[cociente de Rayleigh](https://en.wikipedia.org/wiki/Rayleigh_quotient)** para acelerar convergencia, ver {ref}`método de la potencia para matrices simétricas <MPOTMATSIM>` y la {ref}`iteración por el cociente de Rayleigh para matrices simétricas <ITERCRAYMATSIM>`.

* [Algoritmo QR](https://en.wikipedia.org/wiki/QR_algorithm) que se basa en la factorización QR, ver {ref}`algoritmo QR o QR iteration (versión simple) para matrices simétricas <ALGQR>`.

* Métodos de descenso aplicados a problemas de optimización. 

* Para casos particulares como una matriz $A$ *sparse* o rala (gran cantidad de ceros) se utilizan algoritmos como [**Lanczos Golub Kahan bidiagonalization**](http://www.netlib.org/utk/people/JackDongarra/etemplates/node198.html) que forma parte de una amplia clases de métodos nombrados [**Krylov subspace methods**](https://en.wikipedia.org/wiki/Krylov_subspace) y el algoritmo de [**tridiagonalización Lanczos**](https://en.wikipedia.org/wiki/Lanczos_algorithm).

## Método de rotaciones de Jacobi *one sided*

En este método se utilizan rotaciones Givens, ver {ref}`transformaciones de rotación <TROT>`, para construir a la matriz ortogonal $V \in \mathbb{R}^{n \times n}$ y llegar a una matriz $W$: 

$$AV \rightarrow W \in  \mathbb{R}^{m \times n}$$

```{admonition} Comentario

Las normas Euclidianas de las columnas de $W$ construyen a los valores singulares $\sigma_i \forall i=1,\dots,r$:

$$W = [U_1 \quad 0]\left[ \begin{array}{cc}
\Sigma & 0\\
0 & 0
\end{array}
\right]$$

con $U_1 \in \mathbb{R}^{m \times r}$ matriz con columnas ortonormales: $U_1^TU_1=I_r$ y $\Sigma = diag(\sigma_1,\dots, \sigma_r)$ matriz diagonal.


Esta SVD es una forma compacta.
```

### Algoritmo: Método de rotaciones de Jacobi *one sided*

Se denota $A_k=[a_1^{(k)} a_2^{(k)} \cdots a_n^{(k)}]$ con cada $a_i^{(k)}$ como $i$-ésima columna de $A$.

> **Dados** $A \in \mathbb{R}^{m \times n}$ y $tol >0$ **definir** $A_0 = A$, $Q_0 = I_n$.
>
> **Repetir** el siguiente bloque para $k=0,1,2,\dots$
>> 1. Elegir un par de índices $(idx1,idx2)$ con alguna de las metodologías descritas en el bloque siguiente de comentarios.
>>
>> 2. Revisar si las columnas $a_i^{(k)}, a_j^{(k)}$ de $A^{(k)}$ son ortogonales (el chequeo se describe en los comentarios). Si son ortogonales se incrementa por uno la variable $num\text{_}columnas\text{_}ortogonales$. Si no son ortogonales: Calcular $\left[ \begin{array}{cc} a & c\\ c & b \end{array} \right]$ la submatriz $(i,j)$ de $A_k^{T}A_k$ donde: $a = ||a_i^{(k)}||_2^2, b=||a_j^{(k)}||_2^2, c=a_i^{T(k)}a_j^{(k)}$. 
>>
>> 3. Si no fueron ortogonales las columnas del paso 2, calcular las entradas $c: = \cos(\theta), s:=\sin(\theta)$ de la matriz de rotación $J_k$ que diagonaliza $\left[ \begin{array}{cc} a & c\\ c & b \end{array} \right]$.
>>
>> 4. Si no fueron ortogonales las columnas del paso 2, actualizar las columnas $i,j$ de $A_k$. 
>>
>> 5. Si no fueron ortogonales las columnas del paso 2, actualizar a la matriz $V_k$.
>
> **hasta** convergencia: satisfacer criterio de paro en el que se utiliza $num\text{_}columnas\text{_}ortogonales$ y $maxsweeps$.



````{admonition} Comentarios

* En el método se hace mención de **metodologías** que ayudan a elegir los índices del renglón y columna del par de entradas de $A$ que serán eliminadas (hacer cercanas a cero). Algunas de éstas son:

    * Elegir $(idx1,idx2)$ tales que $|a_{idx1,idx2}| = \displaystyle \max_{i \neq j}|a_{ij}|$.

    * **Ordenamiento cíclico por renglones:** elegir $(idx1, idx2)$ en el conjunto $(1,2),(1,3),\dots,(1,n),(2,3),(2,4)\dots,(n-1,n)$.

* En matrices mayores a dos dimensiones el método de rotaciones de Jacobi *one sided* requiere **ortogonalización repetida** (volver a hacer columnas ortogonales) del par de columnas de $A$ seleccionadas de iteraciones previas pues en cada iteración vuelven a ser no ortogonales en general. 

     
* ¿Cómo revisar si las columnas  $i,j$ de $A_k$ son ortogonales?  si se cumple que

$$\frac{|a_i^{T (k)}a_j^{(k)}|}{||a_i^{(k)}||_2||a_j^{(k)}||_2} < tol$$

con $tol$ un valor menor o igual a $10^{-8}$ entonces son ortogonales las columnas $a_i^{(k)}, a_j^{(k)}$ de $A_k$.

* Las entradas de la matriz $J_k$ son: $\tau = \frac{b-a}{2c}, t^*=\frac{signo(\tau)}{|\tau| + \sqrt{1+\tau^2}}, c = \frac{1}{\sqrt{1+t^{*2}}}, s = ct^*$.   

* Para actualizar las columnas $i,j$ de $A_k$ utilizar: para $\ell$ de $1$ a $n$:
    
    * $temp = A^{(k)}_{\ell i}$

    * $A_{\ell i}^{(k)} = c*temp - s*A_{\ell j}^{(k)}$

    * $A_{\ell j}^{(k)} = s*temp + c*A_{\ell j}^{(k)}$
        
* Para actualizar a la matriz $V_k$ utilizar: para $\ell$ de $1$ a $n$:
    
    * $temp = V_{\ell i}^{(k)}$

    * $V_{\ell i}^{(k)} = c*temp - s*V_{\ell j}^{(k)}$

    * $V_{\ell j}^{(k)} = s*temp + c*V_{\ell j}^{(k)}$
    
* El método de rotaciones de Jacobi para matrices simétricas utiliza como criterios de paro:

    * La cantidad $num\text{_}columnas\text{_}ortogonales$.
    
    * Número máximo de *sweeps*. Un *sweep* consiste de como máximo $\frac{n(n-1)}{2}$ rotaciones (pues depende de cuántas columnas son o no ortogonales) y en cada *sweep* se ortogonalizan $2$ columnas. El criterio de paro es de la forma:

```
while num_columnas_ortogonales != n(n-1)/2 && sweeps < max_sweeps
```

con `sweeps` contador de los *sweeps*.
    

* Al finalizar el método, los valores singulares calculados son las normas Euclidianas de cada columna de $A_k$ y las columnas normalizadas de $A_k$ son las columnas de $U$. 

````

**Preguntas de comprehensión**

1)¿Cómo se podría calcular el rank de una matriz si se han calculado previamente sus valores singulares?

2)Verdadero o falso:

a.Las columnas de la matriz V en la SVD de una matriz A, son eigenvectores de la matriz AA^T.

b.Si el rank de una matriz es r, entonces las columnas r+1 a m de la matriz U en la SVD de la matriz A de tamaño mxn nos dan una base del espacio nulo izquierdo de A.

c.La norma 2 de una matriz A es el mínimo valor singular de A.

3)¿Cuál es la mejor aproximación a una matriz A bajo la norma de Frobenius que se puede obtener sobre el espacio de matrices de rank igual a t ?

4)Menciona características y diferencias que tiene la *eigen decomposition* y la SVD de una matriz A (suponemos existe una *eigen decomposition*).

5)Menciona métodos numéricos para calcular la SVD de una matriz.

6)Menciona aplicaciones de la SVD de una matriz.

**Referencias**

1. L. Trefethen, D. Bau, Numerical linear algebra, SIAM, 1997.

2.  G. H. Golub, C. F. Van Loan, Matrix Computations, John Hopkins University Press, 2013. 

3. C. Meyer, Matrix Analysis and Applied Linear Algebra, SIAM, 2000.