----------------------------------- ----------------------------------- ----------------------------------- 
----------------------------------- ESPACIO PARA BANNER DE LA MAESTRIA -----------------------------------
----------------------------------- ----------------------------------- ----------------------------------- 

# Descomposición en Valores Singulares. Detalles Algebráicos.

Este *cuaderno* cubre detalles sobre el algebra de la descomposición en valores singulares. El objetivo del *cuaderno* es que aprenda el funcionamiento de la descomposición en valores singulares, y a construir e implementar este método. Al final encontrará ejercicios asociados a los contenidos del cuaderno para que los resuelva por su propia cuenta (no debe entregarlos).  Si tiene dudas sobre los contenidos o los ejercicios, consulte con el tutor.


**NO** es necesario editar el archivo o hacer una entrega. Los ejemplos contienen celdas con código ejecutable (`en gris`), que podrá modificar  libremente. Esta puede ser una buena forma de aprender nuevas funcionalidades del *cuaderno*, o experimentar variaciones en los códigos de ejemplo.

https://medium.com/the-andela-way/foundations-of-machine-learning-singular-value-decomposition-svd-162ac796c27d

## Introducción

En el cuaderno *Fundamentos Teóricos* mostramos que la SVD es la factorizacion de una matriz en 3 matrices. Entonces si tenemos una matrix real $X$ de dimensión $n\times k$, entonces su SVD esta representada por:

\begin{align}
\underset{n\times k}{\underbrace{X}}=\underset{n\times n}{\underbrace{U}}\underset{n\times k}{\underbrace{S}}\underset{k\times k}{\underbrace{V'}}
\end{align}

donde $U$ es una matriz $n\times n$ cuyas columnas son ortogonales $(U'U=I_{n})$, $V$ es una matriz $k\times k$ cuyas filas y columnas son también ortogonales $(V'V=VV'=I_{k})$, y $S$ es una matriz $n\times k$ que contiene los $r=min(n,k)$ valores singulares $(\sigma_{i}\geq0)$ en la diagonal principal, y 0 en el resto de la matriz. 

A $U$ se la suele denominar como la matriz de vectores singulares izquierdos, S como los valores singulares, y $V$ como los valores singulares derechos.





Para ilustrar como funciona la descomposición geometricamente, supongamos que tenemos un círculo en 2 dimensiones representado por 2 vectores $v_1$ y $v_2$ como lo muestra la siguiente figura:

<div style="max-width:500px">
<img src = "figs/rot1.png" />
</div>

La SVD implica aplicar una transformación matricial a estos dos vectores de forma tal que vamos a obtener dos nuevos vectores $\sigma_1 u_1$ y $\sigma_2 u_2$:

\begin{align}
XV=US 
\end{align}
donde V es la matriz cuyas columnas son los vectores $v_1$ y $v_2$, $X$ es la matriz de datos, S la matriz diagonal de $\sigma_1$ y $\sigma_2$ y U la matriz de los vectores $u_1$ y $u_2$. Esta transformación equivale a "estirar" el círculo como lo muestra la siguiente figura:

<div style="max-width:500px">
<img src = "figs/rot2.png" />
</div>

En este caso los valores singulars $\sigma$ son los factores que estiran. Notemos además que las columnas de $V$ son ortogonales, por lo que podemos hacer:

\begin{align}
XV&=US \\
XVV'&=USV' \\
X &=USV'
\end{align}

donde obtenemos la expresion original. 


So this is how you can decompose a matrix into three lower rank matrices.

Let’s look at a classical application of this. Imagine that we have a matrix A whose columns represent movies and the rows different users. The entries of the matrix are numbers 0 to 5 where 0 means a user does not like a certain movie and 5 means they really like a given movie as illustrated below:

Now imagine that the first 3 columns are the movies Avengers, StarWars and IronMan respectively(Sci-Fi movies). While the last 2 columns are the movies Titanic and Notebook (Romance movies).

After performing SVD on matrix A we get the matrices U𝚺V as illustrated below(using a tool like or sklearn):

Let’s take a closer look at these three matrices starting with U:

So the first column of U represents weights that would match each user’s preference to movies categorized under Sci-Fi while the second column of U represents weights that would match each user’s preference to movies under the romance category. For example, the first user greatly prefers sci-fi movies(0.13 score) compared to romance(0.02 score). As for the third column, we won’t consider it for now.

And for 𝚺,

The first diagonal entry represents the weight of the Sci-Fi category and the second diagonal entry represents the weight of the romance category.

And for V,

The columns depict the degree to which a movie belongs to a category. So, for example, we can see from the first column of V that the first movie(this would be Avengers) belongs heavily to the Sci-Fi(0.56 score) category and very little to the romance category(0.12 score).

    Note: we have not considered the third dimension of each matrix at all. Well, this is because when you look at matrix 𝚺, the third diagonal entry which represents the weight of a movie category has a small value(1.3 score). This is understandable because we only have two categories of movies. So most of the third dimension is considered as noise.

So its the above note that we use to perform dimensionality reduction to the matrices A. We do this by eliminating the third dimension of 𝚺, this would also mean eliminating the third column of U and the third row of V to produce the following new U, 𝚺 and, V:

So as you can see, the final matrices U𝚺V are smaller than the initial ones since we have eliminated the third dimension.

To confirm that eliminating the given rows and columns as we have done only affects the initial matrix A to a small extent. Let’s multiply the above three matrices to get matrix B below:

So Let’s compare this matrix B with the original matrix A below:

Just by looking at the above two matrices, you can tell that the difference between their elements is very small, in other words, the product of our final three matrices B(after SVD) ≈ A(before SVD):

Or mathematically this can be represented as the Frobenius norm. Which is the square root of the summation of the squares of the differences between the individual matrix entries. It can be represented by the equation below:

So this is how we are able to decompose a matrix into lower rank matrices without losing much of the important data.

It also helps to analyse and acquire important information concerning the matrix data.

There are many other applications of SVD other than the ones talked about in this article. Some of the others include data compression, solving the pseudo-inverse and search engines like Google use SVD to compute approximations of enormous matrices that provide compression ratios of millions to one. So searching for a term is much quicker.

So hopefully this reading can give you a clear picture of this fundamental linear algebra concept and its application in Machine Learning.

## Ejercicios teóricos


Resuelva los siguientes problemas. Intente realizarlos primero sin ayuda de `Python` y luego verifique su solución con los comandos de `Python`.

1. Demuestre que la Descomposición en Valores Singulares encuentra la dirección para la cual la matriz original estira más el vector unitario. Parta de la siguiente expresión:
$$\argmax_{x:||x||=1} ||Bx||$$
2. $B$ es una matriz cuadrada de tamaño $m\times m$ la cual sus filas son ortonormales. Demuestre que las columnas de $B$ también son ortonormales.
3. Suponga que $C$ es una matriz cuadrada invertible y que la Descomposición en Valores Singulares de $C$ es $C=\sum_i \sigma_i u_i v_i^T$. Encuentre la inversa de $C$.
4. Encuentre la DVS o SVD de la matriz $A$, $U\Sigma V^T$, en donde $A = \begin{bmatrix} 3 & 2 & 2 \\ 2 & 3 & -2 \end{bmatrix}$
5. Demuestre que los vectores singulares izquierdos de una matriz $D$ son los vectores singulares derechos de $D^T$

---