# Descomposición por valores singulares y sistemas de recomendación.

Al igual que el análisis de componentes principales (PCA por sus siglas en inglés), la descomposición por valores singulares (SVD en inglés) es uno de los métodos más usuales para reducir la dimensión de nuestro conjunto de datos.

A diferencia del PCA, este método no requiere del uso de la matriz de **varianzas y covarianzas**.

+ **A favor:** Reduce la dimensión de nuestros datos, remueve el ruido que podrían contener.
+ **En contra:** Se pierde interpretación en los datos transformados.
+ **Tipo de datos:** Numéricos.

En estas notas, se expondrá la relación entre SVD y los sistemas de recomendación.
***

## Descomposición de la matriz de datos.
Sea $\mathbf{D_{m \times n}}$ una matriz de $m \times n$ la cual representa nuestro conjunto de datos. El método de descomposición por valores singulares nos dice que:

$$ \mathbf{D_{m \times n}} = \mathbf{U_{m \times m}} \mathbf{\Sigma_{m \times n}} \mathbf{V_{n \times n}^{T}}$$

en donde la matriz $\mathbf{\Sigma_{m \times n}}$ es una matriz con elementos igual a $0$, excepto posiblemente, en su diagonal. Estos valores distintos de cero, reciben el nombre de **valores singulares** y son igual a la raiz cuadrada de los eigenvalores de la matriz $\mathbf{D_{m \times n}} \mathbf{D_{m \times n}^{T}}$. Además, los valores en la diagonal están ordenados de mayor a menor.

## SVD en Python con numpy.
Es posible obtener factorización anterior utilizando el paquete **numpy**, en particular, la función **svd** del módulo **linalg**.

In [39]:
import numpy as np
datos = np.matrix([[1,2,3], [4,5,6]])
num_renglones = datos.shape[0] # m
num_columnas = datos.shape[1] #n
U, sig, VT = np.linalg.svd(datos)

print('m es igual a ' + str(num_renglones))
print('n es igual a ' + str(num_columnas))
print('La dimensión de U es ' + str(U.shape))
print('La dimensión de sigma es ' + str(sig.shape))
print('La dimensión de V^T es ' + str(VT.shape))
print(sig) #No es una matriz!

m es igual a 2
n es igual a 3
La dimensión de U es (2, 2)
La dimensión de sigma es (2,)
La dimensión de V^T es (3, 3)
[9.508032   0.77286964]


Como podemos observar, la función **svd**, en lugar de regresar la matriz $\mathbf{\Sigma_{m \times n}}$, nos regresa un vector que representa la diagonal de esta matriz. Esto se hace por cuestiones de ahorro en la memoria, recuerde que el resto de los elementos es igual a cero.

Para poder obtener $\mathbf{\Sigma_{m \times n}}$, utilizaremos las funciones **zeros** y **fill_diagonal** de **numpy**

In [41]:
mat_sigma = np.zeros((num_renglones, num_columnas)) #matriz de ceros
np.fill_diagonal(mat_sigma, sig) #Se modifica la diagonal
print(mat_sigma)
print(mat_sigma.shape)

[[9.508032   0.         0.        ]
 [0.         0.77286964 0.        ]]
(2, 3)


Verifiquemos que la descomposición fue correcta

In [44]:
print('La matriz original es: ')
print(datos)
print('El producto de la descomposición es:')
print(U * mat_sigma * VT)

La matriz original es: 
[[1 2 3]
 [4 5 6]]
El producto de la descomposición es:
[[1. 2. 3.]
 [4. 5. 6.]]
