# Práctica 11. Factorización SVD (Singular Value Decomposition).

## Factorización SVD

Dada una matriz $A$ de tamaño $m\times n$,  la factorización 
$SVD$ expresa $A$ en la forma $A = U\Sigma V^T$, donde $\Sigma$ es una matriz diagonal de tamaño $m\times n$ que contiene los valores singulares de $A$ (es decir, la raíz cuadrada de los autovalores de $AA^T$), $U$ es de tamaño $m\times m$ y almacena en sus columnas los llamados "left-singular vectors" de $A$, y $V$ es de tamaño $n\times n$ y almacena los "right-singular vectors" de $A$.

Más información en [numpy.linalg.svd() API](https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.linalg.svd.html)

In [1]:
import numpy as np

In [2]:
# Veamos un ejemplo concreto

from scipy.linalg import svd
#from scipy.linalg import diag

A = np.array([
    [0, 1, -1],
    [1, 1, 0]
])

print(f"A = \n {A}")

U, s, V = svd(A)

print(f"U = \n {U}")
print(f"s = \n {s}")
print(f"V^T = \n {V}")

# s contiene los valores singulares almacenados en un vector
# recuperamos la matriz S:
S = np.zeros((2, 3), dtype=float)
S[:2, :2] = np.diag(s)
print(f"S = \n {S}")

A = 
 [[ 0  1 -1]
 [ 1  1  0]]
U = 
 [[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]
s = 
 [1.73205081 1.        ]
V^T = 
 [[ 4.08248290e-01  8.16496581e-01 -4.08248290e-01]
 [ 7.07106781e-01  2.26762120e-16  7.07106781e-01]
 [-5.77350269e-01  5.77350269e-01  5.77350269e-01]]
S = 
 [[1.73205081 0.         0.        ]
 [0.         1.         0.        ]]


In [3]:
# Comprobamos que A = USV^T

np.allclose(A, np.dot(U, np.dot(S, V)))

True

## Una aplicación de la SVD: reducción de la dimensión

En varios problemas interesantes en **Machine Learning (ML)** nos encontramos con enormes matrices que acumulan muchas características (features, en inglés) - columnas de la matriz- y un número menor de observaciones (labels, en inglés) -filas de la matriz-. La idea consiste en extraer las características más relevantes para el modelo de predicción, reduciendo así el tamaño de la matriz de datos lo que acelera el proceso de aprendizaje del modelo usado en ML. 

Esta idea es recurrente en varias situaciones. Una de sus variantes más conocidas y útiles es el llamado **Análisis de Componentes Principales (PCA, por sus siglas en inglés)** que tanto se usa en Estadística.

Veamos ahora un ejemplo ilustrativo.


In [4]:
# definimos una matriz
A = np.array([
[1,2,3,4,5,6,7,8,9,10],
[11,12,13,14,15,16,17,18,19,20],
[21,22,23,24,25,26,27,28,29,30]
])
print(f"A = \n {A}")

# calculamos la factorización SVD de A
U, s, V = svd(A)

# creamos una matriz de zeros de tamaño m x n 
Sigma = np.zeros((A.shape[0], A.shape[1]))

# rellenamos Sigma con las valores singulares
Sigma[:A.shape[0], :A.shape[0]] = np.diag(s)

print(f"U = \n {U}")
print(f"S = \n {Sigma}")
print(f"V^T = {V}")

print(f"valores singulares = {s}")

# observamos que únicamente los dos primeros valores singulares son relevantes
# lo que sugiere reducir a dimensión 2


A = 
 [[ 1  2  3  4  5  6  7  8  9 10]
 [11 12 13 14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27 28 29 30]]
U = 
 [[-0.19101157 -0.89266338  0.40824829]
 [-0.51371859 -0.26348917 -0.81649658]
 [-0.8364256   0.36568503  0.40824829]]
S = 
 [[9.69657342e+01 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00]
 [0.00000000e+00 7.25578339e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 1.48879510e-15 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00]]
V^T = [[-0.24139304 -0.25728686 -0.27318068 -0.2890745  -0.30496832 -0.32086214
  -0.33675595 -0.35264977 -0.36854359 -0.38443741]
 [ 0.53589546  0.42695236  0.31800926  0.20906617  0.10012307 -0.00882003
  -0.11776313 -0.22670623 -0.33564933 -0.44459242]
 [ 0.09975293 -0.01037753  0.2398745

In [5]:
# seleccionamos dos elementos
n_elements = 2
Sigma = Sigma[:, :n_elements] # Sigma es ahora una matriz 3x2
print(f"S = \n {Sigma}")

V = V[:n_elements, :]  # V es ahora de tamaño 2x10
print(f"V =  \n {V}")

# reconstruimos una vez hemos reducido la dimensión
B = U.dot(Sigma.dot(V))
print(f"B = \n {B}")

# la información importante de los datos de la matriz original A 
# está contenida en la siguiente matriz
T = U.dot(Sigma)
print(f"T = \n {T}")

# cuya dimensión es
print(f"tamaño de T = {T.shape}")

# Por tanto, en la práctica se trabaja con la matriz T en lugar de la 
# original matriz de datos A.



S = 
 [[96.96573419  0.        ]
 [ 0.          7.25578339]
 [ 0.          0.        ]]
V =  
 [[-0.24139304 -0.25728686 -0.27318068 -0.2890745  -0.30496832 -0.32086214
  -0.33675595 -0.35264977 -0.36854359 -0.38443741]
 [ 0.53589546  0.42695236  0.31800926  0.20906617  0.10012307 -0.00882003
  -0.11776313 -0.22670623 -0.33564933 -0.44459242]]
B = 
 [[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10.]
 [11. 12. 13. 14. 15. 16. 17. 18. 19. 20.]
 [21. 22. 23. 24. 25. 26. 27. 28. 29. 30.]]
T = 
 [[-18.52157747  -6.47697214]
 [-49.81310011  -1.91182038]
 [-81.10462276   2.65333138]]
tamaño de T = (3, 2)


In [6]:
# como V es ortogonal y A = TV^T, también podemos calcular T como
T = A.dot(V.T)
print(T)

[[-18.52157747  -6.47697214]
 [-49.81310011  -1.91182038]
 [-81.10462276   2.65333138]]


La importancia de este procedimiento es tal que la librería **scikit-learn** 
de  Python para **Machine Learning** tiene implementada esta rutina directamente 
en la clase **TruncatedSVD**

Más información en [sklearn.decomposition.TruncatedSVD API.](http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html)
