# Capítulo 16. Descomposición en valores singulares (Singular Value Decomposition)

Todas las matrices se pueden descomponer en valores singulares, lo que hace de este método que sea mas estable que otros. Ademas se usa en un amplio rango de aplicaciones como la inversa, los mínimos cuadrados, la compresión de imágenes, la eliminación de ruido y reducción de datos.

A = U · Σ · V<sup>T</sup>

Donde A es la matriz real m × n que deseamos descomponer, U es una matriz m × m, Σ (representada por la letra mayúscula griega sigma) es una matriz diagonal m × n, y V<sup>T</sup> es la traspuesta de V.

Los valores diagonales en la matriz Σ se conocen como los valores singulares de la matriz A original. Las columnas de la matriz U se llaman vectores singulares izquierdos de A, y las columnas de V se llaman vectores singulares derechos de A. Cada matriz rectangular tiene una descomposición de valor singular, aunque las matrices resultantes pueden contener números complejos y las limitaciones de la aritmética de coma flotante pueden causar que algunas matrices no se descompongan eficientemente.

## Cálculo

La SVD se puede calcular llamando a la función svd(). La función toma una matriz y devuelve los elementos U, Σ y V<sup>T</sup>. La matriz Σ diagonal se devuelve como un vector de valores singulares. La matriz V se devuelve en una forma traspuesta, V<sup>T</sup>. El siguiente ejemplo define una matriz de 3 × 2 y calcula la descomposición de valores singulares.

In [1]:
# singular-value decomposition
from numpy import array
from scipy.linalg import svd

# define a matrix
A = array([
[1, 2],
[3, 4],
[5, 6]])
A

array([[1, 2],
       [3, 4],
       [5, 6]])

In [2]:
# factorize
U, s, VT = svd(A)

In [3]:
U

array([[-0.2298477 ,  0.88346102,  0.40824829],
       [-0.52474482,  0.24078249, -0.81649658],
       [-0.81964194, -0.40189603,  0.40824829]])

In [4]:
s

array([9.52551809, 0.51430058])

In [5]:
VT

array([[-0.61962948, -0.78489445],
       [-0.78489445,  0.61962948]])

## Reconstrucción

La matriz original se puede reconstruir a partir de los elementos U, Σ y V<sup>T</sup>. Los elementos U, s y VT devueltos desde el svd() no se pueden multiplicar directamente. El vector s se debe convertir en una matriz diagonal usando la función diag(). Por defecto, esta función creará una matriz cuadrada que es m x m, relativa a nuestra matriz original. Esto causa un problema ya que el tamaño de las matrices no se ajusta a las reglas de la multiplicación de matrices, donde el número de columnas en una matriz debe coincidir con el número de filas en la matriz subsiguiente. Después de crear la matriz cuadrada Σ diagonal, los tamaños de las matrices son relativos a la matriz original m × n que estamos descomponiendo, de la siguiente manera:

U(m × m) · Σ(m × m) · V<sup>T</sup>(n × n)

Y queremos:

U(m × m) · Σ(m × n) · V<sup>T</sup> (n × n)

Podemos lograr esto creando una nueva matriz de valores cero que sea m × n (por ejemplo, más filas) y rellenemos la primera n × n parte de la matriz con la matriz diagonal cuadrada calculada a través de diag().

In [6]:
# reconstruct rectangular matrix from svd
from numpy import diag
from numpy import zeros

# create m x n Sigma matrix with the same size of A
Sigma = zeros((A.shape[0], A.shape[1]))
Sigma

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [7]:
# populate Sigma with n x n diagonal matrix
Sigma[:A.shape[1], :A.shape[1]] = diag(s)
Sigma

array([[9.52551809, 0.        ],
       [0.        , 0.51430058],
       [0.        , 0.        ]])

In [8]:
# reconstruct matrix
B = U.dot(Sigma.dot(VT))
B

array([[1., 2.],
       [3., 4.],
       [5., 6.]])

Esta complicación con Σ diagonal solo existe con el caso en que m y n no son iguales. La matriz diagonal se puede usar directamente al reconstruir una matriz cuadrada, de la siguiente manera.

In [9]:
# define square matrix
A = array([
[1, 2, 3],
[4, 5, 6],
[7, 8, 9]])
A

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [10]:
# factorize
U, s, VT = svd(A)
s

array([1.68481034e+01, 1.06836951e+00, 3.33475287e-16])

In [11]:
# create n x n Sigma matrix
Sigma = diag(s)
Sigma

array([[1.68481034e+01, 0.00000000e+00, 0.00000000e+00],
       [0.00000000e+00, 1.06836951e+00, 0.00000000e+00],
       [0.00000000e+00, 0.00000000e+00, 3.33475287e-16]])

In [12]:
B = U.dot(Sigma.dot(VT))
B

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

## Pseudoinversa

La pseudoinversa es la generalización de la matriz inversa para matrices cuadradas y matrices rectangulares donde el número de filas y columnas no son iguales. También se la llama Inversa de Moore-Penrose después de dos descubridores independientes del método o la inversa generalizada.

La pseudoinversa se denota como A<sup>+</sup>, donde A es la matriz que se está invirtiendo y + es un superíndice. La pseudoinversa se calcula usando la descomposición de valores singulares de A:

A<sup>+</sup> = V · D<sup>+</sup> · U<sup>T</sup>

Donde A<sup>+</sup> es la pseudoinversa, D<sup>+</sup> es la pseudoinversa de la matriz diagonal Σ y U<sup>T</sup> es la traspuesta de U. Podemos obtener U y V de la descomposición en valores singulares.

La pseudoinversa provee una manera de resolver la ecuación de regresión linear, especificamente cuando hay mas filas que columnas, que a menudo es el caso. NumPy provee la función pinv() para calcular la pseudoinversa de una matriz rectangular.

In [13]:
from numpy.linalg import pinv

# define matrix
A = array([
[0.1, 0.2],
[0.3, 0.4],
[0.5, 0.6],
[0.7, 0.8]])
A

array([[0.1, 0.2],
       [0.3, 0.4],
       [0.5, 0.6],
       [0.7, 0.8]])

In [14]:
# calculate pseudoinverse
B = pinv(A)
B

array([[-1.00000000e+01, -5.00000000e+00,  9.07607323e-15,
         5.00000000e+00],
       [ 8.50000000e+00,  4.50000000e+00,  5.00000000e-01,
        -3.50000000e+00]])

Podemos calcular la matriz pseudoinversa manualmente a través de la descomposición en valores singulares y comparar los resultados con la función pinv(). Primero debemos calcular la descomposición en valores singulares. A continuación, debemos calcular el recíproco de cada valor en la matriz s. Luego, la matriz s se puede transformar en una matriz diagonal con una fila adicional de ceros para que sea rectangular. Finalmente, podemos calcular la pseudoinversa de los elementos. La implementación específica es:

A<sup>+</sup> = V · D<sup>+</sup> · U<sup>T</sup>

In [15]:
# factorize
U, s, VT = svd(A)
s

array([1.42690955, 0.06268282])

In [16]:
# reciprocals of s
d = 1.0 / s
d

array([ 0.70081527, 15.95333376])

In [17]:
# create m x n D matrix
D = zeros(A.shape)
D

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [18]:
# populate D with n x n diagonal matrix
D[:A.shape[1], :A.shape[1]] = diag(d)
D

array([[ 0.70081527,  0.        ],
       [ 0.        , 15.95333376],
       [ 0.        ,  0.        ],
       [ 0.        ,  0.        ]])

In [19]:
# calculate pseudoinverse
B = VT.T.dot(D.T).dot(U.T)
B

array([[-1.00000000e+01, -5.00000000e+00,  9.07607323e-15,
         5.00000000e+00],
       [ 8.50000000e+00,  4.50000000e+00,  5.00000000e-01,
        -3.50000000e+00]])

## Reducción de dimensionalidad (Dimensionality Reduction)

Una aplicación popular de la descomposición en valores singulares es la reducción de dimensionalidad. Los datos con una gran cantidad de características (features), como más características (columnas) que observaciones (filas), se pueden reducir a un subconjunto más pequeño de características que son más relevantes para el problema de predicción. El resultado es una matriz con un rango inferior que se dice que se aproxima a la matriz original. Para hacer esto, podemos realizar una operación de descomposición en valores singulares en los datos originales y seleccionar los primeros k valores singulares más grandes en Σ. Estas columnas se pueden seleccionar desde Σ y las filas seleccionadas desde V<sup>T</sup>. Luego se puede reconstruir una B aproximada del vector A original.

B = U · Σ<sub>k</sub> · V<sup>T</sup><sub>k</sub>

En el procesamiento del lenguaje natural, este enfoque se puede utilizar en matrices de ocurrencias de palabras o frecuencias de palabras en documentos y se denomina Análisis Semántico Latente o Indización Semántica Latente. En la práctica, podemos retener y trabajar con un subconjunto descriptivo de los datos llamados T. Este es un resumen denso de la matriz o una proyección.

T = U · Σ<sub>k</sub>

Además, esta transformación se puede calcular y aplicar a la matriz original A así como a otras matrices similares.

T = A · V<sup>T</sup><sub>k</sub>

El siguiente ejemplo demuestra la reducción de datos con descomposición de valores singulares. Primero se define una matriz 3 × 10, con más columnas que filas. La descomposición en valores singulares se calcula y solo se seleccionan las dos primeras características. Los elementos se recombinan para dar una reproducción precisa de la matriz original. Finalmente, la transformación se calcula de dos formas diferentes.

In [20]:
# define matrix
A = array([
[1,2,3,4,5,6,7,8,9,10],
[11,12,13,14,15,16,17,18,19,20],
[21,22,23,24,25,26,27,28,29,30]])
A

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25, 26, 27, 28, 29, 30]])

In [21]:
# factorize
U, s, VT = svd(A)

# create m x n Sigma matrix
Sigma = zeros((A.shape[0], A.shape[1]))

# populate Sigma with n x n diagonal matrix
Sigma[:A.shape[0], :A.shape[0]] = diag(s)

# select
n_elements = 2
Sigma = Sigma[:, :n_elements]

In [22]:
U

array([[-0.19101157,  0.89266338,  0.40824829],
       [-0.51371859,  0.26348917, -0.81649658],
       [-0.8364256 , -0.36568503,  0.40824829]])

In [23]:
Sigma

array([[96.96573419,  0.        ],
       [ 0.        ,  7.25578339],
       [ 0.        ,  0.        ]])

In [24]:
VT

array([[-0.24139304, -0.25728686, -0.27318068, -0.2890745 , -0.30496832,
        -0.32086214, -0.33675595, -0.35264977, -0.36854359, -0.38443741],
       [-0.53589546, -0.42695236, -0.31800926, -0.20906617, -0.10012307,
         0.00882003,  0.11776313,  0.22670623,  0.33564933,  0.44459242],
       [-0.76308471,  0.57981078,  0.1426451 ,  0.09783039,  0.10006951,
         0.08192046, -0.02182071, -0.07111153,  0.02343386, -0.16969316],
       [-0.11442628, -0.24159965, -0.22978376,  0.9248098 , -0.07469427,
        -0.07119775, -0.05510443, -0.0470247 , -0.06011372, -0.03086524],
       [-0.03428472, -0.13813055, -0.29451801, -0.06190924,  0.92563949,
        -0.08203999, -0.06968687, -0.07007771, -0.10413301, -0.07085938],
       [ 0.02720949, -0.03009057, -0.34021657, -0.04844604, -0.07353916,
         0.90753768, -0.08548326, -0.09498217, -0.14800938, -0.11398001],
       [ 0.01041974,  0.09713855, -0.30600093, -0.03421776, -0.07067076,
        -0.10112181,  0.89362412, -0.12765928

In [25]:
# reconstruct
B = U.dot(Sigma).dot(VT)

ValueError: shapes (3,2) and (10,10) not aligned: 2 (dim 1) != 10 (dim 0)

In [None]:
# transform
T = U.dot(Sigma)
T

In [None]:
T = A.dot(VT.T)
T