In [10]:
import numpy as np 
from scipy.linalg import svd, pinv
from sklearn.decomposition import TruncatedSVD

Todas las matrices tiene un SVD, lo que hace que la descomposición matricial SVD sea más estable que otros métodos.

# Que es la descomposición singular de valores

La descomposición SVD, es un método de descomposición matricial para reducir una matriz a sus partes constituyentes, con el objetivo de hacer ciertos cálculos matriciales más simples. NOs vamos a centrar en el SVD para matrices de valores reales y ignoraremos el caso de números complejos.

$$ A =  U\Sigma V{^T}$$

Donde A es una matriz de números reales de tamaño mxn la cual deseamos descomponer, U es una matriz mxm, sigma es una matriz diagonal de tamaño mxn y V es la matriz de tamaño nxn.

Los valores de la matriz diagonal son conocidos como valores singualares de la matriz original A. Las columnas de la matriz U son llamados vectores izquierdos y las columnas de la matriz V son llamadas vectores singulares derechos de A. El SVD es calculado mediante métodos iterativos numéricos, que no vamos a entrar en detalle.

# Calculando la descomposición singular de valores 

La descomposición singular de valores puede ser calculada en Python mediante la función **svd()**. Esta función toma como elemento de entrada una matriz y retorna las tres componentes. La matriz diagonal sigma es retornada como un vector de valores singulares.

In [2]:
#Nos generamos un array
A = np.array([[1, 2], [3, 4], [5, 6]])

#Hacemos la descomposición svd
U, s, VT = svd(A)

print(U)
print(s)
print(VT)

[[-0.2298477   0.88346102  0.40824829]
 [-0.52474482  0.24078249 -0.81649658]
 [-0.81964194 -0.40189603  0.40824829]]
[9.52551809 0.51430058]
[[-0.61962948 -0.78489445]
 [-0.78489445  0.61962948]]


# Reconstruyendo la matriz original 

La matriz original puede ser reconstruida a partir de los elementos U, s y VT. Estos elementos no pueden ser multiplicados directamente tal como los devuelve la función **svd**. El vector s debe de ser convertido a una matriz diagonal. Tras realizar este cambio, mediante la función **diag()** esto nos generará una matriz de tamaño mxm. Esto nos causa el problema de que nuestro producto de matrices no cumplen con los criterios del producto de matrices. Esto puede ser resuelto como se muestra a continuación

In [6]:
# Generamos un array 
A = np.array([[1, 2], [3, 4], [5, 6]])

#Hacemos la descomposición 
U, s, VT = svd(A)

#Nos creamos una matriz sigma de tamaño mxn
Sigma = np.zeros((A.shape[0], A.shape[1]))

Sigma[:A.shape[1], :A.shape[1]] = np.diag(s)

#Reconstruimos la matriz
B = U.dot(Sigma.dot(VT))
print(B)

[[1. 2.]
 [3. 4.]
 [5. 6.]]


Esta problemática solo existe en el caso de que la matriz no sea cuadrada.

# Pseudoinversa

La pseudoinversa es la generalización de la matriz inversa para matrices rectangulares. La pseudoinversa se denota mediante la notación: $$A{^+}$$

Python dispone de la función **pinv()** que nos permite obtener la pseudoinversa de una matriz.

In [9]:
#Generamos un array
A = np.array([[0.1, 0.2], [0.3, 0.4], [0.5, 0.6], [0.7, 0.8]])

#Calculamos la pseudoinversa
print(pinv(A))

[[-1.00000000e+01 -5.00000000e+00  9.15782589e-15  5.00000000e+00]
 [ 8.50000000e+00  4.50000000e+00  5.00000000e-01 -3.50000000e+00]]


# Reducción de dimensionalidad

Una de las aplicaciones más populares del SVD es la reducción de dimensionalidad. Los datos con un gran número de características, por ejemplo aquellas situaaciones en las que tenemos más características que observaciones, pueden ser reducidos a subconjuntos más pequeños y seleccionar las características más relevantes. Para hacer esto podemos realizar un SVD sobre la matriz original y seleccionar los k valores singulares mayores de sigma.

La biblioteca scikit-learn nos proporciona la clase **TruncatedSVD** que nos permite realizar esto de forma automática. Como parámetro le pasamos el número de componentes que deseamos mantener.

In [11]:
# Generamos un array
A = np.array([[1,2,3,4,5,6,7,8,9,10], [11,12,13,14,15,16,17,18,19,20], [21,22,23,24,25,26,27,28,29,30]])

#Creamos nuestro SVD
svd = TruncatedSVD(n_components = 2)

#Fijamos el modelo
svd.fit(A)

#Aplicamos el transform
resultado = svd.transform(A)
print(resultado)

[[18.52157747  6.47697214]
 [49.81310011  1.91182038]
 [81.10462276 -2.65333138]]
