# Descomposición en Valores Singulares (SVD)

## Introducción

Cuando trabajamos en problemas de Machine Learning, muchas veces nos encontramos con conjuntos de datos grandes que contienen además muchas características o feactures. Una forma simple de reducir las dimensiones de estas características es aplicar alguna técnica de Factorización de matrices.

La factorización es una técnica que consiste en la descomposición de una expresión matemática (que puede ser un número, una matriz, un tensor, etc.) en forma de producto. La descomposición en valores singulares, es la base del análisis de componentes principales (PCA), cuyo propósito es derivar un número relativamente pequeño de combinaciones lineales no correlacionadas (componentes principales) de un conjunto de variables aleatorias de media cero mientras que conserva la mayor cantidad de información de las variables originales como sea posible. 

Los principales objetivos del PCA son:

- Reducción de dimensionalidad
- Determinación de combinaciones lineales de variables
- Selección de características o features más útiles
- Visualización de datos multidimensionales
- Identificación de las variables subyacentes
- Identificación grupos de objetos o de valores atípicos

La descomposición en valores singulares para una matriz de datos A está dada por la expresión:

$$A = U \Sigma V^T$$

donde: 

- U es una matriz mxm cuyas columnas corresponden a los vectores singulares izquierdos de A
- $\Sigma$ es una matriz mxn diagonal cuyas entradas corresponden a los valores singulares de A.
- $V^T$ es la traspuesta de la matriz nxn T cuyas columnas corresponden a los vectores singulares derechos de A.

In [1]:
%matplotlib inline

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set()

In [2]:
#Lectura de datos
datos= pd.read_csv('data/filtered1_dataset.csv', sep=',', index_col="patient_id")
datos.head()

Unnamed: 0_level_0,treatment,birth_date,start_date,start_night,end_night,gender,height,weight,age,smoking,...,beer,wine,alcohol,strong_licor,sistolic,diastolic,heart_rate,pulse_pressure,cardiac_index,systemic_vascular_resistance
patient_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
30,True,1983-12-25 00:00:00,2017-11-01 07:02:00,2017-10-27 04:30:00,2017-10-27 06:30:00,m,1.78,102.0,33.854327,0,...,0,0,1,0,120.457143,79.957143,72.685714,41.0,2.3,1158.0
31,False,1946-10-09 00:00:00,2017-11-01 08:40:00,2017-11-02 02:00:00,2017-11-02 04:00:00,m,1.67,82.4,71.064644,0,...,0,0,1,0,143.405405,91.067568,65.5,52.0,2.8,1417.0
32,True,1960-02-14 00:00:00,2017-11-01 09:57:00,2017-11-02 03:00:00,2017-11-02 05:00:00,m,1.7,93.2,57.71503,0,...,0,1,1,0,122.557143,90.257143,80.628571,32.0,3.0,1319.0
33,False,1974-03-11 00:00:00,2017-11-01 10:17:00,2017-11-02 03:20:00,2017-11-02 05:20:00,f,1.6,61.3,43.645252,0,...,0,0,0,0,145.893939,93.863636,79.787879,52.0,4.2,1353.0
34,True,1996-06-26 00:00:00,2017-11-01 10:36:00,2017-11-02 04:30:00,2017-11-02 06:30:00,m,1.73,72.3,21.35097,0,...,1,0,1,0,130.376812,82.73913,77.913043,48.0,3.2,1172.0


In [3]:
# Extraemos la variable respuesta "treatment"
y = pd.DataFrame(datos["treatment"])
y.head()

Unnamed: 0_level_0,treatment
patient_id,Unnamed: 1_level_1
30,True
31,False
32,True
33,False
34,True


In [4]:
np.shape(y)

(17644, 1)

In [5]:
# Extraer las variables independientes 
X = datos.iloc[:,6:]
X.head()

Unnamed: 0_level_0,height,weight,age,smoking,excercise_frecuency,beer,wine,alcohol,strong_licor,sistolic,diastolic,heart_rate,pulse_pressure,cardiac_index,systemic_vascular_resistance
patient_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
30,1.78,102.0,33.854327,0,5,0,0,1,0,120.457143,79.957143,72.685714,41.0,2.3,1158.0
31,1.67,82.4,71.064644,0,2,0,0,1,0,143.405405,91.067568,65.5,52.0,2.8,1417.0
32,1.7,93.2,57.71503,0,1,0,1,1,0,122.557143,90.257143,80.628571,32.0,3.0,1319.0
33,1.6,61.3,43.645252,0,1,0,0,0,0,145.893939,93.863636,79.787879,52.0,4.2,1353.0
34,1.73,72.3,21.35097,0,1,1,0,1,0,130.376812,82.73913,77.913043,48.0,3.2,1172.0


In [6]:
np.shape(X)

(17644, 15)

In [7]:
# Singular-value decomposition, usando la función svd()
from scipy.linalg import svd
U, s, VT = svd(X)
print('Matriz U')
print(U)
print('Matriz Sigma')
print(s)
print('Matriz VT')
print(VT)

Matriz U
[[-6.83990442e-03  1.56316422e-02 -7.54467816e-03 ... -8.15496981e-03
  -7.78575566e-03 -7.49807910e-03]
 [-8.35041140e-03 -4.88857912e-03 -6.85395113e-03 ... -4.95743539e-03
  -1.19907261e-02  1.36832328e-02]
 [-7.77517814e-03  4.38947180e-03 -3.67085624e-03 ...  4.39324390e-03
   1.22244486e-04  1.09596662e-02]
 ...
 [-7.42218321e-03  7.37269003e-03 -2.00576175e-03 ...  9.99739143e-01
  -9.76020968e-05 -1.68803387e-04]
 [-7.38181640e-03  8.06593980e-03 -5.22870266e-03 ... -9.43174062e-05
   9.99377078e-01  3.85819628e-05]
 [-6.51868569e-03  5.21711467e-04  9.11175492e-03 ... -1.69960523e-04
   3.61725557e-05  9.99094508e-01]]
Matriz Sigma
[1.71679061e+05 2.29152786e+03 1.62692676e+03 1.41582673e+03
 1.12319150e+03 5.19575427e+02 1.88948312e+02 7.42906011e+01
 4.10785569e+01 3.40019261e+01 3.14321436e+01 3.05116067e+01
 1.93002900e+01 1.81413223e+01 6.70714733e+00]
Matriz VT
[[-1.27026666e-03 -5.72430432e-02 -4.15451238e-02 -4.48346188e-05
  -2.06485217e-03 -7.15043629e-05 -7

In [8]:
U.shape, VT.shape, s.shape

((17644, 17644), (15, 15), (15,))

## Reconstruir matriz desde SVD

La matriz original se puede reconstruir a partir de los elementos $U$, $\Sigma$ y $V ^ T$. Pero los elementos $U$, $\Sigma$ y $V ^ T$ devueltos desde la función svd() no se pueden multiplicar directamente.

El vector s debe convertirse en una matriz diagonal utilizando la función diag(). Por defecto, esta función creará una matriz cuadrada que es n x n, en relación con nuestra matriz original. Esto causa un problema ya que el tamaño de las matrices no se ajusta a las reglas de multiplicación de matrices, donde el número de columnas en una matriz debe coincidir con el número de filas en la matriz posterior.

Después de crear la matriz diagonal $\Sigma$ cuadrada, los tamaños de las matrices son relativos a la matriz original m x n que estamos descomponiendo, de la siguiente manera:

In [9]:
# Reconstruir la matriz de datos
from numpy import array
from numpy import diag
from numpy import dot
from numpy import zeros
from scipy.linalg import svd

# Creamos la matriz Sigma mxn 
S = zeros((X.shape[0], X.shape[1]))
S[:X.shape[1], :X.shape[1]] = diag(s)
datos1 = U.dot(S.dot(VT))
print('Matriz de datos reconstruida')
pd.DataFrame(datos1.round(2), columns=X.columns, index=X.index)

Matriz de datos reconstruida


Unnamed: 0_level_0,height,weight,age,smoking,excercise_frecuency,beer,wine,alcohol,strong_licor,sistolic,diastolic,heart_rate,pulse_pressure,cardiac_index,systemic_vascular_resistance
patient_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
30,1.78,102.0,33.85,0.0,5.0,0.0,0.0,1.0,0.0,120.46,79.96,72.69,41.0,2.3,1158.0
31,1.67,82.4,71.06,-0.0,2.0,0.0,0.0,1.0,0.0,143.41,91.07,65.50,52.0,2.8,1417.0
32,1.70,93.2,57.72,-0.0,1.0,0.0,1.0,1.0,0.0,122.56,90.26,80.63,32.0,3.0,1319.0
33,1.60,61.3,43.65,0.0,1.0,0.0,-0.0,0.0,0.0,145.89,93.86,79.79,52.0,4.2,1353.0
34,1.73,72.3,21.35,0.0,1.0,1.0,-0.0,1.0,0.0,130.38,82.74,77.91,48.0,3.2,1172.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20167,1.58,92.0,53.24,-0.0,1.0,0.0,-0.0,0.0,0.0,138.57,84.67,81.30,54.0,3.3,1244.0
20169,1.70,73.0,36.61,0.0,1.0,0.0,-0.0,0.0,0.0,116.90,78.85,73.51,38.0,2.8,1172.0
20170,1.78,88.0,45.93,0.0,3.0,0.0,-0.0,0.0,0.0,128.33,86.01,77.01,42.0,2.9,1258.0
20171,1.67,93.0,47.70,-0.0,2.0,0.0,-0.0,1.0,1.0,126.97,85.51,74.09,41.0,2.7,1251.0


Se observa que la matriz de datos se puede descomponer como el producto de las matrices  $U$, $\Sigma$ y $V^T$. Esto indica que cualquier transformación podría expresarse como una secuencia de rotación $V^T$, escala $\Sigma$ y una nueva rotación $U$, es decir, cada valor es un factor de escala a lo largo de un eje particular.

En el cado de la Clasificación y/o regresión estos valores indican el impacto de un eje particular en el resultado general.