<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/taca/blob/main/ref/charu/7_ch/7_2_SVD_A_Linear_Algebra_Perspective.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
  <td>
    <a target="_blank" href="https://kaggle.com/kernels/welcome?src=https://github.com/marco-canas/taca/blob/main/ref/charu/7_ch/7_2_SVD_A_Linear_Algebra_Perspective.ipynb"><img src="https://kaggle.com/static/images/open-in-kaggle.svg" /></a>
  </td>
</table>

# 7.2 SVD: A Linear Algebra Perspective
Página 314 del Charú  

### [Primer video de apoyo para la lectura interactiva de este cuaderno](https://www.youtube.com/watch?v=IuWjeQS1-HI)

### [Segundo video de apoyo para la lectura interactiva de este cuaderno](https://www.youtube.com/watch?v=cSHz5VLgdas)

### [Tercer video de apoyo a la lectura de este cuaderno](https://www.youtube.com/watch?v=J9vcTWInSyU)

La descomposición de valores singulares (SVD) es una generalización del concepto de diagonalización. 

* Mientras que la diagonalización con valores propios
  * no negativos y 
  * los vectores propios ortogonales 
  solo están asegurados para matrices cuadradas, simétricas 
  y semidefinidas positivas,

### Matriz semidefinida positiva

Sea $B$ una matriz cuadrada de orden $d \times d$. 
Decimos que ella es semidefida positiva si para cada vector $x \in \mathbf{R}^{d}$ se cumple que:

$$ x^{T}Bx \geq 0 $$


#### Ejemplo

In [None]:
from sympy import *
A = Matrix([[1,2], [2,-1]]) 
B = (A.T)*(A)
a,b = symbols('a, b', real = True)
x = Matrix([[a], [b]])
((x.T)*B*x)[0,0]  
# la indexación debe ser doble pues para sympy, el resultado es una matriz de orden 1x1

In [None]:
def forma_cuadratica(B,x):
    return (x.T)*B*x

In [None]:
forma_cuadratica(B, Matrix([[1],[-2]]))  

   
* la descomposición de valores singulares está asegurada para cualquier matriz, independientemente de su tamaño u otras propiedades.

* estudiaremos la descomposición de valores singulares de **matrices cuadradas** para mostrar:  
* cómo la descomposición de valores singulares es una generalización natural de la diagonalización.

 
Luego, generalizaremos estas ideas a matrices rectangulares.

## 7.2.1 Singular Value Decomposition of a Square Matrix

En esta sección, discutiremos la existencia de una descomposición en valores singulares de una matriz cuadrada $B$ de orden $m \times m$.

Observemos que las matrices $B^{T}B$ y $BB^{T}$ son semidefinidas positivas y simétricas. 
 

Por lo tanto, estas matrices son diagonalizables con 
* autovectores ortonormales y 
* autovalores no negativos.

A continuación, mostramos que estas matrices comparten valores propios y sus vectores propios también están relacionados.

### Lema 7.2.1

Sea $B$ una matriz cuadrada, $m \times m$.   

Entonces, los siguientes resultados son verdaderos:

1. Si $\overline{p}$ es un **vector propio unitario** de $B^{T}B$ con un valor propio $\lambda$ distinto de cero, entonces $B\overline{p}$ es un vector propio de $BB^{T}$ con el mismo valor propio $\lambda$. Además, la norma de $B\overline{p}$ es $\sqrt{\lambda}$.

2. Si $\overline{q}$ es un vector propio unitario de $BB^{T}$ con un valor propio $\lambda$ distinto de cero, entonces $B^{T}\overline{q}$ es un vector propio de $B^{T}B$ con el mismo valor propio $\lambda$. Además, la norma de $B^{T}\overline{q}$ es $\sqrt{\lambda}$.

## Verificación del Lema con Sympy

In [None]:
from sympy import *


In [None]:
B = Matrix([[14, 8 , -6],[21, 11, 14], [16, -6, 2]])
B 

In [None]:
C = B.T*B
C 

In [None]:
D = B*B.T
D 

In [None]:
lv1c,lv2c,lv3c = C.eigenvects()
l1c = lv1c[0]
v1c = lv1c[2][0]
v1c = (1/v1c.norm())*v1c 
v1c 

In [None]:
lv1d,lv2d,lv3d = D.eigenvects()
l1d = lv1d[0]
v1d = lv1d[2][0]
v1d = (1/v1d.norm())*v1d


v2d = lv2d[2][0]
v2d = (1/v2d.norm())*v2d


v3d = lv3d[2][0]
v3d = (1/v3d.norm())*v3d

display(v1d, v2d, v3d) 

In [None]:
 
p = v1c
lambda_ = l1c 
display(p,lambda_)  

In [None]:
display(B*p, 2*sqrt(33)*v1d)  

In [None]:
-sqrt(66)/(-sqrt(2)/2)

## Conclusión 1

Efectivamente $B\overline{p}$ es un vector propio de $BB^{T}$ siempre que $\overline{p}$ sea un eigenvector unitario de $B^{T}B$

In [None]:
(B*p).norm()**2 == lambda_  


## Conclusión 2

Efectivamente $\Vert Bp \Vert$ es la raíz de lambda. 

### Observación:  

es muy rápido verificar resultados científicos si te vales de sympy. 


### Prueba:

Solo mostramos la primera parte del resultado anterior, porque la prueba de la segunda parte es exactamente idéntica al trabajar con $B^{T}$ en lugar de $B$ a lo largo de la prueba.

Si $\overline{p}$ es un vector propio de $B^{T}B$ con valor propio $\lambda$, tenemos lo siguiente:

\begin{align*}
B^{T}B\overline{p} & = \lambda \overline{p} \\
BB^{T}[B\overline{p}] & = \lambda[B\overline{p}] \ \ \ \  \text{premultiplicando con $B$}
\end{align*}

En otras palabras, $B\overline{p}$ es un eigenvector de $BB^{T}$ con eigenvalor $\lambda$. 

El cuadrado de la norma de $B\overline{p}$ se puede calcular como sigue:

\begin{align*}
\Vert B\overline{p} \Vert^{2} & = [B\overline{p}]^{T}[B\overline{p}] \ \ \ \ \ \ \ \text{definición del cuadrado de la norma} \\
                              & = [\overline{p}^{T}B^{T}][B\overline{p}] \ \ \ \text{Transpuesta de un producto} \\
                              & = \overline{p}^{T}[B^{T}B \overline{p}] \ \ \ \text{Asociatividad del producto matricial} \\
                              & = \overline{p}^{T} \lambda \overline{p} \ \ \ \text{hipótesis, $p$ valor propio de $B^{T}B$} \\
                              & = \lambda\left[\overline{p}^{T}\overline{p} \right] \ \ \ \text{homogeneidad del producto matricial} \\
                              & = \lambda \Vert \overline{p} \Vert^{2} \ \ \ \text{definición de norma de un vector} \\
                              & = \lambda \ \ \ \ \text{pues $p$ es unitario}
\end{align*}


Como el cuadrado de la norma de $B\overline{p}$ es $\lambda$, entonces la norma de $B\overline{p}$ es $\sqrt{\lambda}$. 

El emparejamiento de los autovectores/autovalores de $B^{T}B$ y $BB^{T}$ también se puede expresar como el siguiente corolario:

## Corollary 7.2.1 (Eigenvector Pairing)   

1. Sea $B$ una matriz cuadrada de orden $m \times m$. Entonces, 
   las matrices $B^{T}B$ y $BB^{T}$ tienen el mismo conjunto de $m$
   eigenvalores $\lambda_{1}, \ldots, \lambda_{m}$.  

### Verificación con sympy del emparejamiento entre los eigenvectores de $B^{T}B$ y $BB^{T}$

In [1]:
from sympy import * 

In [2]:
B = Matrix([[14, 8, -6],[21, 11, 14],[16, -6,2]]) 
B 

Matrix([
[14,  8, -6],
[21, 11, 14],
[16, -6,  2]])

In [3]:
C = B.T*B
lv1,lv2,lv3 = C.eigenvects()                # calcula una lista con tres tuplas de tres componentes
                                # (eigenvalor, multiplicidad, lista de eigenvectores asociados)
l1c,l2c,l3c = lv1[0], lv2[0], lv3[0]  
Lc = Matrix([l1c,l2c,l3c])
Lc 

Matrix([
[ 132],
[ 162],
[1056]])

In [4]:
D = B*B.T
lv1,lv2,lv3 = D.eigenvects()
l1d,l2d,l3d = lv1[0], lv2[0], lv3[0]
Ld = Matrix([l1d,l2d,l3d])
Lc == Ld 

True

## Conclusión de la verificación

Podemos ver que que para este ejemplo se verifica que las matrices $B^{T}B$ y $BB^{T}$ tiene el mismo conjunto de eigenvalores. 

## Corolario 7.2.1 (emparejamiento de eigenvectores) segunda parte.

2. Sean $\overline{p}_{1}\ldots ... \overline{p}_{m}$  los eigenvectores ortonormales de la matriz simétrica $B^{T}B$ de orden $m \times m$  y sean $\lambda_{1}, \ldots, \lambda_{m}$ los eigenvalores correspondientes. **Entonces es posible hallar** $m$ eigenvectores ortonormales $\overline{q}_{1},\ldots, \overline{q}_{m}$ de $BB^{T}$, de tal manera que se cumpla que:  
   
   $$ \overline{q}_{i} \sqrt{\lambda_{i}} =  B\overline{p}_{i}$$
   
   la relación anterior es válida salvo por el signo. 

In [5]:
from sympy import * 
B = Matrix([[14, 8, -6],[21, 11, 14],[16, -6,2]]) 
C = (B.T)*B
D = B*(B.T)
lvc1, lvc2, lvc3 = C.eigenvects()
lc1,lc2,lc3 = lvc1[0], lvc2[0], lvc3[0]

p1, p2,p3 = lvc1[2][0], lvc2[2][0], lvc3[2][0]
p1, p2, p3 = (1/p1.norm())*p1, (1/p2.norm())*p2, (1/p3.norm())*p3 

q1,q2,q3 = (B*p1)/sqrt(lc1),(B*p2)/sqrt(lc2),(B*p3)/sqrt(lc3) 

In [7]:
q1.T*q2

Matrix([[0]])

In [8]:
q1.T*q3

Matrix([[0]])

In [9]:
q2.T*q3

Matrix([[0]])

In [10]:
q1.norm() 

1

In [11]:
q2.norm() 

1

In [12]:
q3.norm() 

1

In [14]:
D*q1 == lc1*q1 

True

In [15]:
D*q2 == lc2*q2 

True

In [16]:
D*q3 == lc3*q3

True

### Demostración del corolario de emparejamiento de los eigenvectores

Esta prueba funciona definiendo cada **$\overline{q}_{i}$ como una función de $\overline{p}_{i}$**. 

Sea $r \leq m$ el número de valores propios distintos de cero.

En el caso de que $\overline{p}_{i}$ esté asociado con un autovalor distinto de cero, definimos 

$$ \overline{q}_{i} = \frac{B\overline{p}_{i}}{\sqrt{\lambda}_{i}}, $$

y el Lema 7.2.1 asegura que cada $\overline{q}_{i}$ es un autovector unitario de $BB^{T}$.

Los vectores propios extraídos $\overline{q}_{1}, \ldots, \overline{q}_{r}$ para valores propios distintos de cero son ortogonales entre sí:  

\begin{align*}
\overline{q}_{i}^{T}\overline{q}_{j} & = \frac{Bp_{i}}{\sqrt{\lambda_{i}}} \cdot \frac{Bp_{j}}{\sqrt{\lambda_j}} \ \ \ \text{de la definición de las funcines $q_{i}(p_{i})$} \\
& = (B\overline{p}_{i})^{T}(B\overline{p}_{j})/\lambda \ \ \ \text{haciendo}\ \lambda = \sqrt{\lambda_{i}}\sqrt{\lambda_{j}}\\
& = \overline{p}_{i}^{T}[B^{T}B \overline{p}_{j}]/\lambda \ \ \ \text{asociatividad} \\
& = \overline{p}_{i}^{T}\lambda_{j}\overline{p}_{j}/\lambda \ \ \ \text{\overline{p}_{j} vector propio de $B^{T}B$} \\
& = (\lambda_{j}/\lambda)\overline{p}_{i}^{T}\overline{p}_{j} \ \ \ \text{homogeneidad del producto matricial} \\
& = 0 
\end{align*} 



A continuación, nos centramos en los $(m-r)$ vectores propios cero (es decir, vectores asociados a valores propios nulos) restantes de $B^{T}B$ y $BB^{T}$. 

Cualquier vector propio cero $\overline{q}_{i}$ de $BB^{T}$ y cualquier vector propio cero de $B^{T}B$ satisface trivialmente $q_{i}\sqrt{λ_{i}} = Bp_{i}$ porque ambos lados se evalúan a cero.

El punto clave es que $B^{T}B\overline{p}_{i} = 0$ implica que $Bp_{i} = 0$, y cómo sabemos que $Bp$ es eigen vector de $BB^{T}$, entonces, esta implicación permite emparejar los eigenvectores asociados a valores propios nulos de $B^{T}B$ con los eigenvectores asociados a eigenvalores nulos de $BB^{T}$. 

En la siguiente línea probaremos esta implicación. 

(Probemos la anterior implicación).  

Supongamos que $B^{T}B\overline{p}_{i} = 0$. 
Entonces premultiplicando por $\overline{p}_{i}^{T}$ obtenemos 

$$(\overline{p_{i}}^{T}B^{T})B\overline{p}_{i} = 0$$

$$(Bp)^{T}Bp = 0$$

$$ \Vert Bp \Vert = 0$$

$$ Bp = 0 $$

Para ver esto multiplique a izquierda por $\overline{p}_{i}^{T}$. 

Por lo tanto, podemos emparejar los autovectores cero de $B^{T}B$ y $BB^{T}$ arbitrariamente.

El corolario 7.2.1 proporciona una forma de emparejar los vectores propios de $B^{T}B$ y $BB^{T}$ de tal manera que la condición $\overline{q}_{i}\sqrt{λ_{i}} = B\overline{p}_{i}$ siempre se satisface para cualquier par de autovectores ($\overline{p}_{i}, \overline{q}_{i})$.

Esta observación se puede utilizar para escribir estas relaciones pareadas en forma de matriz.

Esta forma de expresar el emparejamiento se denomina descomposición de valores singulares.

## Theorem 7.2.1 (Existence of SVD)   

Sea $P$ la matriz de orden $m \times m$ cuyas columnas son los $m$ eigenvectores ortonormales de la matriz $B^{T}B$ de orden $m \times m$, y sea $\Sigma$ una matrix diagonal de orden $m \times m$ cuyas entradas de la diagonal principal contienen las  raíces cuadradas de los correspondientes eigenvalores.  

Por convención, las columnas de $P$ y $\Sigma$ son ordenadas, es decir, los valores singulares son ordenados de manera decreciente.   

Entonces, es posible hallar una matriz ortogonal $Q$ de orden $m \times m$ que contiene los eigenvectores ortonormales de $BB^{T}$, tal que ella satisface que:

$$ B = Q \Sigma P^{T} $$

### Prueba: 

El corolario 7.2.1 asegura que para cualquier conjunto ordenado $\overline{p}_{1} \ldots, \overline{p}_{m}$ de autovectores de $B^{T}B$, existe un conjunto ordenado $\overline{q}_{1}, \ldots, \overline{q}_{m}$ de autovectores de $BB^{T}$, de modo que se satisface lo siguiente para cada $i \in \{1, \ldots, m\}$:

$$ \overline{q}_{i}\sqrt{\lambda} = B\overline{p}_{i} $$


Se pueden escribir las $m$ relaciones centradas en vectores como una relación centrada en una única matriz:

$$ [\overline{q}_{1} \cdots \overline{q}_{m}]\Sigma = B[p_{1} \cdots p_{m}] $$

Aquí, $\Sigma$ es una matriz diagonal de $m \times m$ cuya $(i,i)$ ésima entrada es $\sqrt{\lambda_{i}}$. 

Se puede escribir la relación anterior de la siguiente forma:  

$$ Q\Sigma = BP $$


Aquí, 
* $P$ es una matriz ortogonal de orden $m \times m$ con columnas que contienen a los vectores $\overline{p}_{1},\ldots, \overline{p}_{m}$, y 
* $Q$ es una matriz ortogonal de orden $m \times m$ con columnas que contienen a los vectores $\overline{q}_{1} \ldots, \overline{q}_{m}$.

Después de la multiplicación de ambos lados con $P^{T}$ y el establecimiento de $PP^{T} = I$, se obtiene 

$$ Q\Sigma P^{T} = B. \nonumber $$

Por lo tanto, una descomposición en valores singulares de una matriz cuadrada $B$ siempre existe. $\square$ 

Considere la siguiente matriz $B$ y su matriz de dispersión derivada $B^{T}B$:

$$ B = \begin{bmatrix}14&8&-6\\21&11&14\\16&-6&2\end{bmatrix}, \ \ \ B^{T}B = \begin{bmatrix}893&247&242\\247&221&94\\242&94&236\end{bmatrix}  $$


Al realizar la descomposición en valores propios de $B^{T}B$ obtenemos vectores propios proporcionales a $[3, 1, 1]^{T}$, $[1, −1, −2]^{T}$ y $[1, −7, 4]^{T}$ (aunque los vectores deben estar normalizados para crear $P$).

Los valores propios correspondientes son $1052$, $162$ y $232$, y las raíces cuadradas de estos valores propios son los valores singulares, que se pueden utilizar para crear la matriz diagonal $\Sigma$.

Como tenemos $B = Q\Sigma P^{T}$, la matriz $Q$ se puede obtener como $BP\Sigma^{-1}$, que es la siguiente:

$$ Q = \underbrace{\begin{bmatrix}14&8&-6\\21&11&14\\16&-6&2\end{bmatrix}}_{B} \underbrace{\begin{bmatrix}3/\sqrt{11}&1/\sqrt{6}&1/\sqrt{66}\\1/\sqrt{11}&-1/\sqrt{6}&-7/\sqrt{66}\\1/\sqrt{11}&-2/\sqrt{6}&4/\sqrt{66}\end{bmatrix}}_{P} \underbrace{\begin{bmatrix} 4\sqrt{66}&0&0\\0&9\sqrt{2}&0\\0&0&2\sqrt{33}\end{bmatrix}^{-1}}_{\Sigma^{-1}} \nonumber $$


Al realizar esta multiplicación, obtenemos una matriz $Q$ cuyas columnas son proporcionales a $[1, 2, 1]^{T}$, $[1, −1, 1]^{T}$, y $[−1, 0, 1]^{T}$, aunque la matriz $Q$ es obtenida en términos de columnas normalizadas.

Por lo tanto, la SVD de la matriz $B$ se puede expresar como $Q\Sigma P^{T}$ de la siguiente manera:  

$$ \underbrace{\begin{bmatrix}1/\sqrt{6}&1/\sqrt{3}&-1/\sqrt{2}\\2/\sqrt{6}&-1/\sqrt{3}&0\\ 1/\sqrt{6}&1/\sqrt{3}&1/\sqrt{2}\end{bmatrix}}_{Q} \underbrace{\begin{bmatrix}4\sqrt{66}&0&0\\0&9\sqrt{2}&0\\0&0&3\sqrt{33} \end{bmatrix}}_{\Sigma} \underbrace{\begin{bmatrix}3/\sqrt{11}&1/\sqrt{6}&1/\sqrt{66}\\1/\sqrt{11}&-1/\sqrt{6}&-7/\sqrt{66}\\1/\sqrt{11}&-2\sqrt{6}&4/\sqrt{66} \end{bmatrix}^{T}}_{P^{T}} $$


## Ejemplo anterior visto con Sympy: 

Considere la siguiente matriz $B$ y su matriz de dispersión derivada $B^{T}B$:

In [37]:
from sympy import *

In [38]:
B = Matrix([[14,8,-6],[21, 11, 14],[16,-6,2]])
B 

Matrix([
[14,  8, -6],
[21, 11, 14],
[16, -6,  2]])

In [39]:
C = B.T*B 
C   

Matrix([
[893, 247, 242],
[247, 221,  94],
[242,  94, 236]])

Al realizar la descomposición propia de $B^{T}B$ obtenemos vectores propios proporcionales a $[3, 1, 1]^{T}$, $[1, −1, −2]^{T}$ y $[1, −7, 4]^{T}$ (aunque los vectores deben ser unitarios para crear $P$).

In [40]:
p1,p2,p3 = C.eigenvects()[0][2][0], C.eigenvects()[1][2][0], C.eigenvects()[2][2][0]    

Normalicemos los $p_{i}$. 

In [41]:
p1 = (1/p1.norm())*p1
p2 = (1/p2.norm())*p2
p3 = (1/p3.norm())*p3

Construyamos la matriz $P$

In [42]:
P = Matrix([p1.T,p2.T,p3.T]).T
P 

Matrix([
[   sqrt(66)/66, -sqrt(6)/6, 3*sqrt(11)/11],
[-7*sqrt(66)/66,  sqrt(6)/6,   sqrt(11)/11],
[ 2*sqrt(66)/33,  sqrt(6)/3,   sqrt(11)/11]])

Comprobemos que es una matriz ortonormal

In [43]:
P.T*P 

Matrix([
[1, 0, 0],
[0, 1, 0],
[0, 0, 1]])

Los valores propios correspondientes son 132, 162 y 1056, y las raíces cuadradas de estos valores propios son los valores singulares, que se pueden utilizar para crear la matriz diagonal $\Sigma$.

In [44]:
l1,l2,l3 = C.eigenvects()[0][0], C.eigenvects()[1][0], C.eigenvects()[2][0]

In [13]:
l1 

132

In [14]:
l2

162

In [15]:
l3 

1056

Como tenemos $B = Q\Sigma P^{T}$, la matriz $Q$ se puede obtener como $BP\Sigma^{− 1}$, que es la siguiente:

In [45]:
s1,s2,s3 = sqrt(l1), sqrt(l2), sqrt(l3)

In [17]:
s1 

2*sqrt(33)

In [18]:
s2  

9*sqrt(2)

In [19]:
s3 

4*sqrt(66)

In [46]:
Sigma = diag(s1,s2,s3) 
Sigma 

Matrix([
[2*sqrt(33),         0,          0],
[         0, 9*sqrt(2),          0],
[         0,         0, 4*sqrt(66)]])

In [47]:
Q = B*P*(Sigma.inv())
Q 

Matrix([
[-sqrt(2)/2, -sqrt(3)/3, sqrt(6)/6],
[         0,  sqrt(3)/3, sqrt(6)/3],
[ sqrt(2)/2, -sqrt(3)/3, sqrt(6)/6]])

In [48]:
B==Q*Sigma*P.T

True

Al realizar esta multiplicación obtenemos una matriz $Q$ cuyas columnas son proporcionales a $[1, 2, 1]^{T}, [1, −1, 1]^{T}$ y $[−1, 0, 1]^{T}$, aunque la matriz $Q$ se obtiene en términos de columnas normalizadas. 

Por lo tanto, el SVD de la matriz $B$ se puede expresar como $QΣP^{T}$ de la siguiente manera:

$$ \underbrace{\begin{bmatrix} \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{3}} & -\frac{1}{\sqrt{2}} \\
\frac{2}{\sqrt{6}} & -\frac{1}{\sqrt{3}}  & 0 \\
\frac{1}{\sqrt{6}} & \frac{1}{\sqrt{3}} & \frac{1}{\sqrt{2}} \end{bmatrix}}_{Q} \underbrace{\begin{bmatrix} 4\sqrt{66} & 0 & 0 
\\ 0 &9\sqrt{2} & 0 
\\ 0 & 0& 2\sqrt{33} \end{bmatrix}}_{\Sigma}
\underbrace{\begin{bmatrix} \frac{3}{\sqrt{11}} & \frac{1}{\sqrt{6}} & \frac{1}{\sqrt{66}} \\
\frac{1}{\sqrt{11}} & -\frac{1}{\sqrt{6}} & -\frac{7}{\sqrt{66}} \\
\frac{1}{\sqrt{11}} & -\frac{2}{\sqrt{6}}  & \frac{4}{\sqrt{66}}  \end{bmatrix}^{T}}_{P^{T}} $$

Un punto importante es que derivamos $Q$ de $P$, en lugar de diagonalizar independientemente $BB^{T}$ y $B^{T}B$, y hacer esto último podría conducir a resultados incorrectos debido a la dependencia del signo entre $Q$ y $P$.

Por ejemplo, uno podría usar $−Q$ y $−P$ como la descomposición matrices sin cambiar el producto de las matrices.

 
Sin embargo, no podemos usar $−Q$ y $P$ para crear una SVD. 

Los signos de pares coincidentes de vectores singulares también son interdependientes.

SVD también descompone matrices no diagonalizables, como las siguientes

$$ \begin{bmatrix} 0 & -7 \\ 0 & 0 \end{bmatrix} = \underbrace{\begin{bmatrix} -1 & 0 \\ 0 & 1 \end{bmatrix}}_{Q} \underbrace{\begin{bmatrix} 7 & 0 \\ 0 & 0 \end{bmatrix}}_{\Sigma} \underbrace{\begin{bmatrix} 0 & 1 \\ 1 & 0 \end{bmatrix}}_{P^{T}} $$

In [61]:
E=Matrix([[0,-7], [0,0]])
#E.diagonalize() 
#E.singular_value_decomposition() 

MatrixError: Matrix is not diagonalizable

In [53]:
X 

Matrix([
[-1],
[ 0]])

De hecho, SVD tiene la propiedad clara de relacionar matrices arbitrarias (cuadradas) con semidefinidas positivas con el uso de descomposición polar, que separa explícitamente la matriz de rotorreflexión de la matriz de escala (semidefinida positiva):

## Lema 7.2.2 (Descomposición polar)   

Cualquier matriz cuadrada se puede expresar en la forma $US$, donde $U$ es una matriz ortogonal y $S$ es una matriz semidefinida positiva simétrica.

### Prueba:

Uno puede escribir la SVD de una matriz cuadrada como $Q\Sigma P^{T} = (QP^{T}) (P \Sigma P^{T})$.

La matriz $QP^{T}$ se puede establecer en $U$, y es ortogonal debido a que el producto de matrices ortogonales es cerrado (cf. Capítulo 2).

Además, $S$ se puede establecer en $P \Sigma P^{T}$, que es semidefinida positiva debido a la no negatividad de $\Sigma$.

La descomposición polar es geométricamente reveladora, porque nos dice que cada multiplicación de matrices causa un escalado anisotrópico a lo largo de direcciones ortogonales con factores de escala no negativos, seguido de rotorreflexión.

Cuando falta el componente de rotorreflexión, la matriz resultante es semidefinida positiva.

La matriz $U$ es también la matriz ortogonal más cercana a $B$, al igual que $[\cos(\theta), \sin(\theta)]^{T}$ es el vector unitario más cercano a las coordenadas polares $r[\cos (\theta), \sin (\theta)]^{T}$.

## Verificación del Lema de descomposición polar

In [29]:
from sympy import *
B = Matrix([[1,2],[2,1]])
B 

Matrix([
[1, 2],
[2, 1]])

In [30]:
def svd(B):
    return B.singular_value_decomposition() 

In [32]:
Q,Sigma,P = svd(B) 

In [33]:
U = Q*(P.T)

In [34]:
S = P*Sigma*P.T 

In [36]:
B==U*S

True

## Problem 7.2.1 

Sea $B$ una matriz cuadrada y simétrica, que es semidefinida negativa.

Muestre que la descomposición en valores singulares de $B$ es de la forma $B = Q\Sigma P^{T}$, donde $Q = −P$.  

El punto importante del ejercicio anterior es enfatizar el hecho de que **los valores singulares deben ser no negativos**. Proporcionamos otro ejercicio para enfatizar este hecho:

## Demostración: 

Como $B$ es simétrica entonces existe una descomposición en valores propios para ella, es decir, 

$$ B = V \Delta V^{T} $$

donde $V$ es una matriz   

y $\Delta$ es una matriz diagonal. 


Por otro lado, la simetría de $B$ implica que $B^{T}B = BB^{T} = BB = B^{2}$. De donde se infiere que los vectores $\overline{p}_{i}$ y $\overline{q}_{i}$ son proporcionales porque son autovectores ortonormales que provienen de la misma matriz $B^{2}$.   

Como estos vectores son uitarios, entonces respectivemente son iguales o solo pueden diferir en el signo. 

Veamos que el que $B$ sea definida seminegativa, implica que $q_{i} = -p_{i}$. 

## Verificación con sympy del resultado presentado por el problema 7.2.1

In [None]:
from sympy import *
a,b = symbols('a,b', real = True) 
B = Matrix([[-9,2],[2,-1]])  
B 

In [None]:
A = Matrix([[a],[b]])  
A 

In [None]:
A.T 

In [None]:
r = (A.T)*B*A 
r = r[0].simplify()
r 

Consideremos $b$ fijo y calculemos el discriminante $\Delta$ de la forma cuadrática $r$. 

In [None]:
16*b**2 -4*(-9)*(-b**2)

Grafiquemos la forma cuadrática obtenida $F(x,y)$ en el espacio utilizando matplotlib:

$$ F(x,y) = -9x^{2} + 4xy - y^{2} $$


In [None]:
from mpl_toolkits import mplot3d
import numpy as np
import matplotlib.pyplot as plt
fig = plt.figure()
ax = plt.axes(projection='3d')
x = np.arange(-5,5,0.25)
y = np.arange(-5,5,0.25)
X,Y = np.meshgrid(x,y)
Z = -9*X**2 + 4*X*Y -Y**2                     # F(x,y) = -9x^{2} + 4xy - y^{2}

ax.plot_surface(X, Y, Z)
ax.set_title('3D line plot')
plt.show()

## Problem 7.2.2 

Suppose that somebody gave you an $m \times m$ matrix $B$ and a decomposition of the form $B = Q\Sigma P^{T}$ , where $Q$ and $P$ are both orthogonal matrices of size $m \times m$, and $\Sigma$ is an $m \times m$ diagonal matrix.   

However, you are told that some of the entries of $\Sigma$ are negative.  

Discuss how you would adjust the decomposition in order to convert it into a standard form of singular value decomposition.

## Problem 7.2.3 

Suponga que la descomposición en valores propios de una matriz $A$ de orden $3 \times 3$ puede ser escrita como sigue:

$$ A = V\Delta V^{T} = \begin{bmatrix} v_{11} & v_{12} & v_{13} \\ v_{21} & v_{22} & v_{23} \\ v_{31} & v_{32} & v_{33} \end{bmatrix} \begin{bmatrix} 5 & 0 & 0 \\ 0 & -2 & 0 \\ 0 & 0 & -3 \end{bmatrix} \begin{bmatrix} v_{11} & v_{21} & v_{31}\\ v_{12} & v_{22} & v_{32} \\ v_{13} & v_{23} & v_{33} \end{bmatrix} $$  

¿Cuál es la descomposición en valores singulares de esta matriz?

El número de valores singulares distintos de cero da como resultado el rango de la matriz original.

## Lema 7.2.3 

Sea $B$ una matriz de orden $m \times m$ con rango $k \leq m$. Sea $B = Q\Sigma P^{T}$ la descomposición en valores singulares de $B$, donde $Q$, $\Sigma$ y $P^{T}$ son matrices de orden $m \times  m$.   
Entonces, exactamente $m - k$ valores singulares deben ser ceros.

### Prueba:   

Como se discutió en el Corolario 2.6.3, la multiplicación con una matriz no singular (u ortogonal) no cambia el rango de una matriz.

Por tanto, el rango de $B = Q\Sigma P^{T}$ es el mismo que el de $\Sigma$.
 
Dado que el rango de $\Sigma$ es igual al número de valores singulares distintos de cero, el resultado sigue

## Verificación del Lema 7.2.3

## Funciones de Python asociadas a la descomposición en valores singulares (SVD)

*  `np.linalg.svd(A)`: función de numpy que calcula la descomposición en valores singulares de una matriz $A$
*  `.eigenvects()`: el método de sympy para hallar eigenvalores y eigenvectores de una matriz $A$ dada. 
*  `.singular_value_decomposition()` Método de sympy para determinar la descomposición en valores singulares de una matriz de Sympy dada

In [None]:
B.singular_value_decomposition() 

## Elementos didácticos para la enseñanza de la ciencia de datos

* Uso de la librería sympy por sus elegantes presentaciones de resultados
* Uso de la función display() de sympy por su ayuda a la buena presentación de resultados matemáticos. 

## Referentes  

* Charú. Linear Algebra and Optimizacion for Machine Learning. 

* https://es.wikipedia.org/wiki/Matriz_definida_positiva 

* https://docs.sympy.org/latest/tutorial/matrices.html#:~:text=To%20make%20a%20matrix%20in%20SymPy%2C%20use%20the,%5B%201%20%E2%88%92%201%203%204%200%202%5D

* https://github.com/sympy/sympy/issues/20029 

* https://www.geeksforgeeks.org/python-sympy-matrix-diagonalize-method/ 

* Sobre el método de diagonalización de Sympy: https://es.acervolima.com/2021/02/09/python-sympy-metodo-matrix-diagonalize/
