# Matemáticas para Inteligencia Artificial (II)



### 1. Matrices invertibles



Recordemos que una matriz $A\in\mathcal{M}_{n\times n}(\mathbb{R})$, con $n\in\mathbb{N}$, es **invertible** si existe otra matriz $B \in\mathcal{M}_{n\times n}(\mathbb{R})$ tal que $AB=BA=I_n$, la matriz identidad de tamaño $n\times n$. En este caso, denotamos a $B$ por $A^{-1}$ y diremos que es la **inversa de** $A$. Se puede demostrar fácilmente que la inversa de $A$ existe si, y sólo si, $|A|\neq 0$. Veamos algunos ejemplos con Python. Trabajemos con la siguiente matriz.

$$ A = \begin{pmatrix} 0&-2&3 \\ -4&6&0\\ 2&-5&5\end{pmatrix}.$$

In [None]:
import numpy as np
from numpy import linalg as la

In [None]:
A=np.array([[0,-2,3],[-4,6,0],[2,-5,5]])
print(A)

In [None]:
la.det(A)     # luego A es invertible

In [None]:
inv=la.inv(A)
print(inv)

### 2. Valores propios, vectores propios y diagonalización de matrices


Recordemos que, dada una matriz $A\in\mathcal{M}_{n\times n}(\mathbb{R})$, un **valor propio de $\pmb{A}$** (o **autovalor de $\pmb{A}$**) es un número $\lambda\in\mathbb{C}$ para el cual existe un vector $\pmb{0}\neq v\in\mathbb{C}^n$, denominado **vector propio de $\pmb{A}$** (o **autovector de $\pmb{A}$**), cumpliendo la igualdad $A\cdot v = \lambda \cdot v$. En otras palabras, un vector propio de $A$ es un vector que $A$ transforma en un múltiplo de él, dejando invariante por tanto su dirección. El conjunto formado por todos los valores propios de $A$ se denota por $\sigma(A)$, y el conjunto de todos los vectores propios de $A$ asociados a $\lambda$ se denota por $E(\lambda)$ y forma un subespacio vectorial de $\mathbb{C}^n$ cuando añadimos al vector nulo.


Observemos que la igualdad anterior equivale a $(A-\lambda\cdot I)\cdot v = \pmb{0}$. Si el rango de $A-\lambda\cdot I$ es $n$, entonces dicho sistema tiene como única solución $v=\pmb{0}$, lo cual no nos interesa. Por tanto, queremos ver cuándo $A-\lambda\cdot I$ no tiene rango máximo o, en otras palabras, cuándo $|A-\lambda\cdot I|=0$. Así es como se calculan a mano los valores propios. Los vectores propios asociados a $\lambda$ se pueden calcular a través del núcleo de $A-\lambda\cdot I$.


Unas propiedades importantes de los valores propios son que $|A|=\displaystyle\sum_{\lambda\in\sigma(A)} \lambda$ y $\operatorname{traza}(A)=\displaystyle\sum_{\lambda\in\sigma(A)} \lambda$. En particular, existe $A^{-1}$ si, y sólo si, $0\notin\sigma(A)$. También es destacable que los vectores propios asociados a valores propios distintos son necesariamente linealmente independientes.


Veamos cómo calcular estos elementos con Python. Trabajaremos a modo de ejemplo con la matriz 

$$A=\begin{pmatrix} 3&-2&0 \\ 4&-1&0 \\ 0&0&1\end{pmatrix}.$$

In [None]:
A=np.array([[3,-2,0],[4,-1,0],[0,0,1]])
print(A)

In [None]:
autovalores, autovectores = la.eig(A)

print(autovalores, "\n")   # j es el número imaginario i.
print(np.round(autovectores,3))

In [None]:
print(np.round(np.prod(autovalores),3))
print(np.round(la.det(A),3))

In [None]:
print(np.round(np.sum(autovalores),3))
print(np.round(np.trace(A),3))

En el caso de que la matriz $A$ tenga **$n$ vectores propios linealmente independientes**, y sólamente en ese caso, la matriz $A$ se puede **diagonalizar**: se cumple que $P^{-1}\cdot A \cdot P=D$ donde $D$ es una matriz diagonal formada por los autovalores de $A$ y $P$ es una matriz cuya columna $i$-ésima es vector propio asociado al valor propio en la entrada diagonal $i$-ésima de $D$. Notemos que $P$ es invertible porque sus columnas son linealmente independientes por hipótesis, luego tiene rango $n$.


En particular, si $A$ tiene $n$ valores propios distintos, entonces como hemos comentado anteriormente tendrá $n$ vectores propios linealmente independientes y, por tanto, será siempre diagonalizable. Luego la matriz del ejemplo anterior (que tenía 2 autovalores complejos conjugados y uno real) es diagonalizable seguro.

In [None]:
la.matrix_rank(autovectores)

In [None]:
np.round(la.inv(autovectores)@A@autovectores,3)

Esta igualdad tiene numerosas aplicaciones. Por ejemplo, como $A=P\cdot D \cdot P^{-1}$, entonces resulta _sencillo_ calcular potencias de $A$, pues $A^k=P\cdot D^k\cdot P^{-1}$, siendo $D^{k}$ fácil de calcular al ser $D$ una matriz diagonal.


Si $A$ no tiene $n$ vectores propios distintos, entonces no será diagonalizable. Por ejemplo:

In [None]:
A=np.array([[1,1,0],[0,1,0],[0,0,1]])
autovalores, autovectores=la.eig(A)
print(autovalores, "\n")
print(np.round(autovectores,3), "\n")
print(la.matrix_rank(autovectores))

**Proposición.** Si $A$ es simétrica (i.e. $A=A^t$), entonces sus valores propios son todos reales.

(Para demostrarlo, basta con ver que $A^2v=\lambda^2 v$ y tomar el cuadrado de la norma de $Av$.)

### 3. Descomposición en Valores Singulares (SVD)


La diagonalización de matrices tiene sentido cuando hablamos de matrices cuadradas. Pero, en general, si $A\in\mathcal{M}_{n\times m}(\mathbb{C})$, también existe otro tipo de descomposición denominada **descomposición en valores singulares** (SVD por sus siglas en inglés), la cual descompone $A=U\cdot \Sigma\cdot V$. En el caso que $A$ sea real (que será el que vamos a trabajar) se cumple que:

- $U$ y $V$ son matrices ortogonales (no únicas) de dimensiones $n\times n$ y $m\times m$, respectivamente.
- $\Sigma$ es una matriz $n\times m$ cuyas entradas fuera de la diagonal principal son nulas.
- $A^t A$ tiene valores propios reales y positivos (por ser una matriz simétrica y definida positiva).
- Si $A$ tiene rango $r$, entonces $\sigma(A^tA)$ contiene $r$ valores propios no nulos $\{\sigma_1^2,...,\sigma_r^2\}$; sus raíces cuadradas se denominan **valores singulares de $\pmb{A}$**.
- Si suponemos que están ordenados $\sigma_1^2\geq \cdots \geq \sigma_r^2 > 0$, entonces las entradas de la diagonal principal de $\Sigma$ son $\{\sigma_1,...,\sigma_r,0,...,0\}$.


Si nos fijamos en la estructura de estas matrices, tenemos lo siguiente:


\begin{eqnarray*} A&=&U\cdot \Sigma \cdot V \\&=& \begin{pmatrix}  &  &  \\ \vec{u_1} & \cdots & \vec{u_n} \\  &  &  \end{pmatrix} \cdot \begin{pmatrix} \sigma_1 & 0 & \cdots \\ 0 & \sigma_2 & \cdots \\ \vdots & \vdots & \ddots \end{pmatrix} \cdot \begin{pmatrix}  & \vec{v_1} &  \\  & \vdots &  \\  & \vec{v_m} &  \end{pmatrix} \\\ &=& \begin{pmatrix}  &  &  \\ \sigma_1\cdot \vec{u_1} & \cdots & \sigma_n\cdot\vec{u_n} \\  &  &  \end{pmatrix} \cdot \begin{pmatrix}  & \vec{v_1} &  \\  & \vdots &  \\  & \vec{v_m} &  \end{pmatrix} \\ &=&  \sigma_1\cdot \vec{u_1}\cdot \vec{v_1} + \cdots + \sigma_r\cdot \vec{u_r}\cdot \vec{v_r}+0\cdot\vec{u_{r+1}}\cdot \vec{v_{r+1}}+\cdots \\ &=& \displaystyle\sum_{i=1}^{r} \sigma_i\cdot \vec{u_i}\cdot\vec{v_i}, \end{eqnarray*}

donde $\vec{u_i}$ y $\vec{v_i}$ son vectores unitarios columna y fila, respectivamente, que son autovectores de $AA^t$ y $A^tA$. Como sólamente hay $r$ valores singulares no nulos, entonces a veces se toman $U$, $\Sigma$ y $V$ de dimensiones $n\times r$, $r\times r$ y $r\times m$, respectivamente, y por ello en el sumatorio anterior aparece el índice $1\leq i \leq r$. Esto significa que **las primeras columnas de $\pmb{U}$ y las primeras filas de $\pmb{V}$ contribuyen más en la construcción de $\pmb{A}$** que el resto. De hecho, se tiene el siguiente teorema:


**Teorema.** Sea $A\in\mathcal{M}_{n\times m}(\mathbb{R})$. Si $A_k$ es la descomposición SVD de $A$ utilizando los mayores $k$ valores singulares, entonces $A_k$ es la solución del problema $\operatorname{min} ||A-\hat{A}||_F$ bajo la restricción $\operatorname{rango}(\hat{A})=k$, donde $||M||_F=\operatorname{traza}(M^t\cdot M)$.


Este teorema tiene múltiples aplicaciones, por ejemplo en la **compresión de imágenes**. 

Veamos cómo obtener esta descomposición directamente utilizando Python. Consideremos la matriz $A=\begin{pmatrix} 1&0&0&0&2\\0&0&3&0&0\\0&0&0&0&0\\ 0&2&0&0&0 \end{pmatrix}$.

In [None]:
A=np.array([[1,0,0,0,2],[0,0,3,0,0],[0,0,0,0,0],[0,2,0,0,0]])
print(A)

In [None]:
U,S,V=la.svd(A)
print(U,"\n")
print(S,"\n")
print(V)

In [None]:
U@np.diag(S)@V

Si nos fijamos, las dimensiones no cuadran para hacer el producto de la descomposición. Esto se debe a que `np.diag(S)` nos devuelve por defecto una matriz simétrica, cuando nuestra $\Sigma$ debe tener dimensión $4\times 5$ (i.e. la misma dimensión que $A$).

Lo podemos arreglar con el argumento extra `full_matrices=False`.

In [None]:
U,S,V=la.svd(A, full_matrices=False)
print(U,"\n")
print(S,"\n")
print(V)

In [None]:
print(np.round(U@np.diag(S)@V,3))

Veamos que, efectivamente, el sumatorio anterior con los 3 valores singulares ya nos proporciona $A$.

In [None]:
print((S[0:3]*U[:,0:3])@V[0:3,:])

A continuación, vamos a definir una función que, dada la descoposición SVD de una matriz, nos la aproxime en función de $k$ valores singulares que deseemos.

In [None]:
def aprox_SVD(U,S,V,k):
    return (S[0:k]*U[:,0:k])@V[0:k,:]

In [None]:
print("A1 \n", aprox_SVD(A,S,V,1), "\n")
print("A2 \n", aprox_SVD(A,S,V,2), "\n")
print("A3 \n", aprox_SVD(A,S,V,3))

### 4. Compresión de imágenes


La clave para trabajar matemáticamente con imágenes es la siguiente: **una imagen en blanco y negro es una matriz** donde el valor de **cada entrada te determina la intensidad del píxel** correspondiente. Veamos un ejemplo de cómo transformar una imagen en color a blanco y negro, y posteriormente cómo transformarla en una matriz de este tipo.

In [None]:
import matplotlib.pyplot as plt
from PIL import Image

In [None]:
foto = Image.open('/Users/vmos/Library/CloudStorage/OneDrive-UPV/Curso IA (Samsung)/Apuntes VS (04.2024)/firenze.png')
foto_BN = foto.convert('L')   # Luminance
plt.figure(figsize=(10, 13))
plt.imshow(foto_BN, cmap='gray');

In [None]:
foto_mat=np.asarray(foto_BN)
print(foto_mat.shape)
plt.figure(figsize=(10, 13))
plt.imshow(foto_mat, cmap='gray');

Ahora comprimiremos dicha imagen a través de una aproximación de su matriz asociada, utilizando su descomposición SVD. Veamos primero cuál es el rango de la matriz, para ver "hasta dónde" podemos aproximar la matriz.

In [None]:
la.matrix_rank(foto_mat)

Veamos cómo quedaría la imagen con una aproximación que coja solamente los 10 primeros valores singulares.

In [None]:
[Umat,Smat,Vmat]=la.svd(foto_mat, full_matrices=False)

In [None]:
foto_mat_10=aprox_SVD(Umat,Smat,Vmat,10)
plt.figure(figsize=(10, 13))
plt.title("k=10")
plt.imshow(foto_mat_10, cmap='gray');

In [None]:
foto_mat_100=aprox_SVD(Umat,Smat,Vmat,100)
plt.figure(figsize=(10, 13))
plt.title("k=100")
plt.imshow(foto_mat_100, cmap='gray');

Con los 100 primeros valores singulares ya podemos observar bastante bien la imagen original. Lo destacable es que para calcular esta aproximación solamente hemos necesitado conocer $100\cdot 4032+100\cdot3024+100$ valores (los de las primeras 100 columnas de $U$, los de las primeras 100 filas de $V$ y los $100$ primeros valores singulares), mientras que para la foto original necesitábamos conocer los $4032\cdot 3024$ valores de su matriz asociada. 

**¡Esto significa que solamente estamos utilizando el $\dfrac{100\cdot \:4032+100\cdot 3024+100}{4032\cdot \:3024}=5.78\%$ de la información original!**


**Ejercicio.** Calcular la aproximación 500 e indicar el porcentaje de información requerido (alrededor del 29%).


Para realizar una aproximación de una imagen en color podemos utilizar la misma idea, pero con las tres matrices asociadas a la imagen (RGB).