# Examen de prácticas. Curso 22-23. Convocatoria Junio 2023

## Matrices de Similitud y Aplicación en Ciencia de Datos 

Algunos algoritmos de **Machine Learning** (por ejemplo las **Máquinas de Vector Soporte**, que se pueden usar para separar conjuntos de datos) trabajan de manera más eficaz no sobre el conjunto inicial de datos sino sobre otros datos que se obtienen a partir de los anteriores haciendo una determinada transformación (es lo que se suele llamar **kernel trick**, truco del núcleo).

En este ejercicio veremos un ejemplo sencillo de en qué consiste todo esto.


Supongamos que tenemos datos almacenados en una determinada matriz $D$. Típicamente, las filas de $D$ denotan muestras (samples) de un determinado proceso o fenómeno, y las columnas guardan las características (features) de dicho fenómeno. Por ejemplo, las características podrían ser datos médicos (colesterol, azúcar, tensión arterial) de un grupo de personas. Cada fila contendría estas tres características para cada persona.

Como ilustración, genera una matriz $D$ con tamaño $5$ filas y $3$ columnas formada por números aleatorios de tipo **float64**. Imprime en pantalla la matriz resultante.

**Puntos = 0.5**

In [3]:
# Completar aquí

import numpy as np

D = np.random.randn(5, 3)
print(f"D = \n{D}")
print(f"Tipo de datos en D = {D.dtype}")

# Fin Completar aquí ------------------------------------


D = 
[[ 0.33368847 -2.31118679  0.34194347]
 [ 0.47100135  0.95334232  0.639313  ]
 [ 0.52410668 -0.69793707 -0.80471069]
 [ 0.71973439  0.67552741 -1.23755509]
 [-0.16104805  1.62382354 -0.77319744]]
Tipo de datos en D = float64


Una forma sencilla de construir una matriz de similitud para los datos anteriores es considerando la matriz $S$ con entradas $s_{ij}$ el producto escalar de las fila i-ésima y j-ésima de $D$, es decir, $S = D D^T$, con $D^T$ la traspuesta de $D$. Este tipo de transformación se llama en Machine Learning un **Linear Kernel**. 

Construye la matriz $$S = D D^T,$$

imprímela en pantalla y usa un operador booleano para comprobar que $S$ es simétrica.

**Puntos = 0.5**

In [4]:
# Completar aquí

S = D @ D.T

print(f"S = \n {S}")
print(f"¿Es S simétrica ? {np.all(S == S.T)}")

# Fin Completar aquí ------------------------------------

S = 
 [[ 5.56985773 -1.82757555  1.51278573 -1.74427685 -4.07108922]
 [-1.82757555  1.53942496 -0.93297999  0.19181969  0.97789068]
 [ 1.51278573 -0.93297999  1.40936326  0.90161579 -0.59553276]
 [-1.74427685  0.19181969  0.90161579  2.50589748  1.93789992]
 [-4.07108922  0.97789068 -0.59553276  1.93789992  3.26057365]]
¿Es S simétrica ? True


Nótese que, desde el punto de vista del Álgebra Lineal, la matriz $S$ es mucho más rica que $D$. En efecto, $S$ es simétrica (también semidefinida positiva), y ser simétrica y semidefinida positiva son grandes virtudes en Álgebra Lineal.

Ya sabemos cómo a partir de la matriz inicial de datos $D$ podemos contruir una matriz de similitud $S$. Basta tomar $S = D D^T$. 

Imaginemos ahora que partimos de la matriz $S$. ¿Es posible recuperar la matriz inicial $D$? Es decir, ¿existe una matriz $D$ tal que $S = D D^T$? La respuesta es SI. De hecho, existen muchas matrices $D$. 

Veremos a continuación $2$ formas diferentes de calcular $D$.


**Primera forma: factorización en autovalores**

Calculamos la factorización en valores propios de $S$, es decir, escribimos $S=Q\Sigma Q^T$, con $Q$ ortogonal y $D$ diagonal. Como los autovalores de $S$ son no negativos, se tiene

$$
S = (Q \sqrt{\Sigma}) (Q \sqrt{\Sigma})^T
$$
donde $\sqrt{\Sigma}$ es una matriz diagonal que contine en su diagonal principal las raíces cuadradas de los autovalores de $S$. De esta forma, $D = Q \sqrt{\Sigma}$. 

Se pide:

1) Calcula (e imprime por pantalla) los autovalores de $S$, redondea los autovalores a $10$ cifras decimales, y calcula la raíz cuadrada de los autovalores redondeados.

2) Calcula (e imprime por pantalla) las matrices $Q$, $\Sigma$, $\sqrt{\Sigma}$.

3) Calcula (e imprime por pantalla) $(Q \sqrt{\Sigma}) (Q \sqrt{\Sigma})^T$ y compara con $S$.



**Puntos = 4**


In [8]:
# Completar aquí

from numpy.linalg import eig

autovalores, autovectores = eig(S)
autovalores_redondeados = np.round(autovalores, 10)
raiz_cuadrada_autovalores = np.sqrt(autovalores_redondeados)

print(f"autovalores = {autovalores}")

print(f"autovalores_redondeados = {autovalores_redondeados}")

print(f"raiz_cuadrada_autovalores = {raiz_cuadrada_autovalores}")


Q = autovectores
print(f"Q = \n {Q}")

Sigma = np.diag(autovalores)
print(f"Sigma = \n {Sigma}")

raiz_cuadrada_Sigma = np.diag(raiz_cuadrada_autovalores)
print(f"raiz_cuadrada_Sigma = \n {raiz_cuadrada_Sigma}")

print(f"(Q raiz_cuadrada_Sigma) (Q raiz_cuadrada_Sigma) ^T = \n {Q @ raiz_cuadrada_Sigma @ (Q @ raiz_cuadrada_Sigma).T}")

# Fin Completar aquí ------------------------------------

autovalores = [ 1.02596379e+01  3.23557046e+00  7.89908692e-01  1.65280360e-16
 -7.77332446e-17]
autovalores_redondeados = [10.25963794  3.23557046  0.78990869  0.         -0.        ]
raiz_cuadrada_autovalores = [ 3.20306696  1.79876915  0.88876808  0.         -0.        ]
Q = 
 [[-0.72913832  0.16528692 -0.18488543  0.39811951 -0.42104262]
 [ 0.23777296 -0.33054069 -0.87579774  0.25029669  0.11009311]
 [-0.15729137  0.59440978 -0.12495031  0.30431338  0.75891662]
 [ 0.28928407  0.6945452  -0.33091781 -0.40874781 -0.46203589]
 [ 0.55081347  0.16645441  0.27143419  0.72053523 -0.14550264]]
Sigma = 
 [[ 1.02596379e+01  0.00000000e+00  0.00000000e+00  0.00000000e+00
   0.00000000e+00]
 [ 0.00000000e+00  3.23557046e+00  0.00000000e+00  0.00000000e+00
   0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  7.89908692e-01  0.00000000e+00
   0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  1.65280360e-16
   0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00  0.

**Segunda forma: factorización Cholesky**

La segunda forma consiste simplemente en calcular la factorización de Cholesky de $S$, que recordemos proporciona la descomposición $S = \tilde{L} \tilde{L}^T$.

Calcula (e imprime por pantalla) la factorización de Cholesky de $S$, escrita en la forma anterior. Recuerda que **Python** calcula todo esto de una manera un poco diferente. También debes redondear $10$ cifras decimales para evitar problemas numéricos.

**Puntos = 4 puntos**

In [9]:
# Completar aquí

from scipy.linalg import ldl

L, Diag, P = ldl(S) # P es una matriz de permutación

print(f"L = \n  {L}")
print(f"Diag = \n {Diag}")
print(f"P = \n  {P}")

diag_valores = np.diag(Diag)

print(f"diagonal de D = {diag_valores}")

diag_valores_redondeados = np.round(diag_valores, 10)

print(f"diagonal de D redondeados = {diag_valores_redondeados}")

raiz_cuadrada_diag_valores_redondeados = np.sqrt(diag_valores_redondeados)

print(f"raiz_cuadrada_diag_valores_redondeados = {raiz_cuadrada_diag_valores_redondeados}")

raiz_cuadrada_Diag =np.diag(raiz_cuadrada_diag_valores_redondeados)

print(f"raiz_cuadrada_D = \n {raiz_cuadrada_Diag}")


L_tilde = np.dot(L, raiz_cuadrada_Diag)
print(f"L_tilde = \n {L_tilde}")

print(f"L_tilde L_tilde^T = \n {np.dot(L_tilde, L_tilde.T)}")


# Fin Completar aquí ------------------------------------


L = 
  [[ 1.          0.          0.          0.          0.        ]
 [-0.32811889  1.          0.          0.          0.        ]
 [ 0.27160222 -0.4645921   1.          0.          0.        ]
 [-0.31316363 -0.40490053  1.50643249 -0.08321683  1.        ]
 [-0.7309144  -0.38085203  0.43223091  1.          0.        ]]
Diag = 
 [[5.56985773e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00]
 [0.00000000e+00 9.39762894e-01 0.00000000e+00 0.00000000e+00
  0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 7.95643412e-01 0.00000000e+00
  0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 7.57832111e-16
  0.00000000e+00]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  8.26586846e-18]]
P = 
  [0 1 2 4 3]
diagonal de D = [5.56985773e+00 9.39762894e-01 7.95643412e-01 7.57832111e-16
 8.26586846e-18]
diagonal de D redondeados = [5.56985773 0.93976289 0.79564341 0.         0.        ]
raiz_cuadrada_diag_valores_redondeados = [2.3600546  0.96941369 0.891

Los kernel no lineales son más habituales en Machine Learning. Consideraremos a continuación un kernel cuadrático. En concreto, el dado por la expresión

$$
K = 3 S^2 +1, \quad S = DD^T,
$$

donde $S^2$ significa que cada entrada de la matriz $S$ se eleva al cuadrado, y tanto el producto por $3$ como la suma de $1$ se entienden en el sentido de **broadcasting**.

Calcula e imprime por pantalla $K$.

**Puntos = 1 punto**

In [10]:
# Completar aquí

K = 2 * S ** 2 + 1
print(f"K = \n {K}")

# Fin Completar aquí ------------------------------------

K = 
 [[63.04663031  7.6800648   5.57704134  7.08500348 34.14753494]
 [ 7.6800648   5.73965842  2.74090333  1.07358959  2.91254037]
 [ 5.57704134  2.74090333  4.97260962  2.62582207  1.70931854]
 [ 7.08500348  1.07358959  2.62582207 13.55904438  8.51091223]
 [34.14753494  2.91254037  1.70931854  8.51091223 22.26268111]]
