<img src="images/keepcoding.png" width=200 align="left">

# Autovalores y autovectores

## 1. Definición

Los autovectores de una matriz cuadrada, también llamados eigenvectors, proporcionan direcciones especiales en el espacio vectorial que, después de ser transformadas por la matriz, se escalan por el autovalor (o eigenvalue) correspondiente. Estas direcciones modifican su magnitud (y puede que su sentido) pero no su dirección.

Una matriz A tiene autovalores y autovectores si existe un vector no nulo **v** y un escalar λ tales que al multiplicar el vector **v** por la matriz A se obtiene un nuevo vector que es simplemente v multiplicado por λ:

<center>
A $\vec{v}$=λ$\vec{v}$
</center>
    
Donde λ es el autovalor asociado al autovector $\vec{v}$.

Veamos un ejemplo simple:<br><br>

$Ax = \lambda x$

<center>$A\left( {\begin{array}{cc}
   1\\
   1\\
  \end{array} } \right) = \left( {\begin{array}{cc}
   5\\
   5\\
  \end{array} } \right) = 5\left( {\begin{array}{cc}
   1\\
   1\\
  \end{array} } \right)$ </center><br><br>
  
En este caso:

$\lambda = 5$<br>
$x = \left( {\begin{array}{cc}
   1\\
   1\\
  \end{array} } \right)$
  

## 2. Cálculo de autovalores y autovectores


Para encontrar los autovalores y autovectores de una matriz, se resuelve la ecuación det(A−λI)=0, donde det es el determinante, A es la matriz original, λ es el escalar desconocido (autovalor) e I es la matriz identidad del mismo tamaño que A. 

Esta ecuación se obtiene de hacer algunas operaciones con la definición:

<center>
A $\vec{v}$=λ$\vec{v}$
</center>

Moviendo un miembro al otro lado:

<center>$A\vec{v} - \lambda \vec{v} = 0$</center>

Sacando factor común:
<center>$(A - \lambda I)\vec{v}= 0$</center>

Al término $(A - \lambda I)$ se denomina **matriz de coeficientes**. Resolver esta ecuación para $\vec v \neq 0$ es equivalente a la llamada **ecuación característica**:

<center>$det(A - \lambda I) = 0$</center>

Como casi siempre, numpy nos proporciona una forma fácil de resolver el problema. El resultado que nos dará el cálculo será un conjunto de escalares (los autovalores) y el mismo número de vectores (los autovectores asociados a cada autovalor). Es posible que el mismo autovalor aparezca varias veces, en este caso decimos que es un **autovalor múltiple**.

In [1]:
import numpy as np


Autovalores:  [ 5. -4.]
Autovectores: 
 [[ 0.70710678 -0.27472113]
 [ 0.70710678  0.96152395]]


array([[5.],
       [5.]])

**Nota:** Si tenemos una matriz diagonal, los autovalores van a ser directamente los elementos de la diagonal principal, y los autovectores las direcciones de los ejes.

## 3 Usos
### 3.1 Uso de autovalores y autovectores para descomposición de matrices

El uso de descomposiciones de matrices en otras más sencillas nos puede ayudar a conocer las propiedades de la matriz y puede simplificar los cálculos.

$$ A = Q \cdot S \cdot Q^{-1}$$

donde A es la matriz que vamos a descomponer, S es la matriz con los autovalores en la diagonal y Q es la matriz que tiene los autovectores correspondientes como columnas.

In [1]:
import numpy as np

A = np.array([[3, 2, 1], [7, -2, 0], [4, 4, 1]])
x, v = np.linalg.eig(A)
x

array([ 6.15737435, -3.39110105, -0.7662733 ])

In [2]:
S = np.diag(x)
print(S)

[[ 6.15737435  0.          0.        ]
 [ 0.         -3.39110105  0.        ]
 [ 0.          0.         -0.7662733 ]]


In [3]:
v_inv = np.linalg.inv(v)

# descomposición
print(np.dot(v, np.dot(S, v_inv)))

[[ 3.00000000e+00  2.00000000e+00  1.00000000e+00]
 [ 7.00000000e+00 -2.00000000e+00  7.71990511e-17]
 [ 4.00000000e+00  4.00000000e+00  1.00000000e+00]]


### 3.2.1 Algunos resultados de álgebra (sin demostrar)

- Si A es una matriz real, las matrices $A^T A$ y $A A^T$ son simétricas.
- Los autovalores de estas dos matrices son $\geq 0$

### 3.3 Aplicaciones de los autovectores en Machine Learning

Aunque todo lo anterior nos pueda parecer muy teórico, los autovectores y autovalores tienen muchos usos en machine learning, principalmente en situaciones en las que queremos encontrar direcciones "especiales" de los datos:

- Reducción de dimensionalidad: Métodos como el Análisis de Componentes Principales (PCA) utilizan los autovectores y autovalores para encontrar una representación más compacta de los datos. Los autovectores representan las direcciones principales de variación en los datos, mientras que los autovalores indican la importancia de esas direcciones en términos de la varianza de los datos. Al proyectar los datos sobre los autovectores correspondientes a los autovalores más altos, es posible reducir la dimensionalidad conservando la mayor cantidad posible de información.

- Descomposición espectral: En problemas de factorización matricial, la descomposición espectral utiliza los autovectores para descomponer una matriz en una forma diagonalizada. Esto es útil en algoritmos de clustering, reconocimiento de patrones y sistemas de recomendación.

- Detección de características importantes: Los autovectores pueden utilizarse para identificar características importantes en los datos. En métodos como la Descomposición en Valores Singulares (SVD), los autovectores proporcionan información sobre las características más significativas de una matriz.

- Algoritmos de aprendizaje no supervisado: Algunos algoritmos no supervisados, como el clustering espectral, utilizan los autovectores y autovalores para agrupar datos en espacios transformados donde la estructura de los grupos puede ser más clara.

### 3.3.1 PCA: Principal Component Analysis

<img src="images/pca.webp" width=60%/>


- Usamos la matriz de la covarianza, que nos da la relación entre cada par de variables
- Como esta matriz es simétrica, podemos usar el resultado anterior sobre sus autovalores
- La varianza total T es la suma de todos los autovalores
- Normalmente, el autovalor más grande contiene la mayor parte de la covarianza

Vamos a estudiar el ejemplo del dataset [Iris](https://en.wikipedia.org/wiki/Iris_flower_data_set) de [sklearn](https://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_iris.html):

In [None]:
# Code source: Gaël Varoquaux
# License: BSD 3 clause

import matplotlib.pyplot as plt

# unused but required import for doing 3d projections with matplotlib < 3.2
import mpl_toolkits.mplot3d  # noqa: F401
import numpy as np

from sklearn import datasets, decomposition

np.random.seed(5)

iris = datasets.load_iris()
X = iris.data
y = iris.target

fig = plt.figure(1, figsize=(4, 3))
plt.clf()

ax = fig.add_subplot(111, projection="3d", elev=48, azim=134)
ax.set_position([0, 0, 0.95, 1])


plt.cla()
pca = decomposition.PCA(n_components=3)
pca.fit(X)
X = pca.transform(X)

for name, label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:
    ax.text3D(
        X[y == label, 0].mean(),
        X[y == label, 1].mean() + 1.5,
        X[y == label, 2].mean(),
        name,
        horizontalalignment="center",
        bbox=dict(alpha=0.5, edgecolor="w", facecolor="w"),
    )
# Reorder the labels to have colors matching the cluster results
y = np.choose(y, [1, 2, 0]).astype(float)
ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap=plt.cm.nipy_spectral, edgecolor="k")

ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])

plt.show()

### 3.3.2 SVD: Singular Value Decomposition

Podemos imaginar este proceso como una descomposición en tres matrices más sencillas (rotación, escalado y rotación). 


Dada una matriz $M$ con tamaño $(m,n)$, puede ser expresada como:

<img src="images/svd.png" width=30%/>

Donde U y V son matrices ortogonales, es decir, su inversa coincide con su traspuesta. Los elementos de la matriz diagonal son los llamados valores singulares, y tendremos un total de r, siendo r el rango de la matriz. Los vectores de U y V son los llamados vectores singulares. Normalmente nos quedamos con los valores singulares más altos y obtenemos una matriz de menor rango, pero similar a la original. En un problema de ciencia de datos, puede ser aproximar a otro con menos variables y más facil de tratar.

SVD tiene muchísimas aplicaciones en matemáticas y en ciencia de datos.


In [4]:
import numpy as np
from scipy.linalg import svd


A = np.array([[1, 2], [3, 4], [5, 6]])
print(A)


u,s, vt = np.linalg.svd(A, full_matrices = False)


print("Matriz U")
print(u)


print("Valores de S")
print(s)


print("Matriz Vt")
print(vt)

[[1 2]
 [3 4]
 [5 6]]
Matriz U
[[-0.2298477   0.88346102]
 [-0.52474482  0.24078249]
 [-0.81964194 -0.40189603]]
Valores de S
[9.52551809 0.51430058]
Matriz Vt
[[-0.61962948 -0.78489445]
 [-0.78489445  0.61962948]]


In [6]:
S = np.diag(s)
S

array([[9.52551809, 0.        ],
       [0.        , 0.51430058]])

In [7]:
np.dot(u,np.dot(S, vt))

array([[1., 2.],
       [3., 4.],
       [5., 6.]])

In [9]:
S_reducida = np.diag([s[0]])
S_reducida

array([[9.52551809]])

In [12]:
U_reducida = u[:,0:1]
print(U_reducida)
print("---")
print( u[:,0:1].reshape(3,1))

[[-0.2298477 ]
 [-0.52474482]
 [-0.81964194]]
---
[[-0.2298477 ]
 [-0.52474482]
 [-0.81964194]]


In [22]:
Vt_reducida = vt[0,:].reshape(1, 2)
print(Vt_reducida)
print("---")
print(Vt_reducida.reshape(1, 2))

[[-0.61962948 -0.78489445]]
---
[[-0.61962948 -0.78489445]]


In [23]:
np.dot(U_reducida,np.dot(S_reducida, Vt_reducida))


array([[1.35662819, 1.71846235],
       [3.09719707, 3.92326845],
       [4.83776596, 6.12807454]])

En [esta página](https://timbaumann.info/svd-image-compression-demo/) podemos ver ejemplos de imágenes a las que se ha aplicado SVD.

In [37]:
import numpy as np
from scipy.linalg import svd

A = np.array([[1, 2], [3, 4], [5, 6]])

u,s, vt = np.linalg.svd(A, full_matrices = False)

S_reducida = np.diag([s[0]])
U_reducida = u[:,0:1]
Vt_reducida = vt[0,:].reshape(1, 2)

print("U_reducida: ", U_reducida.shape)
print("S_reducida: ", S_reducida.shape)
print("Vt_reducida: ", Vt_reducida.shape)

print("\n")

resultado = np.dot(U_reducida,np.dot(S_reducida, Vt_reducida))
print(resultado.shape)
print(resultado)

U_reducida:  (3, 1)
S_reducida:  (1, 1)
Vt_reducida:  (1, 2)


(3, 2)
[[1.35662819 1.71846235]
 [3.09719707 3.92326845]
 [4.83776596 6.12807454]]


In [28]:
A = np.array([[1, 2], [3, 4], [5, 6]])

In [29]:
A.shape

(3, 2)