La matriz de covarianza es el objeto matemático que permite identificar cuáles variables están altamente correlacionadas. Cuando dos variables están altamente correlacionadas, quiere decir que aportan básicamente la misma información del problema y eso podría indicar que solo necesitaríamos una sola de ellas

## Repaso de matrices

Las matrices en general son objetos matemáticos que tienen un cierto número de filas y columnas (estos números los denominamos dimensiones de la matriz).

#### Transpuesta
Las matrices tienen una operación especial, que llamamos **transponer**, la cual consiste en ubicar cada fila como una columna en una nueva matriz, el resultado de una transposición se denomina matriz transpuesta

$\begin{bmatrix}4&-3\cr1&2\end{bmatrix}^T = \begin{bmatrix}4&1\cr-3&2\end{bmatrix}$

##### Suma y resta

Entre las matrices podemos definir reglas de **suma y resta** de forma similar a como hacemos con los números naturales o decimales, con una condición especial: ambas matrices deben tener las mismas dimensiones y cuando las dimensiones de una matriz son iguales entre ellas (# filas = # columnas) decimos que la *matriz es cuadrada.*

$\begin{bmatrix}1&3\cr2&0\end{bmatrix} + \begin{bmatrix}-1&1\cr3&2\end{bmatrix} = \begin{bmatrix}-1+(-1)&3+1\cr2+3&0+2\end{bmatrix} = \begin{bmatrix}0&4\cr5&2\end{bmatrix}$

#### Multiplicación
Las matrices también tienen una operación de multiplicación entre ellas:

$\begin{bmatrix} a_{11}&a_{12}\cr a_{21}&a_{22} \end{bmatrix} \cdot \begin{bmatrix} b_{11}&b_{12}\cr b_{21}&b_{22} \end{bmatrix} = \begin{bmatrix} c_{11}&c_{12}\cr c_{21}&c_{22} \end{bmatrix}$

Para cacular los valores de $c$ seguimos este patrón:

$c_{11} = a_{11}b_{11} + a_{12}b_{21}$

$c_{12} = a_{11}b_{12} + a_{12}b_{22}$

$c_{21} = a_{21}b_{11} + a_{22}b_{21}$

$c_{22} = a_{21}b_{12} + a_{22}b_{22}$

El producto de matrices se calcula en Python con numpy:
``np.matmul(A, B)``

#### Inverso de una matriz

Cada número tiene un inverso, en donde el inverso es aquel número tal que la multiplicación de ambos da 1:

$ 6 \cdot \frac{1}{6} = 1$

Las matrices también pueden tener su inversa (aunque no siempre), la matriz inversa A-1de una matriz dada A se define como aquella matriz donde (supongamos que A es 2x2):

$ A \cdot A^{-1} = \begin{bmatrix}1&0\cr0&1\end{bmatrix} $

In [1]:
import numpy as np


A = np.array([[2, 4], [-1, 2]])
Ainversa = np.linalg.inv(A)
Ainversa

array([[ 0.25 , -0.5  ],
       [ 0.125,  0.25 ]])

In [2]:
# Verificando la inversa

np.matmul(A, Ainversa)

array([[1., 0.],
       [0., 1.]])

#### Vectores

Tambien podemos calcular el producto de una matriz por un vector:

$\begin{bmatrix} a_{11}&a_{12}\cr a_{21}&a_{22} \end{bmatrix} \cdot \begin{bmatrix} v_{11}\cr v_{21} \end{bmatrix} = \begin{bmatrix} a_{11}v_1 + a_{12}v_2\cr a_{21}v_1 + a_{22}v_2 \end{bmatrix}$

#### Producto Punto

$ \overrightarrow{a} \cdot \overrightarrow{b} = \begin{bmatrix} x_1&y_1 \end{bmatrix} \cdot \begin{bmatrix} x_2\cr y_2 \end{bmatrix} = x_1x_2 + y_1y_2 $

Al mutiplicar un vector por el mismo se aplica la misma definición:

$ \overrightarrow{a} \cdot \overrightarrow{a} = \begin{bmatrix} x_1&y_1 \end{bmatrix} \cdot \begin{bmatrix} x_1\cr y_1 \end{bmatrix} = x^2_1 + y^2_1 $

$ x^2_1 + y^2_1 = |\overrightarrow{a}|^2  $

La longitud de un vector, también conocida como norma del vector se calcula:

$ |\overrightarrow{a}| = \sqrt{x_1^2 + y_1^2} = \sqrt{\overrightarrow{a} \cdot \overrightarrow{a} } $

#### Vectores y valores propios de una matriz

Cuando se viaja en una montaña rusa, la velocidad y la dirección cambian constantemente. De manera similar, al multiplicar una matriz por un vector, el vector resultante se transforma en una nueva dirección y puede cambiar de longitud. Sin embargo, los valores propios de una matriz son puntos especiales donde el vector resultante sólo cambia en longitud, pero no en dirección. De hecho, los vectores propios correspondientes a los valores propios son aquellos que sólo se estiran o encogen cuando se multiplican por la matriz.

Así como los puntos críticos en una montaña rusa son importantes para comprender el recorrido, los valores propios son importantes para comprender cómo la matriz afecta a los vectores. Al igual que los diseñadores de montañas rusas intentan crear emociones y experiencias específicas para los pasajeros, los matemáticos y científicos de datos utilizan los valores propios para entender y controlar cómo las matrices transforman los vectores en diferentes contextos y aplicaciones.

En términos matemáticos, si A es una matriz cuadrada de orden n, λ es un número real o complejo y x es un vector no nulo de dimensión n, entonces λ es un valor propio de A asociado al vector propio x si y solo si:

$ A \cdot \overrightarrow{x} = \lambda\overrightarrow{x} $

 A es una matriz cuadrada NxN cuyos elementos conocemos perfectamente y X es un vector columna cuyas componentes desconocemos. Mltiplicar un vector por un número es simplemente multiplicar cada componente del vector por dicho número.
 Lo que esta ecuación nos pregunta es:
 ¿Existen vectores X tales que al multiplicarlos por la matriz A eso es equivalente a simplemente multiplicarlos por un número?

Si tal vector existe y está asociado a un valor específico de λ, entonces decimos que el vector X es un vector propio de la matriz A y λ es su valor propio correspondiente.

Por ejemplo:

$\begin{bmatrix}1&2\cr1&0\end{bmatrix} \cdot \begin{bmatrix}x\cr{y}\end{bmatrix} = \lambda\begin{bmatrix}x\cr{y}\end{bmatrix} $

$\begin{bmatrix}x + 2y\cr{x}\end{bmatrix} = \begin{bmatrix}\lambda x\cr \lambda y\end{bmatrix} $

Así encontramos el sistema de ecuaciones

Ahora podemos resolver esto en Python así:

In [3]:
import numpy as np
A = np.array([[1, 2], [1, 0]])
values, vectors = np.linalg.eig(A)
print(values, vectors)

[ 2. -1.] [[ 0.89442719 -0.70710678]
 [ 0.4472136   0.70710678]]


Donde la matriz A contiene los elementos exactos de la matriz anterior y el comando np.linalg.eig(A) lo que hace es calcular directamente los valores y vectores propios, llamados values y vectors en el código, respectivamente.

$\begin{bmatrix}x\cr{y}\end{bmatrix} = \begin{bmatrix}0.89442719\cr{0.4472136}\end{bmatrix} , \lambda = 2 $

$\begin{bmatrix}x\cr{y}\end{bmatrix} = \begin{bmatrix}-0.70710678\cr{0.70710678}\end{bmatrix} , \lambda = -1 $

Se puede verificar que cada vector y su correspondiente valor propio cumplen la ecuación original ejecutando cada parte

In [9]:
np.matmul(A, vectors.T[1])

array([ 0.70710678, -0.70710678])

In [10]:
values[1]*vectors.T[1]

array([ 0.70710678, -0.70710678])

In [8]:
vectors.T[1]

array([-0.70710678,  0.70710678])

Diagonalizar una matriz es un proceso en el que se transforma una matriz en otra matriz diagonal mediante una matriz de cambio de base. Esto es importante porque las matrices diagonales son mucho más fáciles de trabajar y de calcular que las matrices generales.

Una matriz A es diagonizable si cumple el siguiente criterio:

$ A = P \cdot D \cdot P^{-1}$

Donde D es una matriz diagonal (matriz donde todos los elementos por fuera de la diagonal son cero)

si una matriz es diagonalizable, la matriz D se construye colocando sus valores propios en la diagonal y la matriz P se construye colocando en cada columna el vector propio,siguiendo el mismo orden de valores propios correspondientes de la matriz D, así:

$ P\cdot DP^{-1} = \begin{bmatrix} \vdots&\vdots&\vdots\cr\overrightarrow{x_1}&\overrightarrow{x_2}&\overrightarrow{x_3}\cr\vdots&\vdots&\vdots \end{bmatrix} \begin{bmatrix} λ_1&0&0\cr0&λ_2&0\cr0&0&λ_3\end{bmatrix} {\begin{bmatrix} \vdots&\vdots&\vdots\cr\overrightarrow{x_1}&\overrightarrow{x_2}&\overrightarrow{x_3}\cr\vdots&\vdots&\vdots \end{bmatrix}}^{-1} $

Cuando aplicamos este cálculo de vectores y valores propios a una matriz de covarianza, los vectores representan las direcciones a lo largo de las cuales tendremos la mayor cantidad de varianza de ese conjunto de datos, donde la cantidad de varianza es proporcional al valor de cada vector propio.

Para matrices de covarianza, sus vectores propios siempre son independientes unos de otros y esto es justamente lo que queremos en un proceso de reducción de variables, porque direcciones independientes implica que estos vectores representan nuevas variables cuya correlación es la más baja posible y así cada nueva variable es lo más representativa posible.

Los vectores propios de una matriz de covarianza son ortogonales (el producto interno de cualquier par de estos vectores siempre da como resultado cero):

$ \overrightarrow{x_i} \cdot \overrightarrow{x_j} = 0 $

Como consecuencia la matriz se denomina matriz ortogonal, y se sabe en matemáticas que la inversa de una matriz ortogonal es igual a la transpuesta, de manera que:

$ A = P \cdot D \cdot P^{-1} = P \cdot D \cdot P^T $