<a href="https://colab.research.google.com/github/institutohumai/cursos-python/blob/master/MatematicasParaIA/3_Factorizacion/complementaria_PCA_y_SVD.ipynb"> <img src='https://colab.research.google.com/assets/colab-badge.svg' /> </a>

# Descomposición en Valores Singulares (_SVD_) y Análisis de Componentes Principales (_PCA_)

¿Qué es Principal Component Analysis (PCA)?

Es un método que nos permite reescribir nuestros datos mediante una transformación lineal de las variables de origen. La nueva base conserva vectores ortogonales cuya covarianza entre diferentes variables es cero (son independientes en términos de la correlación)

¿Para qué usamos PCA?

* Reducción de dimensionalidad
* Análisis exploratorio de datos
* Modelos predictivos

### Datos representados por matrices

Supongamos que tenemos una matriz $X$ de dimensiones $n×p$, donde $n$ es el número de muestras y $p$ es el número de variables que describen cada una de las muestras.

La idea central es generar un **Cambio de base** de las variables originales a partir de una **transformación lineal** que cumpla ciertas características. Los vectores que forman la nueva base se denominan **componentes principales**.

### Covarianza entre variables y varianza explicada por un componenete principal

La matriz de covarianza $C$ de dimensiones $pxp$ viene dada por

$$ C=X^{T}X/(n−1)$$ 

Es una matriz simétrica por lo que es diagonalizable:

$$C=VLV^T$$

donde $V$ es una matriz de autovectores (cada columna es un autovector) y $L$ es una matriz diagonal con los autovalores $\lambda_i$

Los autovectores se denominana componenetes principales del conjunto de datos e implican un cambio de base (transfomración lineal) respecto de las variables originales. 

Este cambio de base busca encontrar las direcciones donde la varianza de cada variable es máxima y la covarianza entre dos variables diferentes es cero.

Cada autovector o componenete principal de $X$ se forma con los "pesos" que tiene de cada variable original de los datos

In [1]:
import numpy as np
import pandas as pd
from sklearn import datasets 
import matplotlib.pyplot as plt

In [None]:
iris = datasets.load_iris()
np.shape(iris.data)
print(iris.feature_names)
X=iris.data
for i in range(3):
  X[:,i]=X[:,i]-np.mean(X[:,i])
np.mean(X[:,0])

In [None]:
cov_data = np.dot(X.T, X) / (n-1)
cov_data

In [None]:
img = plt.matshow(cov_data, cmap=plt.cm.rainbow)
plt.colorbar(img, ticks = [-1, 0, 1], fraction=0.045)
for x in range(cov_data.shape[0]):
    for y in range(cov_data.shape[1]):
        plt.text(x, y, "%0.2f" % cov_data[x,y], size=12, color='black', ha="center", va="center")
        
plt.show()

In [35]:
# Matriz de datos centrada en cero
n, m = X.shape
# Calculamos matriz de covarianza
C = np.dot(X.T, X) / (n-1)
# Cálculo de autovectores y autovalores
eigen_vals, eigen_vecs = np.linalg.eig(C)
# Proyectamos los datos en la base de autovectores
X_pca = np.dot(X, eigen_vecs)

Autovectores

In [None]:
eigen_vecs[:,:]

Autovalores

In [39]:
eigen_vals

array([4.48787243, 1.23308635, 0.05891336, 0.24113905])

Componenetes principales

In [None]:
X_pca[0:9,:]

Recalculamos la matriz de covarianza para las nuevas variables (las proyecciones de cada muestra sobre cada autovector)

In [None]:
# Calculamos la matriz de covarianza para los datos en la nueva base de autovectores
cov_data = np.dot(X_svd.T, X_svd) / (n-1)
cov_data

In [None]:
img = plt.matshow(cov_data, cmap=plt.cm.rainbow)
plt.colorbar(img, ticks = [-1, 0, 1], fraction=0.045)
for x in range(cov_data.shape[0]):
    for y in range(cov_data.shape[1]):
        plt.text(x, y, "%0.2f" % cov_data[x,y], size=12, color='black', ha="center", va="center")
        
plt.show()

## Implementando PCA mediante SVD

Si realizamos una descomposiciòn en valores singulares para los datos almacenados en la matriz $X$,  obtenemos la siguiente factorización:

$$X=USV^⊤$$

Donde $U$ es una matriz unitaria y $S$ es la matriz diagonal de valores singulares. Usando esta expresión para $X$ podemos calcular la matriz de covarianza $C$

$$C=VSU^⊤USV^{⊤}/(n−1)=V\frac{S}{n−1} V^{⊤} $$

Dado que la descoposición de $C$ es única, podemos relacionar dicha factorización con la que teníamos para $C$ de lo cuál se concluye que los vectores singulares $V$ de la derecha de la expresión son las direcciones principales (o componenetes principales) y que los valores singulares están relacionados con los autovalores de la matriz de covarianza $C$ mediante la siguiente expresión:
$$λ_i=\frac{S^2_i}{(n−1)}$$

Los componenetes principales están dados por

$$XV=USV^⊤V=US$$

### Utilizando SVD para implementar PCA

In [None]:
# Matriz de datos X
n, m = X.shape
# Calculamos SVD
U, Sigma, Vh = np.linalg.svd(X, 
full_matrices=False, 
compute_uv=True)
# Transformamos X con los componenentes de SVD
X_svd = np.dot(U, np.diag(Sigma))
X_svd[0:9,:]

### Seleccionando los componenetes principales según la varianza explicada requerida

Si uno requiere implementar una selección de features, puede realizar un PCA y retener las variables (autovectores) que impliquen un porcentaje de la varianza total de los datos que sea acorde al grado de precisión de reconstrucción de los datos requerida.

Si pretendo reconstruir los datos originales con un 95% de precisión, tengo que tomar tantos autovectores como sea necesario para que la suma de la varianza total del conjunto de autovectores seleccionados alcance un 95% de la varianza total de los datos.