# TP14 - Analisis de Componentes Principales (PCA)

Un gran problema que surge cuando tratamos de realizar algún tipo de **aprendizaje automático** es la **maldición de la dimensionalidad**, la cual se refiere a los diversos fenómenos que surgen al analizar y organizar datos en espacios de múltiples dimensiones (cientos y miles de dimensiones) que no suceden en el espacio físico descrito generalmente con solo tres dimensiones.

Sitio donde hay una buena explicación sobre el tema ([link](http://www.albertolumbreras.net/posts/maldicion-dimensionalidad.html)) 

El problema con las grandes dimensiones, es que cuanto mas dimensiones hay, todos los puntos quedan concentrados en un espacio muy pequeño. En otras palabras, todos los puntos estarán cerca. Esto se puede visualizar en la siguiente imagen:

![betancourt_cubes](img/11-betancourt_cubes.png)

Por esta razón, se han investigado técnicas, para poder proyectar datos en un espacio de dimensionalidad $D$ en otro espacio de dimensionalidad menor $M$ tal que $M\leq D$. Una de las técnicas mas utilizadas realizar esto es el **Análisis de Componentes Principales (PCA)**.

#### Principal Component Analysis (PCA)
En PCA lo que se busca es encontrar una matriz de proyección $U$ tal que describir un set de datos en términos de nuevas variables, llamadas **componentes**, no correlacionadas. Estos componentes se ordenan por la cantidad de varianza que describen. Permitiendo seleccionar una cantidad $p$ de componentes principales para describir el dataset que explique el conjunto de datos.

![pca](img/11-basic_pca.png)

##### Algoritmo: 

Dato el conjunto de datos de entrenamiento $\{x_1, \dots, x_n\}\mid x_i \in R^D$
* Computar la media $\bar{x}$ para cada dimensión y la matriz de covarianza $M$
$$\bar{x}=\frac{1}{N}\sum_{n=1}^N x_n\qquad M=\frac{1}{N-1}\sum_{n=1}^N(x_n-\bar{x})^T(x_n-\bar{x})$$
* Calcular los auto-valores $(\lambda_i\mid i\in d)$ y auto-vectores $(u_i\mid i\in d)$ de la matriz de covarianza $M$
* Ordenar los auto-vectores $u_i$ de manera decreciente con respecto a sus correspondientes auto-valores $\lambda_i$.
* Crear la matriz $U=(u_1,\dots,u_d)$

Para realizar la proyección al nuevo espacio ortogonal:
$$x_n^d=(U^T(x_n-\bar{x})^T)^T$$

$x_n^d$ es la matriz de ejemplos transformados ortogonalmente. A partir de la misma, podemos descartar dimensiones para llevar nuestro dataset a un espacion de $p$ dimensiones. 

Para recontruir una aproximación de los datos originales
$$\tilde{x}_n\approx x_n^pU^T+\bar{x}$$

El error cuadratico de reconstrucción es
$$\sum_{n=1}^N(x_n-\tilde{x}_n)^2=(N-1)\sum_{j=p+1}^d\lambda_j$$

donde los $\lambda_j$ son los auto-valores descartados en la proyección.

##### ¿Como elegir p?
$$\frac{\sum_{k=1}^M\lambda_k}{\sum_{k=1}^D\lambda_k}>thresh$$ 
tal que $(0\leq thresh \leq 1)$.

El $min(M)$ que satisfaga la ecuación previa explicara el $thresh$ porciento de los datos.

## Ejercicios 
1) Implementar PCA

In [None]:
def pca_train(X):       
    # 1) Implementar PCA mediante descomposición de la matriz de 
    # covarianza muestral. Utilizar la función np.linalg.eigh
    # para una solución numéricamente más estable. Los valores 
    # a retornar son una matriz con las componentes principales 
    # como columnas (U) y el vector medio (mean). 
    # NOTA: las columnas de U tienen que retornar en orden de 
    # "importancia" decreciente 
    #

    
    return U, mean

def pca_project(X, U, mean, keep_dim=-1):
    n_samples, n_dim = X.shape
    assert n_dim == len(mean)
    if keep_dim < 0:
        keep_dim = n_dim

    # 2) Implementar la proyección de puntos en X (filas)
    # empleando los (U, mean) estimados a partir del conjunto 
    # de entrenamiento. El parámetro keep_dim es el número de
    # componentes a considerar (proyección de n_dim a keep_dim 
    # dimensiones). Si este valor es menor a 0, la dimensionalidad 
    # del espacio de salida es la misma que el de entrada.
    #X_proj = ...
    
    return X_proj

def pca_restore(X_proj, U, mean):
    n_samples, keep_dim = X_proj.shape
    return X_proj.dot(U[:, :keep_dim].T) + mean.reshape(1, -1)


2) Obtener el dataset asignado a cada alumno ([datasets](https://scikit-learn.org/stable/datasets/index.html))

3) Aplicar PCA al dataset obtenido en el punto 2. La cantidad de dimensiones a conservar luego de la transformación ortogonal debe representar aproximadamente el 80% de la varianza de los datos.

4) Implementar el predictor que corresponda (clasificación ó regresión) para generalizar sobre el dataset asignado. 