# Lectura 14
## RafaCastle
## 14.1 Reducción de dimensionalidad - Compresión de datos

La compresión de los datos no solo ayuda a disminuir el espacio ocupado en el ordenador, sino también a acelerar el funcionamiento de los algoritmos.

Supongamos que se tiene un conjunto de datos en 2 dimensiones, de modo que sus 2 variables están fuertemente relacionadas entre sí. En dicho caso es posible hacer un mapeo, es decir, supongamos que uno de los puntos en $R^2$ es $x^{(1)} = (x_1,x_2)$. En dicho caso, puede definirse una nueva variable $z_1 \in R$ tal que $x^{(1)} \to z_1$. 

![Title](Imágenes/14-1-1.png)

De manera análoga se puede hacer lo mismo para mapear un conjunto de datos de $R^3$ a $R^2$. Se proyecta el conjunto de datos a un plano para poder identificar a un objeto solo mediante 2 parámetros, es decir.

Si se tenía $x^{(1)} = (x_1, x_2, x_3)$ se define un nuevo vector $z^{(1)} = (z_1,z_2)$ tal que $x^{(1)} \to z^{(1)}$

![Title](Imágenes/14-1-2.png)

## 14.2 Motivación

No me parece que esta sección sea muy útil ya que solo se ilustra de manera cualitativa como un conjunto con 50 atributos se reduce a un conjunto de 2. Dejo el link del vídeo [aquí](https://www.youtube.com/watch?v=Zbr5hyJNGCs&list=PLLssT5z_DsK-h9vYZkQkYNWcItqhlRJLN&index=81).

## 14.3 Análisis de la componente principal

El algoritmo PCA (principal component analysis) es uno de los más utilizados para la reducción de la dimensionalidad. Supongamos que se tiene el siguiente conjunto de datos, el algoritmo PCA proyecta dichos puntos a un ajuste lineal, de modo que la suma de los cuadrados de las ditancias sea mínima:

![Title](Imágenes/14-3-1.png)

A la suma de los cuadrados de las distancias de los puntos al ajuste se le denomina proyección de error, de modo que el algoritmo puede resumirse a encontrar un vector hacia el cual, al proyectar los datos se tiene que la proyección de error sea mínima. Para reducir de una dimensión $n$ a una dimensión $k$ se deben encontrar $k$ vectores de modo que la proyección de error de los datos hacia el espacio generado por esos vectores sea mínima. Por ejemplo, si se desea reducir un conjunto de datos en $R^3$ a $R^2$, se hayan 2 vectores en $R^3$ que generen un plano. La distancia de los puntos en $R^3$ a dicho plano es la proyección de error y el plano sería el espacio mencionado previamente.

Tras todo lo mencionado anteriormente, es normal pensar que el algoritmo PCA es prácticamente igual al algoritmo de regresión lineal. Sin embargo esto no es así, la diferencia principalmente radica en que, en regresión lineal, la distancia que busca minimizarse es la distancia vertical del punto al ajuste, mientras que en el algoritmo PCA se busca minimizar la distancia ortogonal del punto al ajuste.

![Title](Imágenes/14-3-2.png)

Por otro lado el objetivo de los algoritmos es distinto, el algoritmo de regresión busca predecir la variable $y$, mientras que el de PCA busca reducir la dimensión del conjunto de datos.

## 14.4 Algoritmo PCA

Antes de aplicar el algoritmo PCA existe un preprocesamiento de los datos que debe ser tomado en cuenta. Si se tiene un conjunto de entrenamiento con $m$ datos, $\{ x^{(1)}, x^{(2)}, ..., x^{(m)} \}$. Y se cacula su media como:

$$
\mu_j = \frac{1}{m} \sum_{i=1}^m x^{(i)}_j
$$

Así, se reemplaza cada $x^{(i)}_j$ con $x_j - \mu_j$. De modo que la media del nuevo conjunto sea 0. Además también hay que escalar las variables de modo que tengan magnitudes similares. 

$$
x_j^{(i)} \to \frac{x_j^{(i)} - \mu_j}{s_j}
$$

Donde $s_j$ puede ser la desviación estándar o el valor máximo de $x_j$. 

Una vez hecho el preprocesamiento, el algoritmo hace lo descrito en las secciones anteriores, reduce la dimensión de los datos proyectandolos en un espacio de dimensión menor. Supongamos que se quiere reducir de una dimensión $n$ a una dimensión $k$. El algoritmo primero calcula la matriz de covarianzas:

$$
\Sigma = \frac{1}{m} \sum_{i=1}^{n} (x^{(i)})(x^{(i)})^T
$$

Posteriormente se calculan los eigenvectores de $\Sigma$, notemos que sigma es una matriz de dimensión $n \times n$. Por lo que tiene $n$ eigenvectores que pueden escribirse en una matriz $U \in R^{n \times n}$. Podemos denotarla como:

$$
U = [u^{(1)}, u^{(2)},...,u^{(m)}]
$$

con $u^{(i)} \in R^n$ eigenvector de $\Sigma$, así, los vectores que generan el espaco de dimensión $k$ serían los primeros $k$ vectores de $U$, es decir $\{u^{(1)},u^{(2)},...,u^{(k)}\}$ (nota que no importa como esten ordenados los vectores $u^{(i)}$ en $U$). Denominamos entonces

$$
z^{(i)} := [u^{(1)},u^{(2)},...,u^{(k)}]^T x^{(i)} \hspace{0.5cm} \text{con} \hspace{0.5cm} [u^{(1)},u^{(2)},...,u^{(k)}] \in R^{n \times k} 
$$

Como $x^{(i)} \in R^{n}$ entonces $z^{(i)}  \in R^k$. Siendo $z^{(i)}$ el punto $x^{(i)}$ proyectado en el espacio reducido que está construido por los vectores $u^{(i)}$.

## 14.5 Eligiendo el número de componentes principales

Para escoger al número $k$ suelen usarse los siguientes conceptos:

1. Promedio de el error de proyección al cuadrado $\frac{1}{m} \sum_{i=1}^m|| x^{(i)} - x^{(i)}_{\text{app}} ||$
2. Variación total de los datos $\frac{1}{m} \sum_{i=1}^m|| x^{(i)}||^2$

Se busca el menor valor de $k$ que cumpla 

$$
\frac{\frac{1}{m} \sum_{i=1}^m|| x^{(i)} - x^{(i)}_{\text{app}} ||}{\frac{1}{m} \sum_{i=1}^m|| x^{(i)}||^2} \leq 0.01
$$

Notemos que la variable que depende de $k$ en las expresiones anteriores es indirectamente $ x^{(i)}_{\text{app}}$. A veces puede variar el valor de la derecha a $0.05 \%$ dependiendo que tanto quiera contenerse la varianza (a mayor valor, menos se retiene la varianza). 

Este método no es del todo eficiente cuando $k$ toma valores grandes, ya que hay que hacerlo una y otra vez hasta hallar el valor de $k$ indicado empezando desde 1. Existe otra manera de hallar el valor de $k$. Supongamos que la matriz $S$ contiene en su diagonal a todos los eigenvectores de la matriz $\Sigma$, siendo los demás valores 0 :

$$
S = \left[ \begin{array}{ccccc}
s_{11} & 0 & 0 & ... & 0 \\
0 & s_{22} & 0 & ... & 0 \\
0 & ... & ... & ... & 0 \\
0 & 0 & 0 & ... & s_{nn} \\
\end{array}
\right]
$$

Así, dado un valor $k$ se cumple que:

$$
\frac{\frac{1}{m} \sum_{i=1}^m|| x^{(i)} - x^{(i)}_{\text{app}} ||}{\frac{1}{m} \sum_{i=1}^m|| x^{(i)}||^2} = 1- \frac{\sum_{i=1}^k S_{ii}}{\sum_{i=1}^n S_{ii}}
$$

Por lo que el problema se puede reducir a encontrar al valor más pequeño de $k$ que cumpla:

$$
\frac{\sum_{i=1}^k S_{ii}}{\sum_{i=1}^n S_{ii}} \ge 0.99
$$

Lo cual es mucho más eficiente. 

## 14.6 Reconstrucción

### ¿Cómo se regresa del espacio reducido al espacio original?

Si se tiene un conjunto de datos $\{x^{(1)},x^{(2)},...,x^{(m)}\}$ y se proyectan a los puntos en el espacio reducido $\{z^{(1)},z^{(2)},...,z^{(m)}\}$, existe otro conjunto de puntos en el espacio original denominados $\{x_{\text{approx}}^{(1)},x_{\text{approx}}^{(2)},...,x_{\text{approx}}^{(m)}\}$. De modo que $x^{(i)} \approx x_{\text{approx}}^{(i)}$, como se muestra en la figura:

![Title](Imágenes/14-6-1.png)

Al proceso de obtener a estos puntos aproximados se le denomina reconstrucción.

## 14.7 Consejo sobre PCA

El algoritmo PCA puede usarse para acelerar los algoritmos de aprendizaje supervizado ya que puede ofrecer la siguiente alternativa:

Supongamos que se tiene un conjunto de datos $x^{(i)} \in R^{10,000}$ y se quiere aplicar un algoritmo de aprendizaje supervizado, para reducir los requisitos computacionales, es posible reducir la dimensionalidad a un número menor, por ejemplo $x^{(i)} \to z^{(i)} \in R^{100}$ por medio de PCA. Tras obtener los resultados queridos en esta dimensión reducida, pueden reconstruirse los resultados como se mostró en la sección anterior.

No es recomendable, utilizar este algoritmo para reducir el overfitting (aunque pueda parecer tentador), resulta mucho más útil y correcto aplicar una regularización en su lugar.

Antes de usar PCA es también recomendable descartar las dimensiones que no se requieran de manera intuitiva. 