In [None]:
%pylab inline

# Reducción de dimensionalidad

Muchos problemas de *machine learning* involucran miles o millones de *features* para cada instancia de entrenamiento. Este resulta en algoritmos lentos y dificultad en encontrar una solución buena.

Se refiere a este problema como la **maldición de dimensionalidad**.

En muchos casos es posible reducir el número de *features*.

Por ejemplo, con los datos de MNIST todos los pixeles en el borde de la imagen son blancos - podríamos eliminar estos pixeles.

También hay mucha correlación entre pixeles vecinos, así que podríamos unir pixeles.

Reducción del número de *features* también es muy útil para **visualización de datos**.

#### Peculiaridades de altas dimensiones...

![](figures_dimensionalidad/fig8-1.png)

Es muy difícil imaginar un hipercubo de 1000 dimensiones... Además nuestra intuición que viene de $3$ dimensiones no sirve mucho en este caso.

Por ejemplo:

* Si elegimos un punto aleatorio en una cuadrada unitaria (con aristas de longitud $1$), estará a una distancia menor que 0.001 del borde con una probabilidad de 0.4%.
* En un hipercubo de 10,000 dimensiones, cuál sería la probabilidad de elegir un punto tan cerca al borde?

<details>
    <summary>Respuesta</summary>
    <p>99.999999%</p>
</details>

* Si elegimos dos puntos aleatoriamente en una cuadrada unitaria, la distancia entre los dos puntos será, en promedio, $\sim 0.52$.
* Dos puntos aleatorios en un cubo unitario 3D tendrán una separación de $\sim 0.66$.
* En el caso de un hipercubo en 1,000,000 dimensiones?

<details>
    <summary>Respuesta</summary>
    <p>$\sim 408.25$</p>
</details>

Entonces, en datos de altas dimensiones, la mayoría de los puntos tendrán una separación grande. Este podría complicar las predicciones del modelo, ya que ningún punto es cerca a otro...

## Métodos principales para reducción de dimensiones

### Proyección

En muchos datos las instancias no están distribuidas uniformemente a través del espacio de *features*. Muchos *features* son casi constantes y otros están altamente correlacionados.

Este significa que las instancias pertenecen a un sub-espacio del espacio de *features* que tiene menos dimensiones.

![](figures_dimensionalidad/fig8-2.png)

En este ejemplo podemos proyeccionar las instancias al plano:

![](figures_dimensionalidad/fig8-3.png)

Pero para otros datos proyección no sirve, ya que el sub-espacio puede girar y doblar, por ejemplo en el caso del conjunto de datos sintético que se llama el *Swiss roll*:

| ![](figures_dimensionalidad/fig8-4.png) | ![](figures_dimensionalidad/swiss_roll.jpg) |
|-----------------------------------------|---------------------------------------------|

Una proyección de estos datos resultará en aplastar varias capas de los datos y mezclarlas.

![](figures_dimensionalidad/fig8-5.png)

Lo que queremos hacer es desenrollar los datos...

### Aprendizaje de variedad (*manifold learning*)

El *Swiss roll* es un ejemplo de una **variedad**.

Una variedad es un concepto de la matemática (muy usado en la relatividad general). Se puede definir una variedad como un sub-espacio dentro de un espacio de más dimensiones que puede tener una forma geométrica arbitraria, pero que **localmente** se ve como un hiperplano.

Varios algoritmos de reducción de dimensión funcionan por modelar la variedad donde pertenecen las instancias - se llama *manifold learning*.

El método se basa en la suposición de la variedad (*manifold assumption*, *manifold hypothesis*) que dice que la mayoría de conjuntos de datos de alta dimensión del mundo real tienen instancias en una variedad de dimensión baja.

Por ejemplo, los datos de MNIST: hay similitudes entre todas las imagenes. Si generamos intensidades de $28 \times 28$ pixeles aleatoriamente, solamente una fracción infinitesimal de las imagenes van a corresponder a las imagenes del conjunto de MNIST.

Otra suposición es que la tarea de clasificación o regresión será más fácil expresada en el sub-espacio de la variedad, pero no es siempre así...

| ![](figures_dimensionalidad/fig8-6.png) |
|-----------------------------------------|
| El límite de decisión es más simple en el sub-espacio en el caso de arriba, pero no así en el caso de abajo. |

## PCA (*Principal Component Analysis*)

PCA identifica el hiperplano más cerca a los datos, y después proyecciona los datos a este plano.

**BASED ON SVD, SO I'D BETTER EXPLAIN THIS IN MORE DETAIL**