In [None]:
try:
    # settings colab:
    import google.colab
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Manifold

<a id="section_toc"></a> 

## Tabla de Contenidos

[Intro](#section_intro)
    
[Isomap](#section_isomap)    
    
[T-SNE](#section_tsne)        


<a id="section_intro"></a> 
## Intro

[volver a TOC](#section_toc)


**El arte de la simplificación**

Para comprender manifold learning, es útil hacer algunas analogías de cómo nuestros cerebros simplifican el conocimiento. 

Piensen en la última vez que explicaron un tema complejo a un amigo o colega. 

Lo más probable es que no hayan intentado transmitir todo su conocimiento del tema, que probablemente les llevó años adquirir. 

En su lugar, decidieron presentar los elementos más relevantes para que el destinatario de la explicación pudiera tener una idea general sobre el tema: decidieron simplificar.

La simplificación es un proceso cognitivo que nos ayuda a aprender sobre temas complejos. La ciencia cognitiva detrás de la simplificación es, irónicamente, bastante compleja e involucra muchos subprocesos heterogéneos. 

Entre las muchas cosas que se hacen cuando se trata de simplificar un tema, hay dos que son muy relevantes para el concepto de aprendizaje múltiple:

a) Tratamos de determinar las partes más importantes del tema del conocimiento y omitimos el resto.

b) Utilizamos analogías para simplificar y ayudarnos a comprender temas específicos.

La combinación de simplificación y analogías es el núcleo de manifold learning.

**Manifold learning**

Un manifold es una estructura matemática fascinante que abstrae una región conectada en la que cada punto está asociado con un conjunto de puntos en su vecindario. 

Debido a las conexiones, los puntos en un manifold pueden transformarse en otros puntos con un esfuerzo mínimo. 

En el contexto del aprendizaje automático, se utilizan manifolds para representar un número conectado de puntos de datos que se pueden modelar como transformaciones desde un espacio de dimensiones superiores.

Confundidos????? :) Es más simple de lo que parece. 

La suposición clave de manifold learning es que en una estructura de alta dimensión, la información más relevante se concentra en un pequeño número de manifolds de baja dimensión. 

Esto se conoce en la teoría del aprendizaje automático como la hipótesis de manifold e incluye dos puntos principales: **distribución de datos y conectividad**.

Una parte de la hipótesis del manifold supone que la distribución de probabilidad en conjuntos de datos como imágenes o texto está altamente concentrada. 

Un ejemplo clásico para ilustrar ese punto es generar un texto significativo seleccionando al azar palabras de un texto largo. 

Obviamente, es muy poco probable que esto funcione porque la distribución de oraciones coherentes en lenguaje natural es un espacio muy pequeño en el conjunto de datos de las combinaciones de letras del texto original.

El segundo elemento de la hipótesis de manifold es la conectividad que implica que los puntos de datos relevantes están conectados a otros puntos de datos relevantes. 

Podemos ver claramente en imágenes en las que se puede obtener un píxel utilizando una transformación simple de otro píxel en su vecindario.

Manifold learning se basa en la hipótesis de manifold para extraer conocimiento relevante de un conjunto de datos de alta dimensión mediante la transformación en estructuras manifold de una dimensión inferior. 

Esta técnica reduce drásticamente los costos computacionales en muchos modelos de deep learning y se ha convertido en un elemento cada vez más importante de las soluciones de deep learning.

---

Manifold learning se ha convertido en una aplicación de la geometría y, en particular, de la geometría diferencial para aprendizaje automático. 

Manifold learning es simplemente usar las propiedades geométricas de los datos de alta dimensionalidad para implementar las siguientes cosas:

1. Clustering: encontremos grupos de puntos similares. 

Dado $\{X_1, ..., X_n\}$ un conjunto de features, construyamos una función $f: X  \rightarrow \{1, ..., k\}$ donde dos puntos "cercanos" deben estar en el mismo grupo.

2. Reducción de la dimensionalidad: proyectemos puntos en un espacio de dimensionalidad menor mientras preservamos la estructura. 

Dado $\{X1, ..., Xn\}$ en $R ^ D$, construyamos una función $f: R ^ D \rightarrow R ^ d$ donde d < D donde se preserva la noción de "cercanía".

3. Semi-supervisado, supervisado: Dados puntos etiquetados / no etiquetados, creemos una función de etiquetado. 

Dado $\{(X1, Y1), ..., (Xn, Yn)\}$, construyamos $f: X \rightarrow Y$ donde dos puntos "cercanos" tengan la misma etiqueta.

La noción de "cercanía" se refina utilizando la distribución de los datos. Hay algunos frameworks donde esto se logra con:

1. Punto de vista probabilístico: la densidad acorta las distancias

2. Punto de vista del cluster: los puntos en las regiones conectadas comparten las mismas propiedades

3. Punto de vista manifold: la distancia debe medirse "a lo largo" de los manifold

4. Versión mixta: dos puntos "cercanos" son aquellos conectados por un camino corto que atraviesa regiones de alta densidad

## Imports

In [None]:
import matplotlib.pyplot as plt
from sklearn.manifold import Isomap
from sklearn.manifold import TSNE
from sklearn.datasets import load_digits

Definimos dos funciones:
* una función para plotear los dígitos en 2 dimensiones generados por Manifold con su etiqueta asociada
* una función para plotear los dígitos en 2 dimensiones generados por Manifold sin etiquetas

In [None]:
def plot_digits_manifold(projection, numbers):
    
    colors = ["#476A2A", "#7851B8", "#BD3430", "#4A2D4E", "#875525",
          "#A83683", "#4E655E", "#853541", "#3A3120", "#535D8E"]
    plt.figure(figsize=(10,10))
    plt.xlim(projection[:,0].min(), projection[:,0].max())
    plt.ylim(projection[:,1].min(), projection[:,1].max())

    for i in range(len(projection)):
        plt.text(projection[i,0], projection[i,1], str(numbers[i]),
                color=colors[numbers[i]], fontdict={'weight':'bold', 'size':9})
        plt.xlabel('Dimensión 1')
        plt.ylabel('Dimensión 2')
        
def plot_digits_manifold_no_labels(projection):      
    plt.figure(figsize=(10,10))
    plt.xlim(projection[:,0].min(), projection[:,0].max())
    plt.ylim(projection[:,1].min(), projection[:,1].max())

    for i in range(len(projection)):
        plt.scatter(projection[i,0], projection[i,1], color='b', s=10)        
        
digits = load_digits()        

<a id="section_isomap"></a> 
## Isomap

[volver a TOC](#section_toc)


https://scikit-learn.org/stable/modules/manifold.html#isomap

Instanciamos y fiteamos isomap

In [None]:
isomap = Isomap(n_neighbors=7, n_components=2)
digits_iso = isomap.fit_transform(digits.data)

Ploteamos los dígitos proyectados con Isomap

In [None]:
plot_digits_manifold(digits_iso, digits.target)

In [None]:
plot_digits_manifold_no_labels(digits_iso)

<a id="section_tsne"></a> 
## T-SNE

[volver a TOC](#section_toc)


https://scikit-learn.org/stable/modules/manifold.html#t-distributed-stochastic-neighbor-embedding-t-sne


Instanciamos y fiteamos T-SNE

In [None]:
tsne = TSNE(n_components=2, random_state=42)
digits_tsne = tsne.fit_transform(digits.data)

Ploteamos los dígitos proyectados con T-SNE

In [None]:
plot_digits_manifold(digits_tsne, digits.target)

In [None]:
plot_digits_manifold_no_labels(digits_tsne)

Vemos que T-SNE logra capturar mejor la estructura de los datos y separar mejor los diferentes dígitos al proyectar en 2 dimensiones.

Y tanto T-SNE como Isomap separan mejor los grupos que PCA

## Referencias

https://medium.com/@jrodthoughts/the-art-of-simplification-manifold-learning-dfc885fb74e3

https://towardsdatascience.com/manifold-learning-the-theory-behind-it-c34299748fec

https://scikit-learn.org/stable/modules/manifold.html
