
## UMAP (Uniform Manifold Approximation and Projection)

UMAP es una técnica moderna de reducción de dimensionalidad y visualización de datos. Aunque puede ser comparada con técnicas como t-SNE en términos de visualización, UMAP tiene ventajas notables:

1. **Generalizable**: A diferencia de t-SNE, UMAP se puede usar en un contexto de aprendizaje supervisado.
2. **Preserva la estructura global**: Mientras que t-SNE tiende a enfocarse en la preservación de las distancias a pequeña escala, UMAP preserva mejor la estructura a larga escala de los datos.
3. **Rápido y escalable**: UMAP suele ser más rápido que otras técnicas, lo que permite trabajar con conjuntos de datos más grandes.

UMAP se basa en teoría de topología y geometría, y busca aproximar la estructura subyacente (o topología) de los datos. Se puede pensar en UMAP como una técnica que crea un mapa de los datos, donde las regiones cercanas en el espacio de alta dimensión también están cerca en el espacio reducido.

En esta libreta, exploraremos cómo UMAP puede ser utilizado para visualizar un conjunto de datos de imágenes de dígitos escritos a mano.


## Importaciones y preparación
Primero, importamos las bibliotecas esenciales para el análisis, la visualización y la manipulación de datos. Además, cargamos el conjunto de datos que utilizaremos, que es un conjunto popular de imágenes de dígitos escritos a mano.

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

## Configuración de UMAP
Para utilizar UMAP, necesitamos importar la implementación adecuada. Si aún no tienes instalado `umap-learn`, puedes hacerlo usando pip.

In [None]:
#pip install umap-learn

from umap import UMAP

## Carga del conjunto de datos
Aquí cargamos el conjunto de datos de dígitos, que contiene imágenes de dígitos escritos a mano junto con sus etiquetas correspondientes.

In [None]:
digitos=load_digits()

## Exploración inicial
Es esencial conocer la estructura de nuestros datos antes de cualquier análisis. Aquí, simplemente verificamos el tipo del objeto que contiene los dígitos.

In [None]:
type(digitos)

## Preparación de datos y etiquetas
Separando las imágenes de dígitos (datos) de sus etiquetas. Esto nos proporciona `X` como un conjunto de datos con las imágenes y `y` con las etiquetas correspondientes.

In [None]:
X,y=load_digits(return_X_y=True)

## Visualización de dígitos
Antes de aplicar cualquier técnica de reducción de dimensionalidad, es útil visualizar algunos de los datos. Aquí, mostramos algunas de las imágenes de dígitos para tener una idea de lo que contienen.

In [None]:
import matplotlib.pyplot as plt

## Explorando dimensiones de los datos
Verificamos las dimensiones de las imágenes y los datos. Esto nos da una idea de la dimensionalidad con la que estamos trabajando.

In [None]:
fig,axs=plt.subplots(2,5,sharey=False,
                    tight_layout=True,
                    figsize=(12,6))
plt.gray()
n=0
for i in range(2):
    for j in range(5):
        axs[i,j].matshow(digitos.images[n])
        axs[i,j].set(title=y[n])
        n+=1
plt.show()

...

## Dimensiones del Conjunto de Datos
Antes de cualquier transformación, es fundamental conocer las dimensiones de nuestro conjunto de datos. Aquí verificamos la forma de las imágenes, lo que nos da una idea de la cantidad de imágenes y su dimensionalidad.

In [None]:
X.shape

## Etiquetas del Conjunto de Datos
Verificamos las dimensiones de `y`, que contiene las etiquetas para cada imagen. Esto nos indica cuántas etiquetas tenemos en total.

In [None]:
y.shape

## Configuración de UMAP
Para aplicar UMAP, primero definimos sus parámetros. Estos parámetros determinarán cómo se realiza la reducción de dimensionalidad y pueden influir en la calidad de la visualización.

## Parámetros de UMAP

Estamos inicializando UMAP con una serie de parámetros específicos. A continuación, se describe el propósito y significado de cada parámetro:

- `n_neighbors`: Es el número de vecinos cercanos que UMAP considerará al trazar la estructura subyacente de los datos. Un valor de 100 indica que UMAP observará los 100 vecinos más cercanos. Este parámetro puede influir en la granularidad de la reducción; valores más bajos tienden a enfocarse en estructuras locales, mientras que valores más altos pueden enfocarse en estructuras más globales.

- `n_components`: Es el número de dimensiones en las que se quiere reducir los datos. En este caso, estamos reduciendo los datos a 3 dimensiones.

- `metric`: Es la métrica que UMAP usará para medir distancias en el espacio de alta dimensión. Estamos utilizando la métrica euclidiana, que es la medida de distancia estándar en la geometría.

- `min_dist`: Es una restricción para evitar que los puntos se acerquen demasiado entre sí en el espacio de baja dimensión. Un valor de 0.5 asegura que hay cierta dispersión en la visualización.

- `local_connectivity`: Es el número de vecinos más cercanos que se usarán para la conectividad local en una estructura de KNN. En este caso, estamos considerando 2 vecinos para la conectividad local.

- `random_state`: Es una semilla para el generador de números aleatorios, asegurando que los resultados sean reproducibles.

Estos parámetros han sido seleccionados para adaptarse a la naturaleza y estructura de nuestros datos, y pueden influir en cómo UMAP reduce la dimensionalidad y visualiza el conjunto de datos.


In [None]:
reductor=UMAP(n_neighbors=100,
             n_components=3,
             metric='euclidean',
             min_dist=0.1,
             random_state=0)

## Aplicación de UMAP
Aquí aplicamos UMAP a nuestros datos para reducir su dimensionalidad. El resultado será una representación de 3D de nuestras imágenes de dígitos, que luego podemos visualizar.

In [None]:
x_trans=reductor.fit_transform(X)
x_trans.shape

## Visualización con UMAP
Con los datos transformados por UMAP, creamos una visualización para ver cómo se agrupan las imágenes de dígitos en el espacio 3D. Esto nos permite entender si imágenes similares se agrupan juntas.

In [None]:
def graficar_umap(x,y):
    arr_concat=np.concatenate((
    x,y.reshape(y.shape[0],1)),axis=1)
    df=pd.DataFrame(arr_concat,
                    columns=['x','y','z','e'])
    df['e']=df['e'].astype(int)
    df.sort_values(by='e',axis=0,
                   ascending=True,
                   inplace=True)
    fig=px.scatter_3d(df,x='x',y='y',z='z',
                     color=df['e'].astype(str))
    fig.update_traces(marker=dict(
    size=3,line=dict(color='black',
                    width=0.1)))
    fig.show()

In [None]:
graficar_umap(x_trans,y)

## UMAP Supervisado
UMAP, además de ser una poderosa herramienta para la reducción no supervisada de la dimensionalidad, también ofrece una versión supervisada. En el modo supervisado, UMAP utiliza información de etiqueta (si está disponible) para guiar el proceso de reducción de dimensionalidad.

El uso de UMAP en modo supervisado puede mejorar la separación entre clases en el espacio de baja dimensión. Esto es especialmente útil cuando se tiene un conjunto de datos etiquetado y se desea que la estructura de baja dimensión refleje las categorías o clases de los datos.

Para usar UMAP de forma supervisada:

1. Asegúrate de que tienes etiquetas para cada punto de datos en tu conjunto de datos.
2. En lugar de simplemente pasar tus datos a UMAP, también pasarás las etiquetas usando el argumento `y`.

## Preparación de Datos para UMAP Supervisado

Antes de aplicar UMAP en modo supervisado, es esencial dividir el conjunto de datos en conjuntos de entrenamiento y prueba. Esta división nos permite entrenar el modelo con una porción de los datos y luego validar o probar con una porción separada.

Utilizamos la función `train_test_split` de `sklearn` para realizar esta división:

- `X_train` y `y_train` contienen los datos y etiquetas, respectivamente, para el conjunto de entrenamiento.
- `X_test` y `y_test` contienen los datos y etiquetas para el conjunto de prueba.
- El argumento `test_size=0.3` indica que el 30% de los datos se reservará para pruebas, mientras que el 70% restante se utilizará para entrenamiento.
- `random_state=0` asegura que la división sea reproducible, es decir, al ejecutar el código varias veces con el mismo estado aleatorio, obtendremos la misma división.

Una vez que tengamos nuestros conjuntos de datos de entrenamiento y prueba, podemos proceder a aplicar UMAP de manera supervisada utilizando `X_train` y `y_train`.


...

In [None]:
X_train,X_test,y_train,y_test=train_test_split(X,
                y,test_size=0.3,
                random_state=0)

In [None]:
X_train.shape

## Aplicación de UMAP
Vamos a crear nuestro objeto de la clase UMAP para realizar la reducción de la dimensión de nuestros datos.

In [None]:
reductor_sup=UMAP(n_neighbors=100,
                 n_components=3,
                 metric='euclidean',
                 min_dist=0.5,
                 local_connectivity=2,
                 random_state=0)

In [None]:
X_train_res=reductor_sup.fit_transform(X_train,
                                       y_train)
X_train_res.shape

## Grafica con Reducción Supervisada de Datos de Entrenamiento
Vamos a revisar y comparar como quedaron reducidos en este caso los datos originales.

In [None]:
graficar_umap(X_train_res,y_train)

## Transformación del Conjunto de Prueba con UMAP

Después de ajustar (o entrenar) el reductor UMAP con el conjunto de entrenamiento, podemos usar este reductor ya entrenado para transformar otros conjuntos de datos en el espacio reducido. En este caso, estamos transformando el conjunto de prueba `X_test` usando el método `transform` del reductor.

El resultado, `X_test_trans`, contiene la representación de baja dimensión del conjunto de prueba. Esta representación mantiene las propiedades y relaciones aprendidas del conjunto de entrenamiento en el espacio reducido.

Posteriormente, consultamos la forma de `X_test_trans` con `.shape` para verificar las dimensiones de la transformación, lo que nos indica cuántos puntos de datos hay en el conjunto de prueba y en cuántas dimensiones se han reducido.


In [None]:
X_test_trans=reductor_sup.transform(X_test)
X_test_trans.shape

## Gráfica de Predicciones
Ahora podemos graficar nuestras predicciones.

In [None]:
graficar_umap(X_test_trans,y_test)

## Clustering Usando Modularidad sobre el Grafo de UMAP

Para realizar un análisis de cluster en nuestros datos reducidos por UMAP, utilizaremos la métrica de modularidad. La modularidad es una métrica que mide la calidad de una asignación de nodos a clusters en un grafo. Un valor alto de modularidad indica que la red tiene una estructura comunitaria bien definida.

UMAP, en su esencia, crea un grafo de vecindad de alta dimensión y luego optimiza una representación de baja dimensión de este grafo. Por lo tanto, podemos utilizar el grafo subyacente generado por UMAP para realizar un análisis de clustering basado en modularidad.

Pasos generales para el proceso:

1. **Obtener el Grafo de UMAP**: Después de ajustar y transformar los datos con UMAP, podemos acceder al grafo subyacente.
2. **Aplicar Modularidad**: Usaremos un algoritmo que optimice la modularidad para identificar clusters en el grafo.
3. **Análisis de Clusters**: Una vez obtenidos los clusters, podemos analizar, visualizar y interpretar los grupos de datos.

Requisitos:

- Tener un conjunto de datos ya transformado por UMAP.
- Una implementación o librería que permita calcular la modularidad sobre grafos.
- Herramientas de visualización para inspeccionar y entender los clusters resultantes.

A continuación, procederemos con estos pasos y aplicaremos un análisis de clustering basado en modularidad sobre nuestro conjunto de datos reducido por UMAP. El primer paso es construir nuestra matriz de adyacencia. La matriz de adyacencia es una representación cuadrada de un grafo donde el elemento en la i-ésima fila y j-ésima columna es una indicación de la presencia (y en muchos casos, el peso) de un enlace entre el nodo i y el nodo j. Inicialmente vamos a crearla vacía.


In [None]:
ma=np.zeros(reductor_sup.graph_.shape)
ma.shape

## Llenar la Matriz Adyacente con los Datos de UMAP

Pasos del proceso:

1. Inicializamos una matriz de ceros `ma` con las mismas dimensiones que el grafo de UMAP.
2. Iteramos sobre cada nodo del grafo.
3. Para cada nodo, identificamos sus vecinos y los pesos de los enlaces utilizando las estructuras `indptr`, `indices` y `data` del grafo de UMAP.
4. Llenamos la matriz de adyacencia `ma` con los pesos correspondientes en las posiciones adecuadas.

Al final de este proceso, `ma` será la matriz de adyacencia del grafo, donde `ma[i, j]` representa el peso del enlace entre el nodo i y el nodo j. Si no hay un enlace entre esos nodos, `ma[i, j]` será cero.

Esta matriz de adyacencia será fundamental para aplicar algoritmos de clustering basados en modularidad, ya que permite una representación compacta y accesible del grafo.


In [None]:
contador=0
for i in range(ma.shape[0]):
    tam=reductor_sup.graph_.indptr[i+1]- \
    reductor_sup.graph_.indptr[i]
    ma[i,reductor_sup.graph_.indices[
        contador:contador+tam
    ]]=reductor_sup.graph_.data[
        contador:contador+tam]
    contador+=tam

## Gráfica de la matriz adyacente
Podemos visualizar la matriz adyacente que creamos.

In [None]:
fig=px.imshow(ma)
fig.show()

## Algoritmo de Louvain para Detección de Comunidades

El algoritmo de Louvain es un método eficiente para detectar comunidades en grandes redes, que optimiza la modularidad a través de un proceso iterativo. Este enfoque no solo es conocido por su rapidez, sino también por su capacidad para manejar grandes conjuntos de datos con una complejidad computacional relativamente baja.

### Proceso del Algoritmo de Louvain

1. **Inicialización**: Cada nodo en la red comienza como su propia comunidad.

2. **Asignación Local**: Iterativamente, cada nodo se reconsidera para su reasignación a una de las comunidades de sus vecinos si dicha reasignación produce un aumento en la modularidad total. Esto se repite hasta que no se pueden hacer más mejoras.

3. **Agrupación**: Una vez que se alcanza un óptimo local, cada comunidad se "agrupa" en un solo nodo, y el paso anterior se repite para esta nueva red de comunidades.

4. **Iteración**: Los pasos 2 y 3 se repiten hasta que la modularidad no aumenta significativamente.

### Ventajas

- **Eficiencia**: Funciona bien en redes grandes debido a su enfoque iterativo y localizado.
- **Flexibilidad**: No requiere un número predefinido de comunidades, lo que lo hace adaptable a varios tipos de estructuras de datos.

### Desventajas

- **Estocástico**: Puede producir resultados ligeramente diferentes en diferentes ejecuciones debido a la naturaleza aleatoria de las decisiones de asignación de nodos.
- **Detección de Comunidades Pequeñas**: Al igual que otros métodos que maximizan la modularidad, puede tener dificultades para identificar comunidades más pequeñas dentro de redes muy grandes.

### Instalación de la Biblioteca

Para utilizar el algoritmo de Louvain en Python, es necesario instalar la biblioteca `python-louvain`, que se puede hacer fácilmente utilizando pip:

```bash
pip install python-louvain
```

In [None]:
import networkx as nx
import community as community_louvain

G = nx.from_numpy_array(ma)
partition = community_louvain.best_partition(G)
sorted_values = [partition[k] for k in sorted(partition.keys())]
print(sorted_values)

## Gráfica de Nuestros Clusters Obtenidos
Vamos a visualizar el resultado de nuestro algoritmo de clusterización.

In [None]:
graficar_umap(X_train_res,np.array(sorted_values))