# Clase Tutorial 11: Reducci√≥n de dimensionalidad

- El objetivo de esta clase es introducir el m√©todo de reducci√≥n de dimensionalidad no lineal t-Distributed Stochastic Neighbor Embedding (t-SNE).

- Es una t√©cnica ampliamente utilizada en la visualizaci√≥n de datos de alta dimensi√≥n y en el an√°lisis exploratorio.

## Manifold Learning

- En muchos conjuntos de datos de alta dimensi√≥n, hay una estructura de baja dimensi√≥n subyacente.

- Esta estructura se supone que es un *manifold* o *variedad curva*, lo que da lugar al problema de "manifold learning" o "reducci√≥n de dimensionalidad no lineal".

- Usamos m√©todos no param√©tricos, es decir que no aprendemos un modelo gen√©rico, sino que calculamos una representaci√≥n (embedding) para cada punto en el conjunto de entrenamiento.
  
- Estos m√©todos <span style="color: indianred;">no generalizan bien a datos nuevos</span>, pero <span style="color: darkseagreen;">son m√°s flexibles y f√°ciles de ajustar</span>.

- Util para aprendizaje no supervisado, visualizaci√≥n de datos, y como paso de preprocesamiento para aprendizaje supervisado.


### ü§î ¬øQu√© es un "manifold"?

- Un *manifold* es un espacio topol√≥gico que es *localmente euclidiano*. Esto significa que en cada punto se parece a un espacio plano, aunque en general pueda ser curvo.

- Ejemplo t√≠pico: la superficie de la Tierra
    - Aunque es curva en 3D, en cada punto la Tierra parece plana (como un mapa local en 2D).

    <img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/globe.png">

- Formalmente, un manifold $X$ de $d$ dimensiones, es un espacio donde cada punto $x \in X$ tiene un vecindario topol√≥gicamente equivalente a un espacio euclidiano de $d$ dimensiones. 
    - A este espacio en cada punto se le llama __espacio tangente__ y se denota como $T_x = T_xX$.

    <img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/tangent_space.png">


### Enfoques del Manifold Learning

- Existen diversos algoritmos, cada uno con diferentes suposiciones sobre la naturaleza del manifold y distintas caracter√≠sticas computacionales.

- Se pueden categorizar de la siguiente forma:

    <img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/table201.png">

- Los m√©todos "no param√©tricos" aprenden una representaci√≥n (embedding) de baja dimensi√≥n $z_i$ para cada punto de datos $x_i$, sin aprender una funci√≥n de mapeo que permita aplicar el modelo a puntos nuevos.

## Motivaci√≥n

- La mayor√≠a de los datasets exhiben relaciones no lineales entre las features, y los puntos de datos se encuentran en un espacio de alta dimensionalidad.

- Por lo tanto, buscamos una representaci√≥n de baja dimensionalidad de estos datos de alta dimensionalidad que preserve la relaci√≥n entre diferentes puntos en el espacio original para visualizar los datos y explorar su estructura inherente, como los clusters.

- Sin embargo, muchos m√©todos de reducci√≥n de dimensionalidad lineales, como PCA, y algoritmos cl√°sicos de manifold embedding, como Isomap, no logran este objetivo.

üöÄ <span style="color: indianred;">Objetivo: proyectar los datos de alta dimensionalidad a 2D/3D mientras preservamos las relaciones entre los puntos de datos (es decir, puntos similares permanecen similares y puntos distintos permanecen distintos).</span>

## Stochastic Neighbor Embedding (SNE)

- Los m√©todos anteriores de reducci√≥n de dimensionalidad no lineal asignan un punto de datos en el espacio de alta dimensionalidad a una posici√≥n fija en el espacio de baja dimensionalidad.
    - En general, esto no logra capturar correctamente algunos puntos ambiguos que podr√≠an pertenecer a varios vecindarios locales.

- SNE busca capturar mejor la identidad de los vecindarios al considerar la probabilidad de que un punto sea vecino de todos los dem√°s puntos.

- Formalmente, define:

    - Una __matriz de similitud__ de $n \times n$, denominada $P$, __en el espacio de alta dimensionalidad__, cuyos elementos son:

    $$
    p_{j|i} = \frac{\exp\left(-\frac{||x_i - x_j||^2}{2\sigma_i^2}\right)}{\sum_{k \neq i} \exp\left(-\frac{||x_i - x_k||^2}{2\sigma_i^2}\right)}
    $$ 
    donde $\sigma_i^2$ es la varianza de la distribuci√≥n gaussiana centrada en $x_i$.
    
    - Y una __matriz de similitud__ $Q$ de $n \times n$ __en el espacio de baja dimensionalidad__, donde las entradas son:

    $$
    q_{j|i} = \frac{\exp(-||y_i - y_j||^2)}{\sum_{k \neq i} \exp(-||y_i - y_k||^2)}
    $$

- A partir de la definici√≥n de $P$, notamos que <span style="color: indianred;">SNE se enfoca en la estructura local</span>.

    - Es decir que los puntos m√°s lejanos resultan en valores $p_{ij}$ menores, mientras que los puntos cercanos generan valores $p_{ij}$ mayores.

<img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/t-sne-visual-explanation.webp">

#### Funci√≥n de costo

- Si los puntos del mapa $y_i$ y $y_j$ modelan correctamente la similitud entre los puntos de datos de alta dimensionalidad $x_i$ y $x_j$, las probabilidades condicionales $p_{j|i}$ y $q_{j|i}$ ser√°n iguales.

- <span style="color: indianred;">Objetivo de SNE:</span> encontrar una representaci√≥n de datos en baja dimensionalidad que minimice la diferencia entre $p_{j|i}$ y $q_{j|i}$. 

    - Una medida natural de la fidelidad con la que $q_{j|i}$ modela $p_{j|i}$ es la divergencia de Kullback-Leibler. 

    - SNE minimiza la suma de las divergencias de Kullback-Leibler sobre todos los puntos de datos utilizando un m√©todo de descenso por gradiente.

$$
C = \sum_i KL(P_i || Q_i) = \sum_i \sum_j p_{j|i} \log\left(\frac{p_{j|i}}{q_{j|i}}\right)
$$

- donde:
    - $P_i$: distribuci√≥n de probabilidad condicional sobre todos los dem√°s puntos de datos dado el punto de datos $x_i$
    - $Q_i$: distribuci√≥n de probabilidad condicional sobre todos los dem√°s puntos en el mapa dado el punto en el mapa $y_i$.

- La minimizaci√≥n de la funci√≥n de costo se realiza usando el m√©todo de <span style="color: indianred;">gradiente descendiente</span>. El gradiente resultante es:

  $$
  \frac{dC}{dy_i} = 2 \sum_j (y_i - y_j)(p_{j|i} - q_{j|i} + p_{i|j} - q_{i|j})
  $$

#### Perplexity

- Para elegir el valor adecuado de $\sigma_i^2$, SNE realiza una <span style="color: indianred;">b√∫squeda binaria para encontrar el valor</span> de $\sigma_i$ que haga que la entrop√≠a de la distribuci√≥n sobre los vecinos sea igual a $\log(k)$.

- $k$ es el hiperpar√°metro de <span style="color: indianred;">**perplexity**</span>: el n√∫mero efectivo de vecinos locales. La perplexity se define como:

    $$
    k = 2^{H(P_i)}
    $$

    donde $H(P_i)$ es la entrop√≠a de $P_i$ medida en bits:

    $$
    H(P_i) = -\sum_j p_{j|i} \log_2 p_{j|i}
    $$

De esta forma:

- Para datos m√°s densos, se deber√≠a elegir una *perplexity* $k$ mayor.
    - Esto resultar√≠a en un valor de $\sigma_i^2$ menor y en un tama√±o de vecindario m√°s peque√±o. 

- Adem√°s, dado que se utiliza el kernel gaussiano, la probabilidad de ser vecino disminuye abruptamente para cualquier punto $x_j$ que est√© fuera del vecindario de un punto $x_i$ (y el vecindario se determina justamente mediante $\sigma_i^2$).

#### Crowding Problem

- Aunque SNE preserva las relaciones locales, sufre del "crowding problem". 

- El √°rea del mapa 2D disponible para ubicar puntos de datos moderadamente distantes no ser√° lo suficientemente grande en comparaci√≥n con el √°rea disponible para ubicar puntos cercanos.

- Intuitivamente, hay menos espacio en una dimensi√≥n inferior para acomodar puntos de datos moderadamente distantes que originalmente estaban en una dimensi√≥n superior. 

- Como resultado, los grupos globalmente distintos en el espacio de alta dimensionalidad tienden a acercarse entre s√≠ y, muchas veces, no pueden distinguirse unos de otros en una representaci√≥n 2D o 3D.

## t-Distributed Stochastic Neighbor Embedding (t-SNE)

- Para abordar el crowding problem y hacer que SNE sea m√°s robusto a los outliers, se introdujo t-SNE. 
- t-SNE presenta dos cambios principales: 

    1) Una versi√≥n simetrica de la funci√≥n de costo de SNE con gradientes m√°s simples y 
    2) El uso de una distribuci√≥n *t*-Student en lugar de una gaussiana para calcular la similitud en el espacio de baja dimensionalidad, lo que ayuda a aliviar el crowding problem.

### 1. Nueva versi√≥n de la funci√≥n de costo

- En SNE, $p_{ij}$ no es necesariamente igual a $p_{ji}$, ya que $\sigma_{ij}$ no tiene por qu√© ser igual a $\sigma_{ji}$. 

- Esto hace que SNE sea susceptible a outliers, ya que un valor at√≠pico $x_i$ tendr√≠a un valor de $p_{ji}$ muy chico para todos los dem√°s puntos ‚Üí su ubicaci√≥n en el espacio embebido se vuelve irrelevante. 

- Para contrarrestar esto, en t-SNE se redefine $p_{ij}$ como:

$$
p_{ij} = \frac{p_{j|i} + p_{i|j}}{2n}
$$

- As√≠, para todos los puntos de datos $x_i$, se asegura que $\sum_j p_{ij} > \frac{1}{2n}$. 

- Como resultado, cada $x_i$ contribuye de manera significativa a la funci√≥n de costo, lo que tambi√©n proporciona un gradiente m√°s simple.

### 2. Nueva distribuci√≥n para definir $Q$

- En el espacio de alta dimensionalidad, convertimos las distancias en probabilidades usando una distribuci√≥n gaussiana. 

- En el mapa de baja dimensionalidad, podemos usar una distribuci√≥n de probabilidad con colas mucho m√°s largas que una gaussiana para convertir las distancias en probabilidades. 

- Esto permite que una distancia moderada en el espacio de alta dimensionalidad se modele fielmente mediante una distancia mucho mayor en el mapa.

- t-SNE utiliza la distribuci√≥n *t* de Student en lugar de la distribuci√≥n gaussiana para definir $Q$:

$$
q_{ij} = \frac{(1 + ||y_i - y_j||^2)^{-1}}{\sum_{k \neq l}(1 + ||y_k - y_l||^2)^{-1}}
$$

- La funci√≥n de costo de t-SNE se define como:

$$
C = \sum_{i} KL(P_i || Q_i) = \sum_{i=1}^{n} \sum_{j=1}^{n} p_{ij} \log \frac{p_{ij}}{q_{ij}}
$$

- Esto disminuye el crowding problem, asegurando que las relaciones de proximidad en alta dimensionalidad se conserven en el espacio embebido de menor dimensionalidad.

<img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/tstudent.png">

- La distribuci√≥n de t-Student tiene colas m√°s largas que una gaussiana ‚Üí puntos lejanos en alta dimensionalidad se representan como lejanos tambi√©n en el espacio reducido.

- Con la gaussiana, la separaci√≥n es m√°s dificil de capturar porque la probabilidad de vecinos cae r√°pidamente, lo que empuja los puntos moderadamente distantes a estar m√°s cerca de lo deseado.

- El gradiente de la funci√≥n de costo es:

    $$
    \frac{dC}{dy_i} = 4 \sum_{j=1, j \neq i}^{n} (p_{ij} - q_{ij})(1 + ||y_i - y_j||^2)^{-1} (y_i - y_j)
    $$

    $$
    = 4 \sum_{j=1, j \neq i}^{n} (p_{ij} - q_{ij}) q_{ij} Z (y_i - y_j)
    $$

    $$
    = 4 \left(\sum_{j \neq i} p_{ij} q_{ij} Z (y_i - y_j) - \sum_{j \neq i} q_{ij}^2 Z (y_i - y_j)\right)
    $$

    $$
    = 4 (\text{Atracci√≥n} + \text{Repulsi√≥n})
    $$

    donde $Z = \sum_{l,s=1, l \neq s}^{n} (1 + ||y_l - y_s||^2)^{-1}$. 

    Pueden encontrar la derivaci√≥n completa en el ap√©ndice A del [paper de t-SNE](https://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf).

![image.png](attachment:image.png)![image-2.png](attachment:image-2.png)

- SNE: 
    - Enfatiza mantener juntos los puntos cercanos en el espacio de baja dimensi√≥n, pero tiene una capacidad limitada para separar puntos que son moderadamente lejanos en el espacio de alta dimensi√≥n. 

- t-SNE:
    - Diferencia clave: presencia de valores negativos en el gradiente (en tonos azules).
    - Esto representa una _fuerza de repulsi√≥n_ adicional que act√∫a en puntos moderadamente lejanos, facilitando que los puntos m√°s alejados en alta dimensi√≥n tambi√©n se separen en la baja dimensi√≥n. 

### M√©todos de optimizaci√≥n para t-SNE

- En el paper se presenta en primer lugar un procedimiento relativamente simple de descenso de gradiente para optimizar la funci√≥n de costo de t-SNE. 

- Este utiliza un t√©rmino de momentum $\alpha$ para reducir la cantidad de iteraciones necesarias, y funciona mejor si el t√©rmino de momentum es chico hasta que los puntos en el mapa est√©n moderadamente bien organizados. 

- Pueden encontrar el pseudoc√≥digo de este algoritmo simple como "Algoritmo 1" en el [paper de t-SNE](https://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf). 

- Este algoritmo simple puede acelerarse utilizando un esquema de tasa de aprendizaje adaptativo que incremente gradualmente el learning rate en las direcciones donde el gradiente es estable.

Hay dos trucos para mejorar a√∫n m√°s el algoritmo:

1. **Compresi√≥n temprana**: 
    - Consiste en forzar a los puntos del mapa a mantenerse cerca unos de otros al comienzo de la optimizaci√≥n. 

    - Cuando las distancias entre los puntos del mapa son peque√±as, es m√°s f√°cil que los clusters se muevan entre s√≠.

    - Esto facilita explorar el espacio de posibles organizaciones globales de los datos. 

    - Se implementa agregando una **penalizaci√≥n L2** a la funci√≥n de costo, proporcional a la suma de las distancias al cuadrado de los puntos del mapa respecto al origen. 

    - La magnitud de este t√©rmino de penalizaci√≥n y la iteraci√≥n en la que se elimina se configuran manualmente, pero el comportamiento es bastante robusto frente a variaciones en estos dos par√°metros adicionales de optimizaci√≥n.

2. **Exageraci√≥n temprana**: 
    - Consiste en multiplicar todos los valores de $p_{ij}$ por un n√∫mero mayor (por ejemplo, 4), en las etapas iniciales de la optimizaci√≥n. 

    - Los valores $p_{ij}$ representan qu√© tan similares son dos puntos en el espacio de datos original. Al exagerarlos, estamos "enfatizando" o "haciendo m√°s grandes" las similitudes entre los puntos m√°s cercanos, lo cual le dice al algoritmo que preste m√°s atenci√≥n a esos puntos cercanos entre s√≠.
    
    - Los valores de $q_{ij}$ representan distancias entre puntos en el espacio de baja dimensi√≥n. Estos valores siempre suman 1, as√≠ que cuando hacemos grandes los $p_{ij}$, los $q_{ij}$ tienden a quedarse chicos y no logran igualar a los $p_{ij}$.
    
    - Como los $q_{ij}$ no logran igualar a los $p_{ij}$, el algoritmo se esfuerza m√°s en emparejar los valores m√°s grandes de $p_{ij}$, lo cual hace que los puntos muy similares se agrupen de forma compacta y bien separada de otros grupos en el mapa.
    
    - Al final, la exageraci√≥n temprana ayuda a crear clusters bien definidos, es decir, grupos de puntos similares que est√°n bien separados entre s√≠. 
    
    - Esto deja mucho espacio vac√≠o entre los grupos, permitiendo que estos clusters se reorganicen de manera m√°s f√°cil durante la optimizaci√≥n, para encontrar una estructura global clara en el mapa final.

### Limitaciones de t-SNE

[Fuente](https://distill.pub/2016/misread-tsne/): Wattenberg, et al., "How to Use t-SNE Effectively", Distill, 2016. http://doi.org/10.23915/distill.00

<span style="color: indianred;">**1. Elecci√≥n de Perplexity**

- El hiperpar√°metro de perplejidad debe elegirse cuidadosamente y puede requerir tener cierto conocimiento general sobre los datos. 

- Cambiar la perplejidad puede generar visualizaciones muy diferentes que resaltan distintas estructuras en los datos:

<img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/perplexity.png">

<span style="color: indianred;">**2. Tama√±os de clusters no tienen sentido**
- Las coordenadas despu√©s del embedding no tienen un sentido inherente y solo pueden ser utilizados para visualizaci√≥n.
- No podemos ver tama√±os relativos de clusters en un t-SNE plot.
- El tama√±o de los clusters despu√©s de hacer los embeddings no necesariamente tienen relaci√≥n con como eran en el espacio original:

<img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/cluster_size.png">

<span style="color: indianred;">**3. Distancias _entre_ clusters no tienen sentido**

- Dado que t-SNE se enfoca en la estructura local, la estructura global solo se preserva a veces. 
- Por esto, la interpretaci√≥n de la relaci√≥n entre cl√∫steres no se puede obtener solo a partir del embedding de t-SNE.
- Los siguientes diagramas muestran tres distribuciones gaussianas de 50 puntos cada una, donde un par est√° 5 veces m√°s alejado que otro par.

    <img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/distance_1.png">


    - Con una perplexidad de 50, el diagrama proporciona una buena percepci√≥n de la geometr√≠a global. 
    - Con valores de perplexidad m√°s bajos, los cl√∫steres parecen equidistantes. 
    - Cuando la perplexidad es 100, vemos la geometr√≠a global bien, pero uno de los cl√∫steres aparece, falsamente, mucho m√°s peque√±o que los otros. 
    
ü§î Dado que la perplexidad de 50 nos dio una buena representaci√≥n en este ejemplo, __¬øpodemos siempre establecer la perplexidad en 50 si queremos ver la geometr√≠a global?__

    Respuesta: üö´ No üö´ 

- Si agregamos m√°s puntos a cada cl√∫ster, la perplexidad debe aumentar para compensar. 
- Ahora vemos los diagramas de t-SNE para tres cl√∫steres gaussianos con 200 puntos cada uno. 
- En este caso, ninguno de los valores de perplexidad probados ofrece un buen resultado:

<img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/distance_2.png">

- Claramente es una mala noticia que ver la geometr√≠a global requiera hacer un fine-tuning de la perplexidad. 
- Los datos del mundo real probablemente tendr√≠an m√∫ltiples cl√∫steres con diferentes cantidades de elementos. Puede que no haya un solo valor de perplexidad que capture las distancias en todos los cl√∫steres, y lamentablemente, la perplexidad es un par√°metro global.

<span style="color: indianred;">**4. El ruido aleatorio... no siempre se ve aleatorio**

- La t√≠pica trampa es pensar que vemos patrones en lo que enrealidad solo son datos aleatorios.
- Los siguientes diagramas muestran datos genuinamente aleatorios, 500 puntos extra√≠dos de una distribuci√≥n gaussiana unitaria en 100 dimensiones. La imagen de la izquierda es una proyecci√≥n en las dos primeras coordenadas:

    <img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/noise.png">

    - El gr√°fico con una perplexidad de 2 parece mostrar cl√∫steres dram√°ticos. 
    - Si estuvieramos ajustando la perplexidad para resaltar la estructura en los datos, podr√≠amos pensar que dimos en el clavo... pero sabemos que no es as√≠.

- Si miramos los ejemplos anteriores, los valores bajos de perplexidad suelen conducir a este tipo de distribuci√≥n! 
    - Reconocer estos agrupamientos como ruido aleatorio es una parte importante de la interpretaci√≥n de los gr√°ficos de t-SNE.


<span style="color: indianred;">**5. Diferentes inicializaciones pueden ofrecer diferentes resultados**

- t-SNE tiene una funci√≥n de costo que no es convexa. Esto quiere decir que m√∫ltiples reinicios con diferentes semillas terminar√°n en m√≠nimos locales de la divergencia KL. 

En otras palabras, diferentes inicializaciones pueden generar embeddings diferentes:

<img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/results_2.png">

- Sin embargo, 5 ejecuciones con una perplexidad de 50 dan resultados que, son visualmente id√©nticos (sin considerar diferencias causadas por rotaciones, reflexiones, o transformaciones que no alteran la esencia de los datos):

<img style="display: block; margin-left: auto; margin-right: auto;" src="/home/linar/Desktop/ML/Clases/i302/Clases/11_Clase 11: Reducci√≥n de Dimensionalidad/img/results_50.png">

- Evidentemente, algunos problemas son m√°s f√°ciles de optimizar que otros. Por lo tanto, a veces es √∫til probar diferentes semillas y seleccionar el embedding con la menor divergencia KL.

<span style="color: indianred;">**6. Computacionalmente costoso**

- t-SNE es computacionalmente costoso y puede tardar varias horas en conjuntos de datos con millones de muestras, mientras que PCA puede completarse en segundos o minutos.
- $O(N^2)$ (Demostrar üòâ!)

## UMAP

- Se han propuesto varias extensiones de t-SNE que intentan mejorar su velocidad, la calidad del espacio de embedding o la capacidad de hacer un embedding en m√°s de 2 dimensiones. 

- Una extensi√≥n reciente popular se llama UMAP (que significa ‚ÄúUniform Manifold Approximation and Projection‚Äù). 

- A un alto nivel, es similar a t-SNE, pero tiende a preservar mejor la estructura global y es mucho m√°s r√°pido. 

- Esto facilita probar m√∫ltiples valores de los hiperpar√°metros. Para un tutorial interactivo sobre UMAP y una comparaci√≥n con t-SNE, consultar el [siguiente link](https://pair-code.github.io/understanding-umap/)

## Conclusi√≥n

- t-SNE se volvi√≥ muy popular por motivos claros: es incre√≠blemente flexible y suele encontrar estructuras donde otros algoritmos de reducci√≥n de dimensionalidad no pueden. 

- Sin embargo, esa misma flexibilidad lo hace complicado de interpretar. 

- No dejen que la "magia" oculta de t-SNE los aleje de usar la t√©cnica. Es posible estudiar c√≥mo se comporta t-SNE en casos simples para desarrollar una intuici√≥n sobre lo que est√° sucediendo.

- Se recomienda utilizar otro m√©todo de reducci√≥n de dimensionalidad (por ejemplo, PCA) para reducir el n√∫mero de dimensiones a una cantidad razonable si el n√∫mero de caracter√≠sticas es muy alto. Esto ayudar√° a suprimir algo de ruido y acelerar√° el c√°lculo de las distancias por pares entre las muestras.