In [1]:
%matplotlib notebook

from mpl_toolkits.mplot3d import Axes3D
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

import pandas as pd
import matplotlib.pyplot as plt


Vamos a usar un dataset que tiene forma de tetera 3D

In [2]:
teapot = pd.read_csv(
    "https://drive.google.com/uc?export=download&id=1RQSRPZJvHXLYMsrXEdivE-tPTeEIJJQ_"
)

In [3]:
fig = plt.figure(figsize=(7, 7))
ax = fig.add_subplot(1, 1, 1, projection='3d')

ax.scatter(
    teapot.V1.values,
    teapot.V2.values,
    teapot.V3.values,
    marker='o',
    s=10,
    cmap=plt.cm.Spectral,
)

ax.set_xlabel('X Label')
ax.set_ylabel('Y Label')
ax.set_zlabel('Z Label')

for i in range(90, 360, 10):
    ax.view_init(None, i)
    plt.show()


<IPython.core.display.Javascript object>

Ahora vamos a aplicarle PCA, pasando de 3 dimensiones a 2. Â¿CÃºales son las 2 dimensiones que contienen mÃ¡s informaciÃ³n sobre la tetera? Si tuvieran que sacar una foto: desde donde sacarÃ­an la foto para asegurarse que todos sepan que es una tetera?

Para ellos usamos la herramienta PCA con 3 componentes y nos quedamos con los 2 primeros componentes.

In [6]:
pca = PCA(n_components=3)
projected = pca.fit_transform(teapot[["V1", "V2", "V3"]])

In [7]:
plt.figure(figsize=(7, 7))
plt.plot(projected[:, 0], -projected[:, 1], 'o', markersize=2)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fde0a432e48>]

Es obvio que si vemos esta imÃ¡gen sabemos que es una tetera, Â¿no?. Â¿QuÃ© vemos en las dos dimensiones con menor cantidad de informaciÃ³n? Para ello nos quedamos con las Ãºltimas dos dimensiones de la proyecciÃ³n.

In [8]:
plt.figure(figsize=(7, 7))
plt.plot(projected[:, 2], -projected[:, 1], 'o', markersize=2)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fde0a3a9860>]

No es claro que si vemos esto reconocemos que es una tetera. Ahora aplicamos el mÃ©todo de reducciÃ³n de dimensionalidad TSNE.

In [9]:
X_tsne = TSNE(n_components=2, perplexity=150).fit_transform(teapot[["V1", "V2", "V3"]])
x1 = X_tsne[:, 0]
x2 = X_tsne[:, 1]

In [10]:
plt.figure(figsize=(7, 7))
plt.plot(x1, x2, 'o', markersize=2)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fde0a3294a8>]

Vemos que es como si hubiÃ©semos separado la tetera en sus partes. Â¿QuÃ© pasa si disminuimos el valor de *perplexity*?

In [11]:
X_tsne = TSNE(n_components=2, perplexity=5).fit_transform(teapot[["V1", "V2", "V3"]])
x1 = X_tsne[:, 0]
x2 = X_tsne[:, 1]

In [12]:
plt.figure(figsize=(7, 7))
plt.plot(x1, x2, 'o', markersize=2)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fde0a2e86a0>]

Vemos que los conglomerados de puntos estan mÃ¡s separados entre sÃ­ y los puntos dentro de cada conglomerado estÃ¡n mÃ¡s cercanos. Es como si hubiÃ©semos roto la tetera en muchos pedazos chicos. Â¿QuÃ© pasa si ahora aumentamos *perplexity*?

In [11]:
X_tsne = TSNE(n_components=2, perplexity=200).fit_transform(teapot[["V1", "V2", "V3"]])
x1 = X_tsne[:, 0]
x2 = X_tsne[:, 1]

In [12]:
plt.figure(figsize=(7, 7))
plt.plot(x1, x2, 'o', markersize=2)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fd5ec17ff50>]

Los conglomerados vemos que tienen mÃ¡s puntos, incluso en el caso extremo:

In [13]:
X_tsne = TSNE(n_components=2, perplexity=400).fit_transform(teapot[["V1", "V2", "V3"]])
x1 = X_tsne[:, 0]
x2 = X_tsne[:, 1]
plt.figure(figsize=(7, 7))
plt.plot(x1, x2, 'o', markersize=2)

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fd5ec14db90>]

PrÃ¡cticamente hay solo 2 conglomerados distinguibles por el alto valor de *perplexity*. Por lo que queda claro que el valor de *perplexity* controla la nociÃ³n de vecindad, para valores mÃ¡s altos de *perplexity* mÃ¡s puntos serÃ¡n considerados vecinos cercanos.

[FAQ](https://lvdmaaten.github.io/tsne/):
- Valores de perplexity: Depende de la densidad de mis datos, valores tÃ­picos entre 5 y 50.
- "In t-SNE, the perplexity may be viewed as a knob that sets the number of effective nearest neighbors".
- Por quÃ© t-sne no funciona tan bien como Isomap en el dataset Swiss roll?
    "But franklyâ€¦ who cares about Swiss rolls when you can embed complex real-world data nicely?"