# t-Distributed Stochastic Neighbor Embedding (t-SNE)

- 먼저, 하나의 기준 데이터 포인트를 정하고 다른 모든 데이터와의 Euclidean distance를 구하고, 이 거리를 기반으로 Gaussian 분포를 이용하여 얼마나 가까운지를 확률로 표현함

<img src="../img/t-sne_1.png" width="700">

- 다음으로, 확률로 나타낸 Gaussian 분포를 정답지로 삼아 그 값에 해당하는 t-분포 값을 선택하여 값이 유사한 데이터끼리 묶어줌

<img src="../img/t-sne_2.png" width="700">

- 학습에 필요한 cost function은 KL-Divergence를 이용하였으며, optimization 방법은 gradient descent를 이용하였음
- Local neighbor structure를 보존함
- 하지만, 데이터의 개수가 n개라면 연산량은 n의 제곱만큼 늘어나기 때문에 시간이 오래걸릴 수 있음
- 속도 면에서는 매우 느리지만 성능 면에서는 우수한 클러스터링을 제공
- 최근에는 GPU를 이용하여 빠른 t-SNE를 나타낼 수 있음
- t-SNE는 PCA와 다르게 지도학습







## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt

import warnings

warnings.filterwarnings('ignore')

## Configuration

In [2]:
# matplotlib configure
plt.rcParams['image.cmap'] = 'gray'

# Color from R ggplot colormap
color = [
    '#6388b4', '#ffae34', '#ef6f6a', '#8cc2ca', '#55ad89', '#c3bc3f',
    '#bb7693', '#baa094', '#a9b5ae', '#767676'
]

## Load dataset

In [3]:
mnist = pd.read_csv('../data/mnist_train.csv')
mnist.head()

Unnamed: 0,label,pixel0,pixel1,pixel2,pixel3,pixel4,pixel5,pixel6,pixel7,pixel8,...,pixel774,pixel775,pixel776,pixel777,pixel778,pixel779,pixel780,pixel781,pixel782,pixel783
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [4]:
label = mnist['label']
mnist.drop(['label'], inplace=True, axis=1)

## t-SNE result

In [5]:
%%time
from sklearn.manifold import TSNE

tsne = TSNE(n_components=2, random_state=0)
mnist_tsne = tsne.fit_transform(mnist, label)

CPU times: user 15min 38s, sys: 2min 9s, total: 17min 48s
Wall time: 2min 41s


In [6]:
import plotly.graph_objects as go

fig = go.Figure()

for idx in range(10):
    fig.add_trace(
        go.Scatter(x=mnist_tsne[:, 0][label == idx],
                   y=mnist_tsne[:, 1][label == idx],
                   name=str(idx),
                   opacity=0.6,
                   mode='markers',
                   marker=dict(color=color[idx])))

fig.update_layout(width=800,
                  height=800,
                  title="t-SNE result",
                  yaxis=dict(scaleanchor="x", scaleratio=1),
                  legend=dict(orientation="h",
                              yanchor="bottom",
                              y=1.02,
                              xanchor="right",
                              x=1))

fig.show()