# t-SNE
- 고차원 데이터를 저차원으로 변환하여 시각화
- 유사성을 보존


## 작동원리
1. **고차원 공간에서의 유사성 계산**: 고차원 데이터 포인트 간의 유사성을 확률 분포로 계산.
2. **저차원 공간에서의 유사성 계산**: 저차원 데이터 포인트 간의 유사성을 t-분포를 사용하여 계산.
3. **KL 발산 최소화**: 고차원 공간과 저차원 공간 간의 유사성 분포 차이를 KL 발산(Kullback-Leibler divergence)을 통해 최소화.
4. **반복적 최적화**: 저차원 공간에서의 데이터 포인트 위치를 반복적으로 조정하여 최적의 시각화.



In [1]:
# 데이터 로드
from sklearn.datasets import fetch_openml
import pandas as pd

# MNIST 데이터셋 불러오기
mnist = fetch_openml('mnist_784', version=1)

# 데이터와 레이블 분리
X = mnist.data
y = mnist.target

# 데이터 표준화
from sklearn.preprocessing import StandardScaler

# 데이터 표준화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
# t-SNE 수행
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import seaborn as sns

# t-SNE 모델 생성
# n_components=2는 TSNE 클래스의 매개변수로, 몇 차원으로 축소할 것인지 지정
tsne = TSNE(n_components=2, random_state=42)

# t-SNE 학습 및 변환
X_tsne = tsne.fit_transform(X_scaled)

# 변환된 데이터의 크기 확인
print(X_tsne.shape)

In [None]:
# 시각화
# 2차원 시각화
plt.figure(figsize=(10, 7))
# [:, 0]은 첫 번째 열에 해당하는 모든 값을 선택
# legend=None은 데이터에 대한 범례가 그래프에 표시되지 않는다.
sns.scatterplot(x=X_tsne[:, 0], y=X_tsne[:, 1], hue=y, palette='viridis', legend=None)
plt.title('t-SNE of MNIST Dataset (2D)')
plt.xlabel('t-SNE Component 1')
plt.ylabel('t-SNE Component 2')
plt.show()