In [1]:
#t-SNE란?
# t-Distributed Stochastic Neighbor Embedding
# 고차원 데이터를 저차원으로 변환하여 시각화하는 차원 축소 기법
# 데이터 포인트 간의 유사성을 보존하면서, 고차원 데이터를 2차원 또는 3차원 공간으로 변환
# 데이터의 구조와 패턴을 시각적으로 이해하기 편하다는 장점이 있다.

#t-SNE의 작동 원리
# 1. 고차원 데이터 포인트 간의 유사성을 확률 분포로 계산한다.
# 2. 저차원 데이터 포인트 간의 유사성을 t-분포를 사용하여 계산한다.
# 3. 고차원 공간과 저차원 공간 간의 유사성 분포 차이를 KL 발산(Kullback-Leibler divergence)을 통해 최소화한다.
# 4. 저차원 공간에서의 데이터 포인트 위치를 반복적으로 조정하여 최적의 시각화를 얻어간다.
# 즉, 고차원 데이터 간의 유사성을 저차원 데이터 간의 유사성과 비슷하게 하는 것이 바로 t-SNE이다.

#t-SNE의 장점
# 비선형 구조를 효과적으로 탐지할 수 있다.
# 데이터의 클러스터를 명확하게 시각화 가능하다.
# 고차원 데이터 또한 2차원이나 3차원으로 변환하여 시각화 가능하다.

#t-SNE의 단점
# 어렵고 배우기 쉽지 않다.
# 작동시키는데 시간이 오래걸린다.

In [2]:
from sklearn.datasets import fetch_openml
import pandas as pd

# MNIST 데이터셋 불러오기
mnist = fetch_openml('mnist_784', version=1)

# 데이터와 레이블 분리
X = mnist.data
y = mnist.target

# 데이터 프레임의 첫 5행 출력
print(X.head())
print(y.head())


   pixel1  pixel2  pixel3  pixel4  pixel5  pixel6  pixel7  pixel8  pixel9  \
0       0       0       0       0       0       0       0       0       0   
1       0       0       0       0       0       0       0       0       0   
2       0       0       0       0       0       0       0       0       0   
3       0       0       0       0       0       0       0       0       0   
4       0       0       0       0       0       0       0       0       0   

   pixel10  ...  pixel775  pixel776  pixel777  pixel778  pixel779  pixel780  \
0        0  ...         0         0         0         0         0         0   
1        0  ...         0         0         0         0         0         0   
2        0  ...         0         0         0         0         0         0   
3        0  ...         0         0         0         0         0         0   
4        0  ...         0         0         0         0         0         0   

   pixel781  pixel782  pixel783  pixel784  
0         0       

In [3]:
from sklearn.preprocessing import StandardScaler

# 데이터 표준화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [4]:
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import seaborn as sns

# t-SNE 모델 생성
tsne = TSNE(n_components=2, random_state=42)

# t-SNE 학습 및 변환
X_tsne = tsne.fit_transform(X_scaled)

# 변환된 데이터의 크기 확인
print(X_tsne.shape)

(70000, 2)


In [None]:
# 2차원 시각화
plt.figure(figsize=(10, 7))
sns.scatterplot(x=X_tsne[:, 0], y=X_tsne[:, 1], hue=y, palette='viridis', legend=None)
plt.title('t-SNE of MNIST Dataset (2D)')
plt.xlabel('t-SNE Component 1')
plt.ylabel('t-SNE Component 2')
plt.show()