<a href="https://colab.research.google.com/github/eakubrakova/MFTI_2023/blob/main/lecture_07_code_labs_05_tsne.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Цель занятия
На этом занятии мы рассмотрим применение алгоритма t-SNE для задачи снижения размерности данных.

t-SNE (t-Distributed Stochastic Neighbor Embedding) - это алгоритм машинного обучения, используемый для визуализации высокоразмерных данных. Он позволяет уменьшить размерность данных и представить их в двух или трех измерениях, сохраняя при этом схожесть между точками.

Основная идея t-SNE заключается в создании нового низкоразмерного пространства, в котором близкие точки в исходном пространстве сохраняют свою близость, а далекие точки становятся еще более удаленными друг от друга. Алгоритм работает путем вычисления вероятностей схожести точек в исходном пространстве и в новом пространстве, и минимизации расхождения между ними.

t-SNE особенно полезен для визуализации сложных структур данных, таких как наборы изображений, текстовые данные или данные высокой размерности. Он может помочь в обнаружении кластеров, группировке похожих объектов и обнаружении выбросов.

Однако стоит отметить, что t-SNE является стохастическим алгоритмом, и его результаты могут немного изменяться при каждом запуске. Также интерпретация отдельных расстояний между точками в t-SNE не имеет смысла, и вместо этого следует сосредоточиться на общей структуре и группировке точек на графике.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.datasets import fetch_openml
import warnings
warnings.filterwarnings("ignore")

In [2]:
# Загрузка набора данных MNIST
mnist = fetch_openml('mnist_784')
X = mnist.data
y = mnist.target.astype(int)

In [None]:
# Создание объекта t-SNE и указание параметров
tsne = TSNE(n_components=2, perplexity=30)

# Выполнение анализа t-SNE и получение преобразованных данных
X_tsne = tsne.fit_transform(X)

In [None]:
# Визуализация данных
plt.figure(figsize=(10, 8))
plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='Paired')
plt.colorbar(label='Цифры')
plt.xlabel('t-SNE компонента 1')
plt.ylabel('t-SNE компонента 2')
plt.title('Визуализация набора данных MNIST с использованием t-SNE')
plt.show()
