
Цель занятия — изучить алгоритм t-SNE для решения задач снижения размерности на подготовленных и неподготовленных данных.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>t-SNE (t-Distributed Stochastic Neighbor Embedding)</b> — это алгоритм машинного обучения, используемый для визуализации и снижения размерности данных. Он был разработан для отображения сложных многомерных данных в двух- или трёхмерное пространство с сохранением сходства между точками.</div>



Основная идея t-SNE заключается в том, чтобы представить исходные данные в новом пространстве, где близкие объекты остаются близкими, а далёкие объекты разделяются. Алгоритм строит вероятностное распределение для пар объектов в исходном и новом пространствах таким образом, чтобы минимизировать разницу между ними. Также t-SNE позволяет учитывать локальные и глобальные структуры данных.

Алгоритм t-SNE широко используется в визуализации данных, особенно при работе с высокоразмерными и сложными наборами данных, такими как изображения или тексты. Он помогает обнаруживать скрытые паттерны, кластеры и взаимосвязи между объектами в данных.

Перед тем как рассмотреть t-SNE, необходимо освежить в памяти некоторые понятия.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>Нормальное распределение (распределение Гаусса)</b> — одно из наиболее распространённых и важных вероятностных распределений. Оно характеризуется плотностью вероятности, которая имеет форму колокола или симметричного колоколообразного графика.</div>

<img src='../static/img/module_7_36.png'>

Формула плотности вероятности нормального распределения выглядит следующим образом:

$ f(x)=\frac{1}{\sqrt{2 \pi \sigma^2}} \cdot e^{-\frac{(x-\mu)^2}{2 \sigma^2}} $
<br>
где:

$ x $    — случайная переменная; <br>
$ \mu $    — математическое ожидание (среднее значение) распределения;<br>
$ \sigma ^2 $    — дисперсия (квадрат стандартного отклонения) распределения.


В этой формуле параметры $ \mu $ и $ \sigma ^2 $ определяют положение и форму колокола нормального распределения. Математическое ожидание $\mu $ указывает на центр колокола, а дисперсия $ \sigma ^2 $ определяет его ширину.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>Распределение Стьюдента (t-распределение)</b> — это вероятностное распределение. Оно широко используется при оценке параметров и проведении статистических тестов в малых выборках, когда исходная генеральная совокупность имеет нормальное распределение, но значение дисперсии неизвестно.</div>

Распределение Стьюдента с параметром $ v $ , обозначаемое как $ t(v) $, имеет форму колокола с симметричным графиком вокруг нуля. Число степеней свободы определяет форму $v $ распределения и влияет на его «хвостатость». Чем больше $v $, тем ближе распределение Стьюдента приближается к стандартному нормальному распределению.

<img src='../static/img/module_7_37.png'>

Формула плотности вероятности распределения Стьюдента выглядит следующим образом:

$ f(x)=\frac{\Gamma\left(\frac{v+1}{2}\right)}{\sqrt{v \pi} \Gamma\left(\frac{v}{2}\right)}\left(1+\frac{x^2}{v}\right)^{-\frac{v+1}{2}} $
<br>


где:

$ x $    — случайная переменная;
<br> $v$    — число степеней свободы (degrees of freedom) распределения;
<br>$ \Gamma $    — функция Гамма, которая вычисляется для соответствующих аргументов.


Обратите внимание, что для вычисления плотности вероятности распределения Стьюдента требуется использование функции Гамма, которая может быть определена отдельно.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>Гауссовское ядро (ядро Гаусса)</b> — это одна из распространённых ядерных функций, используемых в алгоритмах машинного обучения и обработки сигналов. Часто применяется в задачах сглаживания и фильтрации данных.</div>

Гауссовское ядро представляет собой функцию, которая зависит от расстояния между двумя точками и имеет форму колокола с пиком в нуле. Оно симметрично и уменьшается с расстоянием от пика.

Гауссовское ядро используют для вычисления весовых коэффициентов в методе ядерного сглаживания (kernel smoothing). В этом методе каждая точка данных взвешивается с помощью функции гауссовского ядра в зависимости от её расстояния от интересующей нас точки.

Ближние точки получают больший вес, тогда как дальние — меньший.

<img src='../static/img/module_7_38.png'>

Формула Гауссовского ядра выглядит следующим образом:

$ K\left(x, x^{\prime}\right)=\exp \left(-\frac{\left\|x-x^{\prime}\right\|^2}{2 \sigma^2}\right) $
<br>


где:

$ x $    и $ x^{\prime}$ — две точки, между которыми мы вычисляем ядро;
<br>$\|x- x^{\prime} \|$    — расстояние между точками и ;
<br>$\sigma$    — параметр ширины ядра (стандартное отклонение).


В формуле используется евклидово расстояние между точками $x $ и $ x^{\prime}$, и оно возведено в квадрат. Параметр определяет ширину ядра и влияет на размытость и распределение массы вокруг каждой точки.

Гауссовское ядро широко применяется в алгоритмах машинного обучения, таких как метод опорных векторов (SVM) и метод гауссовских процессов (Gaussian Processes), а также в различных методах сглаживания и фильтрации данных.

<div style="background-color: #e0fff3; padding: 15px; color: black; width: 80%;">  <b>Дивергенция Кульбака — Лейблера (Kullback–Leibler divergence, относительная энтропия)</b> — это мера различия между двумя вероятностными распределениями. Она широко применяется в области информационной теории и статистики для измерения расстояния между двумя распределениями.</div>

Дивергенция Кульбака — Лейблера между двумя вероятностными распределениями P и Q измеряет, насколько сильно распределение P отличается от распределения Q. Она не является метрикой расстояния, так как не обладает свойством симметричности, то есть KL-дивергенция между распределением P и распределением Q не равна KL-дивергенции между распределением Q и распределением P.

Формула дивергенции Кульбака — Лейблера выглядит следующим образом:

$ D_{K L}(P \| Q)=\sum_i P(i) \log \left(\frac{P(i)}{Q(i)}\right) $
<br>


где:

<br> $ D_{K L} $— дивергенция Кульбака — Лейблера;
<br> $ P(i) $ и $Q(i) $— вероятности событий в распределениях P и Q соответственно;
<br> $log$ — натуральный логарифм.

Обратите внимание, что дивергенцию Кульбака — Лейблера можно определить только в случае, когда все значения $ P(i)$ равны нулю, если $Q(i) $ равно нулю.

Дивергенция Кульбака — Лейблера является положительной и неотрицательной и равна нулю только в случае, когда распределения P и Q совпадают.

## Визуальная демонстрация алгоритма

Демонстрация алгоритма t-SNE представлена на рисунке ниже.

Сначала необходимо загрузить в память исходную выборку с большим количеством признаков и случайным образом сгенерировать её отображение в признаковое пространство меньшей размерности.

<img src='../static/img/module_7_39.png'>

Основная идея алгоритма t-SNE заключается в том, чтобы сохранить близость объектов из исходного пространства в результирующем пространстве.

<img src='../static/img/module_7_40.png'>

Сначала вычисляют попарную сходственность (affinity) между всеми парами объектов в исходном пространстве. Обычно для оценки сходства между объектами используется гауссово ядро (гауссовское распределение). Сходство выражается числовыми значениями, которые показывают степень близости между объектами.

Затем на основе попарных сходств вычисляют условные вероятности сходства между парами объектов. Эти вероятности вычисляются как отношение попарных сходств к сумме всех сходств, взятых с учётом попарных расстояний между объектами.

<img src='../static/img/module_7_41.png'>

Симметричность расстояний от точки до точки и перплексия — два важных фактора для правильного функционирования алгоритма t-SNE и получения высококачественных вложений. Симметричность расстояний для метрики означает, что расстояние от точки до точки и наоборот равны. Изначально в дивергенции Кульбака — Лейблера это не так.

В алгоритме t-SNE усредняются расстояния от точки до точки и наоборот (то есть симметризация расстояний) для достижения более устойчивых и сбалансированных вложений в новом пространстве. Перплексия (perplexity) в теории информации — это мера сложности или неопределённости распределения вероятностей. Её используют в различных контекстах, включая машинное обучение и статистику.

Математически перплексия определяется как экспонента энтропии распределения вероятностей. Для дискретного случая перплексия вычисляется следующим образом:

$ \text { Perplexity }(P)=2^{-\sum P(i) \log _2 P(i)} $
<br>
где $P$ — распределение вероятностей.

Для непрерывного случая перплексию можно определить как:

$ \operatorname{Perplexity}(p(x))=\exp \left(-\int p(x) \log _2 p(x) d x\right) $
<br>
где $ p(x) $ - плотность вероятности

Перплексия в алгоритме t-SNE используется для контроля числа ближайших соседей, которые учитываются при вычислении условных вероятностей сходства. Высокое значение перплексии увеличивает влияние ближайших соседей, тогда как низкое её значение распространяет влияние на более широкий набор объектов.

Выбор оптимального значения перплексии зависит от особенностей данных и требуемой структуры вложений. Подбор правильной перплексии позволяет достичь более точного отображения локальных сходств и сохранения структуры данных в новом пространстве.

<img src='../static/img/module_7_42.png'>

Симметричность расстояний и перплексия взаимодействуют, чтобы учесть локальные отношения между объектами и сохранить структуру данных в новом пространстве.

На каждой итерации алгоритма t-SNE вычисляется условная вероятность сходства объектов. Для каждой пары объектов $i$ и $j$ вычисляется условная вероятность
$p_{ij}$ , которая отражает вероятность выбрать объект $j$ как соседа объекта $i$ при условии их исходного расположения в пространстве высокой размерности. Затем эти условные вероятности $p_{ij} $ сохраняются в матрице $P$ , где элемент $P_{ij}$ представляет собой условную вероятность сходства между объектами $i$ и $j$.

Также на следующем шаге текущей итерации алгоритма t-SNE вычисляется условная вероятность в новом пространстве низкой размерности. Для каждой пары объектов в новом пространстве и $i$ и $i^{\prime}$, вычисляется условная вероятность $q_{ij}$, которая отражает вероятность выбрать объект $j^{\prime}$ как соседа объекта $j$.

Эти условные вероятности $q_{ij}$ также сохраняются в матрице $Q$. Сохранение вероятностей сходства в матрицах $P$ и $Q$ является важным для дальнейшего вычисления расстояний и оптимизации вложений в пространстве низкой размерности.

Далее происходит оптимизация расположения объектов в результирующем пространстве. Алгоритм стремится минимизировать расхождение между условными вероятностями сходства в исходном пространстве и результирующем пространстве с помощью дивергенции Кульбака — Лейблера. Оптимизация выполняется с помощью градиентного спуска.

На каждой итерации оптимизации происходит обновление вложений (координат) объектов в результирующем пространстве. Обновление выполняется путём расчёта градиента и изменения координат объектов в направлении, которое минимизирует расхождение между вероятностями сходства объектов, сохранёнными в соответствующих матрицах.

Алгоритм повторяется до достижения сходимости. Обычно определённое число итераций задаётся заранее, или алгоритм останавливается, когда изменение вложений становится незначительным.

В результате работы алгоритма t-SNE получается новое представление данных в пространстве меньшей размерности, которое учитывает локальные сходства между объектами. Это позволяет визуализировать данные и обнаруживать структуры и паттерны, которые могут быть неочевидны в исходном пространстве высокой размерности.

<img src='../static/img/module_7_43.png'>

## Процесс обучения

Шаги алгоритма t-SNE:

1.    Вычисление схожести. Сначала алгоритм вычисляет меру схожести между парами объектов в исходном пространстве. Обычно это делается с использованием гауссовского ядра или расстояния между точками, такого как евклидово расстояние.
2.    Создание вероятностного распределения. Для каждой точки в исходном пространстве алгоритм вычисляет вероятностное распределение, отражающее схожесть между этой точкой и другими точками. Более похожим точкам присваивается более высокая вероятность.
3.    Вычисление схожести в пространстве назначения. Затем алгоритм переходит в пространство назначения (обычно двух- или трёхмерное), где создаёт аналогичное вероятностное распределение. Он старается разместить точки таким образом, чтобы более похожие точки были ближе друг к другу.
4.    Минимизация дивергенции Кульбака — Лейблера. Целью t-SNE является минимизация дивергенции Кульбака — Лейблера между вероятностными распределениями в исходном пространстве и пространстве назначения. Это достигается такой настройкой позиций точек в пространстве, чтобы минимизировать разницу между этими распределениями.
5.    Градиентный спуск. Для минимизации дивергенции Кульбака — Лейблера алгоритм использует градиентный спуск. Он вычисляет градиент функционала ошибки и обновляет позиции точек, чтобы уменьшить ошибку. Обновление происходит итеративно, пока не будет достигнута сходимость.


## Оценка качества алгоритма

Чтобы оценить качество работы t-SNE, можно использовать несколько метрик. Перечислим некоторые из них.

Визуализация. Одним из наиболее популярных способов оценки качества t-SNE является визуальный анализ результатов. Просмотрите полученное низкоразмерное представление данных и оцените, насколько хорошо алгоритм сохраняет структуру и относительные расстояния между объектами. Убедитесь, что близкие объекты находятся близко друг к другу, а разные кластеры отделены друг от друга.

Поддержка кластеризации. Если у вас есть информация о настоящих кластерах в данных, вы можете оценить, насколько хорошо t-SNE справляется с их выделением. Чтобы сравнить полученные кластеры с эталонными, используйте метрики, такие как Adjusted Rand Index (ARI), Normalized Mutual Information (NMI) или Silhouette Score.

Сохранение расстояний. t-SNE должен сохранять относительные расстояния между объектами в исходном пространстве при их проецировании на низкоразмерное пространство. Вы можете вычислить попарные расстояния между объектами в исходном и низкоразмерном пространствах и сравнить их. Для оценки сходства между расстояниями можно использовать метрики, такие как Pearson correlation coefficient или Spearman rank correlation coefficient.

Stochastic Neighbor Embedding (SNE) cost function. t-SNE оптимизирует функцию стоимости, основанную на SNE. Вы можете отслеживать значения функции стоимости на каждой итерации и проверять, сходится ли алгоритм. Если значения функции стоимости продолжают уменьшаться, это может быть индикатором успешной работы алгоритма.

Важно отметить, что t-SNE является эвристическим алгоритмом и не существует универсальных метрик, которые идеально оценивают его качество. Оценка качества t-SNE должна основываться на комбинации различных метрик и визуальной интерпретации результатов.

## Применение алгоритма

Алгоритм t-SNE — мощный инструмент для визуализации исходных данных в низкоразмерном пространстве. Его можно использовать в различных областях, где требуется визуализация и анализ многомерных данных.

Некоторые примеры применения алгоритма:

-    Визуализация данных. Основное применение t-SNE заключается в визуализации сложных многомерных данных в двух или трёх измерениях. Это позволяет исследовать и понять структуру данных, выявить кластеры или группы объектов, обнаружить выбросы, аномалии, скрытые паттерны или зависимости. Примеры использования: визуализация геномных данных, изображений, текстовых данных и т. д.
-    Кластеризация. t-SNE можно использовать для кластеризации данных на основе их визуализации в низкоразмерном пространстве. После проецирования данных на плоскость с помощью t-SNE можно применить алгоритмы кластеризации, такие как k-means или DBSCAN, для выделения кластеров и их анализа.
-    Обнаружение аномалий. t-SNE может помочь в обнаружении аномалий или выбросов в данных. Объекты, которые отображаются далеко от основной структуры данных в низкоразмерном пространстве, могут считаться потенциальными аномалиями или интересными случаями, которые заслуживают дополнительного исследования.
-    Предварительная обработка данных. t-SNE можно использовать как этап предварительной обработки данных для последующего применения других алгоритмов машинного обучения. Проецирование данных на низкоразмерное пространство с помощью t-SNE может улучшить эффективность и качество работы других алгоритмов, таких как классификация, регрессия или кластеризация.

Важно отметить, что t-SNE является вычислительно сложным алгоритмом, особенно для больших наборов данных. Поэтому, чтобы применить его к большим данным, может потребоваться распараллеливание вычислений или использование других методов.

## Плюсы и минусы алгоритма

Алгоритм t-SNE имеет несколько преимуществ, которые делают его популярным инструментом для визуализации и анализа данных.

Плюсы:

-    Сохранение локальной структуры. t-SNE стремится сохранить относительные расстояния между близкими объектами в исходном пространстве. Это означает, что объекты, которые находятся близко друг к другу в исходных данных, будут отображены близко друг к другу в низкоразмерном пространстве. Это позволяет сохранить локальную структуру данных и обнаружить кластеры или группы объектов.
-    Устойчивость к выбросам. t-SNE обычно хорошо справляется с выбросами или аномалиями в данных. Из-за своего вероятностного подхода и использования тяжёлых хвостов распределения t-Student алгоритм t-SNE не так сильно подвержен влиянию выбросов и может помочь обнаружить их.
-    Визуальная интерпретация. Одно из основных преимуществ t-SNE — его способность визуализировать высокоразмерные данные в двух или трёх измерениях. Это позволяет исследовать данные, выявлять паттерны и структуры, а также делать выводы и принимать решения на основе визуальной интерпретации результатов.

Наряду с преимуществами, алгоритм t-SNE также имеет некоторые ограничения и потенциальные недостатки.

Минусы:

-    Вычислительная сложность. Алгоритм t-SNE требует вычисления попарных расстояний между всеми парами точек в исходном пространстве. Это делает его вычислительно требовательным, особенно для больших наборов данных. Время выполнения может значительно возрастать с увеличением размерности исходных данных или числа объектов.
-    Недетерминированность. t-SNE является стохастическим алгоритмом, что означает, что результаты могут немного различаться при каждом запуске. Это может затруднить воспроизводимость результатов и требует выполнения нескольких запусков для проверки стабильности и надёжности результатов.
-    Потеря глобальной структуры. t-SNE сконцентрирован на сохранении локальной структуры данных и обнаружении кластеров. Однако из-за своей природы алгоритм может уменьшать различия между удалёнными объектами в низкоразмерном пространстве, что может привести к потере глобальной структуры данных.


---

В библиотеке scikit-learn алгоритм t-SNE (t-Distributed Stochastic Neighbor Embedding) реализован через <a href="https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html"> класс TSNE</a> из модуля sklearn.manifold.

Основные параметры класса TSNE:

    n_components — количество компонентов в низкоразмерном пространстве, в которое будет проецироваться исходное пространство данных. Обычно для визуализации это 2 или 3. Обязательный параметр.
    perplexity — мера сложности глобальной структуры данных. Определяет баланс между сохранением локальной и глобальной структуры. Значения perplexity должны быть в диапазоне от 5 до 50, но часто используется значение около 30.
    learning_rate — скорость обучения алгоритма. Определяет шаг изменения в низкоразмерном пространстве. Маленькое значение learning_rate может привести к более долгой сходимости, но более высокому качеству визуализации. Значения learning_rate обычно варьируются от 10 до 1000.
    n_iter — количество итераций оптимизации алгоритма. Определяет количество шагов, которые алгоритм выполняет для достижения оптимального результата. Значение по умолчанию — 1000.

В классе TSNE также имеются методы fit(X) — для обучения модели на данных X и transform(X) — для преобразования данных X в низкоразмерное пространство с использованием изученных компонент.



Давайте резюмируем.

<b>t-SNE (t-Distributed Stochastic Neighbor Embedding)</b> — это алгоритм снижения размерности данных, который часто используется для отображения высокоразмерных данных на двух- или трёхмерное пространство. Он широко применяется для анализа и визуализации сложных наборов данных, таких как текст, аудио, графы и другие.

Основная идея алгоритма t-SNE заключается в том, чтобы сохранить близость объектов из исходного пространства в результирующем пространстве. Алгоритм строит вероятностную модель, где объекты в исходном пространстве и в пространстве визуализации представлены вероятностными распределениями. Он пытается минимизировать расхождение между этими распределениями, чтобы сохранить связи и соседство между объектами.

Для работы алгоритма t-SNE необходимо настроить параметры, такие как perplexity (параметр, определяющий баланс между сохранением локальной и глобальной структуры данных) и learning rate (параметр, регулирующий скорость обучения). Оптимальный выбор этих параметров может существенно влиять на качество визуализации.
