# Табличные генеративные модели

Цели:

* рассмотреть модели на основе LLM
* рассмотреть модели на основе диффузии
* познакомиться со списком работ по теме

Содержание:

* Некоторые работы по теме
* Модели на основе LLM
  * GReaT
  * TabuLa
* Модели на основе дифузии
  * TabDDPM
    * Background
    * Модель
  * TabSyn
    * Преамбула
    * Tokenizer
    * VAE
    * Score-based генеративная модель в латентном пространстве
    * Missing value imputation
    * Сравнение с другими моделями
* Заключение


## Некоторые работы по теме

### GAN

* TableGAN, 06.2018
    * [Data Synthesis based on Generative Adversarial Networks](https://arxiv.org/pdf/1806.03384.pdf)
    * [code](https://github.com/mahmoodm2/tableGAN)
* CTGAN, 07.2019
    * [Conditional Tabular GAN](https://arxiv.org/pdf/1907.00503.pdf)
    * [original code (SDV)](https://github.com/sdv-dev/CTGAN), [Gretel's ACTGAN](https://synthetics.docs.gretel.ai/en/stable/models/actgan.html)
* CTAB-GAN, 02.2021
    * [CTAB-GAN: Effective Table Data Synthesizing](https://arxiv.org/pdf/2102.08369.pdf)
    * [code](https://github.com/Team-TUD/CTAB-GAN/blob/main/Experiment_Script_Adult.ipynb)
* CTAB-GAN+, 04.2022
    * [CTAB-GAN+: Enhancing Tabular Data Synthesis](https://arxiv.org/pdf/2204.00401.pdf)
    * [code](https://github.com/Team-TUD/CTAB-GAN-Plus/blob/main/Experiment_Script_Adult.ipynb)

### VAE

* GOGGLE, 02.2023

  VAE с использованием графовых сетей в качестве энкодера и декодера, явно моделировали взаимосвязи между столбцами
    * [GOGGLE: Generative Modelling for Tabular Data by Learning Relational Structure](https://openreview.net/pdf?id=fPVRcJqspu)
    * [code](https://github.com/vanderschaarlab/GOGGLE)

### Autoregressive (на основе LLM)

* TabFormer, 11.2020
  
  Вводится синтетический датасет транзакция кредитных карт. Эмбеддинги строятся иерархически, сначала для строк, а затем для последовательностей транзакций пользователя окном длины T. Поверх этого пробовали обучать две модели - TabBERT и TabGPT. Для вещественных признаков применялась квантизация, что позволяло строить словарь для каждой колонки, как в NLP, но происходила потеря информации.
    * [Tabular Transformers for Modeling Multivariate Time Series](https://arxiv.org/pdf/2011.01843.pdf)
    * [code (IBM/TabFormer)](https://github.com/IBM/TabFormer)
* GReaT, 10.2022
    * [Language Models are Realistic Tabular Data Generators](https://arxiv.org/pdf/2210.06280.pdf)
    * [code](https://github.com/kathrinse/be_great/tree/main)
* TabuLa, 10.2023
    * [TabuLa: Harnessing Language Models for Tabular Data Synthesis](https://arxiv.org/pdf/2310.12746.pdf)
    * [code](https://github.com/zhao-zilong/Tabula)
* REaLTabFormer, 02.2023
  
  Поддерживает реляционные данные. Родительская таблица генерируется с помощью авторегрессионной GPT-2, а затем условно на родительскую генерируется дочерняя с помощью Seq2Seq модели с GPT-2 декодером.
  Обработка численных данных производилась довольно специфическим образом - сначала числа округлялись до двух знаков после запятой, затем выравнивались нулями слева и справа, чтобы получить одинаковую длину затем нарезались на кусочки одинаковой длины (например по 1 или 2 символа), чтобы получить токены.
    * [REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers](https://arxiv.org/pdf/2302.02041.pdf)
    * [code](https://github.com/avsolatorio/REaLTabFormer)

### Diffusion-based

* SOS, 06.2022
  
  Применение score-based моделей к табличным данным. Для моделирования прямого и обратного процесса диффузии используются стохастические дифференциальные уравнения. Мы как обычно хотим максимизировать логарифм правдоподобия данных и в данном случае добиваемся этого через оценку (score) его градиента по параметрам модели. Для предсказания score используется нейросеть. Отличие данной работы в том, что для борьбы с дисбалансом тренируются две модели - одна для не-целевого класса, другая для целевого (которого предполагается, что мало).
    * [SOS: Score-based Oversampling for Tabular Data](https://arxiv.org/pdf/2206.08555.pdf)
    * [code](https://github.com/jayoungkim408/sos)
* TabDDPM, 09.2022
    * [TabDDPM: Modelling Tabular Data with Diffusion Models](https://arxiv.org/pdf/2209.15421.pdf)
    * [code](https://github.com/yandex-research/tab-ddpm/tree/main)
*  TabSyn, 10.2023
    * [Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space](https://arxiv.org/pdf/2310.09656.pdf)
    * [code](https://github.com/amazon-science/tabsyn)
* STaSy, 10.2022
  
  Ещё одна score-based модель, здесь реализовали "наивную" версию и улучшили её своим способом обучения и файнтюнинга. В качестве обработки признаков используются min-max нормализация для числовых признаков и one-hot для категориальных, которые затем рассматриваются просто как числовые. По метрикам превосходит все недифузионные модели и чуть-чуть SOS.
    * [STaSy: Score-based Tabular data Synthesis](https://arxiv.org/pdf/2210.04018.pdf)
    * [code](https://github.com/JayoungKim408/STaSy)
* CoDi, 04.2023

  Непрерывные и категориальные признаки генерируются двумя разными диффузионными моделями, которые обусловлены друг на друга.
    * [CoDi: Co-evolving Contrastive Diffusion Models for Mixed-type Tabular Synthesis](https://arxiv.org/pdf/2304.12654.pdf)
    * [code](https://github.com/ChaejeongLee/CoDi)
* TabCSDI, 10.2022

  Применение дифузионных моделей для заполнения пропусков в табличных данных. Для одновременной обработки категориальных и числовых переменных рассматриваются три метода: one-hot кодирование, аналоговое кодирование битов и токенизация признаков.
    * [Diffusion models for missing value imputation in tabular data](https://arxiv.org/pdf/2210.17128.pdf)
    * [code](https://github.com/pfnet-research/TabCSDI)


## Mодели на основе LLM

### GReaT

**А можно ли использовать предобученную на текстах LLM (GPT и прочие) для генерации табличных данных?**

В статье [Language Models are Realistic Tabular Data Generators (GReaT)](https://arxiv.org/pdf/2210.06280.pdf) был (впервые) предложен такой подход.

По заключению авторов, при правильном преобразовании таблиц в текст предобученные LLM походят для моделирования гетерогенных табличных данных.

Для этого на основе названий колонок и их значений строятся синтаксически корректные предложения, этот процесс называется текстовый энкодинг. На деле шаблон составления текста очень простой - `Column is value,`

Так как имена атрибутов учитываются при кодировании, модель обученная на данных имеет доступ к контексту (например, PhD нельзя защитить в 8 лет).

<figure>
<img src="https://raw.githubusercontent.com/sswt/dive2gai/main/.github/images/w9/GReaT_data_pipeline.png" alt="GReaT data pipeline" width="100%">
<figcaption align = "center"> Image credit: GReaT paper</figcaption>
</figure>

Процесс состоит из двух шагов:

* файнтюнинг предобученной LLM на преобразованных табличных данных
* генерация с помощью этой модели

При обучении порядок столбцов каждый раз произвольным образом переставлялся.

Это даёт преимущество условной генерации по фактически произвольному набору атрибутов - просто фиксируем их в качестве префикса. Причём это работает не только с категориальными, но и вещественными столбцами.

Обратное преобразование в таблицу производилось с помощью регулярок. Если формат нарушался, то строчка игнорировалась (таких было менее 1%).

В экспериментах не было никакого препроцессинга датасетов, данные брались как есть. Не очень понятно, насколько разумно обрабатывать текстовым токенизатором вещественные столбцы с большим количеством знаков после запятой.

По результатам из публикации DistilGPT почти на всех датасетах по метрикам превосходит TVAE, CopulaGAN и CTGAN. Не дистилированная, полная версия GPT, превосходит на всех, но требует очень много времени на обучение (когда CTGAN обучался за 1 минуту, GReaT требовалось 9 часов). TVAE при этом уступает незначительно.

### TabuLa

В статье [TabuLa: Harnessing Language Models for Tabular Data Synthesis](https://arxiv.org/pdf/2310.12746.pdf), которая вышла на полгода позже, развили эту идею.

Токенизация в LLM также полностью текстовая и не нужно задавать типы столбцов, как в GAN и диффузионках.

Основные фичи:

* Вместо предобученной LLM используют модель со случайно инициализированными весами
* Компрессия последовательности токенов - заменили `X is Y` на `X Y`
* Стратегия выравнивания последовательностей *Middle Padding*. Вместо привычного добавления padding-токенов в начале или конце, они добавляются внутрь последовательности. Достигается это путём отдельной токенизации столбцов и выравнивания их по максимальной длине. Так релевантные токены находятся всё время на одних и тех же позициях. При этом название столбца сохраняется только для первого, для остальных только значения.
* "Foundation model" для табличных данных

Брали код файнтюнинга от GReaT и сравнивали 3 режима файнтюнинга:

* предобученная [DistilGPT](https://huggingface.co/distilgpt2) дала самый худший результат
* рандомная DistilGPT сработала получше
* рандомная DistilGPT, файнтюненная на другом табличном датасете показала себя лучше всех

Главный пойнт авторов в том, что хотя преобразованные табличные данные похожи на текст, он принадлежит довольно специфическому паттерну. GPT-2 может ухватить и этот паттерн, но **случайно инициализированная модель сделает это быстрее предобученной**.

Ускорение по сравнению с GReaT получилось раза в полтора-два за счёт компрессии токенов.

Foundation model - когда модель, зафайнтюненную на другом табличном датасете используют на новом. При этом качество зависит от датасета, как видно на рисунке ниже.

<figure>
<img src="https://raw.githubusercontent.com/sswt/dive2gai/main/.github/images/w9/Tabula_losses.png" alt="TabuLa losses" width="60%">
<figcaption align = "center"> Image credit: TabuLa paper</figcaption>
</figure>

Цепочный finetuning foundation model дало прирост в качестве даже после двух датасетов.


## Модели основе диффузии

### TabDDPM

#### Background

##### Диффузные модели

Диффузные модели - генеративные модели, которые определяются через прямой и обратный Марковский процесс.

Прямой процесс постепенно добавляет шум к начальному образцу $x_0$ из распределения $q (x_0)$, сэмплируя шум из заранее определённых распределений $q (x_t|x_{t-1})$ с дисперсиями ${β_1, ..., β_T}$:
$$q (x_{1:T} |x_0) = \prod_{t=1}^T q (x_t|x_{t-1})$$
Обратный процесс диффузии постепенно убирает шум из  $x_T \sim q (x_T)$ и позволяет генерировать новые образцы данных из $q(x_0)$:
$$p (x_{0:T}) = \prod_{t=1}^T p (x_{t-1}|x_t)$$

Распределения $p (x_{t-1}|x_t)$ обычно неизвестны и аппроксимируются нейронной сетью с параметрами $\theta$. Обучение нейросети происходит путём оптимизации вариационной нижней границы логарифма правдоподобия:
$$\log q (x_0) \geq \mathbb{E}_{q(x_0)} \Big[\log p_{\theta} (x_0|x_1) - \text{KL} (q (x_T |x_0) | q (x_T )) - \sum_{t=2}^T \text{KL} (q (x_{t-1}|x_t, x_0) \| p_{\theta} (x_{t-1}|x_t))\Big] \tag 1$$

##### Гауссовские диффузные модели

Работают в непрерывных пространствах $(x_t ∈ R^n)$, где прямые и обратные процессы характеризуются гауссовскими распределениями. Для прямого процесса:

$$q (x_t|x_{t-1}) := \mathcal{N}\left(x_t; \sqrt{1 - \beta_t} x_{t-1}, \beta_t I\right),$$
где $β_t ∈ (0, 1)$ - "расписание" дисперсии (variance schedule).

В результате, после $T$ шагов, мы приходим к стандартному нормальному распределению:
$$q (x_T) := \mathcal{N}\left(x_T; 0, I\right)$$
Аппроксимированное распределение для обратного процесса:
$$p_{\theta} (x_{t-1}|x_t) := \mathcal{N}\left(x_{t-1}; \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t)\right), $$
где $\mu_{\theta}(x_t, t)$ и $\Sigma_{\theta}(x_t, t)$ - параметризованные функции, определенные с использованием нейросети.

Для реализации предложенного метода в оригинальной работе по DDPM рекомендовали использовать диагональную матрицу ковариации $\Sigma_{\theta} (x_t, t)$ с постоянной $\sigma_t$, а $\mu_{\theta} (x_t, t)$ вычислять как функцию от $x_t$ и $\epsilon_{\theta} (x_t, t)$:
$$
\mu_{\theta} (x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{\beta_t}{\sqrt{1 - \bar{\alpha}_t}} \epsilon_{\theta} (x_t, t) \right)
$$

где $\alpha_t := 1 - \beta_t$, $\bar{\alpha}_t := \prod_{i \leq t} \alpha_i$ и $\epsilon_{\theta} (x_t, t)$ предсказывает "истинный" компонент шума $\epsilon$ для зашумленного образца данных $x_t$.

На практике, цель (1) может быть упрощена до суммы среднеквадратичных ошибок между $\epsilon_{\theta} (x_t, t)$ и $\epsilon$ на всех временных шагах $t$:
$$
L^{\text{simple}}_t = \mathbb{E}_{x_0, \epsilon, t} \left\| \epsilon - \epsilon_{\theta} (x_t, t) \right\|_2^2
$$

##### Мультиномиальные диффузионные модели

В дискретных пространствах, для генерации категориальных данных, где $x_t \in \{0, 1\}^K$ представляет собой категориальную переменную с кодированием "one-hot" из $K$ значений предназначены мультиномиальные модели ([Hoogeboom et al., 2021](https://arxiv.org/pdf/2102.05379.pdf)).

Вместо нормального шума используется равномерное распределение вероятностей по возможным классам. Полиномиальный прямой процесс диффузии определяет $q (x_t|x_{t-1})$ как категориальное распределение, искажающее данные с использованием равномерного шума по $K$ классам. То есть получаем категориальное распределение с заданными параметрами-вероятностями:
$$q(x_t|x_{t-1}) := \text{Cat} (x_t; (1 - \beta_t) x_{t-1} + \frac{\beta_t}{K})$$
В результате, после $T$ шагов, мы приходим к равномерному распределению по категориям с вероятностью $1/K$:
$$q (x_T ) := \text{Cat} (x_T ; \frac{1}{K})$$
$$q (x_t|x_0) = \text{Cat} \Big(x_t; \bar{\alpha}_t x_0 + \frac{(1 - \bar{\alpha}_t)}{K}\Big)$$

Получается на каждом шаге добавляется небольшое количество равномерного шума с коэффициентом $\beta_t$ и с большой вероятностью $(1-\beta_t)$ сэмплируется предыдущее значение $x_{t-1}$.

Используя уравнения выше, можно получить апостериорное распределение прямого процесса $q(x_{t-1}|x_t, x_0)$:
$$q (x_{t-1}|x_t, x_0) = \text{Cat} \left( x_{t-1}; \frac{\pi}{\sum_{k=1}^{K} \pi_k} \right)$$
где $\pi = [\alpha_t x_t + \frac{(1 - \alpha_t)}{K}] \odot [\bar{\alpha}_{t-1} x_0 + \frac{(1 - \bar{\alpha}_{t-1})}{K}]$.

Это позволяет аналитически вычислять последний член KL-дивергенции в формуле (1).

Обратное распределение $p_{\theta} (x_{t-1}|x_t)$ параметризуется как $q (x_{t-1}|x_t, \hat{x}_0(x_t, t))$, где $\hat{x}_0$ предсказывается нейронной сетью.

Затем модель обучается путём максимизации вариационной нижней границы (1).

#### Модель

TabDDPM для моделирования числовых признаков использует гауссовскую диффузию, а для категориальных и бинарных признаков - мультиномиальную.

Более подробно, для строчки таблицы $x = [x_{\text{num}}, x_{\text{cat}_1}, ..., x_{\text{cat}_C}]$, состоящей из $N_{\text{num}}$ числовых признаков ($x_{\text{num}} \in \mathbb{R}^{N_{\text{num}}}$) и $C$ категориальных признаков $x_{\text{cat}_i}$ с $K_i$ категориями каждый, модель принимает на вход нормализованные числовые признаки и "one-hot" для категориальных признаков (т.е. $x^{\text{ohe}}_{cat_i} \in \{0, 1\}^{K_i}$) и . Таким образом, вход $x_0$ имеет размерность ( $N_{\text{num}} + \sum K_i$ ).

В качестве предварительной обработки используются гауссовское квантильное преобразование из библиотеки scikit-learn (QuantileTransformer). Каждый категориальный признак обрабатывается отдельным прямым процессом, то есть шумовые компоненты для всех признаков выбираются независимо. То есть категориальные признаки моделируются **независимо** друг от друга и от непрерывных признаков.

Обратный шаг диффузии в TabDDPM моделируется многослойной нейронной сетью, которая имеет выход той же размерности, что и $x_0$, где первые $N_{\text{num}}$ координат - это предсказания шума $\epsilon$ для гауссовской диффузии, а остальные - предсказания $x^{\text{ohe}}_{cat_i}$ для мультиномиальной.

$$
\text{MLP}(x) = \text{Linear}(\text{MLPBlock}(\ldots(\text{MLPBlock}(x))))
$$
$$
\text{MLPBlock}(x) = \text{Dropout}(\text{ReLU}(\text{Linear}(x)))
$$

Для задач классификации используется условная модель по классу $p_θ (x_{t−1}|x_t, y)$.

Вход $x_{in}$, временной шаг $t$ и метка класса $y$ обрабатываются следующим образом:
$$
t_{\text{emb}} = \text{Linear}(\text{SiLU}(\text{Linear}(\text{SinTimeEmb}(t))))
$$
$$
y_{\text{emb}} = \text{Embedding}(y)
$$
$$x = \text{Linear}(x_{in}) + t_{\text{emb}} + y_{\text{emb}}$$

В экспериментах модель почти на всех датасетах превосходит TVAE и CTABGAN+ и часто довольно существенно, а если уступает, то незначительно.

### TabSyn

#### Преамбула

Существующие решения либо преобразуют категориальные признаки в числовые с использованием техник, таких как one-hot кодирование (STaSy, GOGGLE) и аналоговое битовое кодирование (TabCSDI), либо прибегают к двум отдельным процессам диффузии для числовых и категориальных признаков (TabDDPM, CoDi).

В TABSYN стремились разработать модель диффузии в совместном пространстве числовых и категориальных признаков, которая сохраняет взаимосвязь между столбцами.

TABSYN сначала преобразует исходные табличные данные в непрерывное пространство эмбеддингов, где уже можно использовать проверенные модели диффузии с гауссовским шумом. Затем обучается score-based модель диффузии в пространстве эмбеддингов, чтобы уловить распределение эмбеддингов.

Чтобы обучить информативное, сглаженное латентное пространство, сохраняя возможность качественной реконструкции декодером, была специально разработана модель VAE для табличных данных.

Предложенная модель VAE включает:

1. Энкодеры и декодеры на основе трансформеров для моделирования взаимосвязей между столбцами и получения представлений на уровне токенов
2. Адаптивное взвешивание лосса для динамической корректировки вклада компонента восстановления (reconstruction term) и KL-дивергенции в функцию потерь, что позволяет модели постепенно улучшать качество реконструкции, сохраняя по мере сил регуляризованность пространства эмбеддингов

Наконец, при применении моделей диффузии в латентном пространстве был предложен упрощенный процесс прямой диффузии, который добавляет гауссовские шумы стандартного отклонения линейно относительно времени. Демонстрируется теоретически и экспериментально, что этот подход может уменьшить ошибки в обратном процессе, тем самым улучшая скорость сэмплирования.

<figure>
<img src="https://raw.githubusercontent.com/sswt/dive2gai/main/.github/images/w9/TABSYN_arch.png" alt="TABSYN arch" width="70%">
<figcaption align = "center"> Image credit: TABSYN paper</figcaption>
</figure>


#### Tokenizer

Токенизатор преобразует каждый столбец (как числовой, так и категориальный) в вектор размерности $d$. Сначала используется "one-hot" кодирование для предварительной обработки категориальных признаков, то есть, $x_{cat_i} \Rightarrow x_{oh_i} \in \mathbb{R}^{1 \times C_i}$. Тогда каждая строчка представляется как $x = [x^{num}, x^{oh}_1, \ldots, x^{oh}_{M_{cat}}] \in \mathbb{R}^{M_{num} + \sum_{i=1}^{M_{cat}} C_i}$.

Затем для числовых столбцов применяется линейное преобразование, а для категориальных - обучаемый слой эмбеддингов (embedding lookup table), то есть,
$$e_{num} = x^{num}_i \cdot w^{num}_i + b^{num}_i, \quad e^{cat}_i = x^{oh}_i \cdot W^{cat}_i + b^{cat}_i \tag 1$$
где $w_{num_i}, b_{num_i}, b_{cat_i} \in \mathbb{R}^{1 \times d}$, $W_{cat_i} \in \mathbb{R}^{C_i \times d}$ - обучаемые параметры токенизатора, $e_{num_i}, e_{cat_i} \in \mathbb{R}^{1 \times d}$.

В результате каждая строчка представляется как вертикальная конкатенация векторов эмбеддингов всех столбцов (получается матрица на выходе)
$$E = [e^{num}_1, \ldots, e^{num}_{M_{num}}, e^{cat}_1, \ldots, e^{cat}_{M_{cat}}] \in \mathbb{R}^{M \times d} \tag 2$$

#### Detokenizer

Для восстановления значений столбцов используется детокенизатор, дизайн которого симметричен дизайну токенизатора:

$\hat{x}^{num}_i = \hat{e}^{num}_i \cdot \hat{w}^{num}_i + \hat{b}^{num}_i, \quad \hat{x}^{oh}_i = \text{Softmax}(\hat{e}^{cat}_i \cdot \hat{W}^{cat}_i + \hat{b}^{cat}_i),$

$\hat{x} = [\hat{x}^{num}_1, \ldots, \hat{x}^{num}_{M_{num}}, \hat{x}^{oh}_1, \ldots, \hat{x}^{oh}_{M_{cat}}], \tag 3$

где $\hat{w}^{num}_i \in \mathbb{R}^{d \times 1}$, $\hat{b}^{num}_i \in \mathbb{R}^{1 \times 1}$, $\hat{W}^{cat}_i \in \mathbb{R}^{d \times C_i}$, $\hat{b}^{cat}_i \in \mathbb{R}^{1 \times C_i}$ - параметры детокенизатора.

#### VAE

Как в обычном VAE, энкодер используется для получения среднего и логарифма дисперсии латентной переменной. Однако вместо ELBO использовался $\beta$-VAE, где коэффициент $β$ балансирует между лоссом реконструкции и KL-дивергенцией:
$$\mathcal L = \mathcal{L}_{recon}(x, \hat{x}) + \beta \mathcal{L}_{kl}, \tag 4$$
где $\mathcal{L}_{recon}$ - это ошибка реконструкции входных данных, а $\mathcal{L}_{kl}$ - KL-дивергенция, которая регуляризует среднее и дисперсию скрытого пространства.

В обычной модели VAE значение $\beta$ устанавливается равным 1, поскольку оба компонента потерь равнозначны. Однако в данной модели ожидается, что $\beta$ будет меньше 1, в связи с тем, что не требуется, чтобы распределение эмбеддингов точно соответствовало стандартному нормальному распределению, так как есть дополнительная модель диффузии. Поэтому предлагается адаптивное изменение масштаба $\beta$ в процессе обучения, поощряя модель в первую очередь достигать более низкой ошибки реконструкции, сохраняя при этом подходящую форму эмбеддингов.

В начале задаётся максимальное значение $\beta = \beta_{\text{max}}$, и отслеживается $\mathcal{L}_{\text{recon}}$ по эпохам. Когда он не уменьшается в течение заранее определенного числа эпох (что указывает на то, что KL-дивергенция преобладает в общей потере), вес $\beta$ изменяется как $\beta = \lambda \beta$, где $\lambda < 1$. Этот процесс продолжается до тех пор, пока $\beta$ не достигнет заранее определенного минимального значения $\beta_{\text{min}}$.

<figure>
<img src="https://raw.githubusercontent.com/sswt/dive2gai/main/.github/images/w9/TABSYN_VAE.png" alt="TABSYN VAE" width="70%">
<figcaption align = "center"> Image credit: TABSYN paper</figcaption>
</figure>


#### Score-based генеративная модель в латентном пространстве

После того как модель VAE обучена, с помощью её энкодера извлекаются вектора эмбеддингов строк $z = \text{Flatten}(\text{Encoder}(x)) \in \mathbb{R}^{1 \times M \cdot d}$.

Далее используется диффузия на основе SDE.

За счёт линейного расписания уровня шума во времени минимизируется ошибка аппроксимации в обратном процессе, что в свою очередь позволяет увеличить интервал между двумя шагами времени, тем самым уменьшая общее количество шагов сэмплирования и ускоряя сэмплирование. C таким подходом TABSYN может генерировать высококачественные синтетические табличные данные с менее чем 20 оценками функций (NFE - количество оценок функций).

TabDDPM требует 1000 шагов диффузии для получения приемлемого результата, STaSy - 50-256, TabSyn - 12-20.


##### Детали

Чтобы выучить распределение эмбеддингов $p(z)$, используется диффузия на основе стохастических дифференциальных уравнений:
$$z_t = z_0 + \sigma(t)\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)\text{ (Forward process)} \tag 5$$
$$dz_t = -2\dot{\sigma}(t)\sigma(t)\nabla_{z_t} \log p(z_t)dt + p^2\dot{\sigma}(t)\sigma(t)d\omega_t\text{ (Reverse process)} \tag 6$$
где $z_0 = z$ - начальный эмбеддинг от энкодера, $z_t$ - диффузионный эмбеддинг в момент времени $t$, и $\sigma(t)$ - уровень шума. В обратном процессе $\nabla_{z_t} \log p_t(z_t)$ представляет собой score-функцию для $z_t$, а $\omega_t$ - стандартный винеровский процесс (непрерывное случайное блуждание).

Обучение модели диффузии достигается с использованием метода denoising score matching:
$$L = \mathbb{E}_{z_0 \sim p(z_0)}\mathbb{E}_{t \sim p(t)}\mathbb{E}_{\epsilon \sim \mathcal{N}(0, I)}\|\epsilon_{\theta}(z_t, t) - \epsilon\|^2_2, \text{ где } z_t = z_0 + \sigma(t)\epsilon, \tag 7$$
где $\epsilon_{\theta}$ - нейронная сеть (названная функцией сглаживания), приближающая гауссовский шум с использованием исказанных данных $x_t$ и времени $t$. Тогда $\nabla_{z_t} \log p(z_t) = -\epsilon_{\theta}(z_t, t)/\sigma(t)$.

После обучения модели синтетические данные могут быть получены с помощью обратного процесса (6).

Уровень шума $\sigma(t)$ определяет масштаб шума для пертурбации данных на различных временных шагах и существенно влияет на финальные траектории решений дифференциальных уравнений . Следуя рекомендациям из статьи [Elucidating the design space of diffusion-based generative model](https://arxiv.org/pdf/2206.00364.pdf), уровень шума устанавливается $\sigma(t) = t$, то есть линейно по времени. Как показано в Предложении 1, линейное расписание уровня шума приводит к наименьшим ошибкам аппроксимации в обратном процессе:

**Предложение 1.** Рассмотрим обратный процесс диффузии в уравнении (6) от $z_{t_b}$ до $z_{t_a}$ ($t_b > t_a$). Численное решение $\hat{z}_{t_a}$ имеет наименьшую ошибку аппроксимации к $z_{t_a}$, когда $\sigma(t) = t$.

#### Missing value imputation

Диффузные модели используются для inpainting-задач, авторы работы предложили как перенести этот подход на таблицы, что позволяет эффективно восстанавливать пропуски в данных.

#### Сравнение с другими моделями

Данные взяты из статьи

Сравниваемые характеристики моделей:

1. **Совместимость:** возможность метода обрабатывать данные смешанного типа, например, числовые и категориальные столбцы.
2. **Устойчивость:** стабильность работы метода на различных наборах данных (измеряемая стандартным отклонением оценок (≤ 10% или нет) на разных наборах данных.
3. **Качество:** способность синтетических данных проходить колоночный тест хи-квадрат (p ≥ 0.95).
4. **Эффективность:** каждый метод способен генерировать синтетические табличные данные удовлетворительного качества за менее чем 20 шагов.

<figure>
<img src="https://raw.githubusercontent.com/sswt/dive2gai/main/.github/images/w9/TABSYN_baselines_comparison.png" alt="TABSYN baselines comparison" width="70%">
<figcaption align = "center"> Image credit: TABSYN paper</figcaption>
</figure>

Восстановление плотности распределения

<figure>
<img src="https://raw.githubusercontent.com/sswt/dive2gai/main/.github/images/w9/TABSYN_kde_comparison.png" alt="TABSYN kde comparison" width="70%">
<figcaption align = "center"> Image credit: TABSYN paper</figcaption>
</figure>

Время работы

| Method   | Training        | Sampling  |
|----------|-----------------|-----------|
| CTGAN    | 1029.8s         | 0.8621s   |
| TVAE     | 352.6s          | 0.5118s   |
| GOGGLE   | 1h 34min        | 5.342s    |
| GReaT    | 2h 27min        | 2min 19s  |
| STaSy    | 2283s           | 8.941s    |
| CoDi     | 2h 56min        | 4.616s    |
| TabDDPM  | 1031s           | 28.92s    |
| TABSYN   | 1758s + 664s    | 1.784s    |

Итого TABSYN:

* отображает данные в пространство эмбеддингов с помощью VAE
* VAE особенный
	* на трансформерах
	* динамически меняется вклад лоссов в ходе обучения, по ходу обучения все меньше веса даётся KL-дивергенции
* обучает диффузионку на эмбеддингах
	* упрощённый процесс прямой диффузии (linear noise schedule, быстрая генерация за менее чем 20 шагов)

Рассматривается задача безусловной генерации.

Для каждого столбца строится свой обучаемый эмбеддинг и затем [поколоночные](https://arxiv.org/pdf/2106.11959.pdf) представления подаются в трансформер для учёта внутренних взаимосвязей между столбцами.



## Заключение

Выводы:

* Диффузные модели для табличных данных в целом демонстрируют лучшие показатели по сравнению с моделями, основанными на GAN, согласно метрикам качества.

* Модели, основанные на LLM, выглядят менее теоретически обоснованными, однако их также интересно рассматривать в свете впечатляющих успехов данного класса моделей.