# 7. Тематическое моделирование

*Тематическое моделирование* (topic modeling) -- приложение машиннного обучения к анализу текстов.

*Тематическая модель* (topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему.

*Вероятностная тематическая модель* (ВТМ) описывает каждую тему дискретным распределением на множестве терминов, каждый документ дискретным распределением на множестве тем. 
Предполагается, что коллекция документов -- это последовательность терминов, выбранных случайно и независимо из смеси таких рпспределений, и ставится задача восстановления компонент смеси по выборке.

ВТМ осуществляет мягкую классификацию (документ может относится к нескольким выборкам, при этом решается проблема синонимов и омонимов).

Применяется для:
* выявления трендов в научных публикациях/новостных потоках,
* классификации и категоризациии документов, изображений и видео,
* информационного поиска, в том числе многоязычного,
* тегирования веб-страниц,
* обнаружения спама,
* рекомендательных систем,
* и др.

## 7.1 Вероятностная модель колллекции документов

Пусть $D$ -- множество (коллекция) текстовых документов, $W$ -- множество (словарь) всех употребляемых в них терминов (слов или словосочетаний). Каждый документ $d\in D$ представляет собой последовательность $n_d$ терминов $(w_1,\dots,w_{n_d})$ из словаря $W$. Термин может повторяться в документе несколько раз.

### 7.1.1 Вероятностное пространство и гипотеза независимости 

Предпологается, что существует конечное множество тем $T$, и каждое употребление термина $w$ в каждом документе $d$ связано с некоторой темой $t\in T$, которая неизвестна. Коллекция документов рассматривается как множество троек $(d,w,t)$, заданного на конечном множестве $D\times W \times T$. Документы $d\in D$ и термины $w\in W$ являются наблюдаемыми переменными, тема $t \in T$ является латентной (скрытой) переменной.

Гипотеза о независимости элементов выборки эквивалентна предположению "Мешок слов" (bag-of-words), -- что порядок терминов в документах не важен для выявления тематики, то есть тематику документа можно узнать даже после произвольной перестановки терминов, хотя для человека такой текст теряет смысл. Порядок документов в колллекции также не имеет значения -- предположение называют гипотезой "мешка документов".

Приняв гипотезу "мешка слов", можно перейти к более компактному представлению документа как подмножества $d \subset W$, в ккотором каждому жлементу $w\in d$ поставлено в соответствие число $n_{dw}$ вхождений термина $w$ в документ $d$.

### 7.1.2 Постановка задачи тематического моделирования

Построить тематическую модель коллекции документов $D$ -- значит найти множество тем $T$, распределения $p(w|t)$ для всех тем $t\in T$ и распредления $p(t|d)$ для всех $d \in D$. Можно также говорить о задаче совместной "мягкой" класстеризации множества документов и множества слов по множесту кластер-тем. Мягкая кластеризация означает, что каждый документ или термин не жёстко приписывается какой-то одной теме, а распределяется по нескольким темам.

Найденные распределения используются затем для решения прикладных задач. Распределение $p(t|d)$ является удобным признаковым описанием документа в задачах информационного поиска, классификации и категоризации документов.

### 7.1.3 Гипотеза условной независимости

Будем полагать, что появление слов в документе $d$, относящихся к теме $t$, описывается общим для всей коллекции распредлением $p(w|t)$ и не зависит от документа d. Следующие представления этой гипотезы эквивалентны:

\begin{equation}
  \begin{gathered}
    p(w|d,t)=p(w|t); \\
    p(d|w,t)=p(d|t); \\
    p(d,w|t)=p(d|t)p(w|t).
  \end{gathered}
\end{equation}

### 7.1.4 Вероятностная модель порождения данных

Согласно определению условной вероятности, формуле полной вероятности и гипотезе условной независимости

\begin{equation} \tag{2}
  p(w|d) = \sum_{t\in T}p(t|d)p(w|t).
\end{equation}

Если формула кажется не очевидной, приведём вывод:

Согласно опредлению условной вероятности:
$$p(w|d) = \frac{p(w, d)}{p(d)}$$

По формуле полной вероятности:
$$p(w,d) = \sum_{t\in T} p(w,d|t)p(t)$$

По гипотезе условной независимости (1. 3 пункт):
$$p(w,d) = \sum_{t\in T} p(w|t)p(d|t)p(t)$$

Расписав 
$$p(d|t) = \frac{p(d,t)}{p(t)},$$
получим:
$$p(w,d) = \sum_{t\in T} p(w|t)p(d,t)$$

$$\scriptsize\textit{посмотри налево}$$

Поскольку $p(d,t)=p(t,d)$,
$$p(t,d)=p(t|d)p(d),$$
и тогда:
$$p(w,d) = \sum_{t\in T} p(w|t)p(t|d)p(d).$$

Подставив в самое начало, получим: 
$$p(w|d) = \frac{\sum\limits_{t\in T} p(w|t)p(t|d)p(d)}{p(d)},$$
откуда:
$$p(w|d) = \sum_{t\in T} p(t|d)p(w|t)p(d).$$

Если распределения $p(t|d)$ и $p(w|t)$ известны, то вероятностная модель $(2)$ описывает процесс порождения коллекции $D$. 

Построение тематической модели -- обратная задача: по известной коллекции $D$ требуется восстановить породившие её распределения $p(t|d)$ и $p(w|t)$.

![ALGORITHM](Алгоритм.bmp)

### 7.1.5 Гипотеза разреженности

Естественно предполагать, что каждый документ $d$ и каждый термин $w$ связан с небольшим числом тем $t$. В таком случае значительная часть вероятностей $p(t|d)$ и $p(w|t)$ должна обращаться в ноль.

Если документ относится к большому числу тем, то в задачах тематического поиска или классификации документов его имеет смысл разбивать на более однородные по тематике части.

Если термин относится к большому числу тем, то, скорее всего, это общеупотребительное слово, бесполезное для определение тематики.

Алгоритмы, в которых нулевые значения не хранятся, намного эффективнее по памяти и по скорости. Поэтому для больших коллекций разреженнность должна учитываться обязательно.

### 7.1.6 Частотные оценки условных вероятностей

Вероятности, связанные с наблюдаемыми перменными $d$ и $w$, можно оценивать по выборке как частоты:

\begin{equation} \tag{3}
  \hat{p}(d, w)=\frac{n_{dw}}{n}, \quad \hat{p}(d)=\frac{n_d}{n},\quad  \hat{p}(w)=\frac{n_w}{n}, \quad \hat{p}(w|d)=\frac{n_{dw}}{n_d},
\end{equation}

где
* $n_{dw}$ -- число вхождений термина $w$ в документ $d$,
* $n_d=\sum\limits_{w\in W}n_{dw}$ -- длина документа $d$ в терминах,
* $n_w = \sum\limits_{d\in D}n_{dw}$ -- число вхождений термина $w$ во все документы коллекции,
* $n=\sum\limits_{d\in D} \sum\limits_{w\in d}n_{dw}$ -- длина коллекции в терминах.

Вероятности, связанные со скрытой переменной $t$, также можно оценивать как частоты, если рассматривать коллекцию документов как выборку троек $(d,w,t)$:

\begin{equation} \tag{4}
  \hat{p}(t)=\frac{n_{t}}{n}, \quad \hat{p}(w|t)=\frac{n_{wt}}{n_t}, \quad \hat{p}(t|d)=\frac{n_{dt}}{n_d}, \quad \hat{p}(t|d,w)=\frac{n_{dwt}}{n_{dw}},
\end{equation}

где
* $n_{dwt}$ -- число троек, в которых термин $w$ документа $d$ связан с темой $t$, 
* $n_{dt}=\sum\limits_{w\in W}n_{dwt}$ -- число троек, в которых термин документа $d$ связан с темой $t$,
* $n_{wt} = \sum\limits_{d\in D}n_{dwt}$ -- число троек, в которых термин $w$ связан с темой $t$,
* $n_t=\sum\limits_{d\in D} \sum\limits_{w\in d}n_{dw}$ -- число троек, связанных с темой $t$.

По ЗБЧ в пределе при $n\to\infty$ частотные оценки $\hat{p}(\cdot)$, определяемые формулами $3$, $4$, стремятся к соответствующим вероятностям $p(\cdot)$. Частотная интерпретация даёт ясное понимание всех условных вероятностей, которые будут использоваться в дальнейшем.

### 7.1.7 Стохастическое матричное разложение

Если число тем $|T|$ много меньше числа документов $|D|$ и числа терминов $|W|$, то равенство $(2)$ можно понимать как задачу приближённого представления заданной матрицы частот

$$
  \mathbb{F}=(\hat{p}_{wd})_{W\times D}, \quad \hat{p}_wd=\hat{p}(w|d) = n_{dw}/n_{d},
$$
в виде произведения $\mathbb{F}\approx \Phi\Theta$ двух неизвестных матриц меньшего размера -- матрицы терминов тем $\Phi$ и матрицы тем документов $\Theta$:

$$
\begin{gathered}
  \Phi = (\varphi_{wt})_{W\times T}, \quad \varphi_{wt}=p(w|t); \\
  \Theta = (\theta_{td})_{T\times D}, \quad \theta_{td}=p(t|d).
\end{gathered}
$$

Матрицы, столбцы которых неотрицательны и нормированны, называются стохастическими. 

Представление матрицы $\mathbb{F}$ получается с помощью принципа максимума правдоподобия.

### 7.1.8 Принцип максимума правдоподобия.

Для оценивания параметров $\Phi$, $\Theta$ тематической модели по коллекции документов $D$ будем максимизировать правдоподобие (плотность распределения) выборки:

\begin{equation} \tag{6}
p(D;\Phi, \Theta) = C \prod\limits_{d\in D}\prod\limits_{w\in d}p(d, w)^{n_{dw}} = \prod\limits_{d\in D}\prod\limits_{w\in d} p(w|d)^{n_{dw}} Cp(d)^{n_{dw}} \to \max\limits_{\Phi, \Theta},
\end{equation}
где $С$ -- нормировочный множитель, зависящий от чисел $n_{dw}$. Отбросим постоянную часть:

$$
\tilde{p}(D;\Phi, \Theta) = \prod\limits_{d\in D}\prod\limits_{w\in d} p(w|d)^{n_{dw}} \to \max\limits_{\Phi, \Theta}.
$$

Подставим выражение для $p(w|d)$ из $(2)$:

$$
\tilde{p}(D;\Phi, \Theta) = \prod\limits_{d\in D}\prod\limits_{w\in d} \left(\sum_{t\in T}p(t|d)p(w|t)\right)^{n_{dw}} \to \max\limits_{\Phi, \Theta}.
$$

Обозначим $\theta_{td} = p(t|d)$, $\varphi_{wt} = p(w|t)$:

$$
\tilde{p}(D;\Phi, \Theta) = \prod\limits_{d\in D}\prod\limits_{w\in d} \left(\sum_{t\in T}\theta_{td} \varphi_{wt}\right)^{n_{dw}} \to \max\limits_{\Phi, \Theta}.
$$

Логарифмируем:

$$
L(\Phi, \Theta) = \ln{\tilde{p}(D;\Phi, \Theta)} = \ln{\left(\prod\limits_{d\in D}\prod\limits_{w\in d} \left(\sum_{t\in T}\theta_{td} \varphi_{wt}\right)^{n_{dw}}\right)} = 
\sum\limits_{d\in D}\sum\limits_{w\in d} n_{dw} \ln{\sum_{t\in T}\theta_{td} \varphi_{wt}} \to \max\limits_{\Phi, \Theta}.
$$

Получили задачу максимизации логарифма правдоподобия при ограничениях неотрицательности и нормированности стобцов матриц $\Phi$ и $\Theta$:

\begin{equation} \tag{7}
  \begin{gathered}
    L(\Phi, \Theta) = \sum\limits_{d\in D}\sum\limits_{w\in d} n_{dw} \ln{\sum_{t\in T}\theta_{td} \varphi_{wt}} \to \max\limits_{\Phi, \Theta}, \\
    s.t. \\
    \sum\limits_{w\in W} \varphi_{wt}=1; \quad \varphi_{wt} \geqslant 0, \\
    \sum\limits_{t\in T} \theta_{td}=1; \quad \theta_{td} \geqslant 0. \\
  \end{gathered}
\end{equation}


## 7.2 Предварительная обработка текстовых данных



При построении тематической модели нет смысла различать формы (склонения, спряжения) одного и того же слова. Это приведёт к неоправданному разрастанию словаря, дроблению статистики, увеличению ресурсоёмкости и снижению качества модели.

### 7.2.1 Лемматизация и стемминг

*Лемматизация* -- приведение каждого слова в документе к нормальной форме. 

В русском:
* Существительные: именительный падеж, единственное число;
* Прилагательные: именительный падеж, единственное число, мужской род;
* Глагол, причастие, деепричастие: глагол в инфинитиве.

Лемматизаторы разрабатываются с помощью составления грамматического словаря со всеми формами слов, либо аккуратной формализации правил языка со всеми исключениями. Недостатками лемматизаторов является неполнота словарей, особенно по части специальной терминологии и неологизмов, которые часто и представляют наибольший интерес.

*Стемминг* -- отбрасывание изменяемых частей слов, в основном, окончаний.

Плюсы: 
* Не требует словаря;
* Основана на правилах морфологии языка;
* Хорошо работает с английским языком;

Минусы:
* Большое число ошибок;
* Плохо работает для русского языка;

### 7.2.2 Отбрасывание стоп-слов

Слова, которые встречаются во многих текстах различной тематики -- бесполезны и могут быть отброшены. Это союзы, предлоги, числительные, местоимения, некоторые глаголы, прилагательные и наречия. Отбрасывание почти не влияет на длину словаря, но может приводить к заметному сокращению длины некоторых текстов.

### 7.2.3 Отбрасывание редких слов

Слова, встречающие в длинном документе слишком редко, например, только один раз, можно отбросить, полагая, что данное слово не характеризует тематику данного документа.

### 7.2.4 Выделение ключевых фраз

При обработке специальных текстов вместо отдельных слов выделяют *ключевые фразы* -- словосочетания, являющиеся терминами предметной области. Это отдельная сложная задача, для решения которой необходимо привлечение экспертов (даже при использовании методов машинного обучения).

***

Далее будем полагать, что словарь $W$ получен в результате предварительной обработки всех документов коллекции $D$ и может содержать как отдельные слова, так и ключевые фразы. Элементы словаря $w\in W$ будем называть "терминами".

***


## 7.3 Вероятностный латентный сематический анализ (PLSA)

Вероятностный латентный семантический анализ (probabilistic latent semantic analysis).

Вероятностная модель появления пары "документ-термин" $(d,w)$ записывается тремя эквивалентными способами:

$$
p(d,w) = \sum\limits_{t\in T}p(t)p(w|t)p(d|t) = \sum\limits_{t\in T}p(d)p(w|t)p(t|d) = \sum\limits_{t\in T}p(w)p(t|w)p(d|t),
$$
где $p(t)$ -- распределение тем во всей коллекции. Первое представление называется симметричным, остальные -- несимметричными. Они приводят к немного разным итерационным процессам обучения тематической модели.

Сейчас возьмём второе представление, совпадающее с $(2)$.

### 7.3.1 EM-алгоритм

Для решение задачи $(6)$ в $\mathrm{PLSA}$ применяется итерационный процесс, в котором каждая итерация состоит из двух шагов $\mathrm{E}$ и $\mathrm{M}$. Перед первой итерацией выбирается начальное приближение параметров $\varphi_{wt}$ и $\theta_{td}$.

На $\mathrm{E}$-шаге по текущим значениям параметров $\varphi_{wt}$ и $\theta_{td}$ с помощью формулы Байеса вычисляются условные вероятности $p(t|d,w)$ всех тем $t\in T$ для каждого термина $w\in d$ в каждом документе $d$:

\begin{equation} \tag{8}
  H_{dwt}=p(t|d,w)=\frac{p(w|t)p(t|d)}{p(w|d)} = \frac{\varphi_{wt}\theta_{td}}{\sum\limits_{s\in T}\varphi_{ws}\theta_{sd}}
\end{equation}

На $\mathrm{M}$-шаге, наоборот, по условным вероятностям тем $H_{dwt}$ вычисляется новое приближение параметров $\varphi_{wt}$, $\theta_{td}$. Поскольку

\begin{equation} \tag{9}
  \hat{n}_{dwt}=n_{dw}p(t|d,w)=n_{dw}H_{dwt}
\end{equation}
оценивает (не обязательно целое) число $n_{dwt}$ вхождений термина $w$ в документ $d$, связанных с темой $t$. Просуммировав $\hat{n}_{dwt}$ по документам $d$ и по терминам $w$, получим оценки $\hat{n}_{wt}, \hat{n}_{dt}, \hat{n}_t$ и через них, согласно $(4)$ -- частотные оценки условных вероятностей $\varphi_{wt}$, $\theta_{td}$:

\begin{equation} \tag{10}
  \varphi_{wt}=\frac{\hat{n}_{wt}}{\hat{n}_t}, \quad 
  \hat{n}_t = \sum\limits_{w\in W} \hat{n}_{wt}, \quad
  \hat{n}_{wt} = \sum\limits{d\in D} n_{dw} H_{dwt}.
\end{equation}

\begin{equation} \tag{11}
  \theta_{td}=\frac{\hat{n}_{dt}}{\hat{n}_d}, \quad 
  \hat{n}_d = \sum\limits_{t\in T} \hat{n}_{dt}, \quad
  \hat{n}_{dt} = \sum\limits{w\in d} n_{dw} H_{dwt}.
\end{equation}

Покажем, что эти оценки действительно решают задачи $(6)$. 

Запишем лагранжиан задачи $(6)$ при ограничениях нормировки, но проигноривовав ограничения неотрицательности (позже убедимся, что решение неотрицательно):

$$
\begin{gathered}
  \mathscr{L}(\Phi, \Theta) = \sum\limits_{d \in D} \sum\limits_{w \in d} n_{dw} \ln{\sum\limits_{t \in T}\varphi_{wt}\theta_{td}}-\sum\limits_{t\in T}\lambda_t (\sum\limits_{w\in W}\varphi_{wt}-1) - \sum\limits_{d\in D}\mu_d (\sum\limits_{t\in T}\theta_{td}-1) = \\
  =\sum\limits_{d \in D} \sum\limits_{w \in d} n_{dw} \ln{p(w|d)}-\sum\limits_{t\in T}\lambda_t (\sum\limits_{w\in W}\varphi_{wt}-1) - \sum\limits_{d\in D}\mu_d (\sum\limits_{t\in T}\theta_{td}-1). 
\end{gathered}
$$

Продифференцировав лагранжиан по $\varphi_{wt}$ и приравняв к нулю производную, получим

\begin{equation} \tag{12}
  \lambda_t = \sum\limits_{d \in D} n_{dw} \frac{\theta_{td}}{p(w|d)}.
\end{equation}

Домножим обе части этого равенства на $\varphi_{wt}$, просуммируем по всем терминам $w\in W$, применим услование нормировки вероятностей $\varphi_{wt}$ в левой части и выделим переменную $H_{dwt}$ в правой части. Получим
$$
  \lambda_t = \sum\limits_{d\in D}\sum_{w \in W} n_{dw}H_{dwt}.
$$

Снова домножим обе части $(12)$ на $\varphi_{wt}$, выделим переменную $H_{dwt}$ в правой части и выразим $\varphi_{wt}$ из левой части, подставим уже известное выражение для $\lambda_t$. Получим
$$
\varphi_{wt} = \frac{\sum\limits_{d\in D}n_{dw}H_{dwt}}{\sum\limits_{w^\prime \in W}\sum\limits_{d\in D} n_{dw^\prime}H_{dwt}}.
$$

Преобразуем:

$$
  \varphi_{wt} = 
  \frac{\sum\limits_{d\in D}n_{dw}H_{dwt}}{\sum\limits_{w^\prime \in W}\sum\limits_{d\in D} n_{dw^\prime}H_{dwt}} = 
  \frac{\sum\limits_{d\in D}\hat{n}_{dwt}}{\sum\limits_{w^\prime \in W}\sum\limits_{d\in D} \hat{n}_{dw^\prime t}} = 
  \frac{\hat{n}_{wt}}{\sum\limits_{w^\prime \in W}\sum\limits_{d\in D} \hat{n}_{dw^\prime t}} = 
  \frac{\hat{n}_{wt}}{\hat{n}_t}.
$$

Получили $(10)$. Проделав аналогичные действия с производной лагранжиана по $\theta_{td}$, получим $(11)$.

Если начальные приближения $\theta_{td}$ и $\varphi_{wt}$ положительны, то и после каждой итерации они будут оставаться положительными, несмотря на то, что ограничение неотрицательности было проигнорировано в ходе решения.

### 7.3.2 Эффективность $\mathrm{EM}$-алгоритма 

Число операций -- $O(n|T|I)$, где $n$ -- длина коллекции $|T|$ -- число тем, $I$ -- число итераций.

Перевбор всех терминов $w$ во всех документах $d$ можно организовать очень эффективно, если хранить каждый документ $d$  в виде последовательности пар $(w, n_{dw})$.

### 7.3.3 Рациональный $\mathrm{EM}$-алгоритм

Вычисление переменных $\hat{n}_{wt}$, $\hat{n}_{dt}$, $\hat{n}_{t}$ на $\mathrm{M}$-шаге требует однократного прохода всей коллекции в цикле по всем документам $d\in D$ и всем терминами $w \in d$. Внутри этого цикла переменные $H_{dwt}$ можно вычислять непосредственно в тот момент, когда они понадобятся. От этого результат алгоритма не изменяется, $\mathrm{E}$-шаг встраивается внутрь $\mathrm{M}$-шага без дополонительных вычислительных затрат, отпадает необходимость хранения трёхмерной матрицы $H_{dwt}$. Заметим также, что переменную $\hat{n}_d$ можно не вычислять, поскольку $\hat{n}_d=n_d$. 

![PLSA_EM](PLSA_EM_Alg.bmp)

### 7.3.4 Обобщённый $\mathrm{EM}$-алгоритм

Поскольку функционал правдопободия известен не точно, он зависит от приближённых значений $H_{dwt}$, полученных на $\mathrm{E}$-шаге, нет необходимости сверхточно решать задачу максимизации на $\mathrm{M}$-шаге, достаточно ещё немного приблизиться к точке максимума правдоподобия и снова выполнить $\mathrm{E}$-шаг. 

В обобщённом $\mathrm{EM}$-алгоритме (generalized $\mathrm{EM}$-algorithm, GEM) сокращённый $\mathrm{M}$-шаг. 

В другом обобщении $\mathrm{E}$-шаг выполняется для части скрытых переменных $H_{dwt}$. После этого $\mathrm{M}$ выполняется только для тех основных переменных $\varphi_{wt}$, $\theta_{td}$, которые зависят от изменившихся скрытых переменных. 



![PLSA_GEM](PLSA_GEM_Alg.bmp)

Сокращение $\mathrm{M}$-шага сводится к более частому обновлению параметров $\theta_{td}$ и $\varphi_{wt}$.

Параметры $\Phi$, $\Theta$ пора обновить, когда:
* После каждого прохода коллекции; (тогда не суть не поменяется, а это медленно)
* После каждого документа;
* После каждого термина $(d, w)$;
* После заданного числа терминов;
* После каждого вхождения термина;

На больших коллекциях частые обновления повышают скорость сходимости и почти не влияют на результат. Отсюда практическая рекомендация дделать обновления после каждого термина, при этом каждый термин документа обрабатывается только один раз. Этот способ позволяет ещё отказаться от матриц $\Theta$ и $\Phi$, поскольку значения $\theta_{td}$ и $\varphi_{wt}$ можно вычислять "на лету".

При первом проходе коллекции частые обновления не делаются, чтобы в счётчиках накопилась информация по всей коллекции. В противном случае оценки параметров $\theta_{td}$ и $\varphi_{wt}$ по начальному фрагменту выборки могут оказаться хуже начального приближения. Начиная со второй итерации для каждой пары $(d,w)$ из счётчиков $\hat{n}_{wt}$ и $\hat{n}_{dt}$ вычисляется $n_{dwt}$ -- то самое $\delta$, которое было к ним прибавлено при обработке пары $(d,w)$ на предыдущей итерации. Т.о., счётчики $\hat{n}_{wt}$ и $\hat{n}_{dt}$ всегда содержат результат последнего однократного прохода всей матрицы.

Необходимость хранения трёхмерной матрицы $n_{dwt}$ делает этот алгоритм неприменимым к большим коллекциям. Это можно устранить путём реорганизации итераций или применением сэмплирования. 

## 7.4 Начальные приближения

Начальные приближения $\varphi_{t}$ и $\theta_{d}$ можно задавать нормированными случайными векторами из равномерного распределения.

Другая распространённая рекомендация -- пройти по всей коллекции, выбрать для каждой пары (d, w) случайную тему $t$ и вычислить частотные оценки $(4)$ вероятностей $\varphi_{wt}$ и $\theta_{td}$ для всех $d \in D$, $w \in W$, $t \in T$.

### 7.4.1 Инициализация с частичным обучением
Применяется в случаях, когда темы известны заранее и имеются дополнительные данные о привязке некоторых документов или терминов к темам. Учёт этих данных улучшает интерпретируемость тем.

Если известно, что документ $d$ относится к подмножеству тем $T_d \subset T$, то в качестве начального $\theta_{td}$ можно взять равномерное распределение на этом подмножестве:

\begin{equation} \tag{13}
  \theta^0_{td} = \frac{1}{|T_d|}[t\in T_d].
\end{equation}

Если известно, что подмножество терминов $W_t \subset W$ относится к теме $t$, то в качестве начального $\varphi_{wt}$ можно взять равномерное распределение на $W_t$:

\begin{equation} \tag{14}
  \varphi_{wt} = \frac{1}{|W_t|}[w\in W_t].
\end{equation}

Если известно, что подмножество документов $D_t \subset D$ относится к теме $t$, то можно взять эмпирическое распределение слов в объединённом документе:

\begin{equation} \tag{15}
  \theta^0_{wt} = \frac{\sum\limits_{d\in D_t} n_{dw}}{\sum\limits_{d\in D_t} n_d}.
\end{equation}

Если нет никакой априорной информации о связи документов с темами, то последнюю формулу можно применить к случайным подмножествам документов $D_t$, как вариант -- предлагается брать один случайный документ.

### 7.4.2 Инициализация $\Theta$ по $\Phi$

Если для всех тем известны начальные приближения $\varphi^0_{wt}$, то первая итерация $\mathrm{ЕМ}$-алгоритма при равномерном распределении $\theta^0_{td} = 1/|T|$ даёт ещё одну интуитивно очевидную формулу инициализации:

\begin{equation} \tag{16}
  \theta_{td} = \frac{1}{n_d}\sum\limits_{w\in d}n_{dw}H_{dwt}=\sum\limits_{w\in d}\frac{n_{dw}}{n_d}\frac{\varphi_{wt}}{\sum\limits_{s}\varphi_{ws}} = \sum\limits_{w\in d} \hat{p}(w|d)\hat{p}(t|w).
\end{equation}

Здесь распределение тем в документе $d$ оценивается путём усреднения распределений тем $p(t|w)$ по словам документа $d$, вычисленных по формуле Байеса.

### 7.4.3 Недостатки PLSA

* Слишком много параметров $\varphi_{wt}$ и $\theta_{td}$: $(|W||T|+|T||D|)$.
* Неверно оценивает вероятность новых слов ($\hat{p}(w|t) = 0$ для слова, которого не было в обучающейся коллекции, но оно встретилось в каком-нибудь документе).


***

## 7.5 Дивергенция Кульбака-Лейблера (или `KL`-дивергенция)

`KL`-дивергенция между дискретными распределениями $P=(p_i)^n_{i=1}$ и $Q=(q_i)^n_{i=1}$ -- несимметричная функция расстояния (и поэтому называть её фунцией расстояния -- некорректно):
$$
\mathrm{KL}(P||Q) \equiv \mathrm{KL}_i(p_i || q_i) = \sum\limits^{n}_{i=1}p_i\ln{\frac{p_i}{q_i}}.
$$

Предполагается, что $p_i>0$ и $q_i>0$. `KL`-дивергенция не является вполне адекватной функцией расстояния, когда у распределений $P$ и $Q$ не совпадают носители $\Omega_P={i: p_i>0}$ и $\Omega_Q={i: q_i>0}$.

Наиболее важные свойства:
1. Неотрицательна. Если $\Omega_P = \Omega_Q$, то $\mathrm{KL}(P||Q)=\mathrm{KL}(Q||P)=0 \Leftrightarrow p_i=q_i$ (когда распределения совпадают).
2. Является мерой вложенности распределений. Если $\mathrm{KL}(P||Q)<\mathrm{KL}(Q||P)$, то распределение $P$ сильнее вложено в $Q$, чем $Q$ в $P$.
![KL](KL.bmp)
3. Если $P$ -- эмпирическая функция распределения, а $Q(\alpha)$ параметрическое семейство (модель) распределений, то минимизация `KL`-дивергенции эквивалентна максимизации правдоподобия:
$$
\mathrm{KL}(P||Q(\alpha))=\sum\limits^n_{i=1} p_i \ln{\frac{p_i}{q_i(\alpha)}}\to \min_a \Leftrightarrow \sum\limits^n_{i=1} p_i\ln{q_i(\alpha)}\to \max_\alpha
$$

Максимизация правдоподобия $(6)$ эквивалентна минимизации взвешенной суммы дивергенций Кульбака-Лейблера между эмпирическими распределениями $\hat{p}(w|d)=n_{dw}/n_d$ и модельными $p(w|d)$, по всем документам $d\in D$:
$$
  \sum\limits_{d\in D} n_d\mathrm{KL}_w \left( \frac{n_{dw}}{n_d} \big | \big | \sum\limits_{t\in T} \varphi_{wt}\theta_{td} \right) \to \min_{\Phi, \Theta},
$$
где весом документа $d$ явялется его длина $n_d$. Если веса $n_d$ убрать, то все документы будут искусственно приведены к одинаковой длине. Такая модификация функционала качества может быть полезна при моделировании коллекций,содержащих документы одинаковой важности, но существенно разной длины.

***