# Тематическое моделирование

## TF-iDF

**Определение 1.** Пусть дана простая случайная величина $\xi$ с законом распределения $p_k = P(k) = P(\xi = k) = P\{ \omega \in \Omega: \xi(\omega) = k \}$, $k = \overline{1, n}$. Собственной информацией $\xi$ называется случайная величина

$$I = - ln \, P(\xi)$$

**Определение 2.** Энтропия (энтропия Шеннона) случайной величины $\xi$ – это ожидание собственной информации случайной величины $\xi$.

$$H = - \sum \limits_{k = 1}^n p_k ln \, p_k$$

Энтропия показывает меру неопределённости распределения случайной величины $\xi$. Если $\xi$ – константа, то $H = 0$. Чтобы понять, в каком случае энтропия максимальна, решим задачу оптимизации. Составим функцию Лагранжа

$$L = - \sum \limits_{k = 1}^n p_k ln \, p_k - \lambda \left( 1 - \sum \limits_{k = 1}^n p_k \right) \rightarrow \max_{p_k} \rightarrow \min_{\lambda}$$

$$\frac{\partial L}{\partial p_k} = - ln \, p_k - 1 + \lambda \qquad k = \overline{1,n}$$

Получаем два ограничения

$$p_k = e^{\lambda - 1}$$

$$\sum \limits_{k = 1}^n p_k = 1$$

В итоге все вероятности равны. 

$$p_k = \frac{1}{n} \qquad \lambda = ln(n) - 1 \qquad \max H = ln \, n$$

То есть, наибольшей неопределённостью обладает равномерное дискретное распределение и его неопределённость равна логарифму от количества возможных значений. 

Данное определение можно расширить для случая многомерной случайной величины. Ниже приведена формула расчёта энтропии двух случайных величин $\xi$ и $\eta$ с совместным распределением $P(x, y) = P\{ \omega \in \Omega: \xi(\omega) = x, \eta(\omega) = y \}$, где $x \in X$, $y \in Y$, $X, Y$ – множества значений случайных величин.

$$H(\xi, \eta) = - \sum_{x \in X} \sum_{y \in Y} P(x, y) ln \, P(x, y)$$

Из этого следует, что если случайные величины $\xi$ и $\eta$ независимы, то энтропия совместного распределения равна суммарной энтропии компонент этого распределения. 

$$H(\xi, \eta) = H(\xi) + H(\eta)$$

**Определение 3.** взаимной информацией случайных величин $\xi, \eta$ называется величина $M$

$$M(\xi, \eta) = H(\xi) - H(\xi|\eta) = H(\eta) - H(\eta|\xi) = H(\xi) + H(\eta) - H(\xi, \eta)$$

Действительно, по формуле условной вероятности

$$P(x|y) = \frac{P(x, y)}{P(y)}$$

$$P(x, y) = P(x|y) P(y)$$

$$H(\xi, \eta) = - \sum_{x \in X} \sum_{y \in Y} P(x|y) P(y) ln \, P(x|y) P(y)$$

Логарифм произведения равен сумме логарифмов, поэтому

$$H(\xi, \eta) = - \sum_{y \in Y} P(y) ln \, P(y) \sum_{x \in X} P(x|y) - \sum_{y \in Y} P(y) \sum_{x \in X} P(x|y) ln \, P(x|y) = - \sum_{y \in Y} P(y) ln \, P(y) - \sum_{y \in Y} P(y) \sum_{x \in X} P(x|y) ln \, P(x|y) = H(\eta) + H(\xi|\eta)$$

$$H(\xi) + H(\eta) - H(\xi, \eta) = H(\xi) + H(\eta) - H(\eta) - H(\xi|\eta) = H(\xi) - H(\xi|\eta)$$

***Замечание.*** Было бы логично считать, что $H(\xi|\eta)$ это математическое ожидание $\text{E} I(\xi|\eta)$. Но такое математическое ожидание является случайной величиной из-за того, что является функцией от случайной величины $\eta$. Нас же интересует конкретное числовое значение, поэтому

$$H(\xi|\eta) = \text{E}_y \text{E}_x I(\xi|\eta) $$

Пусть теперь у нас есть текстовый документ $d \in D$ со словами из словаря $w_1, \dots, w_n \in W$. Пусть $\xi$ – случайный элемент, который принимает значения из $D$, а $\eta$ – случайный элемент, который принимает значения из $W$. Будем считать, что вероятности возникновения любых документов равны. Мы также можем задать условный закон распределения $(\xi|w), w \in W$. То есть, если мы знаем, что в документе содержится слово $w$, то вероятность встретить конкретный документ $d$ равна

$$P(d|w) = \frac{1}{|\{ d \in D: w \in d \}|}$$

Найдём энтропию корпуса слов

$$H(\xi) = ln \, |D|$$

$$H(\xi|\eta = w) = ln \, |\{ d \in D: w \in d \}|$$

Что же касается вероятностей возникновения слова, то можно записать следующее

$$P(w) = \sum_{d \in D} P(w|d)P(d),$$

где

$$P(w|d) = \frac{1}{|d|} \sum_{v \in d} I\{ v = w \},$$

Найдём теперь взаимную информацию словаря и корпуса документов

$$M(\xi, \eta) = H(\xi) - H(\xi|\eta) = \sum_{w \in W} P(w) (H(\xi) - H(\xi|\eta = w)) = \sum_{w \in W} P(w) (ln \, |D| - ln \, |\{ d \in D: w \in d \}|) = \sum_{d \in D} P(d) \sum_{w \in d} P(w|d) ln \, \frac{P(d|w)}{P(d)}$$

Получаем

$$M(\xi, \eta) = \frac{1}{|D|} \sum_{d \in D} \sum_{w \in d} P(w|d) ln \, \frac{P(d|w)}{P(d)}$$

$$M(\xi, \eta) = \frac{1}{|D|} \sum_{d \in D} \sum_{w \in d} P(w|d) ln \, P(d|w) - ln \, |D|$$

**Определение 4.** Обозначим вероятность возникновения слова $w$ в документе $d$ $\text{tf(d, w)}$ (от англ. term frequency)

$$\text{tf(d, w)} = P(w|d)$$

**Определение 5.** Обозначим логарифм отношения вероятностей возникновения документов

$$\text{idf}(d, w) = ln \, \frac{|D|}{|\{ d \in D: w \in d \}|} = ln \, \frac{P(d|w)}{P(d)}$$

(от англ. inverse document frequency). 

Получаем, что 

$$M(\xi, \eta) = \frac{1}{|D|} \sum_{d \in D} \sum_{w \in d} \text{tf}(d, w)\text{idf}(d, w)$$

То есть, каждый документ может быть представлен числовым вектором из $n$ компонент так, что среднее арифметическое сумм этих компонент равна взаимной информации корпуса слов и словаря. Соответствующее векторное представление называется представлением TF-iDF.

## LSA

LSA (от англ. latent semantic analysis) – латентный семантический анализ. Один из наиболее древних способов решения задачи тематического моделирования. Как и ранее предполагается, что есть некоторый корпус документов $D = \{ d_1, \dots, d_M \}$, словарь $W = \{ w_1, \dots, w_N \}$. Необходимо составить список тем $t \in T$ и для каждого документа определить степень принадлежности к теме $t$. Предполагается, что разметка документов отсутствует, т. е. это задача обучения без учителя. 

Латентный семантический анализ предполагает следующие шаги для решения задачи. 

1) Составляется $(M \times N)$ матрица $F$, $f_{d, w} = \text{tf}(d, w)\text{idf}(d, w)$

2) Строится сингулярное разложение матрицы $F = U S V^\top$

3) Выбираются $|T|$ главных компонент (почти как в PCA только без централизации) матриц $U$ и $V$

4) Полученные субматрицы и есть распределение документов и слов по темам соответственно

<div class="alert alert-info">
<h3>Задание 1</h3>
<p></p>
1) Импортировать набор данных с текстами новостей из Moodle. Датасет достаточно большой, для задания можно взять небольшую выборку.
    
2) Самостоятельно провести предварительную очистку данных от стоп-слов и мусора, удалить знаки препинания и т. п.
    
3) Получить разбиение по новостей по темам алгоритмом LSA:
    
3.1) Построить представление TF-IDF;

3.2) Вычислить взаимную информацию корпуса документов и словаря (через энтропию и через TF-iDF и сравнить);

3.3) Построить сингулярное разложение представления TF-IDF;

3.4) Выбрать десять наибольших сингулярных значений и соответствующих им левых и правых сингулярных векторов.

4) Для любых десяти тем вывести слова, наиболее сильно определяющие данную тему. Дать наименование выбранным десяти темам на основе выведенных слов. 
<p></p>
</div>

Импортируем библиотеки

In [15]:
import os
import re
import random

import numpy as np
import pandas as pd
import datetime as dt

import matplotlib.pyplot as plt

from sklearn.base import BaseEstimator
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

from tqdm import tqdm

Импортируем данные

In [16]:
texts = []

dirname = "texts"
for filename in os.listdir(os.path.abspath(dirname))[:100]:    
    with open(os.path.join(os.path.abspath(dirname), filename), mode="r", encoding="utf-8") as file:
        texts.append(file.read())
        
print(f"Импортировано документов: {len(texts)}")

Импортировано документов: 100


Проводим предварительную очистку данных

In [17]:
# Ваш код здесь
texts[1]

'\nУченые из Университета Сапиенца в Риме предложили метод классификации стран в соответствии с типом их экономики. Метод позволяет сказать, насколько поведение страны поддается прогнозу и соответствует ли оно «ламинарному» или «хаотическому» типу развития. Работа опубликована\xa0в журнале PLoS ONE, кратко о ней можнопрочитать\xa0на сайте Nature. Главной задачей исследования был поиск метрики, которая максимально точно могла бы предсказать, как будет развиваться экономика данной страны в будущем. Ранее в качестве такой метрики была предложена\xa0диверсифицированность экспорта — иными словами, то, насколько разные товары экспортирует страна. Эта метрика получила название индекса экономической сложности (ECI) и, несмотря на свою простоту, показала значительную предсказательную силу. Однако ECI, как выявили наблюдения, сама по себе способна сильно меняться с годами и для некоторых стран ведет себя аномально. Чтобы понять природу этого поведения, ученые занялись моделированием многолетней 

In [18]:
from sklearn import preprocessing
import re

In [62]:
# s = 'dssd вывыв'
# s = re.sub(r'(?i)[^а-я ]*', '', s)
# s
clear_texts = []
for text in texts:
    clear_texts.append(re.sub(r'(?i)[^а-я ]*', '', text))
    

In [83]:
from nltk.stem.snowball import SnowballStemmer 

stemmer = SnowballStemmer("russian") 

split_text = []
for text in clear_texts:
    split_text.append(text.split())
    

plain_text =[]
words = []
for split in split_text:
    for word in split:
        words.append(stemmer.stem(word))
        
    plain_text.append(' '.join(words))
plain_text

['сотрудник венск медицинск университет разработа технолог котор позволя пациент с травм плечев нервн сплетен управля бионическ протез работ опубликована журнал плечев сплетен дает нача нерв котор управля движен всех мышц рук травм эт сплетен привод к функциональн ампутац конечн прич восстанов е иннервац обычн не уда вмест попыток налад иннервац австрийск медик реш использова бионическ протез управля им должн был остаточн активн нерв плеч а такж работ нерв ран пересажен пациент вмест с мышц с друг част тел ног обнаруж слаб активн плечев нерв учен снабд их электрическ сенсор и нача тренирова пациент управля виртуальн рук котор показыва на экран компьютер посл девят месяц тренировок электрическ активн нервн окончан значительн возросл и к нерв подключ бионическ протез первоначальн он нос одновремен с нефункциональн рук и тольк когд пациент науч достаточн ловк с ним управля медик ампутирова бесполезн конечн',
 'сотрудник венск медицинск университет разработа технолог котор позволя пациент 

Строим представление TF-iDF (можно использовать `sklearn.feature_extraction.text.TfidfVectorizer`)

In [None]:
# Ваш код здесь

In [85]:
vectorizer = TfidfVectorizer()
x = vectorizer.fit_transform(plain_text)

countvectorizer = CountVectorizer()
y = countvectorizer.fit_transform(plain_text)

In [36]:
x[0]

<1x4543 sparse matrix of type '<class 'numpy.float64'>'
	with 1 stored elements in Compressed Sparse Row format>

In [86]:
vectorizer.get_feature_names() 
count_tokens = countvectorizer.get_feature_names()
tfidf_tokens = vectorizer.get_feature_names()

Выполняем сингулярное разложение матрицы, полученной на предыдущем шаге (можно использовать `numpy.linalg.svd` или `scipy.sparse.linalg.svds`)

***Напоминание.*** Сингулярным разложением $(M \times N)$ матрицы $F$ называется произведение трёх матриц

$$F = U S V^\top,$$

где $U U^\top = I$, $V V^\top = I$, $S = diag(s_1, \dots, s_n)$. Такое разложение может быть получено для любой матрицы. Рассмотрим $F F^\top$. Во-первых, такая матрица положительно определена:

$$x^\top F F^\top x = (F^\top x, F^\top x) = \lVert F^\top x \rVert^2 \ge 0$$

Во-вторых, такая матрица симметрична: элемент $ij$ этой матрицы равен скалярному произведению $i$-ой и $j$-ой строк матрицы $F$, а скалярное произведение вещественных векторов коммутативно. 

У симметричной положительно определённой матрицы все собственные числа неотрицательные и имеет место спектральное разложение

$$F F^\top = U S V^\top V S^\top U^\top = U S S^\top U^\top = U \Lambda U^\top,$$

где $\Lambda = diag(\lambda_1, \dots, \lambda_n)$, $\lambda_i = s_i^2$. По симметричным соображениям матрица $F^\top F$ является симметричной и положительно определённой, причём

$$F^\top F = V S^\top U^\top U S V^\top = V S S^\top V^\top = V \Lambda V^\top,$$

Получается, что $U$ и $V$ – ортонормированные базисы из собственных векторов матриц $F F^\top$ и $F^\top F$ соответственно, а $S$ можно получить, извлекая квадратный корень из собственных чисел. 

***Замечание.*** На самом деле матрица $S$ в сингулярном разложении не диагональная. Она дополняется нулевыми столбцами или строками так, чтобы матричное произведение имело смысл. 

***Замечание.*** Предполагается, что $s_i \ge 0$, причём количество строго положительных значений $s_i$ равняется рангу матрицы $F$. 

In [87]:
# Ваш код здесь
countvectorizer = CountVectorizer()
y = countvectorizer.fit_transform(plain_text)

In [67]:
import scipy
U, S, V = scipy.sparse.linalg.svds(x)

In [88]:
yy = y / y.sum(axis=1)
yyy = yy / yy.shape[0]

In [89]:
yyy.sum()

0.9999999999999998

In [90]:
y.shape

(100, 4543)

In [117]:
tt = yyy + 1e-20
tt = np.array(tt)
hdw = -np.sum(tt * np.log(tt))
hdw

11.587866357207709

In [115]:
wordsss = tt.sum(axis = 0)
docss = tt.sum(axis = 1 )
hw = -np.sum(wordsss * np.log(wordsss))
hd = -np.sum(docss * np.log(docss))

In [112]:
hw

7.2313003339792274

In [113]:
hd

4.605170185988106

mdw = hw + hd - hdw
mdw

In [119]:
mdw = hw + hd - hdw
mdw

0.24860416275962471

In [None]:
idf_d_w = np.

Выводим примеры тем

In [None]:
# Ваш код здесь

## pLSA

### Алгоритм

pLSA (от англ. probabilistic latent semantic analysis) – вероятностный семантический анализ. Предположения данной модели состоят втом, что текст документов $d \in D$ набирается так: сначала выбирается случайная тематика $t$ (вероятность выбора темы для документа обозначим $P(t|d)$), затем из тематики выбирается слово $w$ (с вероятностью $P(w|t)$. Как и ранее будем предполагать, что 

$P(d) = \frac{1}{|D|}$ –  вероятность встретить документ $d$

$n_{d, w} = \sum_{v \in d} {I \{v = w \}}$ – частота слова $w$ в документе $d$

$P(w|d) = \frac{n_{d, w}}{|d|}$ – вероятность встретить слово $w$ в документе $d$

Рассмотрим вероятность совместного возникновения документа $d$ и слова $w$:

$$P(d, w) = P(w|d)P(d)$$

Однако по формуле полной вероятности можно расписать

$$P(d, w) = \sum_{t \in T} P(w|d,t)P(d|t)P(t)$$

***Напоминание.*** Вероятность пересечения нескольких событий можно выразить через произведение условных вероятностей

$$P(A \cap B \cap C) = P(A | B \cap C) P(B \cap C) = P(A | B \cap C) P(B | C) P(C)$$

Заметим, что 

$$P(d|t)P(t) = P(d, t) = P(t|d)P(d),$$

поэтому 

$$P(d, w) = P(d) \sum_{t \in T} P(w|d,t)P(t|d)$$

Последнее предположение модели pLSA состоит в том, что вероятность возникновения слова $w$ в документе $d$ при условии темы $t$ зависит только от $t$. Это достаточно грубое предположение, но благодаря ему можно записать

$$P(d, w) = P(d) \sum_{t \in T} P(w|t)P(t|d) = P(w|d)P(d)$$

$$\sum_{t \in T} P(w|t)P(t|d) = P(w|d)$$

### Задача оптимизации 

Напомню, что вероятности $P(w|t)$ и $P(t|d)$ мы должны получить в результате обучения данной модели. Опираясь на предыдущее уравнение, можно составить две матрицы параметров: пусть $\Phi$ и $\Theta$ таковы, что $\phi_{w, t} = P(w|t)$ и $\theta_{t, d} = P(t|d)$. Тогда можно переписать уравнение в матричном виде:

$$F = \Phi \Theta,$$

где $f_{w, d} = P(w|d)$ – нормированные частоты слов в документах. Получаем задачу неотрицательной матричной факторизации, т. е., почти как в обычном LSA, только с дополнительными ограничениями 1) на неотрицательность и 2) на то, что сумма вероятностей должна равняться единице. 

### Задача оптимизации (альтернативный вариант)

Можно подойти к вопросу нахождения параметров модели иначе. Составим функцию правдоподобия для нашей выборки. 

$$L = \prod_{d \in D} \prod_{w \in d} P(d, w) = P(d)^{MN} \prod_{d \in D} \prod_{w \in d} P(w|d) = P(d)^{MN} \prod_{d \in D} \prod_{w \in d} \sum_{t \in T} P(w|t)P(t|d) \rightarrow \max$$

Первый сомнижетель – константа, при решении задачи оптимизации его можно просто отбросить. Далее будет удобно перейти к логарифму правдоподобия, чтобы не работать с произведениями. Условные вероятности запишем через введённые обозначения параметров

$$Q = \sum_{d \in D} \sum_{w \in d} ln \left( \sum_{t \in T} \phi_{w, t}\theta_{t, d} \right) \rightarrow \max$$

Можно отметить, что слагаемые для одинаковых слов одного документа совпадают, поэтому 

$$Q = \sum_{d \in D} \sum_{w \in unique(d)} n_{d, w} ln \left( \sum_{t \in T} \phi_{w, t}\theta_{t, d} \right) \rightarrow \max$$

$$\sum_{w \in W} \phi_{w, t} = 1 \qquad \forall t \in T$$

$$\sum_{t \in T} \theta_{t, d} = 1 \qquad \forall d \in D$$

$$\phi_{w, t} \ge 0 \quad \theta_{t, d} \ge 0 \qquad \forall d \in D, t \in T, w \in W$$

### Задача оптимизации (EM-алгоритм)

Решение задачи оптимизации в лоб достаточно сложное (вычислительно), поэтому на практике можно использовать EM-алгоритм. По теореме Байеса

$$P(t|d, w) = \frac{P(d, w | t)}{\sum_{t \in T} P(d, w | t)} = \frac{\phi_{w, t} \theta_{t, d}}{\sum_{t \in T} \phi_{w, t} \theta_{t, d}}$$

Действительно, т. к. по предположения $P(w|d, t) = P(w|t)$, имеем

$$P(d, w | t) = \frac{P(d, w, t)}{P(t)} = \frac{P(w | d, t)P(d|t)P(t)}{P(t)} = P(w|t)P(d|t) = \phi_{w, t} \theta_{t, d}$$

Теперь можно выразить через эту величину значения параметров на следующем шаге. 

$$\phi_{w, t}^{\text{new}} = P(w|t) = \frac{\sum_{d \in D} n_{d, w} P(t|d, w)}{\sum_{w \in W} \sum_{d \in D} n_{d, w} P(t|d, w)}$$

$$\theta_{t, d}^{\text{new}} = P(t|d) = \frac{\sum_{w \in W} n_{d, w} P(t|d, w)}{\sum_{t \in T} \sum_{w \in W} n_{d, w} P(t|d, w)}$$

Знаменатели в формулах обеспечивают равенство суммы вероятностей единице. 

<div class="alert alert-info">
<h3>Задание 2</h3>
<p></p>
1) Реализовать EM-алгоритм для pLSA
    
2) Обучить pLSA для имеющегося набора документов
    
3) Оценить качество матричного разложения с помощью MAE

4) Для любых десяти тем вывести слова, наиболее сильно определяющие данную тему. Дать наименование выбранным десяти темам на основе выведенных слов. 
<p></p>
</div>

In [None]:
class PLSA(BaseEstimator):
    """Строит распределение документов по темам и распределение слов внутри темы"""
    def __init__(self, number_of_themes: int, tol=1e-4, max_iter=1024, random_state=42):
        self.number_of_themes = number_of_themes
        self.tol = tol
        self.max_iter = max_iter
        self.random_state = random_state
        self.phi_ = None
        self.theta_ = None
        self.iter_ = 0
        
    @property
    def phi(self):
        """Распределение слов внутри тем"""
        return self.phi_
    
    @property
    def theta(self):
        """Распределение документов по темам"""
        return self.theta_.T
    
    def fit(self, X, y=None):
        # Ваш код здесь
        return self

Считаем частоты слов в документах

In [None]:
# Ваш код здесь

Строим модель pLSA на основе частот

In [None]:
# Ваш код здесь

Нормируем частоты, чтобы перейти к условным вероятностям

In [None]:
# Ваш код здесь

Проверяем разрмерности матриц

In [None]:
plsa.phi.shape, plsa.theta.shape

Оцениваем качество полученного разложения с помощью MAE

In [None]:
# Ваш код здесь

Проверяем, какие слова определяют каждую тему

In [None]:
# Ваш код здесь