# Оптимальные питоновские реализация оптимизации ARTM

# Оптимизация произвольной функции

# Thetaless оптимизация


In [1]:
import numpy as np
from numpy.core.umath_tests import inner1d
import scipy
import scipy.sparse
from sklearn.datasets import fetch_20newsgroups
import gensim
from collections import Counter
import heapq
import nltk
import random
from nltk.corpus import stopwords
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import time
%matplotlib inline

# Разные функции потерь

In [2]:
class LogFunction(object):
    def calc(self, x):
        return np.log(x + 1e-20)
    def calc_der(self, x):
        return 1. / (x + 1e-20)
    

class IdFunction(object):
    def calc(self, x):
        return x + 1e-20
    def calc_der(self, x):
        return np.ones_like(x)
    

class SquareFunction(object):
    def calc(self, x):
        return (x + 1e-20) ** 2
    def calc_der(self, x):
        return 2. * (x + 1e-20) ** 2
    

class CubeLogFunction(object):
    def calc(self, x):
        return np.log(x + 1e-20) ** 3
    def calc_der(self, x):
        return 3. * np.log(x + 1e-20) ** 2 / (x + 1e-20)
    

class SquareLogFunction(object):
    def calc(self, x):
        return np.log(x + 1e-20) * np.abs(np.log(x + 1e-20))
    def calc_der(self, x):
        return 2. * np.abs(np.log(x + 1e-20)) / (x + 1e-20)

    
class FiveLogFunction(object):
    def calc(self, x):
        return np.log(x + 1e-20) ** 5
    def calc_der(self, x):
        return 5. * np.log(x + 1e-20) ** 4 / (x + 1e-20)
    

class CubeRootLogFunction(object):
    def calc(self, x):
        return np.cbrt(np.log(x + 1e-20))
    def calc_der(self, x):
        return 1. / 3 / (np.cbrt(np.log(x + 1e-20)) ** 2) / (x + 1e-20)
    
    
class SquareRootLogFunction(object):
    def calc(self, x):
        return np.sqrt(- np.log(x + 1e-20))
    def calc_der(self, x):
        return 1. / 2. / np.sqrt(- np.log(x + 1e-20)) / (x + 1e-20)
    

class ExpFunction(object):
    def calc(self, x):
        return np.exp(x)
    def calc_der(self, x):
        return np.exp(x)

    
class EntropyFunction(object):
    def calc(self, x):
        return (np.log(x + 1e-20) + 50.) * (x + 1e-20)
    def calc_der(self, x):
        return np.log(x + 1e-20) + 50.

# Разные регуляризации

In [3]:
def trivial_regularization(n_tw, n_dt):
    return np.zeros_like(n_tw), np.zeros_like(n_dt)

def create_reg_decorr(tau, theta_alpha=0.):
    def fun(n_tw, n_dt):
        phi_matrix = n_tw / np.sum(n_tw, axis=1)[:, np.newaxis]
        theta_matrix = n_dt / np.sum(n_dt, axis=1)[:, np.newaxis]
        aggr_phi = np.sum(phi_matrix, axis=1)
        return - tau * np.transpose(phi_matrix * (aggr_phi[:, np.newaxis] - phi_matrix)), theta_alpha
    return fun

def create_reg_lda(phi_alpha, theta_alpha):
    def fun (n_tw, n_dt):
        return np.zeros_like(n_tw) + phi_alpha, np.zeros_like(n_dt) + theta_alpha
    return fun


# Подготовка Датасета

Нужно скачать некоторые коллекции данных и установить библиотеки (nltk, gensim)

In [4]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/tylorn/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [5]:
english_stopwords = set(stopwords.words('english'))

In [6]:
def prepare_dataset(dataset, calc_cooccurences=False, train_test_split=None, token_2_num=None):
    is_token_2_num_provided = token_2_num is not None 
    # remove stopwords
    if not is_token_2_num_provided:
        token_2_num = {}
        occurences = Counter()
        for i, doc in enumerate(dataset.data):
            tokens = gensim.utils.lemmatize(doc)
            for token in set(tokens):
                occurences[token] += 1
            if i % 500 == 0:
                print 'Processed: ', i, 'documents from', len(dataset.data)
    
    row, col, data = [], [], []
    row_test, col_test, data_test = [], [], []
    not_empty_docs_number = 0
    doc_targets = []
    doc_cooccurences = Counter()
    doc_occurences = Counter()
    random_gen = random.Random(42)
    
    for doc, target in zip(dataset.data, dataset.target):
        tokens = gensim.utils.lemmatize(doc)
        cnt = Counter()
        cnt_test = Counter()
        for token in tokens:
            word = token.split('/')[0]
            if not is_token_2_num_provided and word not in english_stopwords and 3 <= occurences[token] and token not in token_2_num:
                token_2_num[token] = len(token_2_num)
            if token in token_2_num:
                if train_test_split is None or random_gen.random() < train_test_split:
                    cnt[token_2_num[token]] += 1
                else:
                    cnt_test[token_2_num[token]] += 1
        
        if len(cnt) > 0 and (train_test_split is None or len(cnt_test) > 0):
            for w, c in cnt.iteritems():
                row.append(not_empty_docs_number)
                col.append(w)
                data.append(c)
                
            for w, c in cnt_test.iteritems():
                row_test.append(not_empty_docs_number)
                col_test.append(w)
                data_test.append(c)
                
            not_empty_docs_number += 1
            doc_targets.append(target)
            
            if calc_cooccurences:
                words = set(cnt.keys() + cnt_test.keys())
                doc_occurences.update(words)
                doc_cooccurences.update({(w1, w2) for w1 in words for w2 in words if w1 != w2})
        
    num_2_token = {
        v: k
        for k, v in token_2_num.iteritems()
    }
    print 'Nonzero values:', len(data)
    if train_test_split is None:
        if calc_cooccurences:
            return scipy.sparse.csr_matrix((data, (row, col))), token_2_num, num_2_token, doc_targets, doc_occurences, doc_cooccurences
        else:
            return scipy.sparse.csr_matrix((data, (row, col))), token_2_num, num_2_token, doc_targets
    else:
        if calc_cooccurences:
            return (
                scipy.sparse.csr_matrix((data, (row, col))),
                scipy.sparse.csr_matrix((data_test, (row_test, col_test))),
                token_2_num,
                num_2_token,
                doc_targets,
                doc_occurences,
                doc_cooccurences
            )
        else:
            return (
                scipy.sparse.csr_matrix((data, (row, col))),
                scipy.sparse.csr_matrix((data_test, (row_test, col_test))),
                token_2_num,
                num_2_token,
                doc_targets
            )


# Вычисление правдоподобных функций

### имеется в виду вычисление функций вида $\sum_{dw} n_{dw} f(\sum_{t} \phi_{wt} \theta_{td})$

##### Ключевой момент - использование функции inner1d. Она позволяет перемножить попарно строчки матриц, не сохраняя промежуточное состояние. А индексация в numpy не создаёт новый массив, делает view над ним. Таким образом, подсчёт $\sum_{t} \phi_{wt} \theta_{td}$  делается максимально эффективным способом и по времени и по памяти.

In [7]:
def create_calculate_likelihood_like_function(n_dw_matrix, loss_function=LogFunction()):
    D, W = n_dw_matrix.shape
    docptr = []
    indptr = n_dw_matrix.indptr
    for doc_num in xrange(D):
        docptr.extend([doc_num] * (indptr[doc_num + 1] - indptr[doc_num]))
    docptr = np.array(docptr)
    wordptr = n_dw_matrix.indices
    
    def fun(phi_matrix, theta_matrix):
        s_data = loss_function.calc(inner1d(theta_matrix[docptr, :], np.transpose(phi_matrix)[wordptr, :]))
        return np.sum(n_dw_matrix.data * s_data)

    return fun

# EM алгоритм

## Общая схема:
#### Неоходимо сначала вычислить $p_{tdw} = \frac{\phi_{wt} \theta_{td}}{\sum_s \phi_{ws} \theta_{sd}}$
#### Считаем $n_{wt} = \sum_d n_{dw} p_{tdw}$ и $n_{td} = \sum_w n_{dw} p_{tdw}$
#### Вычисляем $r_{wt}, r_{td}$ как функцию от $n_{wt}, n_{td}$
#### Прибавляем, делаем положительную срезку и нормируем

## Оптимизация вычисления:
#### Обозначим за $s_{dw}$ следующее выражение $\sum_t \phi_{wt} \theta_{td}$, фактически это наше предсказание для вероятности
####  Тогда $p_{tdw} = \frac{\phi_{wt} \theta_{td}}{s_{dw}}$
#### Подставим это выражение например в $n_wt$
#### И получим, что $n_{wt} = \sum_d n_{dw} \frac{\phi_{wt} \theta_{td}}{s_{dw}} = \phi_{wt} \sum_d \theta_{td} \cdot \frac{n_{dw}}{s_{dw}}$, аналогично $n_{td} = \theta_{td} \sum_w \phi_{wt} \cdot \frac{n_{dw}}{s_{dw}}$
#### Таким образом, мы видим, что фактически нам нужно знать матрицу $\frac{n_{dw}}{s_{dw}}$, а она очень разреженная, поэтому и $s_{dw}$ нужно не для всех пар вычислять, а только там, где $n_{dw} > 0$. 
#### То есть нам нужно эффективно закодить вычисление разженной матрицы $s_{dw}$ (матрица $n_{dw}$ уже есть в разреженном виде, так как подаётся на вход алгоритма), а затем просто поэлементно поделить
#### Причём хочется, чтобы промежуточные значения $p_{tdw}$ не сохранялись (как мы увидели, они в конечном варианте не важны)
#### Обозначим эту матрицу за $A$. Тогда $n_{wt} = \phi_{wt} (\Theta A)_{tw}$, а $n_{td} = \theta_{td} (A \Phi^T)_{dt}$.
#### Перемножить разреженную матрицу на плотную можно быстро, если правильно её хранить (по строкам, или по столбцам)
#### Если оптимизируется не правдоподобие, какая-то другая функция вида $\sum_{dw} n_{dw} f(s_{dw})$ (правдоподобие будет, если $f(x) = \ln x$ ) , то в этом случае нужно определить матрицу $A$ как $A_{dw} = n_{dw} f'(s_{dw})$

In [8]:
def em_optimization(
    n_dw_matrix, 
    phi_matrix,
    theta_matrix,
    regularization_list,
    iters_count=100,
    loss_function=LogFunction(),
    iteration_callback=None,
    const_phi=False
):
    D, W = n_dw_matrix.shape
    T = phi_matrix.shape[0]
    phi_matrix = np.copy(phi_matrix)
    theta_matrix = np.copy(theta_matrix)
    docptr = []
    indptr = n_dw_matrix.indptr
    for doc_num in xrange(D):
        docptr.extend([doc_num] * (indptr[doc_num + 1] - indptr[doc_num]))
    docptr = np.array(docptr)
    wordptr = n_dw_matrix.indices
    
    start_time = time.time()
    for it in xrange(iters_count):
        phi_matrix_tr = np.transpose(phi_matrix)
        # следующая строчка это 60% времени работы алгоритма
        s_data = loss_function.calc_der(inner1d(theta_matrix[docptr, :], phi_matrix_tr[wordptr, :]))
        # следующая часть это 25% времени работы алгоритма
        A = scipy.sparse.csr_matrix(
            (
                n_dw_matrix.data * s_data, 
                n_dw_matrix.indices, 
                n_dw_matrix.indptr
            ), 
            shape=n_dw_matrix.shape
        )
        A_tr = A.tocsc().transpose()
        # Остальное это 15% времени
        n_tw = np.transpose(A_tr.dot(theta_matrix)) * phi_matrix
        n_dt = A.dot(phi_matrix_tr) * theta_matrix
        
        r_tw, r_dt = regularization_list[it](n_tw, n_dt)
        n_tw += r_tw
        n_dt += n_dt
        n_tw[n_tw < 0] = 0
        n_dt[n_dt < 0] = 0
        
        if not const_phi:
            phi_matrix = n_tw / np.sum(n_tw, axis=1)[:, np.newaxis]
        theta_matrix = n_dt / np.sum(n_dt, axis=1)[:, np.newaxis]
        
        if iteration_callback is not None:
            iteration_callback(it, phi_matrix, theta_matrix)
    
    print 'Iters time', time.time() - start_time
    return phi_matrix, theta_matrix

# Naive thetaless EM


### Основная идея: давайте вообще не хранить $\Theta$, а вместо этого вычислять её на лету одной итерацией ЕМ алгоритма, которую можно легко выписать.

##### Пусть тематический профиль документа инициализирован равномерно, то для этого документа $p_{tdw} = \frac{\phi_{wt}}{\sum_s \phi_s} \equiv \overline{\phi}_{wt} \equiv (\overline{\Phi})_{wt} \equiv p(t~|~w)$ . Эту матрицу легко рассчитать.
##### На первой итерации  будет подсчитано $n_{td} = \sum_{d} n_{dw} p_{tdw} = \sum_{d} n_{dw} (\overline{\Phi})_{wt} = (N\overline{\Phi})_{dt}$
##### И, соответственно, $\theta_{td} = \frac{n_{td}}{\sum_t n_{td}} =  \frac{n_{td}}{n_d}$
##### Введём матрицу $B_{dw} \equiv \frac{n_{dw}}{n_d}$, тогда $\Theta = B \overline{\Phi}$ 
##### Идеологически, мы зафиксировали, что $\Theta$ - детерминированная функция от $\Phi$. И теперь оптимизируем не $L(\Phi, \Theta)$, а $\overline{L}(\Phi) = L(\Phi, B \overline{\Phi})$
##### Наивность решения состоит в том, что мы полностью игнорируем любые действия с $\Theta$ на М шаге. То есть мы не считаем $n_{td}$ и не обновляем $\theta_{td}$ (этой матрицы вообще нет). А с $n_{wt}$ мы поступаем также как на обычном М шаге. Регуляризаторы на $\Phi$ обрабатываются точно также как и раньше ($r_{wt}$ прибавляется к $n_{wt}$), а регуляризаторы $\Theta$ игнорируются.

In [9]:
def naive_thetaless_em_optimization(
    n_dw_matrix, 
    phi_matrix,
    regularization_list,
    iters_count=100,
    iteration_callback=None
):
    D, W = n_dw_matrix.shape
    T = phi_matrix.shape[0]
    phi_matrix = np.copy(phi_matrix)
    docptr = []
    indptr = n_dw_matrix.indptr
    for doc_num in xrange(D):
        docptr.extend([doc_num] * (indptr[doc_num + 1] - indptr[doc_num]))
    docptr = np.array(docptr)
    wordptr = n_dw_matrix.indices
    
    start_time = time.time()
    for it in xrange(iters_count):
        phi_rev_matrix = np.transpose(phi_matrix / np.sum(phi_matrix, axis=0))
        theta_matrix = n_dw_matrix.dot(phi_rev_matrix)
        theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]
        phi_matrix_tr = np.transpose(phi_matrix)
        
        s_data = 1. / inner1d(theta_matrix[docptr, :], phi_matrix_tr[wordptr, :])
        A = scipy.sparse.csr_matrix(
            (
                n_dw_matrix.data  * s_data , 
                n_dw_matrix.indices, 
                n_dw_matrix.indptr
            ), 
            shape=n_dw_matrix.shape
        ).tocsc()
            
        n_tw = (A.T.dot(theta_matrix)).T * phi_matrix
        r_tw, _ = regularization_list[it](n_tw, theta_matrix)
        n_tw += r_tw
        n_tw[n_tw < 0] = 0
        phi_matrix = n_tw / np.sum(n_tw, axis=1)[:, np.newaxis]

        if iteration_callback is not None:
            iteration_callback(it, phi_matrix, theta_matrix)
    
    print 'Iters time', time.time() - start_time    
    return phi_matrix, theta_matrix

# ARTM thetaless EM optimization

##### Данное решение исправляет "наивность" предыдущего подхода, учитывая зависимость от $\Theta$. Фактически, это можно написать в виде регуляризатора. Чтобы понять, как именно это сделать, вспомним как работает EM алгоритм.

##### На каждой итерации сначала определяются $p_{tdw}$, фиксируются, а затем строится функционал нижней оценки: $Q(\Phi, \Theta) = \sum_{dtw} n_{dw} p_{tdw} \left( \ln \phi_{wt} + \ln \theta_{td}\right) + R(\Phi, \Theta)$. Цель М-шага увеличить значение данного функционала по сравнению с $\Phi$ и $\Theta$ с предыдущей итерации.

##### Несмотря на то, что теперь $\Theta$ это функция от $\Phi$, тот факт, что это всё ещё нижняя оценка, никуда не пропадает. Поэтому теперь наша цель подобрать $\Phi$, чтобы увеличить значение по сравнению с $\Phi$ с предыдущей итерации следующий функционал: 

$\sum_{dtw} n_{dw} p_{tdw} \left( \ln \phi_{wt} + \ln (\Theta(\Phi))_{dt}\right) + R(\Phi, \Theta(\Phi))$.

##### Возьмём производные как обычно

##### $\frac{\partial{Q}}{\partial{\phi_{vr}}} = \frac{1}{\phi_{vr}} \left( \sum_{d} n_{dv} p_{rdv} + \phi_{vr} \frac{\partial{R}}{\partial{\phi_{vr}}} + \sum_{dtw} n_{dw} p_{tdw} \frac{1}{\theta_{td}} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} +  \sum_{dt} \frac{\partial{R}}{\partial{\theta_{td}}} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} \right)$

##### Так как $p_{tdw} = \frac{\phi_{wt} \theta_{td}}{\sum_s \phi_{ws} \theta_{sd}}$, то третье слагаемое можно упростить

##### $\sum_{dtw} n_{dw} p_{tdw} \frac{1}{\theta_{td}} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} = \sum_{dtw} n_{dw}\frac{\phi_{wt}}{\sum_s \phi_{ws} \theta_{sd}} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} = \sum_{dtw} A_{dw} \phi_{wt} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}}$

##### Итого

##### $\frac{\partial{Q}}{\partial{\phi_{vr}}} = \frac{1}{\phi_{vr}} \left( \sum_{d} n_{dv} p_{rdv} + \phi_{vr}\left( \frac{\partial{R}}{\partial{\phi_{vr}}} + \sum_{dtw} A_{dw} \phi_{wt} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} +  \sum_{dt} \frac{\partial{R}}{\partial{\theta_{td}}} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} \right) \right)$

##### Обозначим за $C = A \Phi^T + \frac{\partial{R}}{\partial{\Theta}}$, тогда
$\frac{\partial{Q}}{\partial{\phi_{vr}}} = \frac{1}{\phi_{vr}} \left( \sum_{d} n_{dv} p_{rdv} + \phi_{vr}\left( \frac{\partial{R}}{\partial{\phi_{vr}}} + \sum_{dt} C_{dt} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} \right) \right)$

##### Как видим, получившийся остаток фактически и есть требуемый регуяризатор на $\Phi$. Осталось только найти $\frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}}$

##### $\theta_{td} = \sum_{w} B_{dw} \frac{\phi_{wt}}{\sum_s \phi_{ws}}$. Обозначим $\frac{1}{\sum_s \phi_{ws}}$ за $norm_w$, тогда

$\theta_{td} = \sum_{w} B_{dw} \phi_{wt} norm_w$

$\frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} =  \sum_{w} B_{dw}~norm_w \delta_{vwrt} +  \sum_{w} B_{dw} \phi_{wt} \frac{\partial{norm_w}}{\partial{\phi_{vr}}} = 
\sum_{w} B_{dw} norm_w \delta_{vwrt} - \sum_{w} B_{dw}~\phi_{wt}~norm_w^2~\delta_{vw} =
B_{dv}~norm_v~\delta_{rt} - B_{dv}~\phi_{vt}~norm_w^2
$

##### Тут $\delta$ это символ Кронекера

##### Теперь

$\sum_{dt} C_{dt} \frac{\partial{\theta_{td}}}{\partial{\phi_{vr}}} = \sum_{dt} C_{dt} \left( B_{dv}~norm_v~\delta_{rt} - B_{dv}~\phi_{vt}~norm_v^2 \right) =  norm_v~\sum_d C_{dr} B_{dv} -  norm_v^2~\sum_{dt} C_{dt} B_{dv} \phi_{vt} = norm_v (C^T B)_{rv} - norm_v^2 (\Phi^T C^T B)_{vv}$

##### В numpy можно вычислить только диагональ при помощи einsum, поэтому эту регуляризационную добавку можно эффективно вычислить


In [10]:
def artm_thetaless_em_optimization(
    n_dw_matrix, 
    phi_matrix,
    regularization_list,
    iters_count=100,
    iteration_callback=None
):
    D, W = n_dw_matrix.shape
    T = phi_matrix.shape[0]
    phi_matrix = np.copy(phi_matrix)
    docptr = []
    docsizes = []
    indptr = n_dw_matrix.indptr
    for doc_num in xrange(D):
        size = indptr[doc_num + 1] - indptr[doc_num]
        docptr.extend([doc_num] * size)
        docsizes.extend([size] * size)
    docptr = np.array(docptr)
    wordptr = n_dw_matrix.indices
    docsizes = np.array(docsizes)
    
    B = scipy.sparse.csr_matrix(
        (
            1. * n_dw_matrix.data  / docsizes, 
            n_dw_matrix.indices, 
            n_dw_matrix.indptr
        ), 
        shape=n_dw_matrix.shape
    ).tocsc()
    
    start_time = time.time()
    for it in xrange(iters_count):
        word_norm = np.sum(phi_matrix, axis=0)
        word_norm[word_norm == 0] = 1e-20
        phi_rev_matrix = np.transpose(phi_matrix / word_norm)
        
        theta_matrix = n_dw_matrix.dot(phi_rev_matrix)
        theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]
        phi_matrix_tr = np.transpose(phi_matrix)
        
        s_data = 1. / inner1d(theta_matrix[docptr, :], phi_matrix_tr[wordptr, :])
        A = scipy.sparse.csr_matrix(
            (
                n_dw_matrix.data  * s_data , 
                n_dw_matrix.indices, 
                n_dw_matrix.indptr
            ), 
            shape=n_dw_matrix.shape
        ).tocsc()
            
        n_tw = A.T.dot(theta_matrix).T * phi_matrix
        
        r_tw, r_dt = regularization_list[it](n_tw, theta_matrix)
        theta_indices = theta_matrix > 0
        r_dt[theta_indices] /= theta_matrix[theta_indices]
        
        g_dt = A.dot(phi_matrix_tr) + r_dt
        tmp = g_dt.T * B / word_norm
        r_tw += (tmp - np.einsum('ij,ji->i', phi_rev_matrix, tmp)) * phi_matrix
        
        n_tw += r_tw
        n_tw[n_tw < 0] = 0
        phi_matrix = n_tw / np.sum(n_tw, axis=1)[:, np.newaxis]
        phi_matrix[np.isnan(phi_matrix)] = 0.

        if iteration_callback is not None:
            iteration_callback(it, phi_matrix, theta_matrix)
    
    print 'Iters time', time.time() - start_time    
    return phi_matrix, theta_matrix

# Gradient Descent

##### Мы можем найти градиент оптимизируемой функции и сделать шаг вдоль него. Сделано для сравнения.

In [11]:
def gradient_optimization(
    n_dw_matrix, 
    phi_matrix,
    theta_matrix,
    regularization_gradient_list,
    iters_count=100,
    loss_function=LogFunction(),
    iteration_callback=None,
    learning_rate=1.
):
    D, W = n_dw_matrix.shape
    T = phi_matrix.shape[0]
    phi_matrix = np.copy(phi_matrix)
    theta_matrix = np.copy(theta_matrix)
    docptr = []
    indptr = n_dw_matrix.indptr
    for doc_num in xrange(D):
        docptr.extend([doc_num] * (indptr[doc_num + 1] - indptr[doc_num]))
    docptr = np.array(docptr)
    wordptr = n_dw_matrix.indices
    
    start_time = time.time()
    for it in xrange(iters_count):
        phi_matrix_tr = np.transpose(phi_matrix)
        # следующая строчка это 60% времени работы алгоритма
        s_data = loss_function.calc_der(inner1d(theta_matrix[docptr, :], phi_matrix_tr[wordptr, :]))
        # следующая часть это 25% времени работы алгоритма
        A = scipy.sparse.csr_matrix(
            (
                n_dw_matrix.data * s_data, 
                n_dw_matrix.indices, 
                n_dw_matrix.indptr
            ), 
            shape=n_dw_matrix.shape
        ).tocsc()
        # Остальное это 15% времени
        g_tw = theta_matrix.T * A
        g_dt = A.dot(phi_matrix_tr)
        
        r_tw, r_dt = regularization_gradient_list[it](phi_matrix, theta_matrix)
        g_tw += r_tw
        g_dt += r_dt
        
        g_tw -= np.sum(g_tw * phi_matrix, axis=1)[:, np.newaxis]
        g_dt -= np.sum(g_dt * theta_matrix, axis=1)[:, np.newaxis]
        
        phi_matrix += g_tw * learning_rate
        theta_matrix += g_dt * learning_rate
        
        phi_matrix[phi_matrix < 0] = 0
        theta_matrix[theta_matrix < 0] = 0
        
        phi_matrix /= np.sum(phi_matrix, axis=1)[:, np.newaxis]
        theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]
        
        if iteration_callback is not None:
            iteration_callback(it, phi_matrix, theta_matrix)
    
    print 'Iters time', time.time() - start_time  
    return phi_matrix, theta_matrix

# Оценка качества классификации

In [12]:
def svm_score(theta, targets):
    C_2d_range = [1e-1, 1e0, 1e1, 1e2, 1e3, 1e4]
    gamma_2d_range = [1e-3, 1e-2, 1e-1, 1, 1e1]
    best_C, best_gamma, best_val = None, None, 0.
    best_cv_algo_score_on_test = 0.
    X_train, X_test, y_train, y_test = train_test_split(theta, targets, test_size=0.30, stratify=targets, random_state=42)
    for C in C_2d_range:
        for gamma in gamma_2d_range:
            val = np.mean(cross_val_score(SVC(C=C, gamma=gamma), X_train, y_train, scoring='accuracy', cv=4))
            algo = SVC(C=C, gamma=gamma).fit(X_train, y_train)
            test_score = accuracy_score(y_test, algo.predict(X_test))
            print 'SVM(C={}, gamma={}) cv-score: {}  test-score: {}'.format(
                C,
                gamma,
                round(val, 3),
                round(test_score, 3)
            )
            if val > best_val:
                best_val = val
                best_C = C
                best_gamma = gamma
                best_cv_algo_score_on_test = test_score
    print '\n\n\nBest cv params: C={}, gamma={}\nCV score: {}\nTest score:{}'.format(
        best_C,
        best_gamma,
        round(best_val, 3),
        round(best_cv_algo_score_on_test, 3)
    )
    return best_C, best_gamma, best_val, best_cv_algo_score_on_test

In [13]:
def artm_calc_topic_correlation(phi):
    T, W = phi.shape
    return (np.sum(np.sum(phi, axis=0) ** 2) - np.sum(phi ** 2)) / (T * (T - 1))

In [14]:
def artm_calc_perplexity_factory(n_dw_matrix):
    helper = create_calculate_likelihood_like_function(
        loss_function=LogFunction(),
        n_dw_matrix=n_dw_matrix
    )
    total_words_number = n_dw_matrix.sum()
    return lambda phi, theta: np.exp(- helper(phi, theta) / total_words_number)     

In [15]:
def artm_calc_pmi_top_factory(doc_occurences, doc_cooccurences, documents_number, top_size):
    def fun(phi):
        T, W = phi.shape
        pmi = 0.
        for t in xrange(T):
            top = heapq.nlargest(top_size, xrange(W), key=lambda w: phi[t, w])
            for w1 in top:
                for w2 in top:
                    if w1 != w2:
                        pmi += np.log(documents_number * (doc_cooccurences[(w1, w2)] + 0.1) * 1. / doc_occurences[w1] / doc_occurences[w2])
        return pmi / (T * top_size * (top_size - 1))
    return fun

# Примеры запусков с разделением на train и test по словам

In [16]:
dataset = fetch_20newsgroups(
    subset='all',
    categories=['sci.electronics', 'sci.med', 'sci.space', 'sci.crypt', 'rec.sport.baseball', 'rec.sport.hockey'],
    remove=('headers', 'footers', 'quotes')
)

In [17]:
%%time
train_n_dw_matrix, test_n_dw_matrix, ttt_token_2_num, ttt_num_2_token, ttt_doc_targets, ttt_doc_occurences, ttt_doc_cooccurences = prepare_dataset(dataset, calc_cooccurences=True, train_test_split=0.8)

Processed:  0 documents from 5945
Processed:  500 documents from 5945
Processed:  1000 documents from 5945
Processed:  1500 documents from 5945
Processed:  2000 documents from 5945
Processed:  2500 documents from 5945
Processed:  3000 documents from 5945
Processed:  3500 documents from 5945
Processed:  4000 documents from 5945
Processed:  4500 documents from 5945
Processed:  5000 documents from 5945
Processed:  5500 documents from 5945
Nonzero values: 268395
CPU times: user 6min 35s, sys: 3.86 s, total: 6min 39s
Wall time: 6min 39s


## PLSA: EM

In [19]:
D, W = train_n_dw_matrix.shape
T = 15

np.random.seed(42)

phi_matrix = np.random.uniform(size=(T, W)).astype(np.float64)
phi_matrix /= np.sum(phi_matrix, axis=1)[:, np.newaxis]

theta_matrix = np.ones(shape=(D, T)).astype(np.float64)
theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]

regularization_list = np.zeros(200, dtype=object)
regularization_list[:] = create_reg_lda(0., 0.)

_train_perplexity = artm_calc_perplexity_factory(train_n_dw_matrix) 
_test_perplexity = artm_calc_perplexity_factory(test_n_dw_matrix)
_top5_pmi = artm_calc_pmi_top_factory(ttt_doc_occurences, ttt_doc_cooccurences, train_n_dw_matrix.shape[0], 5)
_top10_pmi = artm_calc_pmi_top_factory(ttt_doc_occurences, ttt_doc_cooccurences, train_n_dw_matrix.shape[0], 10)
_top20_pmi = artm_calc_pmi_top_factory(ttt_doc_occurences, ttt_doc_cooccurences, train_n_dw_matrix.shape[0], 20)

def callback(it, phi, theta):
    if it % 10 == 0:
        print 'Iteration', it
        print '\tTrain perplexity:   {}'.format(_train_perplexity(phi, theta))
        print '\tTest perplexity:     {}'.format(_test_perplexity(phi, theta))
        print '\tTopics correlation  {}'.format(artm_calc_topic_correlation(phi))
        print '\tPhi sparsity        {}'.format(1. * np.sum(phi < 1e-20) / np.sum(phi >= 0))
        print '\tTheta sparsity      {}'.format(1. * np.sum(theta < 0.01) / np.sum(theta >= 0))
        print '\tTop5 PMI            {}'.format(_top5_pmi(phi))
        print '\tTop10 PMI           {}'.format(_top10_pmi(phi))
        print '\tTop20 PMI           {}'.format(_top20_pmi(phi))


phi, theta = em_optimization(
    n_dw_matrix=train_n_dw_matrix, 
    phi_matrix=phi_matrix,
    theta_matrix=theta_matrix,
    regularization_list=regularization_list,
    iters_count=101,
    loss_function=LogFunction(),
    iteration_callback=callback
)

0
	Train perplexity:   4011.17484299
	Test perplexity:     4329.28352139
	Topics correlation  0.000681707612939
	Phi sparsity        0.00187708565072
	Theta sparsity      0.000289435600579
	Top5 PMI            0.394723437323
	Top10 PMI           0.427239393998
	Top20 PMI           0.459551106816
10
	Train perplexity:   2340.05141012
	Test perplexity:     3079.73275105
	Topics correlation  0.000600784772598
	Phi sparsity        0.0111651835373
	Theta sparsity      0.440726000965
	Top5 PMI            0.957654624513
	Top10 PMI           0.854134998668
	Top20 PMI           0.863416920255
20
	Train perplexity:   1836.96293559
	Test perplexity:     2883.9455118
	Topics correlation  0.000541222836568
	Phi sparsity        0.277896737115
	Theta sparsity      0.669138929088
	Top5 PMI            1.03593318118
	Top10 PMI           1.14284664569
	Top20 PMI           1.07933703324
30
	Train perplexity:   1760.66489449
	Test perplexity:     3142.46101117
	Topics correlation  0.000531821989124
	Phi sp

## PLSA: Thetaless EM

In [24]:
D, W = train_n_dw_matrix.shape
T = 15

np.random.seed(42)

phi_matrix = np.random.uniform(size=(T, W)).astype(np.float64)
phi_matrix /= np.sum(phi_matrix, axis=1)[:, np.newaxis]

theta_matrix = np.ones(shape=(D, T)).astype(np.float64)
theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]

regularization_list = np.zeros(200, dtype=object)
regularization_list[:] = create_reg_lda(0., 0.)

_train_perplexity = artm_calc_perplexity_factory(train_n_dw_matrix) 
_test_perplexity = artm_calc_perplexity_factory(test_n_dw_matrix)
_top5_pmi = artm_calc_pmi_top_factory(ttt_doc_occurences, ttt_doc_cooccurences, train_n_dw_matrix.shape[0], 5)
_top10_pmi = artm_calc_pmi_top_factory(ttt_doc_occurences, ttt_doc_cooccurences, train_n_dw_matrix.shape[0], 10)
_top20_pmi = artm_calc_pmi_top_factory(ttt_doc_occurences, ttt_doc_cooccurences, train_n_dw_matrix.shape[0], 20)

def callback(it, phi, theta):
    if it % 10 == 0:
        print 'Iteration', it
        print '\tTrain perplexity:   {}'.format(_train_perplexity(phi, theta))
        print '\tTest perplexity:     {}'.format(_test_perplexity(phi, theta))
        print '\tTopics correlation  {}'.format(artm_calc_topic_correlation(phi))
        print '\tPhi sparsity        {}'.format(1. * np.sum(phi < 1e-20) / np.sum(phi >= 0))
        print '\tTheta sparsity      {}'.format(1. * np.sum(theta < 0.01) / np.sum(theta >= 0))
        print '\tTop5 PMI            {}'.format(_top5_pmi(phi))
        print '\tTop10 PMI           {}'.format(_top10_pmi(phi))
        print '\tTop20 PMI           {}'.format(_top20_pmi(phi))


phi, theta = artm_thetaless_em_optimization(
    n_dw_matrix=train_n_dw_matrix, 
    phi_matrix=phi_matrix,
    regularization_list=regularization_list,
    iters_count=101,
    iteration_callback=callback
)

Iteration 0
	Train perplexity:   4003.33075262
	Test perplexity:     4323.39836247
	Topics correlation  0.000679240512961
	Phi sparsity        0.00232665925102
	Theta sparsity      0.000289435600579
	Top5 PMI            0.394723437323
	Top10 PMI           0.411234624191
	Top20 PMI           0.457036877687
Iteration 10
	Train perplexity:   2233.34167565
	Test perplexity:     2748.03255718
	Topics correlation  0.000403814425786
	Phi sparsity        0.572209862811
	Theta sparsity      0.155294259527
	Top5 PMI            1.13223344737
	Top10 PMI           1.22002365649
	Top20 PMI           1.2354214603
Iteration 20
	Train perplexity:   2058.42121552
	Test perplexity:     2720.73503461
	Topics correlation  0.000208348753981
	Phi sparsity        0.634719132369
	Theta sparsity      0.266847563917
	Top5 PMI            1.21482546843
	Top10 PMI           1.30021602832
	Top20 PMI           1.32177865922
Iteration 30
	Train perplexity:   2021.74559798
	Test perplexity:     2774.14889056
	Topics co

# Разделение на train test по документам

In [25]:
dataset_train = fetch_20newsgroups(
    subset='train',
    categories=['sci.electronics', 'sci.med', 'sci.space', 'sci.crypt', 'rec.sport.baseball', 'rec.sport.hockey'],
    remove=('headers', 'footers', 'quotes')
)

In [26]:
%%time
n_dw_matrix_doc_train, token_2_num_doc_train, num_2_token_doc_train, doc_targets_doc_train = prepare_dataset(dataset_train)

Processed:  0 documents from 3570
Processed:  500 documents from 3570
Processed:  1000 documents from 3570
Processed:  1500 documents from 3570
Processed:  2000 documents from 3570
Processed:  2500 documents from 3570
Processed:  3000 documents from 3570
Processed:  3500 documents from 3570
Nonzero values: 199636
CPU times: user 4min 30s, sys: 24 ms, total: 4min 30s
Wall time: 4min 30s


In [27]:
dataset_test = fetch_20newsgroups(
    subset='test',
    categories=['sci.electronics', 'sci.med', 'sci.space', 'sci.crypt', 'rec.sport.baseball', 'rec.sport.hockey'],
    remove=('headers', 'footers', 'quotes')
)

In [28]:
%%time
n_dw_matrix_doc_test, token_2_num_doc_test, num_2_token_doc_test, doc_targets_doc_test = prepare_dataset(dataset_test, token_2_num=token_2_num_doc_train)

Nonzero values: 109917
CPU times: user 1min 3s, sys: 0 ns, total: 1min 3s
Wall time: 1min 3s


In [29]:
D, W = n_dw_matrix_doc_train.shape
T = 15

np.random.seed(42)

phi_matrix = np.random.uniform(size=(T, W)).astype(np.float64)
phi_matrix /= np.sum(phi_matrix, axis=1)[:, np.newaxis]

theta_matrix = np.ones(shape=(D, T)).astype(np.float64)
theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]

regularization_list = np.zeros(200, dtype=object)
regularization_list[:] = trivial_regularization

phi, theta = em_optimization(
    n_dw_matrix=n_dw_matrix_doc_train, 
    phi_matrix=phi_matrix,
    theta_matrix=theta_matrix,
    regularization_list=regularization_list,
    iters_count=150,
    loss_function=LogFunction()
)

best_C, best_gamma, _, _ = svm_score(theta, doc_targets_doc_train)
algo = SVC(C=best_C, gamma=best_gamma).fit(theta, doc_targets_doc_train)

Iters time 6.26754903793
SVM(C=0.1, gamma=0.001) cv-score: 0.208  test-score: 0.169
SVM(C=0.1, gamma=0.01) cv-score: 0.208  test-score: 0.169
SVM(C=0.1, gamma=0.1) cv-score: 0.757  test-score: 0.765
SVM(C=0.1, gamma=1) cv-score: 0.795  test-score: 0.803
SVM(C=0.1, gamma=10.0) cv-score: 0.785  test-score: 0.806
SVM(C=1.0, gamma=0.001) cv-score: 0.208  test-score: 0.169
SVM(C=1.0, gamma=0.01) cv-score: 0.759  test-score: 0.766
SVM(C=1.0, gamma=0.1) cv-score: 0.797  test-score: 0.808
SVM(C=1.0, gamma=1) cv-score: 0.808  test-score: 0.826
SVM(C=1.0, gamma=10.0) cv-score: 0.807  test-score: 0.822
SVM(C=10.0, gamma=0.001) cv-score: 0.759  test-score: 0.764
SVM(C=10.0, gamma=0.01) cv-score: 0.796  test-score: 0.809
SVM(C=10.0, gamma=0.1) cv-score: 0.81  test-score: 0.823
SVM(C=10.0, gamma=1) cv-score: 0.814  test-score: 0.826
SVM(C=10.0, gamma=10.0) cv-score: 0.794  test-score: 0.809
SVM(C=100.0, gamma=0.001) cv-score: 0.796  test-score: 0.809
SVM(C=100.0, gamma=0.01) cv-score: 0.807  test-sc

In [30]:
D, W = n_dw_matrix_doc_test.shape
theta_matrix = np.ones(shape=(D, T)).astype(np.float64)
theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]

print 'PLSA not const phi' 
for iters in xrange(1, 6):
    _, theta_test = em_optimization(
        n_dw_matrix=n_dw_matrix_doc_test, 
        phi_matrix=phi,
        theta_matrix=theta_matrix,
        regularization_list=regularization_list,
        iters_count=iters,
        loss_function=LogFunction(),
    )
    print iters, accuracy_score(algo.predict(theta_test), doc_targets_doc_test)

print '\nPLSA const phi' 
for iters in xrange(1, 6):
    _, theta_test = em_optimization(
        n_dw_matrix=n_dw_matrix_doc_test, 
        phi_matrix=phi,
        theta_matrix=theta_matrix,
        regularization_list=regularization_list,
        iters_count=iters,
        loss_function=LogFunction(),
        const_phi=True
    )
    print iters, accuracy_score(algo.predict(theta_test), doc_targets_doc_test)
    
print '\nARTM thetaless'    
for iters in xrange(1, 6):
    _, theta_test = artm_thetaless_em_optimization(
        n_dw_matrix=n_dw_matrix_doc_test, 
        phi_matrix=phi,
        regularization_list=regularization_list,
        iters_count=iters,
    )
    print iters, accuracy_score(algo.predict(theta_test), doc_targets_doc_test)

PLSA not const phi
Iters time 0.0253489017487
1 0.731206293706
Iters time 0.0532741546631
2 0.786713286713
Iters time 0.135732889175
3 0.799825174825
Iters time 0.1014149189
4 0.804632867133
Iters time 0.132496118546
5 0.803321678322

PLSA const phi
Iters time 0.0241158008575
1 0.731206293706
Iters time 0.0487589836121
2 0.795891608392
Iters time 0.0743708610535
3 0.806381118881
Iters time 0.0987200737
4 0.811625874126
Iters time 0.12330698967
5 0.812062937063

ARTM thetaless
Iters time 0.0329439640045
1 0.731206293706
Iters time 0.0648798942566
2 0.765297202797
Iters time 0.0959179401398
3 0.762237762238
Iters time 0.128988027573
4 0.761800699301
Iters time 0.15828704834
5 0.762674825175


In [31]:
D, W = n_dw_matrix_doc_train.shape
T = 15

np.random.seed(42)

phi_matrix = np.random.uniform(size=(T, W)).astype(np.float64)
phi_matrix /= np.sum(phi_matrix, axis=1)[:, np.newaxis]

theta_matrix = np.ones(shape=(D, T)).astype(np.float64)
theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]

regularization_list = np.zeros(200, dtype=object)
regularization_list[:] = trivial_regularization

phi, theta = artm_thetaless_em_optimization(
    n_dw_matrix=n_dw_matrix_doc_train, 
    phi_matrix=phi_matrix,
    regularization_list=regularization_list,
    iters_count=150
)

best_C, best_gamma, _, _ = svm_score(theta, doc_targets_doc_train)
algo = SVC(C=best_C, gamma=best_gamma).fit(theta, doc_targets_doc_train)

Iters time 7.60945916176
SVM(C=0.1, gamma=0.001) cv-score: 0.203  test-score: 0.169
SVM(C=0.1, gamma=0.01) cv-score: 0.203  test-score: 0.169
SVM(C=0.1, gamma=0.1) cv-score: 0.343  test-score: 0.485
SVM(C=0.1, gamma=1) cv-score: 0.787  test-score: 0.817
SVM(C=0.1, gamma=10.0) cv-score: 0.792  test-score: 0.82
SVM(C=1.0, gamma=0.001) cv-score: 0.203  test-score: 0.169
SVM(C=1.0, gamma=0.01) cv-score: 0.351  test-score: 0.498
SVM(C=1.0, gamma=0.1) cv-score: 0.785  test-score: 0.815
SVM(C=1.0, gamma=1) cv-score: 0.802  test-score: 0.829
SVM(C=1.0, gamma=10.0) cv-score: 0.804  test-score: 0.82
SVM(C=10.0, gamma=0.001) cv-score: 0.352  test-score: 0.499
SVM(C=10.0, gamma=0.01) cv-score: 0.786  test-score: 0.813
SVM(C=10.0, gamma=0.1) cv-score: 0.805  test-score: 0.827
SVM(C=10.0, gamma=1) cv-score: 0.807  test-score: 0.829
SVM(C=10.0, gamma=10.0) cv-score: 0.788  test-score: 0.811
SVM(C=100.0, gamma=0.001) cv-score: 0.786  test-score: 0.813
SVM(C=100.0, gamma=0.01) cv-score: 0.803  test-sco

In [32]:
D, W = n_dw_matrix_doc_test.shape
theta_matrix = np.ones(shape=(D, T)).astype(np.float64)
theta_matrix /= np.sum(theta_matrix, axis=1)[:, np.newaxis]

print 'PLSA not const phi' 
for iters in xrange(1, 6):
    _, theta_test = em_optimization(
        n_dw_matrix=n_dw_matrix_doc_test, 
        phi_matrix=phi,
        theta_matrix=theta_matrix,
        regularization_list=regularization_list,
        iters_count=iters,
        loss_function=LogFunction(),
    )
    print iters, accuracy_score(algo.predict(theta_test), doc_targets_doc_test)

print '\nPLSA const phi' 
for iters in xrange(1, 6):
    _, theta_test = em_optimization(
        n_dw_matrix=n_dw_matrix_doc_test, 
        phi_matrix=phi,
        theta_matrix=theta_matrix,
        regularization_list=regularization_list,
        iters_count=iters,
        loss_function=LogFunction(),
        const_phi=True
    )
    print iters, accuracy_score(algo.predict(theta_test), doc_targets_doc_test)
    
print '\nARTM thetaless'    
for iters in xrange(1, 6):
    _, theta_test = artm_thetaless_em_optimization(
        n_dw_matrix=n_dw_matrix_doc_test, 
        phi_matrix=phi,
        regularization_list=regularization_list,
        iters_count=iters,
    )
    print iters, accuracy_score(algo.predict(theta_test), doc_targets_doc_test)

PLSA not const phi
Iters time 0.0273690223694
1 0.807692307692
Iters time 0.0589830875397
2 0.804195804196
Iters time 0.0850698947906
3 0.801573426573
Iters time 0.110976934433
4 0.80201048951
Iters time 0.117080211639
5 0.803321678322

PLSA const phi
Iters time 0.022481918335
1 0.807692307692
Iters time 0.0538229942322
2 0.80506993007
Iters time 0.0831460952759
3 0.805506993007
Iters time 0.111595153809
4 0.805506993007
Iters time 0.134366035461
5 0.80506993007

ARTM thetaless
Iters time 0.0378141403198
1 0.807692307692
Iters time 0.0722370147705
2 0.807692307692
Iters time 0.11547088623
3 0.805506993007
Iters time 0.188162088394
4 0.803758741259
Iters time 0.179550886154
5 0.802447552448
