In [None]:
import artm

In [None]:
from matplotlib import pyplot as plt
import seaborn
%matplotlib inline
seaborn.set_style("whitegrid", {'axes.grid' : False})

In [None]:
import numpy as np
import pandas as pd

In [None]:
batch_vectorizer = artm.BatchVectorizer(data_path=r'd:\3kurs1sem\semestrone\JUPYTER\Moscow\lectures.txt',
                                        data_format="vowpal_wabbit",
                                        target_folder="lectures_batches", 
                                        batch_size=100)


##### Инициализация модели

In [None]:
T = 30   # количество тем
topic_names=["sbj"+str(i) for i in range(T-1)]+["bcg"]
model_artm = artm.ARTM(num_topics=T,
                      topic_names=topic_names,
                       class_ids={"text":1,'author':1},cache_theta=True)


In [None]:
dictionary = artm.Dictionary()
dictionary.gather(data_path=r'd:\3kurs1sem\semestrone\JUPYTER\Moscow\lectures_batches')

##### Добавление score

In [None]:
model_artm.scores.add(artm.TopTokensScore(name='TopTokensScore1', class_id='text'))


##### Построение модели

In [None]:
model_artm.regularizers.add(artm.SmoothSparsePhiRegularizer(name='SmoothSparsePhiRegularizer', tau=1e5,dictionary=dictionary,
                                                            class_ids=['text','author'],topic_names='bcg'))


In [None]:
model_artm.initialize(dictionary=dictionary)

In [None]:
model_artm.fit_offline(batch_vectorizer=batch_vectorizer,num_collection_passes=30)


In [None]:
for topic_name in model_artm.topic_names:
    print (topic_name + ': ',)
    for word in model_artm.score_tracker["TopTokensScore1"].last_tokens[topic_name]:
        print(word, end=" ")
    print()

In [None]:
model_artm.regularizers.add(artm.SmoothSparsePhiRegularizer(name='SmoothSparsePhiRegularizer', tau=-1e5,dictionary=dictionary,
                                                            class_ids=['text','author'],topic_names='sbjX'),overwrite=True)


In [None]:
model_artm.fit_offline(batch_vectorizer=batch_vectorizer,num_collection_passes=15)


##### Интерпретация тем

In [None]:
for topic_name in model_artm.topic_names:
    print (topic_name + ': ',)
    for word in model_artm.score_tracker["TopTokensScore1"].last_tokens[topic_name]:
        print(word, end=" ")
    print()

In [None]:
sbj_topic_labels = ['Правительство',"астрономия","систематизация","наука"]*7+['лень']   # запишите названия тем в список
topic_labels = sbj_topic_labels + ["Фоновая тема"]

##### Анализ тем

In [None]:
model_artm.theta_columns_naming = "title" # включает именование столбцов Theta их названиями-ссылками, а не внутренними id 
tetha = model_artm.get_theta()
phi_a = model_artm.get_phi(class_ids='author')


In [None]:
fig, ax = plt.subplots(figsize=(15,10))
seaborn.heatmap(tetha,ax=ax)


In [None]:
# Ваш код


Найдите 5 самых распространенных и 3 наименее освещенных темы в коллекции (наибольшие и наименьшие $p(t)$ соответственно), не считая фоновую и общенаучную. Укажите названия, которые вы дали этим темам.

Визуализируйте матрицу $\Phi$ модальности авторов в виде изображения. Рекомендация: установите yticklabels=False в heatmap.

In [None]:
fig, ax = plt.subplots(figsize=(15,10))
seaborn.heatmap(phi_a,ax=ax)


Каждой теме соответствует не очень большое число авторов - матрица достаточно разреженная. Кроме того, некоторые темы имеют доминирующего автора $a$, имеющего большую вероятность $p(a|t)$ - этот автор записал больше всего лекций по теме. 

Будем считать, что автор $a$ значим в теме, если $p(a|t) > 0.01$. Для каждого автора посчитайте, в скольких темах он значим. Найдите авторов-рекордсменов, которые значимы (а значит, читали лекции) в >= 3 темах.

Большинство авторов значимы в 1 теме, что логично.

##### Построение тематической карты авторов

По сути, в матрице $\Phi$, соответствующей модальности авторов, записаны тематические кластеры авторов. Для любого автора мы можем составить его тематический круг - авторов, разбирающихся в той же теме, что и данный. Интересующиеся слушатели могут попробовать выполнить эту процедуру для ученых, читающих лекции на Постнауке, которых они знают (например, на Постнауке есть лекции с К. В. Воронцовым - лектором текущего модуля :)

Составим карту близости авторов по тематике их исследований. Для этого применим метод понижения размерности MDS к тематическим профилям авторов.

Чтобы получить тематический профиль автора, распределение $p(t|a)$, нужно воспользоваться формулой Байеса: 
$p(t|a) = \frac {p(a|t) p(t)} {\sum_t' p(a|t') p(t')}$. Все необходимые для этого величины у вас есть и записаны в переменных phi и pt. 

Передайте матрицу тематических профилей авторов, записанных по строкам, в метод MDS с n_components=2. Используйте косинусную метрику (она хорошо подходит для поиска расстояний между векторами, имеющими фиксированную сумму компонент).

In [None]:
from sklearn.manifold import TSNE
from sklearn.metrics import pairwise_distances

In [None]:
mds = TSNE(metric="cosine")
profile = mds.fit_transform(phi_a)

Визуализируйте найденные двумерные представления с помощью функции scatter. 

In [None]:
plt.scatter(profile[:,0], profile[:,1])


In [None]:
profile

Должно получиться, что некоторые грппы авторов формируют сгустки, которые можно считать тематическими группами авторов.

Раскрасим точки следующим образом: для каждого автора выберем наиболее вероятную для него тему ($\max_t p(t|a)$), и каждой теме сопоставим цвет. Кроме того, добавим на карту имена и фамилии авторов, это можно сделать в цикле по всем точкам с помощью функции plt.annotate, указывая метку точки первым аргументом и ее координаты в аргументе xy. Рекомендуется сделать размер изображения большим, тогда маркеры точек тоже придется увеличить (s=100 в plt.scatter). Изобразите карту авторов и сохраните в pdf-файл с помощью функции plt.savefig. 

Метки авторов будут пересекаться. Будет очень хорошо, если вы найдете способ, как этого можно избежать.

In [None]:
import matplotlib.cm as cm
colors = cm.rainbow(np.linspace(0, 1, T)) # цвета для тем
# Ваш код


##### Создание простого тематического навигатора по Постнауке

Наш тематический навигатор будет для каждой темы показывать ее список слов, а также список релевантных теме документов. 

Нам понадобятся распределения $p(d|t)$. По формуле Байеса $p(d|t) = \frac{p(t|d)p(d)}{\sum_{d'}p(t|d')p(d')}$, но поскольку мы считаем документы равновероятными, достаточно разделить каждую строку $\Theta$ на ее сумму, чтобы оценить распределение. 

Отсортируйте матрицу $p(d|t)$ по убыванию $p(d|t)$ в каждой теме (то есть построчно). Нам понадобятся индексы наиболее вероятных документов в каждой теме, поэтому используйте функцию argmax.

In [None]:
# Ваш код


Создавать навигатор мы будем прямо в jupiter notebook: это возможно благодаря тому факту, что при печати ссылки она автоматически превращается в гиперссылку.

In [None]:
print "http://yandex.ru"   # получится кликабельная ссылка

Кроме того, подключив модуль [ipython.core.display](https://ipython.org/ipython-doc/2/api/generated/IPython.core.display.html), можно использовать html-разметку в выводе. Например:

In [None]:
from IPython.core.display import display, HTML
display(HTML(u"<h1>Заголовок</h1>"))   # также <h2>, <h3>
display(HTML(u"<ul><li>Пункт 1</li><li>Пункт 2</li></ul>"))
display(HTML(u'<font color="green">Зеленый!</font>'))
display(HTML(u'<a href="http://yandex.ru">Еще один вариант вывода ссылки</a>'))

В цикле для каждой темы выведите ее заголовок, в следующей строке - топ-10 слов темы, затем в виде списка ссылки на 10 наиболее релевантных (по $p(d|t)$) теме документов. Используйте html-разметку. Творчество приветствуется :)

In [None]:
# Ваш код


##### Заключение

В этом Peer Review мы познакомились с базовыми возможностями библиотеки BigARTM и с методами визуализации тематических моделей. Визуализация тематических моделей - это широкая и активно развивающаяся область научных исследований. Мы рассмотрели только самые простые приемы. Желающие могут попробовать применить [Serendip](http://vep.cs.wisc.edu/serendip/#serendipHero), разработанный в  University of Wisconsin-Madison, к построенной модели. Эта библиотека позволяет максимально полно охарактеризовать темы и написана для языка python. 

Сделав задание, вы можете выбрать в навигаторе наиболее интересную для вас тему и посмотреть видеолекции :) На Постнауке очень много интересных материалов. 