# Тематическая модель [Постнауки](http://postnauka.ru)
## Peer Review (optional)

В этом задании мы применим аппарат тематического моделирования к коллекции текстовых записей видеолекций, скачанных с сайта Постнаука. Мы будем визуализировать модель и создавать прототип тематического навигатора по коллекции. В коллекции 1728 документов, размер словаря - 38467 слов. Слова лемматизированы, то есть приведены к начальной форме, с помощью программы [mystem](https://tech.yandex.ru/mystem/), коллекция сохранена в [формате vowpal wabbit](http://docs.bigartm.org/en/latest/formats.html). В каждой строке до первой черты записана информация о документе (ссылка на страницу с лекцией), после первой черты следует описание документа. Используются две модальности - текстовая ("text") и модальность авторов ("author"); у каждого документа один автор.

Для выполнения задания понадобится библиотека [BigARTM](http://docs.bigartm.org). В демонстрации показан пример использования библиотеки версии 0.7.4, на сайте предлагается скачивать версию 0.8.0. В новой версии изменены принципы работы со словарями: они вынесены в отдельный класс (пример в [Release Notes](http://docs.bigartm.org/en/stable/release_notes/python.html)). Строить модель и извлекать ее параметры нужно так же, как показано в демонстрации. Вы можете использовать [предыдущий релиз](http://bigartm.readthedocs.io/en/v0.7.6/download.html) или [новый релиз](http://docs.bigartm.org/en/latest/download.html) на ваше усмотрение.

Спецификации всех функций вы можете смотреть на странице [Python API](http://bigartm.readthedocs.io/en/stable/python_interface.html).

In [7]:
from matplotlib import pyplot as plt
import seaborn
%matplotlib inline
seaborn.set_style("whitegrid", {'axes.grid' : False})

In [8]:
import numpy as np
import pandas as pd

##### Считывание данных

Создайте объект класса artm.BatchVectorizer, который будет ссылаться на директорию с пакетами данных (батчами). Чтобы библиотека могла преобразовать текстовый файл в батчи, создайте пустую директорию и укажите ее название в параметре target_folder. Размер батча для небольших коллекций (как наша) не важен, вы можете указать любой.

In [None]:
import artm
batch_vectorizer = artm.BatchVectorizer(data_path="lectures.txt", data_format="vowpal_wabbit", target_folder="batches", 
                                       batch_size=100)

##### Инициализация модели

Создайте объект класса artm.Model с 30 темами, именами тем, указанными ниже и единичными весами обеих модальностей. Количество тем выбрано не очень большим, чтобы вам было удобнее работать с темами. На этой коллекции можно строить и большее число тем, тогда они будут более узко специализированы.

In [None]:
T = 30   # количество тем
topic_names=["sbj"+str(i) for i in range(T-1)]+["bcg"]
model_artm = artm.ARTM(num_topics=T, topic_names=topic_names,cache_theta=True, class_ids={"text":1,"author":1})

Мы будем строить 29 предметных тем и одну фоновую. 

Соберите словарь с помощью метода gather_dictionary и инициализируйте модель, указав random_seed=1. Обязательно укажите свое название словаря, оно понадобится при добавлении регуляризаторов.

In [None]:
# Ваш код
dictionary = artm.Dictionary("dictionary")
dictionary.gather(data_path='batches')
dictionary.save_text(dictionary_path='my_dictionary.txt')
model_artm.initialize("dictionary")

##### Добавление score

Создайте два измерителя качества artm.TopTokensScore - по одному для каждой модальности; количество токенов 15. Названия для score придумайте самостоятельно.

In [None]:
# Ваш код
model_artm.scores.add(artm.TopTokensScore(name="top_words", num_tokens=15, class_id="text"))
model_artm.scores.add(artm.TopTokensScore(name="top_auth_w", num_tokens=15, class_id="author"))

##### Построение модели

Мы будем строить модель в два этапа: сначала добавим сглаживающий регуляризатор фоновой темы и настроим параметры модели, затем - добавим разреживающий регуляризатор предметрых тем и выполним еще несколько итераций. Так мы сможем получить наиболее чистые от фоновых слов предметные темы. Сглаживающий и разреживающий регуляризаторы задаются одним и тем же классом artm.SmoothSparsePhiRegularizer: если коэффициент tau положительный, то регуляризатор будет сглаживающий, если отрицательный - разреживающий.

Если вы хотите подробнее разобраться, как выполняется регуляризация тематической модели в BigARTM, вы можете прочитать [статью](https://s3-eu-west-1.amazonaws.com/artm/voron-potap14artm-rus.pdf), раздел 4.

Добавьте сглаживающий регуляризатор с коэффициентом tau = 1e5, указав название своего словаря в dictionary, модальность текста в class_ids и тему "bcg" в topic_names.

In [None]:
# Ваш код
model_artm.regularizers.add(artm.SmoothSparsePhiRegularizer(name='smooth', tau=1e5, dictionary = dictionary, \
    class_ids=["text"],topic_names = "bcg"))

Выполните 30 итераций по коллекции (num_collection_passes), количество внутренних итераций установите равным 1. Используйте метод fit_offline модели.

In [None]:
# Ваш код
model_artm.fit_offline(batch_vectorizer=batch_vectorizer, num_collection_passes=30)

Добавьте разреживающий регуляризатор с коэффициентом tau=-1e5, указав название своего словаря, модальность текста в class_ids и все темы "sbjX" в topic_names.

In [None]:
# Ваш код
model_artm.regularizers.add(artm.SmoothSparsePhiRegularizer(name='sparse', tau=-1e5, dictionary = dictionary, \
    class_ids=["text"],topic_names=topic_names[:-1]))

Выполните еще 15 проходов по коллекции.

In [None]:
# Ваш код
model_artm.fit_offline(batch_vectorizer=batch_vectorizer, num_collection_passes=15)

##### Интерпретация тем

Используя созданные score, выведите топы слов и топы авторов в темах. Удобнее всего выводить топ слов каждой темы с новой строки, указывая название темы в начале строки, и аналогично с авторами.

In [None]:
for topic_name in model_artm.topic_names:
    print(topic_name + ':', end=' ')
    words = model_artm.score_tracker['top_words'].last_tokens
    print(', '.join(words[topic_name]))

In [None]:
# копирнул с терминала
sbj0: церковь, русь, средневековый, император, святой, власть, сага, князь, папа, византийский, поэзия, церковный, рим, вера, король
sbj1: планета, земля, атмосфера, вода, солнце, солнечный, белый, карлик, газ, вокруг, образовываться, поверхность, спутник, радиус, метр
sbj2: система, трудность, относительность, тест, задание, преподавание, отсчет, системный, научение, компетенция, адаптивный, обществознание, подготовка, моделирование, спиновый
sbj3: культура, наука, рассказывать, понятие, кандидат, исторический, каков, доктор, культурный, сознание, восприятие, филологический, феномен, владимир, личность
sbj4: право, правовой, римский, юрист, искусство, суд, юридический, должник, собственность, обязательство, договор, владение, собственник, исполнение, имущество
sbj5: материал, свет, оптический, полимер, применение, импульс, поверхность, электронный, использование, лазерный, углеродный, прибор, электроника, бор, трехмерный
sbj6: литература, фильм, текст, литературный, кино, произведение, автор, герой, жанр, кинематограф, поэт, анекдот, писатель, читатель, культовый
sbj7: смерть, ритуал, диктатура, государь, обряд, правитель, конвент, орден, террор, монтаньяр, баратынский, подданный, насилие, похоронный, якобинский
sbj8: структура, вещество, химический, соединение, химия, давление, углерод, реакция, металл, органический, кристалл, водород, алмаз, кристаллический, кислород
sbj9: частица, энергия, квантовый, поле, физика, атом, взаимодействие, магнитный, электрон, кварк, теория, симметрия, фотон, элементарный, нейтрино
sbj10: война, россия, советский, русский, власть, российский, германия, мировой, реформа, историк, петр, немецкий, против, гражданский, военный
sbj11: ребенок, женщина, семья, мужчина, возраст, взрослый, сон, мать, родитель, старение, конфликт, женский, травма, катастрофа, идентичность
sbj12: мозг, животное, нейрон, растение, эволюция, отбор, озеро, эволюционный, песня, сердце, популяция, мышца, птица, нейронный, сигнал
sbj13: территория, христианский, империя, восток, народ, древний, письменность, христианство, государство, памятник, цивилизация, традиция, китай, восточный, северный
sbj14: звезда, галактика, масса, вселенная, черный, дыра, волна, излучение, скорость, телескоп, объект, расстояние, диск, скопление, гравитационный
sbj15: задача, информация, память, решение, данные, компьютер, психология, мышление, когнитивный, внимание, психолог, ошибка, компьютерный, зрительный, психологический
sbj16: раса, океан, африка, остров, америка, южный, станислав, географический, монголоид, дробышевский, индия, вакцина, нос, штамм, индеец
sbj17: политический, философия, государство, философский, философ, свобода, идеология, платон, мысль, враг, критика, партия, чтение, шмитт, дух
sbj18: язык, слово, русский, словарь, текст, предложение, лингвист, значение, категория, глагол, корпус, перевод, лингвистика, языковой, грамматика
sbj19: революция, французский, франция, театр, король, роман, костюм, нация, национальный, актер, аргумент, депутат, конституция, париж, монархия
sbj20: город, сеть, робот, городской, интернет, пользователь, компания, музей, медиа, горожанин, технология, программный, библиотека, метро, цифровой
sbj21: болезнь, заболевание, пациент, лечение, медицина, врач, боль, препарат, медицинский, операция, лекарство, опухоль, рак, кровь, нарушение
sbj22: социальный, знание, социология, социологический, дисциплина, познание, социолог, повседневный, виктор, машинный, обучение, общественный, концепт, повседневность, фрейм
sbj23: микроорганизм, матрица, интеллект, эмоция, алгоритм, вычислительный, эмоциональный, схема, искусственный, микроб, глубина, хищник, микробный, многоклеточный, экология
sbj24: бог, миф, царь, греческий, море, мифология, душа, грек, андрей, египетский, египет, мифологический, фольклор, гусейнов, божество
sbj25: гласный, согласный, звук, говор, компилятор, программирование, мягкий, диалект, твердость, столыпин, древнерусский, слог, шахматы, жест, диалектный
sbj26: страна, политика, экономический, экономика, сталин, кризис, праздник, крестьянин, коллективный, принятие, государственный, экономист, прошлое, благо, деревня
sbj27: клетка, ген, днк, белок, организм, молекула, биологический, генетический, геном, бактерия, рнк, мутация, молекулярный, ткань, вирус
sbj28: температура, университет, сверхпроводимость, сверхпроводник, сверхпроводящий, частота, переход, заимствование, гумбольдт, точность, магнит, профессор, кельвин, жидкий, булгарский
bcg: быть, что, это, который, этот, как, они, мочь, такой, очень, для, человек, или, тот, один

In [None]:
for topic_name in model_artm.topic_names:
    print(topic_name + ':', end=' ')
    words = model_artm.score_tracker['top_auth_w'].last_tokens
    print(', '.join(words[topic_name]))


In [None]:
sbj0: Александр_Марей, Фёдор_Успенский, Алексей_Юдин, Татьяна_Бобровникова, Игорь_Данилевский, Елена_Уханова, Ольга_Брилева, Владимир_Петрухин, Елена_Браун, Олег_Воскобойников, Екатерина_Болтунова, Ольга_Тогоева, Ольга_Вайнштейн, Павел_Уваров, Григорий_Бондаренко
sbj1: Сергей_Попов, Александр_Марков, Дмитрий_Вибе, Татьяна_Смоктунович, Валерий_Сулейманов, Дмитрий_Титов, Зоригто_Намсараев, Владимир_Кузнецов, Роман_Рафиков, Наталья_Новикова, Александр_Слободкин, Елизавета_Ривкина, Андрей_Глазовский, Владимир_Сурдин, Сергей_Наугольных
sbj2: Елена_Брызгалина, Владимир_Мележик, Александр_Поддьяков, Михаил_Пантелеев, Эмиль_Ахмедов, Михаил_Фейгельман, Антон_Суворов, Владимир_Редько, Даниэль_Сельва, Татьяна_Клячко, Илья_Щуров, Дэвид_Кайзер, Александра_Скрипченко, Кристофер_Уиншип, Алексей_Котов
sbj3: Виталий_Куренной, Павел_Уваров, Ольга_Артёмова, Александр_Гофман, Пётр_Турчин, Андрей_Лукашов, Владимир_Бобровников, Алексей_Руткевич, Владимир_Миронов, Дмитрий_Громов, Сергей_Арутюнов, Николай_Плотников, Ирина_Савельева, Максим_Кронгауз, Владимир_Каганский
sbj4: Дмитрий_Дождев, Олег_Лекманов, Денис_Новак, Сергей_Майоров, Сергей_Зенкин, Виктор_Цетлин, Александр_Парфенов, Дмитрий_Полдников, Марина_Бутовская, Наталья_Смолянская, Андрей_Кофман, Евгений_Рогожин, Татьяна_Гусарова, Мохамад_Кассаб, Джу_Йонг_Ли
sbj5: Дмитрий_Паращук, Алексей_Акимов, Владимир_Белотелов, Владимир_Шалаев, Дмитрий_Гольберг, Шринивас_Шридхар, Алексей_Желтиков, Иван_Воробьев, Павел_Плечов, Дмитрий_Клинов, Владимир_Комлев, Алексей_Хохлов, Эрик_Мазур, Василий_Климов, Сергей_Никитов
sbj6: Александр_Павлов, Павел_Руднев, Ян_Левченко, Ольга_Эдельман, Александра_Архипова, Мария_Штейнман, Дмитрий_Бак, Петр_Дружинин, Мария_Неклюдова, Владимир_Кантор, Ольга_Вайнштейн, Мария_Майофис, Игорь_Чубаров, Анна_Рогожина, Анатолий_Гершман
sbj7: Михаил_Бойцов, Михаил_Маяцкий, Анна_Соколова, Арсений_Хитров, Дмитрий_Рогозин, Олег_Ауров, Алина_Бодрова, Олег_Лекманов, Игорь_Чубаров, Игорь_Данилевский, Сет_Ллойд, Александр_Гофман, Дмитрий_Бовыкин, Михаил_Алексеевский, Владимир_Емельянов
sbj8: Артем_Оганов, Валерий_Фокин, Алла_Ножевникова, Валентин_Ненайденко, Иван_Сорокин, Виктория_Битюкова, Евгений_Гудилин, Александр_Беленький, Александр_Апт, Константин_Мирошников, Дмитрий_Лось, Валентин_Крапошин, Рафаэль_Арутюнян, Олег_Мельник, Пётр_Образцов
sbj9: Дмитрий_Казаков, Эмиль_Ахмедов, Михаил_Данилов, Алексей_Рубцов, Сергей_Демокритов, Виктор_Брагута, Сергей_Троицкий, Игорь_Волобуев, Наталья_Берлофф, Павел_Пахлов, Андрей_Лосев, Александр_Львовский, Лев_Дудко, Андрей_Семенов, Анатолий_Лиходед
sbj10: Илья_Женин, Борис_Морозов, Кирилл_Соловьев, Кирилл_Кочегаров, Олег_Будницкий, Александр_Каменский, Александр_Лаврентьев, Борис_Колоницкий, Илья_Виньковецкий, Людмила_Новикова, Алексей_Киличенков, Игорь_Курукин, Илья_Кукулин, Екатерина_Щербакова, Ольга_Тогоева
sbj11: Катерина_Поливанова, Ольга_Сварник, Юрий_Яшков, Ольга_Исупова, Мария_Падун, Ольга_Гулевич, Наталья_Харламенкова, Эмери_Браун, Владимир_Ковальзон, Мария_Медникова, Леонид_Марголис, Дмитрий_Жуков, Джеральд_де_Хаан, Павел_Умрюхин, Максим_Киселев
sbj12: Кирилл_Еськов, Филипп_Хайтович, Михаил_Бурцев, Егор_Задереев, Андрей_Цатурян, Алексей_Кондрашов, Константин_Агладзе, Ирина_Бёме, Варвара_Веденина, Юлия_Краус, Наталья_Спасская, Алишер_Тураев, Мария_Добровольская, Александр_Петренко, Дмитрий_Дорохов
sbj13: Алексей_Муравьёв, Дмитрий_Беляев, Марк_Ульянов, Алексей_Малашенко, Дмитрий_Худяков, Нина_Сумбатова, Андрей_Виноградов, Сергей_Серёгичев, Галина_Ершова, Дмитрий_Арзютов, Григорий_Бондаренко, Олег_Ауров, Анна_Дыбо, Кирилл_Кожанов, Анна_Рогожина
sbj14: Сергей_Попов, Анатолий_Засов, Алексей_Расторгуев, Ольга_Сильченко, Андрей_Савельев-Трофимов, Дмитрий_Горбунов, Михаил_Ревнивцев, Олег_Верходанов, Алексей_Старобинский, Валерий_Рубаков, Владимир_Сурдин, Дмитрий_Вибе, Юджин_Ползик, Сергей_Блинников, Макс_Тегмарк
sbj15: Мария_Фаликман, Владимир_Спиридонов, Павел_Балабан, Константин_Анохин, Александр_Каплан, Игорь_Уточкин, Александр_Войскунский, Станислав_Протасов, Алексей_Созинов, Иван_Луковников, Станислав_Клименко, Махзарин_Банаджи, Жанна_Резникова, Ксения_Паниди, Наталья_Кисельникова
sbj16: Станислав_Дробышевский, Виталий_Кушниров, Андрей_Летаров, Андрей_Иванцов, Сергей_Писарев, Евгений_Рогожин, Митчел_Резник, Георгий_Базыкин, Алиса_Вячеславова, Владимир_Муронец, Александр_Шацкий, Александр_Воеводский, Александра_Архипова, Николай_Короновский, Андрей_Глазовский
sbj17: Алексей_Козырев, Кирилл_Мартынов, Иван_Болдырев, Владимир_Малахов, Александр_Павлов, Дина_Гусейнова, Александр_Филиппов, Петр_Резвых, Василий_Жарков, Павел_Соколов, Александр_Доброхотов, Михаил_Маяцкий, Валентина_Харитонова, Дмитрий_Балалыкин, Михаил_Эпштейн
sbj18: Владимир_Плунгян, Андрей_Кибрик, Александр_Пиперски, Кирилл_Бабаев, Петр_Аркадьев, Светлана_Евграфова, Надежда_Онипенко, Дмитрий_Добровольский, Анатолий_Баранов, Алексей_Шмелев, Борис_Иомдин, Леонид_Иомдин, Мира_Бергельсон, Екатерина_Лютикова, Вера_Подлесская
sbj19: Дмитрий_Бовыкин, Алексей_Миллер, Раиса_Кирсанова, Алексей_Бартошевич, Вера_Мильчина, Дина_Гусейнова, Мария_Майофис, Мария_Неклюдова, Александр_Дмитриев, Марина_Новикова-Грунд, Максим_Демин, Илья_Иткин, Ольга_Вайнштейн, Борис_Колоницкий, Андрей_Зорин
sbj20: ПостНаука, Александр_Сафонов, Оксана_Запорожец, Руслан_Смелянский, Александр_Тормасов, Алексей_Лебедев, Екатерина_Лапина-Кратасюк, Екатерина_Ларионова, Наталья_Зубаревич, Евгений_Магид, Мануэль_Маццара, Джанмарко_Веруджио, Лев_Беклемишев, Ирина_Стародубровская, Эдуард_Пройдаков
sbj21: Петр_Федичев, Ярослав_Ашихмин, Алексей_Алексеев, Александр_Жаворонков, Олег_Медведев, Вера_Ижевская, Алексей_Чжао, Сергей_Румянцев, Александр_Васильев, Сергей_Яковенко, Рауль_Гайнетдинов, Елена_Брызгалина, Александр_Габибов, Инга_Полетаева, Наталья_Савва
sbj22: Виктор_Вахштайн, Александр_Филиппов, Дмитрий_Рогозин, Леонид_Григорьев, Дмитрий_Ветров, Светлана_Баньковская, Сезар_Идальго, Александр_Дьяконов, Джозеф_Браун, Николай_Мощевитин, Дэвид_Вайнберг, Aльберт_Давлетшин, Александр_Гофман, Михаил_Соколов, Павел_Нерлер_(Полян)
sbj23: Елизавета_Бонч-Осмоловская, Елена_Гороховская, Николай_Пименов, Александр_Жданов, Светлана_Дедыш, Иван_Оселедец, Илья_Щуров, Андрей_Чабовский, Максим_Таланов, Леонард_Полищук, Игорь_Петров, Сергей_Наугольных, Сергей_Гашков, Сергей_Зыков, Виталий_Дунин-Барковский
sbj24: Гасан_Гусейнов, Олег_Воскобойников, Владимир_Емельянов, Иван_Ладынин, Галина_Зеленина, Аскольд_Иванчик, Мария_Штейнман, Варвара_Добровольская, Ахмет_Ярлыкапов, Ивар_Максутов, Кирилл_Зыбин, Алексей_Гиппиус, Александр_Воеводский, Алексей_Юдин, Андрей_Виноградов
sbj25: Игорь_Исаев, Георгий_Старостин, Владимир_Беликов, Григорий_Крейдлин, Светлана_Бурлак, Екатерина_Лямина, Андрей_Кофман, Илья_Иткин, Евгений_Зуев, Яков_Тестелец, Дмитрий_Дагаев, Елена_Браун, Ольга_Вендина, Анастасия_Лопухина, Антон_Чижов
sbj26: Фуад_Алескеров, Олег_Хлевнюк, Алексей_Белянин, Ольга_Малинова, Андрей_Зорин, Сергей_Афонцев, Сергей_Гуриев, Виктор_Полтерович, Владимир_Гимпельсон, Сергей_Бобылев, Сергей_Пекарский, Александр_Аузан, Сергей_Соколовский, Ивар_Максутов, Василий_Ключарев
sbj27: Евгений_Шеваль, Константин_Северинов, Михаил_Гельфанд, Максим_Франк-Каменецкий, Сергей_Киселев, Антон_Буздин, Сергей_Саложин, Евгений_Куликов, Светлана_Боринская, Сергей_Науменко, Роман_Ефремов, Владимир_Муронец, Георгий_Базыкин, Александр_Лазуткин, Джефф_Лихтман
sbj28: Михаил_Киселев, Елена_Вишленкова, Наталья_Ростиславлева, Владимир_Пудалов, Илья_Шкредов, Евгений_Николаев, Виталий_Пальчиков, Анна_Дыбо, Алексей_Кавокин, Рой_Глаубер, Валерий_Рязанов, Алексей_Орлов, Алексей_Касьян, Яков_Фоминов, Александр_Шварцбург
bcg: Михаил_Соколов, Сергей_Неклюдов, Кирилл_Титаев, Михаил_Алексеевский, Алексей_Маслов, Андрей_Журавлев, Павел_Нерлер_(Полян), Татьяна_Ребеко, Борис_Миркин, Николай_Дронин, Алексей_Семихатов, Кирилл_Разлогов, Армен_Мулкиджанян, Ноам_Хомский, Денис_Сивков

В последней теме "bcg" должны находиться общеупотребительные слова.

Важный шаг в работе с тематической моделью, когда речь идет о визуализации или создании тематического навигатора, это именование тем. Понять, о чем каждая тема, можно по списку ее топовых слов. Например, тему
    
    частица взаимодействие физика кварк симметрия элементарный нейтрино стандартный материя протон бозон заряд масса ускоритель слабый
    
можно назвать "Физика элементарных частиц". 

Дайте названия 29 предметным темам. Если вы не знаете, как назвать тему, назовите ее первым встретившимся в ней существительным, хотя при таком подходе навигатор будет менее информативным. Из названий тем составьте список из 29 строк и запишите го в переменную sbj_topic_labels. В переменной topic_labels будут храниться названия всех тем, включая фоновую.

In [None]:
sbj_topic_labels = ["История","Земля","Задания","Культура","Право","Оптика","Литература",
                   "тоталитаризм","химия","Квант мех","война","семья","биология","восток","Астрономия",
                   "инфа","геогр","Философия","язык","французская революция","город","болезнь",
                   "социология","AI","мифология","звуки и буквы","полит/экон","генетика","истор. физ."]   # запишите названия тем в список
topic_labels = sbj_topic_labels + ["Фоновая тема"]

##### Анализ тем

Далее мы будем работать с распределениями тем в документах (матрица $\Theta$) и авторов в темах (одна из двух матриц $\Phi$, соответствующая модальности авторов). 
Создайте переменные, содержащие две этих матрицы, с помощью методов get_phi и get_theta модели. Назовите переменные theta и phi_a. Выведите формы обеих матриц, чтобы понять, по каким осям стоят темы.

In [None]:
model_artm.theta_columns_naming = "title" # включает именование столбцов Theta их названиями-ссылками, а не внутренними id 
# Ваш код
theta = model_artm.get_theta()
phi_a = model_artm.get_phi(class_ids=['author'])
print('theta', theta.shape)
print('phi_a', phi_a.shape)

In [None]:
theta (30, 1728)
phi_a (539, 30)

Визуализируем фрагмент матрицы $\Theta$ - первые 100 документов (это наиболее простой способ визуально оценить, как темы распределяются в документах). С помощью метода seaborn.heatmap выведите фрагмент theta как изображение. Рекомендация: создайте фигуру pyplot размера (20, 10).

In [None]:
# Ваш код


Вы должны увидеть, что фоновая тема имеет большую вероятность в почти каждом документе, и это логично. Кроме того, есть еще одна тема, которая чаще других встречается в документах. Судя по всему, это тема содержит много слов по науку в целом, а каждый документ (видео) в нашей коллекции связан с наукой. Можно (необязательно) дать этой теме название "Наука".

Помимо этих двух тем, фоновой и общенаучной, каждый документ характеризуется малым числом других тем.

Оценим $p(t)$ - долю каждой темы во всей коллекции. По формуле полной вероятности вычислять эти величины нужно как
$p(t) = \sum_d p(t|d) p(d)$. Согласно вероятностной модели, $p(d)$ пропорционально длине документа d. Поступим проще: будем полагать, что все документы равновероятны. Тогда оценить $p(t)$ можно, просуммировав $p(t|d)$ по всем документам, а затем разделив полученный вектор на его сумму. 

Создайте переменную-датафрейм с T строками, индексированными названиями тем, и 1 столбцом, содержащим оценки $p(t)$. Выведите датафрейм на печать.

In [None]:
# Ваш код
pt = theta.sum(axis=1) / theta.shape[1]
pt_df = pd.DataFrame(data=pt.values, index=topic_labels, columns=['p(t)'], dtype=float)
pt_df.sort_values(by='p(t)', inplace = True)
print(pt_df)

In [None]:
                           p(t)
тоталитаризм           0.003844
звуки и буквы          0.003983
истор. физ.            0.005235
геогр                  0.005792
французская революция  0.005865
Задания                0.005904
AI                     0.005914
Литература             0.007143
семья                  0.007338
Право                  0.007677
мифология              0.008231
город                  0.008761
социология             0.009294
болезнь                0.009656
Оптика                 0.009932
биология               0.010169
инфа                   0.010293
История                0.010347
химия                  0.010774
Земля                  0.010862
полит/экон             0.010918
язык                   0.013232
Философия              0.013687
восток                 0.013719
война                  0.014160
Астрономия             0.015650
Квант мех              0.020953
генетика               0.022143
Культура               0.041272
Фоновая тема           0.677251

Найдите 5 самых распространенных и 3 наименее освещенных темы в коллекции (наибольшие и наименьшие $p(t)$ соответственно), не считая фоновую и общенаучную. Укажите названия, которые вы дали этим темам.

Визуализируйте матрицу $\Phi$ модальности авторов в виде изображения. Рекомендация: установите yticklabels=False в heatmap.

In [None]:
# Ваш код


Каждой теме соответствует не очень большое число авторов - матрица достаточно разреженная. Кроме того, некоторые темы имеют доминирующего автора $a$, имеющего большую вероятность $p(a|t)$ - этот автор записал больше всего лекций по теме. 

Будем считать, что автор $a$ значим в теме, если $p(a|t) > 0.01$. Для каждого автора посчитайте, в скольких темах он значим. Найдите авторов-рекордсменов, которые значимы (а значит, читали лекции) в >= 3 темах.

Большинство авторов значимы в 1 теме, что логично.

##### Построение тематической карты авторов

По сути, в матрице $\Phi$, соответствующей модальности авторов, записаны тематические кластеры авторов. Для любого автора мы можем составить его тематический круг - авторов, разбирающихся в той же теме, что и данный. Интересующиеся слушатели могут попробовать выполнить эту процедуру для ученых, читающих лекции на Постнауке, которых они знают (например, на Постнауке есть лекции с К. В. Воронцовым - лектором текущего модуля :)

Составим карту близости авторов по тематике их исследований. Для этого применим метод понижения размерности MDS к тематическим профилям авторов.

Чтобы получить тематический профиль автора, распределение $p(t|a)$, нужно воспользоваться формулой Байеса: 
$p(t|a) = \frac {p(a|t) p(t)} {\sum_t' p(a|t') p(t')}$. Все необходимые для этого величины у вас есть и записаны в переменных phi и pt. 

Передайте матрицу тематических профилей авторов, записанных по строкам, в метод MDS с n_components=2. Используйте косинусную метрику (она хорошо подходит для поиска расстояний между векторами, имеющими фиксированную сумму компонент).

In [None]:
from sklearn.manifold import MDS
from sklearn.metrics import pairwise_distances

In [None]:
# Ваш код
pt_a = phi_a * pt / np.sum(phi_a * pt)
mds = MDS(n_components=2, dissimilarity='precomputed')
mds_transformed = mds.fit_transform(pairwise_distances(pt_a, metric='cosine'))

Визуализируйте найденные двумерные представления с помощью функции scatter. 

In [None]:
# Ваш код


Должно получиться, что некоторые грппы авторов формируют сгустки, которые можно считать тематическими группами авторов.

Раскрасим точки следующим образом: для каждого автора выберем наиболее вероятную для него тему ($\max_t p(t|a)$), и каждой теме сопоставим цвет. Кроме того, добавим на карту имена и фамилии авторов, это можно сделать в цикле по всем точкам с помощью функции plt.annotate, указывая метку точки первым аргументом и ее координаты в аргументе xy. Рекомендуется сделать размер изображения большим, тогда маркеры точек тоже придется увеличить (s=100 в plt.scatter). Изобразите карту авторов и сохраните в pdf-файл с помощью функции plt.savefig. 

Метки авторов будут пересекаться. Будет очень хорошо, если вы найдете способ, как этого можно избежать.

In [None]:
import matplotlib.cm as cm
colors = cm.rainbow(np.linspace(0, 1, T)) # цвета для тем
# Ваш код
fig = plt.figure(figsize=(30, 30))
max_indeces = pt_a.values.argmax(axis=1)
for y, c in zip(set(max_indeces), colors):
    plt.scatter(mds_transformed[max_indeces==y, 0], mds_transformed[max_indeces==y, 1], c=c, s=100)
    for idx, (name, xy) in enumerate(zip(phi_a[max_indeces==y].index, mds_transformed[max_indeces==y])):
        plt.annotate(name, xy=xy, xytext=(0, idx*10), textcoords='offset points',
                     arrowprops=dict(arrowstyle='->', connectionstyle='arc3, rad=0.5'))
plt.savefig('author_map.pdf')


##### Создание простого тематического навигатора по Постнауке

Наш тематический навигатор будет для каждой темы показывать ее список слов, а также список релевантных теме документов. 

Нам понадобятся распределения $p(d|t)$. По формуле Байеса $p(d|t) = \frac{p(t|d)p(d)}{\sum_{d'}p(t|d')p(d')}$, но поскольку мы считаем документы равновероятными, достаточно разделить каждую строку $\Theta$ на ее сумму, чтобы оценить распределение. 

Отсортируйте матрицу $p(d|t)$ по убыванию $p(d|t)$ в каждой теме (то есть построчно). Нам понадобятся индексы наиболее вероятных документов в каждой теме, поэтому используйте функцию argmax.

In [None]:
# Ваш код
pd_t = theta / np.sum(theta, axis=0)
most_probability_indices = [pd_t.values[idx, :].argsort()[::-1] for idx in range(30)]

Создавать навигатор мы будем прямо в jupiter notebook: это возможно благодаря тому факту, что при печати ссылки она автоматически превращается в гиперссылку.

In [None]:
print "http://yandex.ru"   # получится кликабельная ссылка

Кроме того, подключив модуль [ipython.core.display](https://ipython.org/ipython-doc/2/api/generated/IPython.core.display.html), можно использовать html-разметку в выводе. Например:

In [1]:
from IPython.core.display import display, HTML
display(HTML(u"<h1>Заголовок</h1>"))   # также <h2>, <h3>
display(HTML(u"<ul><li>Пункт 1</li><li>Пункт 2</li></ul>"))
display(HTML(u'<font color="green">Зеленый!</font>'))
display(HTML(u'<a href="http://yandex.ru">Еще один вариант вывода ссылки</a>'))

В цикле для каждой темы выведите ее заголовок, в следующей строке - топ-10 слов темы, затем в виде списка ссылки на 10 наиболее релевантных (по $p(d|t)$) теме документов. Используйте html-разметку. Творчество приветствуется :)

In [None]:
# Ваш код


##### Заключение

В этом Peer Review мы познакомились с базовыми возможностями библиотеки BigARTM и с методами визуализации тематических моделей. Визуализация тематических моделей - это широкая и активно развивающаяся область научных исследований. Мы рассмотрели только самые простые приемы. Желающие могут попробовать применить [Serendip](http://vep.cs.wisc.edu/serendip/#serendipHero), разработанный в  University of Wisconsin-Madison, к построенной модели. Эта библиотека позволяет максимально полно охарактеризовать темы и написана для языка python. 

Сделав задание, вы можете выбрать в навигаторе наиболее интересную для вас тему и посмотреть видеолекции :) На Постнауке очень много интересных материалов. 