## Topic Modelling

**Тематическая модель (topic model)** — модель коллекции текстовых документов, которая определяет, к каким темам относится каждый документ коллекции. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдаётся числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически.

### Задача построения тематической модели

Задана коллекция текстовых документов $D$. Каждый документ $d$ из коллекции $D$ представляет собой последовательность слов $W_d=(w_1,\ldots,w_{n_d})$ из словаря $W$, где $n_d$ — длина документа $d$. Предполагается, что каждый документ может относиться к одной или нескольким темам. Темы отличаются друг от друга различной частотой употребления слов. Требуется найти эти темы, то есть определить:

* число тем
* распределения частот слов, характерное для каждой темы
* тематику каждого документа — в какой степени он относится к каждой из тем

Данная задача может рассматриваться как задача одновременной кластеризации документов и слов по одному и тому же множеству кластеров, называемых темами. Обычно строится мягкая кластеризация, то есть документ может принадлежать нескольким темам в различной степени.

Целью построения тематической модели может быть как непосредственно выявление множества латентных тем, так и решение различных дополнительных задач.

### Примеры дополнительных задач

* ранжировать документы по степени релевантности заданной теме (тематический поиск)
* ранжировать документы по степени тематического сходства с заданным документом или его фрагментом
* построить иерархический тематический каталог коллекции документов и выработать правила каталогизации новых документов
* определить, как темы изменялись со временем (предполагается, что для каждого документа известно время его создания)
* определить тематику авторов (предполагается, что для каждого документа известен список второв)
* определить тематику различных сущностей (entities), связанных с документами (например, журналов, конференций, организаций, стран)
* разбить документ на тематически однородные фрагменты

In [49]:
import pandas as pd
from gensim import corpora, models

**Задание 1.** Считайте таблицу ```arts.csv``` с помощью [pandas](http://pandas.pydata.org/pandas-docs/stable/index.html). Предобработайте и разбейте на слова текст из колонки ```Content```. Добавьте в таблицу новый столбец ```Content (unigramm)```, который содержит лемматизированные униграммы разделенные пробелом, и сохраните её.

**Задание 2.** С помощью [corpora.Dictionary](https://radimrehurek.com/gensim/corpora/dictionary.html) преобразуйте корпус предобработанные тексты в словарь и сохраните его с помощью метода ```save```. 

Посмотреть словарь униграм с их частотами можно обративщись к полю ```token2id```. 

Преобразуйте с помощью словаря все тексты из ```Content (unigramm)``` в "мешок слов", воспользовшись методом ```doc2bow``` и сохраните их в переменную ```contents_bow```.

Полезная [ссылка](https://radimrehurek.com/gensim/tut1.html#from-strings-to-vectors). 

**Задание 3.** С помощью [models.ldamodel.LdaModel](models.ldamodel.LdaModel) постройте ```model```. 

В качестве параметров передайте ```corpus=contents_bow, id2word=dictionary```, с помощью параметра ```num_topics``` можно изменять количество выделяемых тем, а с помощью ```passes``` - количество итераций.

Распечатать топ-N слов тем можно с помощью метода модели ```print_topics```.

Подберите подходящие по вашему мнению число тем и число итераций (темы должны быть содержательные и максимально различны)

Полезная [ссылка](https://radimrehurek.com/gensim/wiki.html#preparing-the-corpus). 

**Задание 4.** С помощью построенной вами LDA модели преобразуйте ```contents_bow``` в вектор вероятности тем в документе: ```contents_lda = model[contents_bow]``` - это итерируемый объект

Распределение тем в документе можно получить следующим образом: ```[content for content in contents_lda]``` - численный вектор описывающий документ 

С помощью [sklearn.model_selection.train_test_split](http://scikit-learn.org/stable/modules/generated/http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html.html) разбейте распределения тем и метки классов на тестовую и обучающую выборку 

Выберите любой классификатор, обучите его и выведите точность на тесте

**Задача 5.** С помощью [wordcloud](https://pypi.python.org/pypi/wordcloud) визуализируйте слова в темах