# Programming Assignment: 
## Готовим LDA по рецептам

Как вы уже знаете, в тематическом моделировании делается предположение о том, что для определения тематики порядок слов в документе не важен; об этом гласит гипотеза «мешка слов». Сегодня мы будем работать с несколько нестандартной для тематического моделирования коллекцией, которую можно назвать «мешком ингредиентов», потому что на состоит из рецептов блюд разных кухонь. Тематические модели ищут слова, которые часто вместе встречаются в документах, и составляют из них темы. Мы попробуем применить эту идею к рецептам и найти кулинарные «темы». Эта коллекция хороша тем, что не требует предобработки. Кроме того, эта задача достаточно наглядно иллюстрирует принцип работы тематических моделей.

Для выполнения заданий, помимо часто используемых в курсе библиотек, потребуются модули *json* и *gensim*. Первый входит в дистрибутив Anaconda, второй можно поставить командой 

*pip install gensim*

Построение модели занимает некоторое время. На ноутбуке с процессором Intel Core i7 и тактовой частотой 2400 МГц на построение одной модели уходит менее 10 минут.

### Загрузка данных

Коллекция дана в json-формате: для каждого рецепта известны его id, кухня (cuisine) и список ингредиентов, в него входящих. Загрузить данные можно с помощью модуля json (он входит в дистрибутив Anaconda):

In [3]:
lines = []
with open('1chan_lines.txt','r', encoding="utf-8") as f:
    lines = [l.rstrip() for l in f.readlines()]
lines[0]

'Запомнил твой рот своим хуем.'

### Составление корпуса

In [4]:
from gensim import corpora, models
import numpy as np

Наша коллекция небольшая, и целиком помещается в оперативную память. Gensim может работать с такими данными и не требует их сохранения на диск в специальном формате. Для этого коллекция должна быть представлена в виде списка списков, каждый внутренний список соответствует отдельному документу и состоит из его слов. Пример коллекции из двух документов: 

[["hello", "world"], ["programming", "in", "python"]]

Преобразуем наши данные в такой формат, а затем создадим объекты corpus и dictionary, с которыми будет работать модель.

In [46]:
import nltk

PUNCTUATION = ["?", ",", ".", "—", ":", "«", "»", "!", "http", ")", "(", "[", "]", ";", "=", "→", "/", "wwwyoutubecomwatch", "…", "%" ]

def clear_punctuation(l):
    for str in PUNCTUATION:
        l = l.replace(str, "")
    return l.lower()

def clear_frequents(lst):
    pass            

texts = [nltk.word_tokenize(clear_punctuation(l)) for l in lines[:1000]]
dictionary = corpora.Dictionary(texts)                 # составляем словарь
corpus = [dictionary.doc2bow(text) for text in texts]  # составляем корпус документов

#freq_tokens = [dic2.id2token[k] for (k,v) in dic2.dfs.items() if v > 4000]

def id2token(k):
    try:
        return dictionary.id2token[k]
    except:
        return ""

#freq_tokens = [(dictionary.id2token[k], v) for (k, v) in dictionary.dfs.items()]
#dictionary.dfs.items()
#id2token(6)

np.random.seed(76543)
lda = models.LdaModel(corpus, num_topics=10, passes=5, id2word=dictionary)
lda.show_topics(num_topics=10, num_words=20, log=False, formatted=True)


[(0,
  '0.030*"ты" + 0.024*"почему" + 0.022*"зачем" + 0.018*"мать" + 0.017*"твоя" + 0.014*"в" + 0.011*"и" + 0.010*"сосет" + 0.006*"тут" + 0.006*"как" + 0.006*"на" + 0.005*"ротешник" + 0.005*"сука" + 0.005*"слона" + 0.005*"себе" + 0.004*"рта" + 0.004*"поссал" + 0.004*"всегда" + 0.004*"твоего" + 0.004*"у"'),
 (1,
  '0.014*"на" + 0.014*"с" + 0.011*"и" + 0.010*"не" + 0.008*"нет" + 0.007*"в" + 0.007*"я" + 0.007*"как" + 0.006*"s" + 0.005*"для" + 0.005*"а" + 0.005*"он" + 0.004*"хуй" + 0.004*"но" + 0.004*"ну" + 0.004*"рот" + 0.004*"иди" + 0.004*"это" + 0.004*"1chanca" + 0.004*"о"'),
 (2,
  '0.013*"это" + 0.010*"и" + 0.010*"на" + 0.009*"ты" + 0.008*"the" + 0.008*"в" + 0.007*"у" + 0.007*"а" + 0.006*"что" + 0.005*"я" + 0.005*"ник" + 0.005*"не" + 0.004*"зачем" + 0.004*"тут" + 0.004*"party" + 0.004*"по" + 0.004*"свой" + 0.004*"назови" + 0.004*"же" + 0.004*"но"'),
 (3,
  '0.059*"не" + 0.025*"и" + 0.014*"я" + 0.012*"на" + 0.012*"а" + 0.012*"в" + 0.010*"ты" + 0.010*"что" + 0.009*"он" + 0.007*"либертар

### Обучение модели
Вам может понадобиться [документация](https://radimrehurek.com/gensim/models/ldamodel.html) LDA в gensim.

__Задание 1.__ Обучите модель LDA с 40 темами, установив количество проходов по коллекции 5 и оставив остальные параметры по умолчанию. 


Затем вызовите метод модели *show_topics*, указав количество тем 40 и количество токенов 10, и сохраните результат (топы ингредиентов в темах) в отдельную переменную. Если при вызове метода *show_topics* указать параметр *formatted=True*, то топы ингредиентов будет удобно выводить на печать, если *formatted=False*, будет удобно работать со списком программно. Выведите топы на печать, рассмотрите темы, а затем ответьте на вопрос:

Сколько раз ингредиенты "salt", "sugar", "water", "mushrooms", "chicken", "eggs" встретились среди топов-10 всех 40 тем? При ответе __не нужно__ учитывать составные ингредиенты, например, "hot water".

Передайте 6 чисел в функцию save_answers1 и загрузите сгенерированный файл в форму.

У gensim нет возможности фиксировать случайное приближение через параметры метода, но библиотека использует numpy для инициализации матриц. Поэтому, по утверждению автора библиотеки, фиксировать случайное приближение нужно командой, которая написана в следующей ячейке. __Перед строкой кода с построением модели обязательно вставляйте указанную строку фиксации random.seed.__

(23, 9, 8, 1, 0, 2)

In [16]:
10

### Фильтрация словаря
В топах тем гораздо чаще встречаются первые три рассмотренных ингредиента, чем последние три. При этом наличие в рецепте курицы, яиц и грибов яснее дает понять, что мы будем готовить, чем наличие соли, сахара и воды. Таким образом, даже в рецептах есть слова, часто встречающиеся в текстах и не несущие смысловой нагрузки, и поэтому их не желательно видеть в темах. Наиболее простой прием борьбы с такими фоновыми элементами — фильтрация словаря по частоте. Обычно словарь фильтруют с двух сторон: убирают очень редкие слова (в целях экономии памяти) и очень частые слова (в целях повышения интерпретируемости тем). Мы уберем только частые слова.

In [42]:
import copy
dictionary2 = copy.deepcopy(dictionary)

__Задание 2.__ У объекта dictionary2 есть переменная *dfs* — это словарь, ключами которого являются id токена, а элементами — число раз, сколько слово встретилось во всей коллекции. Сохраните в отдельный список ингредиенты, которые встретились в коллекции больше 4000 раз. Вызовите метод словаря *filter_tokens*, подав в качестве первого аргумента полученный список популярных ингредиентов. Вычислите две величины: dict_size_before и dict_size_after — размер словаря до и после фильтрации.

Затем, используя новый словарь, создайте новый корпус документов, corpus2, по аналогии с тем, как это сделано в начале ноутбука. Вычислите две величины: corpus_size_before и corpus_size_after — суммарное количество ингредиентов в корпусе (для каждого документа вычислите число различных ингредиентов в нем и просуммируйте по всем документам) до и после фильтрации.

Передайте величины dict_size_before, dict_size_after, corpus_size_before, corpus_size_after в функцию save_answers2 и загрузите сгенерированный файл в форму.

In [43]:
dic2 = dictionary2
freq_tokens = [dic2.id2token[k] for (k,v) in dic2.dfs.items() if v > 4000]
freq_tokens_ids = [dic2.token2id[x] for x in freq_tokens]
dict_size_before = len(dic2)
dic2.filter_tokens(bad_ids=freq_tokens_ids)
dict_size_after = len(dic2)
dict_size_before, dict_size_after

(6714, 6702)

In [45]:
corpus2 = [dic2.doc2bow(text) for text in texts]
corpus_size_before = sum([len(x) for x in corpus])
corpus_size_after = sum([len(x) for x in corpus2])

corpus_size_before, corpus_size_after

(428249, 343665)

In [46]:
def save_answers2(dict_size_before, dict_size_after, corpus_size_before, corpus_size_after):
    with open("cooking_LDA_pa_task2.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [dict_size_before, dict_size_after, corpus_size_before, corpus_size_after]]))

save_answers2(dict_size_before, dict_size_after, corpus_size_before, corpus_size_after)

### Сравнение когерентностей
__Задание 3.__ Постройте еще одну модель по корпусу corpus2 и словарю dictionary2, остальные параметры оставьте такими же, как при первом построении модели. Сохраните новую модель в другую переменную (не перезаписывайте предыдущую модель). Не забудьте про фиксирование seed!

Затем воспользуйтесь методом *top_topics* модели, чтобы вычислить ее когерентность. Передайте в качестве аргумента соответствующий модели корпус. Метод вернет список кортежей (топ токенов, когерентность), отсортированных по убыванию последней. Вычислите среднюю по всем темам когерентность для каждой из двух моделей и передайте в функцию save_answers3. 

In [57]:
np.random.seed(76543)
lda2 = models.LdaModel(corpus2, num_topics=40, passes=5, id2word=dic2)

In [62]:
coherence = np.mean([v for (k,v) in lda.top_topics(corpus)])
coherence2 = np.mean([v for (k,v) in lda2.top_topics(corpus2)]);
coherence, coherence2

-8.596629015979598

In [65]:
def save_answers3(coherence, coherence2):
    with open("cooking_LDA_pa_task3.txt", "w") as fout:
        fout.write(" ".join(["%3f"%el for el in [coherence, coherence2]]))
        
save_answers3(coherence, coherence2)

Считается, что когерентность хорошо соотносится с человеческими оценками интерпретируемости тем. Поэтому на больших текстовых коллекциях когерентность обычно повышается, если убрать фоновую лексику. Однако в нашем случае этого не произошло. 

### Изучение влияния гиперпараметра alpha

В этом разделе мы будем работать со второй моделью, то есть той, которая построена по сокращенному корпусу. 

Пока что мы посмотрели только на матрицу темы-слова, теперь давайте посмотрим на матрицу темы-документы. Выведите темы для нулевого (или любого другого) документа из корпуса, воспользовавшись методом *get_document_topics* второй модели:

In [68]:
lda2.get_document_topics(corpus2[0])

[(25, 0.12812185), (31, 0.61758554), (33, 0.13866436)]

Также выведите содержимое переменной *.alpha* второй модели:

In [69]:
lda2.alpha

array([0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025,
       0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025,
       0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025,
       0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025, 0.025,
       0.025, 0.025, 0.025, 0.025], dtype=float32)

У вас должно получиться, что документ характеризуется небольшим числом тем. Попробуем поменять гиперпараметр alpha, задающий априорное распределение Дирихле для распределений тем в документах.

__Задание 4.__ Обучите третью модель: используйте сокращенный корпус (corpus2 и dictionary2) и установите параметр __alpha=1__, passes=5. Не забудьте про фиксацию seed! Выведите темы новой модели для нулевого документа; должно получиться, что распределение над множеством тем практически равномерное. Чтобы убедиться в том, что во второй модели документы описываются гораздо более разреженными распределениями, чем в третьей, посчитайте суммарное количество элементов, __превосходящих 0.01__, в матрицах темы-документы обеих моделей. Другими словами, запросите темы  модели для каждого документа с параметром *minimum_probability=0.01* и просуммируйте число элементов в получаемых массивах. Передайте две суммы (сначала для модели с alpha по умолчанию, затем для модели в alpha=1) в функцию save_answers4.

In [72]:
np.random.seed(76543)
lda3 = models.LdaModel(corpus2, num_topics=40, alpha=1, passes=5, id2word=dic2)
lda3.get_document_topics(corpus2[0])

[(0, 0.021397669),
 (1, 0.021295449),
 (2, 0.021276837),
 (3, 0.021365918),
 (4, 0.021295367),
 (5, 0.021311186),
 (6, 0.02130497),
 (7, 0.021280425),
 (8, 0.021401435),
 (9, 0.021379547),
 (10, 0.02183789),
 (11, 0.021492522),
 (12, 0.021276837),
 (13, 0.02218948),
 (14, 0.021718122),
 (15, 0.021506282),
 (16, 0.021404231),
 (17, 0.021964423),
 (18, 0.021329323),
 (19, 0.021678476),
 (20, 0.024654374),
 (21, 0.021277266),
 (22, 0.021276837),
 (23, 0.02128486),
 (24, 0.021771805),
 (25, 0.021494575),
 (26, 0.0214625),
 (27, 0.021634068),
 (28, 0.021495195),
 (29, 0.02130315),
 (30, 0.042615004),
 (31, 0.09219314),
 (32, 0.02150039),
 (33, 0.021278715),
 (34, 0.021446655),
 (35, 0.021365916),
 (36, 0.02133184),
 (37, 0.021289436),
 (38, 0.021277951),
 (39, 0.068339966)]

In [75]:
count_model2 = sum([len(lda2.get_document_topics(doc, minimum_probability=0.01)) for doc in corpus2])
count_model2

203683

In [76]:
count_model3 = sum([len(lda3.get_document_topics(doc, minimum_probability=0.01)) for doc in corpus2])

In [78]:
def save_answers4(count_model2, count_model3):
    with open("cooking_LDA_pa_task4.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [count_model2, count_model3]]))

save_answers4(count_model2, count_model3)

Таким образом, гиперпараметр __alpha__ влияет на разреженность распределений тем в документах. Аналогично гиперпараметр __eta__ влияет на разреженность распределений слов в темах.

### LDA как способ понижения размерности
Иногда, распределения над темами, найденные с помощью LDA, добавляют в матрицу объекты-признаки как дополнительные, семантические, признаки, и это может улучшить качество решения задачи. Для простоты давайте просто обучим классификатор рецептов на кухни на признаках, полученных из LDA, и измерим точность (accuracy).

__Задание 5.__ Используйте модель, построенную по сокращенной выборке с alpha по умолчанию (вторую модель). Составьте матрицу $\Theta = p(t|d)$ вероятностей тем в документах; вы можете использовать тот же метод get_document_topics, а также вектор правильных ответов y (в том же порядке, в котором рецепты идут в переменной recipes). Создайте объект RandomForestClassifier со 100 деревьями, с помощью функции cross_val_score вычислите среднюю accuracy по трем фолдам (перемешивать данные не нужно) и передайте в функцию save_answers5.

In [79]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

In [None]:
def save_answers5(accuracy):
     with open("cooking_LDA_pa_task5.txt", "w") as fout:
        fout.write(str(accuracy))

Для такого большого количества классов это неплохая точность. Вы можете попроовать обучать RandomForest на исходной матрице частот слов, имеющей значительно большую размерность, и увидеть, что accuracy увеличивается на 10–15%. Таким образом, LDA собрал не всю, но достаточно большую часть информации из выборки, в матрице низкого ранга.

### LDA — вероятностная модель
Матричное разложение, использующееся в LDA, интерпретируется как следующий процесс генерации документов.

Для документа $d$ длины $n_d$:
1. Из априорного распределения Дирихле с параметром alpha сгенерировать распределение над множеством тем: $\theta_d \sim Dirichlet(\alpha)$
1. Для каждого слова $w = 1, \dots, n_d$:
    1. Сгенерировать тему из дискретного распределения $t \sim \theta_{d}$
    1. Сгенерировать слово из дискретного распределения $w \sim \phi_{t}$.
    
Подробнее об этом в [Википедии](https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation).

В контексте нашей задачи получается, что, используя данный генеративный процесс, можно создавать новые рецепты. Вы можете передать в функцию модель и число ингредиентов и сгенерировать рецепт :)

In [None]:
def generate_recipe(model, num_ingredients):
    theta = np.random.dirichlet(model.alpha)
    for i in range(num_ingredients):
        t = np.random.choice(np.arange(model.num_topics), p=theta)
        topic = model.show_topic(t, topn=model.num_terms)
        topic_distr = [x[1] for x in topic]
        terms = [x[0] for x in topic]
        w = np.random.choice(terms, p=topic_distr)
        print w

### Интерпретация построенной модели
Вы можете рассмотреть топы ингредиентов каждой темы. Большиснтво тем сами по себе похожи на рецепты; в некоторых собираются продукты одного вида, например, свежие фрукты или разные виды сыра.

Попробуем эмпирически соотнести наши темы с национальными кухнями (cuisine). Построим матрицу $A$ размера темы $x$ кухни, ее элементы $a_{tc}$ — суммы $p(t|d)$ по всем документам $d$, которые отнесены к кухне $c$. Нормируем матрицу на частоты рецептов по разным кухням, чтобы избежать дисбаланса между кухнями. Следующая функция получает на вход объект модели, объект корпуса и исходные данные и возвращает нормированную матрицу $A$. Ее удобно визуализировать с помощью seaborn.

In [None]:
import pandas
import seaborn
from matplotlib import pyplot as plt
%matplotlib inline

In [None]:
def compute_topic_cuisine_matrix(model, corpus, recipes):
    # составляем вектор целевых признаков
    targets = list(set([recipe["cuisine"] for recipe in recipes]))
    # составляем матрицу
    tc_matrix = pandas.DataFrame(data=np.zeros((model.num_topics, len(targets))), columns=targets)
    for recipe, bow in zip(recipes, corpus):
        recipe_topic = model.get_document_topics(bow)
        for t, prob in recipe_topic:
            tc_matrix[recipe["cuisine"]][t] += prob
    # нормируем матрицу
    target_sums = pandas.DataFrame(data=np.zeros((1, len(targets))), columns=targets)
    for recipe in recipes:
        target_sums[recipe["cuisine"]] += 1
    return pandas.DataFrame(tc_matrix.values/target_sums.values, columns=tc_matrix.columns)

In [None]:
def plot_matrix(tc_matrix):
    plt.figure(figsize=(10, 10))
    seaborn.heatmap(tc_matrix, square=True)

In [None]:
# Визуализируйте матрицу


Чем темнее квадрат в матрице, тем больше связь этой темы с данной кухней. Мы видим, что у нас есть темы, которые связаны с несколькими кухнями. Такие темы показывают набор ингредиентов, которые популярны в кухнях нескольких народов, то есть указывают на схожесть кухонь этих народов. Некоторые темы распределены по всем кухням равномерно, они показывают наборы продуктов, которые часто используются в кулинарии всех стран. 

Жаль, что в датасете нет названий рецептов, иначе темы было бы проще интерпретировать...

### Заключение
В этом задании вы построили несколько моделей LDA, посмотрели, на что влияют гиперпараметры модели и как можно использовать построенную модель. 