# Programming Assignment: 
## Готовим LDA по рецептам

Как вы уже знаете, в тематическом моделировании делается предположение о том, что для определения тематики порядок слов в документе не важен; об этом гласит гипотеза «мешка слов». Сегодня мы будем работать с несколько нестандартной для тематического моделирования коллекцией, которую можно назвать «мешком ингредиентов», потому что на состоит из рецептов блюд разных кухонь. Тематические модели ищут слова, которые часто вместе встречаются в документах, и составляют из них темы. Мы попробуем применить эту идею к рецептам и найти кулинарные «темы». Эта коллекция хороша тем, что не требует предобработки. Кроме того, эта задача достаточно наглядно иллюстрирует принцип работы тематических моделей.

Для выполнения заданий, помимо часто используемых в курсе библиотек, потребуются модули *json* и *gensim*. Первый входит в дистрибутив Anaconda, второй можно поставить командой 

*pip install gensim*

Построение модели занимает некоторое время. На ноутбуке с процессором Intel Core i7 и тактовой частотой 2400 МГц на построение одной модели уходит менее 10 минут.

### Загрузка данных

Коллекция дана в json-формате: для каждого рецепта известны его id, кухня (cuisine) и список ингредиентов, в него входящих. Загрузить данные можно с помощью модуля json (он входит в дистрибутив Anaconda):

In [1]:
import json

In [2]:
with open("recipes.json") as f:
    recipes = json.load(f)

In [6]:
print recipes[0]

{u'cuisine': u'greek', u'id': 10259, u'ingredients': [u'romaine lettuce', u'black olives', u'grape tomatoes', u'garlic', u'pepper', u'purple onion', u'seasoning', u'garbanzo beans', u'feta cheese crumbles']}


### Составление корпуса

In [7]:
from gensim import corpora, models
import numpy as np

Наша коллекция небольшая, и целиком помещается в оперативную память. Gensim может работать с такими данными и не требует их сохранения на диск в специальном формате. Для этого коллекция должна быть представлена в виде списка списков, каждый внутренний список соответствует отдельному документу и состоит из его слов. Пример коллекции из двух документов: 

[["hello", "world"], ["programming", "in", "python"]]

Преобразуем наши данные в такой формат, а затем создадим объекты corpus и dictionary, с которыми будет работать модель.

In [108]:
texts = [recipe["ingredients"] for recipe in recipes]
dictionary = corpora.Dictionary(texts)   # составляем словарь
corpus = [dictionary.doc2bow(text) for text in texts]  # составляем корпус документов

In [109]:
print texts[0]
print corpus[0]

[u'romaine lettuce', u'black olives', u'grape tomatoes', u'garlic', u'pepper', u'purple onion', u'seasoning', u'garbanzo beans', u'feta cheese crumbles']
[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1)]


У объекта dictionary есть полезная переменная dictionary.token2id, позволяющая находить соответствие между ингредиентами и их индексами.

### Обучение модели
Вам может понадобиться [документация](https://radimrehurek.com/gensim/models/ldamodel.html) LDA в gensim.

__Задание 1.__ Обучите модель LDA с 40 темами, установив количество проходов по коллекции 5 и оставив остальные параметры по умолчанию. 


Затем вызовите метод модели *show_topics*, указав количество тем 40 и количество токенов 10, и сохраните результат (топы ингредиентов в темах) в отдельную переменную. Если при вызове метода *show_topics* указать параметр *formatted=True*, то топы ингредиентов будет удобно выводить на печать, если *formatted=False*, будет удобно работать со списком программно. Выведите топы на печать, рассмотрите темы, а затем ответьте на вопрос:

Сколько раз ингредиенты "salt", "sugar", "water", "mushrooms", "chicken", "eggs" встретились среди топов-10 всех 40 тем? При ответе __не нужно__ учитывать составные ингредиенты, например, "hot water".

Передайте 6 чисел в функцию save_answers1 и загрузите сгенерированный файл в форму.

У gensim нет возможности фиксировать случайное приближение через параметры метода, но библиотека использует numpy для инициализации матриц. Поэтому, по утверждению автора библиотеки, фиксировать случайное приближение нужно командой, которая написана в следующей ячейке. __Перед строкой кода с построением модели обязательно вставляйте указанную строку фиксации random.seed.__

In [124]:
np.random.seed(76543)
ldamodel = models.ldamodel.LdaModel(corpus, id2word=dictionary,num_topics=40,passes=5)


In [40]:
topics = ldamodel.show_topics(num_topics=40,formatted=False)

In [66]:
counter = {}
for i in range(len(topics)):
    for j in topics[i][1]:
        if j[0] in counter:
            counter[j[0]] += 1
        else:
            counter[j[0]] = 1
            
print counter

{'216': 1, '214': 1, '839': 1, '213': 1, '210': 1, '211': 1, '664': 1, '660': 1, '131': 1, '215': 1, '135': 1, '495': 1, '490': 1, '166': 1, '24': 1, '76': 1, '27': 3, '20': 7, '22': 1, '23': 1, '1075': 1, '28': 1, '29': 10, '289': 1, '345': 1, '540': 1, '938': 1, '162': 1, '451': 1, '280': 1, '349': 1, '68': 1, '1025': 1, '700': 1, '679': 1, '577': 1, '714': 1, '1099': 1, '711': 1, '710': 1, '651': 1, '1492': 1, '260': 1, '330': 1, '128': 1, '129': 1, '60': 1, '59': 11, '58': 1, '362': 1, '57': 2, '56': 1, '51': 1, '62': 1, '53': 1, '52': 9, '414': 1, '532': 1, '298': 1, '54': 1, '296': 1, '827': 1, '821': 1, '374': 1, '822': 1, '1085': 1, '318': 1, '1083': 1, '597': 1, '313': 1, '194': 3, '707': 1, '1124': 1, '701': 1, '315': 1, '192': 1, '114': 3, '117': 1, '116': 1, '397': 1, '110': 1, '113': 1, '112': 1, '279': 1, '81': 1, '86': 1, '118': 1, '204': 2, '1743': 1, '796': 1, '795': 1, '304': 1, '140': 1, '480': 1, '835': 1, '1852': 1, '141': 1, '525': 1, '3': 12, '1255': 1, '312': 2,

In [74]:
ingrs = ["salt", "sugar", "water", "mushrooms", "chicken", "eggs"]
num_ingrs = [dictionary.token2id[x] for x in ingrs]

ans1  = []
for i in num_ingrs:
    if str(i) in counter:
        ans1.append(counter[str(i)])
    else:
        ans1.append(0)

print ans1
    

[20, 9, 10, 0, 1, 2]


In [111]:
dictionary.token2id

{u'low-sodium fat-free chicken broth': 3067,
 u'sweetened coconut': 4351,
 u'baking chocolate': 4124,
 u'egg roll wrappers': 195,
 u'bottled low sodium salsa': 6280,
 u'vegan parmesan cheese': 1712,
 u'clam sauce': 5433,
 u'mahlab': 6168,
 u'(10 oz.) frozen chopped spinach, thawed and squeezed dry': 1987,
 u'figs': 1315,
 u'caramels': 3788,
 u'broiler': 3466,
 u'jalapeno chilies': 57,
 u'(15 oz.) refried beans': 5108,
 u'brioche buns': 5186,
 u'broccoli romanesco': 5876,
 u'flaked oats': 5836,
 u'anise extract': 2055,
 u'whole wheat pastry flour': 2194,
 u'ravva': 1404,
 u'bacon': 207,
 u'millet': 3209,
 u'country crock honey spread': 4572,
 u'matcha green tea powder': 325,
 u'chopped fresh thyme': 673,
 u'chicken gravy mix': 4786,
 u'walnut oil': 3608,
 u'Kraft Slim Cut Mozzarella Cheese Slices': 6703,
 u'fresh angel hair': 3628,
 u'salsify': 2727,
 u'galangal': 910,
 u'chicken schmaltz': 2331,
 u'butter crackers': 1469,
 u'jasmine': 2031,
 u'Bisquick Baking Mix': 3919,
 u'canned jala

In [75]:
def save_answers1(ans):
    with open("cooking_LDA_pa_task1.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in ans]))

In [76]:
save_answers1(ans1)

### Фильтрация словаря
В топах тем гораздо чаще встречаются первые три рассмотренных ингредиента, чем последние три. При этом наличие в рецепте курицы, яиц и грибов яснее дает понять, что мы будем готовить, чем наличие соли, сахара и воды. Таким образом, даже в рецептах есть слова, часто встречающиеся в текстах и не несущие смысловой нагрузки, и поэтому их не желательно видеть в темах. Наиболее простой прием борьбы с такими фоновыми элементами — фильтрация словаря по частоте. Обычно словарь фильтруют с двух сторон: убирают очень редкие слова (в целях экономии памяти) и очень частые слова (в целях повышения интерпретируемости тем). Мы уберем только частые слова.

In [144]:
import copy
dictionary2 = copy.deepcopy(dictionary)

__Задание 2.__ У объекта dictionary2 есть переменная *dfs* — это словарь, ключами которого являются id токена, а элементами — число раз, сколько слово встретилось во всей коллекции. Сохраните в отдельный список ингредиенты, которые встретились в коллекции больше 4000 раз. Вызовите метод словаря *filter_tokens*, подав в качестве первого аргумента полученный список популярных ингредиентов. Вычислите две величины: dict_size_before и dict_size_after — размер словаря до и после фильтрации.

Затем, используя новый словарь, создайте новый корпус документов, corpus2, по аналогии с тем, как это сделано в начале ноутбука. Вычислите две величины: corpus_size_before и corpus_size_after — суммарное количество ингредиентов в корпусе (для каждого документа вычислите число различных ингредиентов в нем и просуммируйте по всем документам) до и после фильтрации.

Передайте величины dict_size_before, dict_size_after, corpus_size_before, corpus_size_after в функцию save_answers2 и загрузите сгенерированный файл в форму.

In [145]:
frq_wrds = [x for x in dictionary2.dfs.keys() if dictionary2.dfs[x]>4000]
print frq_wrds

[3, 5, 11, 15, 18, 20, 29, 44, 52, 59, 104, 114]


In [146]:
dictionary2.filter_tokens(frq_wrds)
dict_size_before = len(dictionary)
dict_size_after = len(dictionary2)
print dict_size_before, dict_size_after

6714 6702


In [147]:
corpus2 = [dictionary2.doc2bow(text) for text in texts]

In [148]:
corpus_size_before, corpus_size_after = 0, 0
for i in corpus:
    corpus_size_before += len(i)
    
for i in corpus2:
    corpus_size_after += len(i)

print corpus_size_before, corpus_size_after

428249 343665


In [117]:
def save_answers2(dict_size_before, dict_size_after, corpus_size_before, corpus_size_after):
    with open("cooking_LDA_pa_task2.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [dict_size_before, dict_size_after, corpus_size_before, corpus_size_after]]))

In [118]:
save_answers2(dict_size_before, dict_size_after, corpus_size_before, corpus_size_after)

### Сравнение когерентностей
__Задание 3.__ Постройте еще одну модель по корпусу corpus2 и словарю dictionary2, остальные параметры оставьте такими же, как при первом построении модели. Сохраните новую модель в другую переменную (не перезаписывайте предыдущую модель). Не забудьте про фиксирование seed!

Затем воспользуйтесь методом *top_topics* модели, чтобы вычислить ее когерентность. Передайте в качестве аргумента соответствующий модели корпус. Метод вернет список кортежей (топ токенов, когерентность), отсортированных по убыванию последней. Вычислите среднюю по всем темам когерентность для каждой из двух моделей и передайте в функцию save_answers3. 

In [149]:
np.random.seed(76543)
ldamodel2 = models.ldamodel.LdaModel(corpus2, id2word=dictionary2,num_topics=40,passes=5)

In [150]:
prev_model = ldamodel.top_topics(corpus=corpus)
new_model = ldamodel2.top_topics(corpus=corpus2)

In [160]:
coh_prev = [x[1] for x in prev_model]
coh_new = [x[1] for x in new_model]
coherence = np.mean(coh_prev)
coherence2 = np.mean(coh_new)

In [167]:
print coherence2,coh_new

-8.27115001337 [-2.6908982227115876, -2.7343591781772321, -2.7737710451783952, -2.918380327259511, -3.1609015581501407, -3.1884206392938279, -3.7820034230857225, -3.8399285822623082, -3.8601681613242591, -4.0977545921446179, -4.4287502387558986, -4.8503966646272092, -5.544630148205429, -5.6769763116637888, -5.958438669138916, -6.568991669116131, -6.6351832535392568, -6.8689082635495504, -7.0345028433116781, -7.1738610251731023, -7.2909588295559056, -7.7327662268521182, -8.2699976172797882, -8.469686600961758, -8.7714152510691061, -9.2166777269525166, -9.4162656784479726, -10.18137339341598, -10.56378045992699, -11.841903605606685, -12.050700201682552, -12.183070337821087, -12.216058439304174, -13.807214410180885, -13.945970424974837, -14.056585072424511, -15.276951337868073, -15.897524398862041, -17.844271105595663, -18.025604599229514]


In [156]:
def save_answers3(coherence, coherence2):
    with open("cooking_LDA_pa_task3.txt", "w") as fout:
        fout.write(" ".join(["%3f"%el for el in [coherence, coherence2]]))

In [168]:
save_answers3(coherence,coherence2)

Считается, что когерентность хорошо соотносится с человеческими оценками интерпретируемости тем. Поэтому на больших текстовых коллекциях когерентность обычно повышается, если убрать фоновую лексику. Однако в нашем случае этого не произошло. 

### Изучение влияния гиперпараметра alpha

В этом разделе мы будем работать со второй моделью, то есть той, которая построена по сокращенному корпусу. 

Пока что мы посмотрели только на матрицу темы-слова, теперь давайте посмотрим на матрицу темы-документы. Выведите темы для нулевого (или любого другого) документа из корпуса, воспользовавшись методом *get_document_topics* второй модели:

In [184]:
ldamodel2.get_document_topics(corpus2)[0]

[(25, 0.128125), (30, 0.13294676), (31, 0.62330329)]

Также выведите содержимое переменной *.alpha* второй модели:

In [185]:
ldamodel2.alpha

array([ 0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,
        0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,
        0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,
        0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,
        0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025,  0.025], dtype=float32)

У вас должно получиться, что документ характеризуется небольшим числом тем. Попробуем поменять гиперпараметр alpha, задающий априорное распределение Дирихле для распределений тем в документах.

__Задание 4.__ Обучите третью модель: используйте сокращенный корпус (corpus2 и dictionary2) и установите параметр __alpha=1__, passes=5. Не забудьте про фиксацию seed! Выведите темы новой модели для нулевого документа; должно получиться, что распределение над множеством тем практически равномерное. Чтобы убедиться в том, что во второй модели документы описываются гораздо более разреженными распределениями, чем в третьей, посчитайте суммарное количество элементов, __превосходящих 0.01__, в матрицах темы-документы обеих моделей. Другими словами, запросите темы  модели для каждого документа с параметром *minimum_probability=0.01* и просуммируйте число элементов в получаемых массивах. Передайте две суммы (сначала для модели с alpha по умолчанию, затем для модели в alpha=1) в функцию save_answers4.

In [186]:
np.random.seed(0)
ldamodel3 = models.ldamodel.LdaModel(corpus=corpus2,id2word=dictionary2,num_topics=40,passes=5,alpha=1)

In [195]:
num_el_3, num_el_2 = 0,0
for i in ldamodel3.get_document_topics(corpus2,minimum_probability=0.01):
    num_el_3 += len(i)
for i in ldamodel2.get_document_topics(corpus2,minimum_probability=0.01):
    num_el_2 += len(i)
print num_el_2,num_el_3

198601 1590960


In [196]:
def save_answers4(count_model2, count_model3):
    with open("cooking_LDA_pa_task4.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [count_model2, count_model3]]))

In [197]:
save_answers4(num_el_2,num_el_3)

Таким образом, гиперпараметр __alpha__ влияет на разреженность распределений тем в документах. Аналогично гиперпараметр __eta__ влияет на разреженность распределений слов в темах.

### LDA как способ понижения размерности
Иногда, распределения над темами, найденные с помощью LDA, добавляют в матрицу объекты-признаки как дополнительные, семантические, признаки, и это может улучшить качество решения задачи. Для простоты давайте просто обучим классификатор рецептов на кухни на признаках, полученных из LDA, и измерим точность (accuracy).

__Задание 5.__ Используйте модель, построенную по сокращенной выборке с alpha по умолчанию (вторую модель). Составьте матрицу $\Theta = p(t|d)$ вероятностей тем в документах; вы можете использовать тот же метод get_document_topics, а также вектор правильных ответов y (в том же порядке, в котором рецепты идут в переменной recipes). Создайте объект RandomForestClassifier со 100 деревьями, с помощью функции cross_val_score вычислите среднюю accuracy по трем фолдам (перемешивать данные не нужно) и передайте в функцию save_answers5.

In [199]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

In [200]:
ldamodel2.get_document_topics(corpus2)[0]

[(25, 0.128125), (30, 0.13295105), (31, 0.623299)]

In [201]:
recipes

[{u'cuisine': u'greek',
  u'id': 10259,
  u'ingredients': [u'romaine lettuce',
   u'black olives',
   u'grape tomatoes',
   u'garlic',
   u'pepper',
   u'purple onion',
   u'seasoning',
   u'garbanzo beans',
   u'feta cheese crumbles']},
 {u'cuisine': u'southern_us',
  u'id': 25693,
  u'ingredients': [u'plain flour',
   u'ground pepper',
   u'salt',
   u'tomatoes',
   u'ground black pepper',
   u'thyme',
   u'eggs',
   u'green tomatoes',
   u'yellow corn meal',
   u'milk',
   u'vegetable oil']},
 {u'cuisine': u'filipino',
  u'id': 20130,
  u'ingredients': [u'eggs',
   u'pepper',
   u'salt',
   u'mayonaise',
   u'cooking oil',
   u'green chilies',
   u'grilled chicken breasts',
   u'garlic powder',
   u'yellow onion',
   u'soy sauce',
   u'butter',
   u'chicken livers']},
 {u'cuisine': u'indian',
  u'id': 22213,
  u'ingredients': [u'water', u'vegetable oil', u'wheat', u'salt']},
 {u'cuisine': u'indian',
  u'id': 13162,
  u'ingredients': [u'black pepper',
   u'shallots',
   u'cornflour',

In [None]:
def save_answers5(accuracy):
     with open("cooking_LDA_pa_task5.txt", "w") as fout:
        fout.write(str(accuracy))

Для такого большого количества классов это неплохая точность. Вы можете попроовать обучать RandomForest на исходной матрице частот слов, имеющей значительно большую размерность, и увидеть, что accuracy увеличивается на 10–15%. Таким образом, LDA собрал не всю, но достаточно большую часть информации из выборки, в матрице низкого ранга.

### LDA — вероятностная модель
Матричное разложение, использующееся в LDA, интерпретируется как следующий процесс генерации документов.

Для документа $d$ длины $n_d$:
1. Из априорного распределения Дирихле с параметром alpha сгенерировать распределение над множеством тем: $\theta_d \sim Dirichlet(\alpha)$
1. Для каждого слова $w = 1, \dots, n_d$:
    1. Сгенерировать тему из дискретного распределения $t \sim \theta_{d}$
    1. Сгенерировать слово из дискретного распределения $w \sim \phi_{t}$.
    
Подробнее об этом в [Википедии](https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation).

В контексте нашей задачи получается, что, используя данный генеративный процесс, можно создавать новые рецепты. Вы можете передать в функцию модель и число ингредиентов и сгенерировать рецепт :)

In [None]:
def generate_recipe(model, num_ingredients):
    theta = np.random.dirichlet(model.alpha)
    for i in range(num_ingredients):
        t = np.random.choice(np.arange(model.num_topics), p=theta)
        topic = model.show_topic(t, topn=model.num_terms)
        topic_distr = [x[1] for x in topic]
        terms = [x[0] for x in topic]
        w = np.random.choice(terms, p=topic_distr)
        print w

### Интерпретация построенной модели
Вы можете рассмотреть топы ингредиентов каждой темы. Большиснтво тем сами по себе похожи на рецепты; в некоторых собираются продукты одного вида, например, свежие фрукты или разные виды сыра.

Попробуем эмпирически соотнести наши темы с национальными кухнями (cuisine). Построим матрицу $A$ размера темы $x$ кухни, ее элементы $a_{tc}$ — суммы $p(t|d)$ по всем документам $d$, которые отнесены к кухне $c$. Нормируем матрицу на частоты рецептов по разным кухням, чтобы избежать дисбаланса между кухнями. Следующая функция получает на вход объект модели, объект корпуса и исходные данные и возвращает нормированную матрицу $A$. Ее удобно визуализировать с помощью seaborn.

In [None]:
import pandas
import seaborn
from matplotlib import pyplot as plt
%matplotlib inline

In [None]:
def compute_topic_cuisine_matrix(model, corpus, recipes):
    # составляем вектор целевых признаков
    targets = list(set([recipe["cuisine"] for recipe in recipes]))
    # составляем матрицу
    tc_matrix = pandas.DataFrame(data=np.zeros((model.num_topics, len(targets))), columns=targets)
    for recipe, bow in zip(recipes, corpus):
        recipe_topic = model.get_document_topics(bow)
        for t, prob in recipe_topic:
            tc_matrix[recipe["cuisine"]][t] += prob
    # нормируем матрицу
    target_sums = pandas.DataFrame(data=np.zeros((1, len(targets))), columns=targets)
    for recipe in recipes:
        target_sums[recipe["cuisine"]] += 1
    return pandas.DataFrame(tc_matrix.values/target_sums.values, columns=tc_matrix.columns)

In [None]:
def plot_matrix(tc_matrix):
    plt.figure(figsize=(10, 10))
    seaborn.heatmap(tc_matrix, square=True)

In [None]:
# Визуализируйте матрицу


Чем темнее квадрат в матрице, тем больше связь этой темы с данной кухней. Мы видим, что у нас есть темы, которые связаны с несколькими кухнями. Такие темы показывают набор ингредиентов, которые популярны в кухнях нескольких народов, то есть указывают на схожесть кухонь этих народов. Некоторые темы распределены по всем кухням равномерно, они показывают наборы продуктов, которые часто используются в кулинарии всех стран. 

Жаль, что в датасете нет названий рецептов, иначе темы было бы проще интерпретировать...

### Заключение
В этом задании вы построили несколько моделей LDA, посмотрели, на что влияют гиперпараметры модели и как можно использовать построенную модель. 