# Programming Assignment
## Готовим LDA по рецептам

Как вы уже знаете, в тематическом моделировании делается предположение о том, что для определения тематики порядок слов в документе не важен; об этом гласит гипотеза <<мешка слов>>. Сегодня мы будем работать с несколько нестандартной для тематического моделирования коллекцией, которую можно назвать <<мешком ингредиентов>>, потому что на состоит из рецептов блюд разных кухонь. Тематические модели ищут слова, которые часто вместе встречаются в документах, и составляют из них темы. Мы попробуем применить эту идею к рецептам и найти кулинарные <<темы>>. Эта коллекция хороша тем, что не требует предобработки. Кроме того, эта задача достаточно наглядно иллюстрирует принцип работы тематических моделей.

Для выполнения заданий, помимо часто используемых в курсе библиотек, потребуются модули json и gensim. Первый входит в дистрибутив Anaconda, второй можно поставить командой 

pip install gensim

Построение модели занимает некоторое время. На ноутбуке с процессором Intel Core i7 и тактовой частотой 2400 МГц на построение одной модели уходит менее 10 минут.

### Загрузка данных

Коллекция дана в json-формате: для каждого рецепта известны его id, кухня ("cuisine") и список ингредиентов, в него входящих. Загрузить данные можно с помощью модуля json (он входит в дистрибутив Anaconda):

In [1]:
import json

In [2]:
with open("recipes.json") as f:
    recipes = json.load(f)

In [3]:
# print(recipes[0])

### Составление корпуса

In [4]:
from gensim import corpora, models
import numpy as np

Наша коллекция небольшая и влезает в оперативную память. Gensim может работать с такими данными и не требует их сохранения на диск в специальном формате. Для этого коллекция должна быть представлена в виде списка списков, каждый внутренний список соответствует отдельному документу и состоит из его слов. Пример коллекции из двух документов: 

[["hello", "world"], ["programming", "in", "python"]]

Преобразуем наши данные в такой формат, а затем создадим объекты corpus и dictionary, с которыми будет работать модель.

In [5]:
texts = [recipe["ingredients"] for recipe in recipes]
dictionary = corpora.Dictionary(texts)   # составляем словарь
corpus = [dictionary.doc2bow(text) for text in texts]  # составляем корпус документов

In [6]:
# i = dictionary.token2id['pepper']
# print(i)
# dictionary.id2token[i]
# dictionary.token2id
# texts
test_text = [['romaine lettuce',
  'black olives',
  'grape tomatoes',
  'garlic',
  'pepper',
  'purple onion',
  'seasoning',
  'garbanzo beans',
  'feta cheese crumbles'],
 ['plain flour',
  'ground pepper',
  'salt',
  'tomatoes',
  'ground black pepper',
  'thyme',
  'eggs',
  'green tomatoes',
  'yellow corn meal',
  'milk']]

test_dictionary = corpora.Dictionary(test_text) 
test_dictionary.id2token


{}

In [7]:
print(texts[0])
print(corpus[0])

[u'romaine lettuce', u'black olives', u'grape tomatoes', u'garlic', u'pepper', u'purple onion', u'seasoning', u'garbanzo beans', u'feta cheese crumbles']
[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1)]


У объекта dictionary есть две полезных переменных: dictionary.id2token и dictionary.token2id; эти словари позволяют находить соответствие между ингредиентами и их индексами.

### Обучение модели
Вам может понадобиться [документация](https://radimrehurek.com/gensim/models/ldamodel.html) LDA в gensim.

__Задание 1.__ Обучите модель LDA с 40 темами, установив количество проходов по коллекции 5 и оставив остальные параметры по умолчанию. Затем вызовите метод модели show_topics, указав количество тем 40 и количество токенов 10, и сохраните результат (топы ингредиентов в темах) в отдельную переменную. Если при вызове метода show_topics указать параметр formatted=True, то топы ингредиентов будет удобно выводить на печать, если formatted=False, будет удобно работать со списком программно. Выведите топы на печать, рассмотрите темы, а затем ответьте на вопрос:

Сколько раз ингредиенты "salt", "sugar", "water", "mushrooms", "chicken", "eggs" встретились среди топов-10 тем? При ответе __не нужно__ учитывать составные ингредиенты, например, "hot water".

Передайте 6 чисел в функцию save_answers1 и загрузите сгенерированный файл в форму.

У gensim нет возможности фиксировать случайное приближение через параметры метода, но библиотека использует numpy для инициализации матриц. Поэтому, по утверждению автора библиотеки, фиксировать случайное приближение нужно командой, которая написана в следующей ячейке. __Перед строкой кода с построением модели обязательно вставляйте указанную строку фиксации random.seed.__

In [14]:
import numpy
numpy.__version__

'1.11.0'

In [11]:
##Floatdrop:
np.random.seed(76543)
import copy
dictionary2 = copy.deepcopy(dictionary)
over4000 = [k for k,v in dictionary.dfs.items() if v > 4000]
dictionary2.filter_tokens(over4000)
corpus2 = [dictionary2.doc2bow(text) for text in texts]  # составляем корпус документов
# lda  = models.LdaModel(corpus, num_topics=40, passes=5)
lda2 = models.LdaModel(corpus2, num_topics=40, passes=5)
# coherence = lda.top_topics(corpus)
coherence2 = lda2.top_topics(corpus2)
# c1 = np.average([c[1] for c in coherence])
# c2 = np.average([c[1] for c in coherence2])
c1 = 0
c2 = np.array(coherence2[:,1]).mean()
print("%3f %3f" %(c1, c2))

TypeError: list indices must be integers, not tuple

In [12]:
c1 = 0
c2 = np.array(coherence2)[:,1].mean()
print("%3f %3f" %(c1, c2))

0.000000 -668.258775


In [13]:
np.average([c[1] for c in coherence2])

-668.25877450753126

In [15]:
np.random.seed(76543)
# здесь код для построения модели:
lda = models.LdaModel(corpus=corpus, num_topics=40, passes=5)
# lda = models.LdaModel(corpus=corpus, num_topics=40, iterations=5)

In [16]:
top = lda.show_topics(num_topics=40, num_words=10, log=False, formatted=False)
top

[(0,
  [('17', 0.082725546797489391),
   ('116', 0.080315765339626533),
   ('100', 0.079497577421526855),
   ('54', 0.063701738565159538),
   ('279', 0.063698834149618494),
   ('119', 0.035428696876100417),
   ('307', 0.034279080876904885),
   ('29', 0.034236340577608278),
   ('38', 0.033008901590063464),
   ('12', 0.031967658022379206)]),
 (1,
  [('195', 0.1301630328824499),
   ('45', 0.07742758767320175),
   ('178', 0.052235425972973433),
   ('124', 0.04311400910741036),
   ('211', 0.03975648683471391),
   ('29', 0.038824867680195226),
   ('958', 0.03651279483658941),
   ('705', 0.031274197021606727),
   ('17', 0.029083608761412482),
   ('1493', 0.025696170959706201)]),
 (2,
  [('770', 0.065976910937656216),
   ('830', 0.046548563175849753),
   ('1338', 0.04559577697003106),
   ('480', 0.044639430969227956),
   ('3', 0.044296605936575029),
   ('1637', 0.039024793030259783),
   ('816', 0.034564495735168059),
   ('806', 0.032915117949667574),
   ('117', 0.029791949970061241),
   ('1201

In [17]:
words = ["salt", "sugar", "water", "mushrooms", "chicken", "eggs"]
wordsid = [str(dictionary.token2id[i]) for i in words]
# dictionary.id2token[0]
# dictionary.token2id['sugar']
data = [i[1] for i in top]
data = np.array(data)
# data[0][:,0]
occur = data[:,:,0].flatten()
# data.reshape((40, 10))
occur
# wordsid

array(['17', '116', '100', '54', '279', '119', '307', '29', '38', '12',
       '195', '45', '178', '124', '211', '29', '958', '705', '17', '1493',
       '770', '830', '1338', '480', '3', '1637', '816', '806', '117',
       '1201', '41', '207', '17', '383', '0', '45', '155', '29', '425',
       '397', '200', '20', '17', '39', '45', '348', '183', '236', '216',
       '12', '46', '17', '113', '183', '54', '45', '4', '39', '100', '127',
       '51', '366', '310', '494', '387', '541', '373', '249', '52', '511',
       '557', '76', '112', '54', '17', '358', '100', '190', '193', '141',
       '23', '471', '17', '456', '29', '352', '1286', '1090', '1255',
       '1040', '83', '45', '4', '478', '17', '229', '321', '230', '345',
       '54', '12', '990', '204', '504', '114', '21', '514', '624', '17',
       '117', '58', '17', '110', '74', '4', '8', '54', '839', '111', '46',
       '536', '569', '1044', '530', '7', '1743', '600', '876', '8', '1043',
       '272', '577', '246', '201', '520', '33'

In [26]:
##eigenein's method:
# ans = [0] * 6
# wordsid = {str(dictionary.token2id[i]):0 for i in words}
# for w in occur:
#     if w in wordsid:
#         wordsid[w] += 1

# ans = [0] * 6
# wordsid = {str(dictionary.token2id[i]) for i in words}
# for w in occur:
#     for i, wordid in enumerate(wordsid):
    

# wordsid
import collections
wordsid = [str(dictionary.token2id[i]) for i in words]
dat = collections.Counter(occur)
ans = [dat[i] for i in wordsid]
ans

[20, 7, 10, 1, 1, 2]

In [13]:
# ['14', '50', '29', '85', '734', '11']
ans = [0 for _ in range(6)]
for w in occur:
    for i in range(len(wordsid)):
        if w == wordsid[i]:
            ans[i] += 1
# for i in occur:
#     if i == '11':
#         print(i)
ans

[20, 7, 10, 1, 1, 2]

In [None]:
# dictionary.id2token[1]
#['15', '47', '29', '87', '734', '19']
#[21, 9, 7, 0, 0, 2]
# wordsid
# dictionary.id2token[11]
#py3: [20, 8, 8, 0, 1, 2]; [21, 9, 9, 0, 1, 3]
#THIS IS THE CORRECT ANSWER:
#[20, 7, 10, 1, 1, 2]

In [None]:
def save_answers1(c_salt, c_sugar, c_water, c_mushrooms, c_chicken, c_eggs):
    with open("cooking_LDA_pa_task1_upd2.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [c_salt, c_sugar, c_water, c_mushrooms, c_chicken, c_eggs]]))

In [None]:
save_answers1(20, 7, 10, 1, 1, 2)

### Фильтрация словаря
В топах тем гораздо чаще встречаются первые три рассмотренных ингредиента, чем последние три. При этом наличие в рецепте курицы, яиц и грибов яснее дает понять, что мы будем готовить, чем наличие соли, сахара и воды. Таким образом, даже в рецептах есть слова, часто встречающиеся в текстах и не несущие смысловой нагрузки, и поэтому их не желательно видеть в темах. Наиболее простой прием борьбы с такими фоновыми элементами - фильтрация словаря по частоте. Обычно словарь фильтруют с двух сторон: убирают очень редкие слова (в целях экономии памяти) и очень частые слова (в целях повышения интерпретируемости тем). Мы уберем только частые слова.

In [None]:
import copy
dictionary2 = copy.deepcopy(dictionary)
# dictionary2.id2token[2]
dictionary2.token2id['salt']
dictionary.dfs
# dictionary2.id2token[16]

In [None]:
dictionary.id2token[2]

__Задание 2.__ У объекта dictionary2 есть переменная dfs - это словарь, ключами которого являются id токена, а элементами - число раз, сколько слово встретилось во всей коллекции. Сохраните в отдельный список ингредиенты, которые встретились в коллекции больше 4000 раз. Вызовите метод словаря filter_tokens, подав в качестве первого аргумента полученный список популярных ингредиентов. Вычислите две величины: dict_size_before и dict_size_after - размер словаря до и после фильтрации.

Затем, используя новый словарь, создайте новый корпус документов, corpus2, по аналогии с тем, как это сделано в начале ноутбука. Вычислите две величины: corpus_size_before и corpus_size_after - суммарное количество ингредиентов в корпусе до и после фильтрации.

Передайте величины dict_size_before, dict_size_after, corpus_size_before, corpus_size_after в функцию save_answers2 и загрузите сгенерированный файл в форму.

In [None]:
dict_before = len(dictionary2.dfs)
good = [i for i in dictionary2.dfs.keys() if dictionary2.dfs[i] > 4000]
# print(good)
# print([dictionary2.id2token[i] for i in good])

dictionary2.filter_tokens(good)
dict_after = len(dictionary2.dfs)


In [None]:
print(dict_before, dict_after)

In [None]:
# corpus = [dictionary.doc2bow(text) for text in texts]
# corpus_before = len(corpus)
corpus_before = np.sum([len(i) for i in corpus])

corpus2 = [dictionary2.doc2bow(text) for text in texts]
corpus_after = np.sum([len(i) for i in corpus2])

In [None]:
# print(corpus_before, corpus_after)
print(corpus_before, corpus_after)

In [None]:
def save_answers2(dict_size_before, dict_size_after, corpus_size_before, corpus_size_after):
    with open("cooking_LDA_pa_task2.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [dict_size_before, dict_size_after, corpus_size_before, corpus_size_after]]))
        
save_answers2(dict_before, dict_after, corpus_before, corpus_after)        

### Сравнение когерентностей
__Задание 3.__ Постройте еще одну модель по корпусу corpus2 и словарю dictioanary2, остальные параметры оставьте такими же, как при первом построении модели. Сохраните новую модель в другую переменную (не перезаписывайте предыдущую модель). Не забудьте про фиксирование seed!

Затем воспользуйтесь методом top_topics модели, чтобы вычислить ее когерентность. Передайте в качестве аргумента соответствующий модели корпус. Метод вернет список кортежей (топ токенов, когерентность), отсортированных по убыванию последней. Вычислите среднюю по всем темам когерентность для каждой из двух моделей и передайте в функцию save_answers3. 

In [None]:
np.random.seed(76543)
lda2 = models.LdaModel(corpus=corpus2, num_topics=40, iterations=50, passes=5)

In [None]:
coher2 = lda2.top_topics(corpus2)

In [None]:
coher2 = np.array(coher2)
c2 = coher2[:,1].mean()
c2


In [None]:
coher1 = lda.top_topics(corpus)

In [None]:
coher1 = np.array(coher1)
c1 = coher1[:,1].mean()
c1

In [None]:
def save_answers3(coherence, coherence2):
    with open("cooking_LDA_pa_task3.txt", "w") as fout:
        fout.write(" ".join(["%3f"%el for el in [coherence, coherence2]]))
save_answers3(c1, c2)        

Считается, что когерентность хорошо соотносится с человеческими оценками интерпретируемости тем. Поэтому на больших текстовых коллекциях когерентность обычно повышается, если убрать фоновую лексику. Однако в нашем случае этого не произошло. 

### Изучение влияния гиперпараметра alpha

В этом разделе мы будем работать со второй моделью, то есть той, которая построена по сокращенному корпусу. 

Пока что мы посмотрели только на матрицу темы-слова, теперь давайте посмотрим на матрицу темы-документы. Выведите темы для нулевого (или любого другого) документа из корпуса, воспользовавшись методом get_document_topics второй модели:

In [None]:
lda2.get_document_topics(corpus2[0])
# lda2

Также выведите содержимое переменной .alpha второй модели:

In [None]:
lda2.alpha

У вас должно получиться, что документ характеризуется небольшим числом тем. Попробуем поменять гиперпараметр alpha, задающий априорное распределение Дирихле для распределений тем в документах.

__Задание 4.__ Обучите третью модель: используйте сокращенный корпус (corpus2 и dictionary2) и установите параметр __alpha=1__, passes=5. Не забудьте про фиксацию seed! Выведите темы новой модели для нулевого документа; должно получиться, что распределение над множеством тем практически равномерное. Чтобы убедиться в том, что во второй модели документы описываются гораздо более разреженными распределениями, чем в третьей, посчитайте суммарное количество элементов, __превосходящих 0.01__, в матрицах темы-документы обеих моделей. Другими словами, запросите темы  модели для каждого документа с параметром minimum_probability=0.01 и просуммируйте число элементов в получаемых массивах. Передайте две суммы (сначала для модели с alpha по умолчанию, затем для модели в alpha=1) в функцию save_answers4.

In [None]:
mod2 = 0
for c in corpus2:
    p = lda2.get_document_topics(c, minimum_probability=0.01)
    mod2 += len(p)
    

In [None]:
mod2

In [None]:
np.random.seed(76543)
lda3 = models.LdaModel(corpus=corpus2, num_topics=40, passes=5, alpha=1)

In [None]:
mod3 = 0
for c in corpus2:
    p = lda3.get_document_topics(c, minimum_probability=0.01)
    mod3 += len(p)
mod3    

In [None]:
def save_answers4(count_model2, count_model3):
    with open("cooking_LDA_pa_task4.txt", "w") as fout:
        fout.write(" ".join([str(el) for el in [count_model2, count_model3]]))

In [None]:
save_answers4(mod2, mod3)

Таким образом, гиперпараметр alpha влияет на разреженность распределений тем в документах. Аналогично гиперпараметр eta влияет на разреженность распределений слов в темах.

### LDA как способ понижения размерности
Иногда распределения над темами, найденные с помощью LDA, добавляют в матрицу объекты-признаки как дополнительные, семантические, признаки, и это может улучшить качество решения задачи. Для простоты давайте просто обучим классификатор рецептов на кухни на признаках, полученных из LDA, и измерим точность (accuracy).

__Задание 5.__ Используйте модель, построенную по сокращенной выборке с alpha по умолчанию (вторую модель). Составьте матрицу $\Theta = p(t|d)$ вероятностей тем в документах; вы можете использовать тот же метод get_document_topics, а также вектор правильных ответов y (в том же порядке, в котором рецепты идут в переменной recipes). Создайте объект RandomForestClassifier со 100 деревьями, с помощью функции cross_val_score вычислите среднюю accuracy по трем фолдам (перемешивать данные не нужно) и передайте в функцию save_answers5.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.cross_validation import cross_val_score

In [None]:
y = [rec['cuisine'] for rec in recipes]
len(y)

In [None]:
# len(lda2.get_document_topics(corpus2, minimum_probability=0.01))
t = lda2.get_document_topics(corpus2[10])
t

In [None]:
for i in t:
    print i[0], i[1]

In [None]:
X = np.zeros((len(corpus2), len(dictionary2)))

In [None]:
for i in range(len(corpus2)):
    topics = lda2.get_document_topics(corpus2[i])
    for t in topics:
        X[i][t[0]] += t[1]


In [None]:
clf = RandomForestClassifier(n_estimators=100)
scores = cross_val_score(clf, X, y, scoring='accuracy')

In [None]:
scores

In [None]:
scores.mean()

In [None]:
def save_answers5(accuracy):
     with open("cooking_LDA_pa_task5.txt", "w") as fout:
        fout.write(str(accuracy))
save_answers5(scores.mean())

Для такого большого количества классов это неплохая точность. Вы можете попроовать обучать RandomForest на исходной матрице частот слов, имеющей значительно большую размерность, и увидеть, что accuracy увеличивается на 10-15%. Таким образом, LDA собрал не всю, но достаточно большую часть информации из выборки, в матрице низкого ранга.

### LDA --- вероятностная модель
Матричное разложение, использующееся в LDA, интерпретируется как следующий процесс генерации документов.

Для документа $d$ длины $n_d$:
1. Из априорного распределения Дирихле с параметром alpha сгенерировать распределение над множеством тем: $\theta_d \sim Dirichlet(\alpha)$
1. Для каждого слова $w = 1, \dots, n_d$:
    1. Сгенерировать тему из дискретного распределения $t \sim \theta_{d}$
    1. Сгенерировать слово из дискретного распределения $w \sim \phi_{t}$.
    
Подробнее об этом в [Википедии](https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation).

В контексте нашей задачи получается, что, используя данный генеративный процесс, можно создавать новые рецепты. Вы можете передать в функцию модель и число ингредиентов и сгенерировать рецепт :)

In [None]:
def generate_recipe(model, num_ingredients):
    theta = np.random.dirichlet(model.alpha)
    for i in range(num_ingredients):
        t = np.random.choice(np.arange(model.num_topics), p=theta)
        topic = model.show_topic(0, topn=model.num_terms)
        topic_distr = [x[1] for x in topic]
        terms = [x[0] for x in topic]
        w = np.random.choice(terms, p=topic_distr)
        print w

### Интерпретация построенной модели
Вы можете рассмотреть топы ингредиентов каждой темы. Большиснтво тем сами по себе похожи на рецепты; в некоторых собираются продукты одного вида, например, свежие фрукты или разные виды сыра.

Попробуем эмпирически соотнести наши темы с национальными кухнями (cuisine). Построим матрицу A размера темы x кухни, ее элементы $a_{tc}$ - суммы p(t|d) по всем документам d, которые отнесены к кухне c. Нормируем матрицу на частоты рецептов по разным кухням, чтобы избежать дисбаланса между кухнями. Следующая функция получает на вход объект модели, объект корпуса и исходные данные и возвращает нормированную матрицу A. Ее удобно визуализировать с помощью seaborn.

In [None]:
import pandas
import seaborn
from matplotlib import pyplot as plt
%matplotlib inline

In [None]:
def compute_topic_cuisine_matrix(model, corpus, recipes):
    # составляем вектор целевых признаков
    targets = list(set([recipe["cuisine"] for recipe in recipes]))
    # составляем матрицу
    tc_matrix = pandas.DataFrame(data=np.zeros((model.num_topics, len(targets))), columns=targets)
    for recipe, bow in zip(recipes, corpus):
        recipe_topic = model.get_document_topics(bow)
        for t, prob in recipe_topic:
            tc_matrix[recipe["cuisine"]][t] += prob
    # нормируем матрицу
    target_sums = pandas.DataFrame(data=np.zeros((1, len(targets))), columns=targets)
    for recipe in recipes:
        target_sums[recipe["cuisine"]] += 1
    return pandas.DataFrame(tc_matrix.values/target_sums.values, columns=tc_matrix.columns)

In [None]:
def plot_matrix(tc_matrix):
    plt.figure(figsize=(10, 10))
    seaborn.heatmap(tc_matrix, square=True)

In [None]:
# Визуализируйте матрицу


Чем темнее квадрат в матрице, тем больше связь этой темы с данной кухней. Мы видим, что у нас есть темы, которые связаны с несколькими кухнями. Такие темы показывают набор ингредиентов, которые популярны в кухнях нескольких народов, то есть указывают на схожесть кухонь этих народов. Некоторые темы распределены по всем кухням равномерно, они показывают наборы продуктов, которые часто используются в кулинарии всех стран. 

Жаль, что в датасете нет названий рецептов, иначе темы было бы проще интерпретировать...

### Заключение
В этом задании вы построили несколько моделей LDA, посмотрели, на что влияют гиперпараметры модели и как можно использовать построенную модель. 