In [1]:
import pickle as pkl
import math
from tqdm import tqdm

In [2]:
with open('Matrix Absolute Nonsmooth.pkl', 'rb') as m1:
    wout_smoothing = pkl.load(m1)
m1.close()

In [3]:
with open('Matrix Absolute Add2 Lessthan0.01.pkl', 'rb') as m2:
    with_smoothing = pkl.load(m2)
m2.close()

In [4]:
def p_wc(word, context_word, counts, total_counts):
    return counts[word][context_word] / total_counts

In [5]:
def p_w(word, counts, total_counts):
    return sum(counts[word].values()) / total_counts

In [6]:
def p_c(context_word, counts, total_counts):
    return sum(freqs.get(context_word, 0) for freqs in counts.values()) / total_counts

In [7]:
def pmi(word, context_word, counts, total_counts):
    ans = (p_wc(word, context_word, counts, total_counts) /
          (p_w(word, counts, total_counts) * p_c(context_word, counts, total_counts)))
    if ans:
        return math.log2(ans)
    else:
        return 0

In [8]:
def ppmi(word, context_word, counts, total_counts):
    ans = pmi(word, context_word, counts, total_counts)
    return ans if ans > 0 else 0

In [9]:
def get_total_counts(counts):
    """counts is a dict of dicts"""
    return sum([sum(vals.values()) for vals in counts.values()])

In [10]:
def build_matrix(counts):
    total_counts = get_total_counts(counts)
    total_words = len(counts)
    print('working out PPMI')
    for w, contexts in tqdm(counts.items()):
        for c in contexts:
            counts[w][c] = ppmi(w, c, counts, total_counts)
    print('done with PPMI')
    return counts

In [11]:
smoothppmi = build_matrix(with_smoothing)

working out PPMI


100%|█████████████████████████████████████| 2408/2408 [00:11<00:00, 213.94it/s]


done with PPMI


In [12]:
with open('PPMIs Add-2 0.01.pkl', 'wb') as p1:
    pkl.dump(smoothppmi, p1)
p1.close()

In [13]:
def rank_words(counts):
    mean_ppmi = {}
    top_ppmi = {}
    for w, contexts in counts.items():
        vals = list(contexts.values())
        mean_ppmi[w] = sum(vals) / len(vals)
        top_ppmi[w] = max(vals)
    order_mean = sorted(mean_ppmi, key=mean_ppmi.get, reverse=True)
    order_top = sorted(top_ppmi, key=top_ppmi.get, reverse=True)
  #  print(order_mean, file=open('words by mean ppmi no lem.txt', 'w', encoding='utf-8'))
  #  print(order_top, file=open('words by top ppmi no lem.txt', 'w', encoding='utf-8'))
    return order_top

In [14]:
categs = ['anime', 'art', 'books', 'films', 'food', 'football', 'games', 'music', 'nature', 'travel']

In [15]:
anime_ppmi = {}
for w, contexts in smoothppmi.items():
    anime_ppmi[w] = contexts['anime']
anime_top_threehundred = sorted(anime_ppmi, key = anime_ppmi.get, reverse=True)[:300]
print(anime_top_threehundred)

['мультфильм', 'сейя', 'бибоп', 'аниме', 'наруто', 'девочка', 'нарута', 'пересмотреть', 'евангелиона', 'анимэ', 'хентай', 'зацепить', 'манга', 'опенинг', 'дворецкий', 'синкай', 'саба', 'эстетика', 'смотреть', 'овашка', 'анимешник', 'блич', 'краска', 'гиас', 'жанр', 'повседневность', 'школьный', 'призрак', 'полнометражка', 'полнометражный', 'нарисованный', 'тетрадь', 'просмотр', 'досмотреть', 'рисовка', 'созданный', 'анимешный', 'миядзака', 'экранизация', 'студия', 'приём', 'кадр', 'глаз', 'показаться', 'эпизод', 'фансервис', 'акир', 'арка', 'арт', 'японский', 'тайтл', 'тетрадка', 'сенэн', 'культура', 'сестра', 'ходячий', 'мех', 'добрый', 'унесённый', 'рисовать', 'япония', 'концовка', 'выбраться', 'шишкин', 'подойти', 'туалет', 'скрытый', 'эстетический', 'ван', 'палец', 'оставить', 'семь', 'ева', 'седзе', 'боевой', 'особо', 'верный', 'потрясающий', 'анимешка', 'мастерская', 'японец', 'алхимик', 'достоинство', 'голливудский', 'классик', 'лайт', 'эльфийский', 'туристический', 'ирония', 'п

In [16]:
art_ppmi = {}
for w, contexts in smoothppmi.items():
    art_ppmi[w] = contexts['art']
art_top_threehundred = sorted(art_ppmi, key = art_ppmi.get, reverse=True)[:300]
print(art_top_threehundred)

['живопись', 'репина', 'краска', 'рембрандт', 'мастерская', 'врубель', 'картина', 'дюрер', 'шишкин', 'рисовальщик', 'импрессионизм', 'холст', 'скульптор', 'рельеф', 'эстетика', 'рисовать', 'айвазовский', 'цветовой', 'живописец', 'глазунов', 'магритта', 'архитектор', 'шилов', 'сальвадор', 'эстетический', 'босха', 'современник', 'соцреализм', 'декоративный', 'иллюстрация', 'леонардо', 'античный', 'гога', 'скульптура', 'нарисованный', 'рисунок', 'стекло', 'портрет', 'младенец', 'искусствовед', 'хёрстый', 'мультфильм', 'брейгель', 'мадонна', 'изобразить', 'эскиз', 'зеркало', 'акварель', 'эрмитаж', 'художник', 'импрессионист', 'искусство', 'телескоп', 'студент', 'никас', 'керамика', 'сафронов', 'прикладной', 'полотно', 'репродукция', 'квадрат', 'натюрморт', 'возрождение', 'ван', 'гравюра', 'анатомия', 'справа', 'делиться', 'иллюстратор', 'контраст', 'изобразительный', 'фигура', 'роспись', 'абстрактный', 'аукцион', 'статуя', 'мона', 'художница', 'живописный', 'мрамор', 'левитан', 'пятно', 'в

In [17]:
books_ppmi = {}
for w, contexts in smoothppmi.items():
    books_ppmi[w] = contexts['books']
books_top_threehundred = sorted(books_ppmi, key = books_ppmi.get, reverse=True)[:300]
print(books_top_threehundred)

['школьный', 'роман', 'кинг', 'верный', 'приём', 'девочка', 'показаться', 'паланик', 'краска', 'дневник', 'зацепить', 'жанр', 'потрясающий', 'классик', 'представлять', 'выбраться', 'литературный', 'созданный', 'экранизация', 'святой', 'ранее', 'прочитать', 'лёд', 'ирония', 'шишкин', 'читатель', 'рассказ', 'эстетика', 'джон', 'палец', 'глаз', 'подойти', 'набоков', 'описанный', 'дама', 'летний', 'подниматься', 'запах', 'добрый', 'сестра', 'уехать', 'номер', 'ценность', 'удаться', 'мастерская', 'писатель', 'отпуск', 'повесть', 'писать', 'сложный', 'надежда', 'домой', 'делиться', 'пересмотреть', 'особо', 'оставить', 'одиночество', 'пр', 'достоинство', 'цена', 'семь', 'стараться', 'змея', 'мультфильм', 'время', 'причём', 'удаваться', 'прочесть', 'манера', 'бесплатно', 'прага', 'современник', 'думать', 'создание', 'издание', 'возраст', 'вопрос', 'эстетический', 'студент', 'страшно', 'снова', 'книга', 'древний', 'туристический', 'приятно', 'полагать', 'властелин', 'чтиво', 'смотреть', 'культу

In [18]:
films_ppmi = {}
for w, contexts in smoothppmi.items():
    films_ppmi[w] = contexts['films']
films_top_threehundred = sorted(films_ppmi, key = films_ppmi.get, reverse=True)[:300]
print(films_top_threehundred)

['академик', 'кинг', 'куарон', 'приём', 'ирония', 'терминатор', 'прокат', 'голливудский', 'картина', 'мультфильм', 'властелин', 'жанр', 'кассовый', 'семь', 'ценность', 'роман', 'поляна', 'пересмотреть', 'созданный', 'верный', 'лида', 'экранизация', 'прогноз', 'номинация', 'читатель', 'краска', 'чтиво', 'смотреть', 'подниматься', 'ранее', 'литературный', 'дневник', 'кинотеатр', 'фильм', 'эстетический', 'костюм', 'классик', 'номер', 'школьный', 'джон', 'исландия', 'иностранный', 'эстетика', 'повлиять', 'кина', 'малек', 'творческий', 'создание', 'критика', 'купер', 'опрос', 'показаться', 'культура', 'зеркало', 'съёмка', 'вопрос', 'студия', 'палец', 'вайс', 'критерий', 'представлять', 'полагать', 'девочка', 'полнометражный', 'святой', 'кадр', 'стараться', 'копировать', 'живопись', 'матрица', 'титаник', 'клоуз', 'пр', 'унесённый', 'среди', 'особо', 'бафта', 'глаз', 'оставить', 'голосовать', 'талант', 'писатель', 'условие', 'думать', 'паланик', 'гага', 'надежда', 'просмотр', 'зацепить', 'пол

In [19]:
food_ppmi = {}
for w, contexts in smoothppmi.items():
    food_ppmi[w] = contexts['food']
food_top_threehundred = sorted(food_ppmi, key = food_ppmi.get, reverse=True)[:300]
print(food_top_threehundred)

['мёд', 'корова', 'сыр', 'курица', 'запах', 'холодильник', 'макароны', 'рис', 'духовка', 'овощ', 'лёд', 'соус', 'сухой', 'ашан', 'вегетарианец', 'пирожок', 'приём', 'сковородка', 'оливковый', 'кабачок', 'пр', 'гречка', 'добавка', 'суп', 'варить', 'тк', 'гриб', 'печь', 'утка', 'нежный', 'школьный', 'домой', 'завтрак', 'питаться', 'масло', 'цена', 'девочка', 'замороженный', 'молоко', 'варение', 'деревня', 'килограмм', 'тесто', 'пицца', 'фарш', 'блюдо', 'смесь', 'химия', 'вкусовой', 'представлять', 'торт', 'стараться', 'температура', 'ресторан', 'святой', 'утро', 'молочный', 'тонкий', 'уксус', 'подойти', 'майонез', 'вода', 'суша', 'помидор', 'ингредиент', 'кефир', 'верный', 'употреблять', 'приправа', 'муж', 'вкусный', 'белок', 'условие', 'краска', 'здоровый', 'аппетит', 'академик', 'чеснок', 'бульон', 'творог', 'выпечка', 'сварить', 'морковь', 'картошка', 'захотеться', 'пирог', 'голод', 'палец', 'вред', 'делиться', 'ужин', 'плавать', 'приготовить', 'подниматься', 'супермаркет', 'голодный'

In [20]:
football_ppmi = {}
for w, contexts in smoothppmi.items():
    football_ppmi[w] = contexts['football']
football_top_threehundred = sorted(football_ppmi, key = football_ppmi.get, reverse=True)[:300]
print(football_top_threehundred)

['лч', 'уефа', 'уехать', 'летний', 'верный', 'турция', 'святой', 'номер', 'представлять', 'роман', 'шишкин', 'ранее', 'приём', 'ехать', 'выбраться', 'исландия', 'мёд', 'подойти', 'цена', 'палец', 'ле', 'показаться', 'надежда', 'ван', 'эстетика', 'смотреть', 'потрясающий', 'испанский', 'девочка', 'корова', 'забить', 'барс', 'травма', 'созданный', 'подниматься', 'шахтёр', 'стараться', 'нормальный', 'глаз', 'результат', 'особо', 'оставить', 'утка', 'мяч', 'удаться', 'думать', 'причём', 'домой', 'португалия', 'пересмотреть', 'снова', 'краска', 'контракт', 'чм', 'зацепить', 'отпуск', 'школьный', 'испанец', 'кто', 'наблюдать', 'приятно', 'условие', 'сухой', 'футбол', 'бразилия', 'ирония', 'время', 'атлетико', 'прогноз', 'вопрос', 'проигрывать', 'талант', 'бесплатно', 'молодец', 'продать', 'сыр', 'евро', 'потерять', 'лёд', 'получить', 'бежать', 'пенальти', 'кинг', 'сложный', 'семь', 'предложение', 'против', 'джон', 'еврокубок', 'тренер', 'макароны', 'мочь', 'пусть', 'ребята', 'мальчик', 'акад

In [21]:
games_ppmi = {}
for w, contexts in smoothppmi.items():
    games_ppmi[w] = contexts['games']
games_top_threehundred = sorted(games_ppmi, key = games_ppmi.get, reverse=True)[:300]
print(games_top_threehundred)

['жанр', 'приём', 'представлять', 'верный', 'мультиплеер', 'палец', 'цена', 'ранее', 'глаз', 'созданный', 'халф', 'летний', 'нормальный', 'роман', 'зацепить', 'показаться', 'святой', 'подойти', 'особо', 'сложный', 'лч', 'девочка', 'смотреть', 'подниматься', 'школьный', 'потрясающий', 'корова', 'краска', 'причём', 'выбраться', 'надежда', 'бесплатно', 'стелс', 'оставить', 'консольный', 'стараться', 'уехать', 'думать', 'снова', 'номер', 'удаться', 'бежать', 'кинг', 'время', 'лёд', 'студия', 'забить', 'кто', 'ехать', 'пересмотреть', 'ле', 'костюм', 'вопрос', 'семь', 'писать', 'результат', 'ирония', 'условие', 'добрый', 'создание', 'поиграть', 'ждать', 'убогий', 'получить', 'наблюдать', 'приходиться', 'эстетика', 'десять', 'щас', 'кризис', 'приятно', 'мочь', 'классик', 'код', 'продать', 'мёд', 'эпизод', 'физика', 'кадр', 'мяч', 'терминатор', 'дневник', 'экранизация', 'утка', 'равно', 'древний', 'прочитать', 'потерять', 'геймплей', 'достоинство', 'деревня', 'страшно', 'среди', 'именно', 'оче

In [22]:
music_ppmi = {}
for w, contexts in smoothppmi.items():
    music_ppmi[w] = contexts['music']
music_top_threehundred = sorted(music_ppmi, key = music_ppmi.get, reverse=True)[:300]
print(music_top_threehundred)

['жанр', 'мелодия', 'вокалист', 'сложный', 'музыкальный', 'классик', 'потрясающий', 'девочка', 'зацепить', 'нормальный', 'особо', 'время', 'композитор', 'ранее', 'думать', 'звучать', 'нота', 'смотреть', 'гитара', 'представлять', 'причём', 'ребята', 'показаться', 'кто', 'студия', 'снова', 'гитарист', 'писать', 'добрый', 'номер', 'приятно', 'летний', 'мочь', 'джон', 'стараться', 'вопрос', 'палец', 'удаться', 'глаз', 'дуэт', 'оставить', 'верный', 'именно', 'ждать', 'играть', 'талантливый', 'порой', 'щас', 'сингл', 'приём', 'действительно', 'кавер', 'творчество', 'спорить', 'школьный', 'джазовый', 'считать', 'талант', 'равно', 'мера', 'вообще', 'созданный', 'получить', 'пр', 'подойти', 'нечто', 'пусть', 'чей', 'разбираться', 'среди', 'просто', 'ритм', 'результат', 'слышать', 'создание', 'тяжёлый', 'ван', 'великолепный', 'манера', 'десять', 'надежда', 'испанский', 'эстетика', 'молодец', 'против', 'поиграть', 'смесь', 'возраст', 'единственный', 'мнение', 'мальчик', 'образование', 'арт', 'ден

In [23]:
nature_ppmi = {}
for w, contexts in smoothppmi.items():
    nature_ppmi[w] = contexts['nature']
nature_top_threehundred = sorted(nature_ppmi, key = nature_ppmi.get, reverse=True)[:300]
print(nature_top_threehundred)

['дерево', 'песня', 'альбом', 'синица', 'видео', 'ворона', 'дятел', 'растение', 'птичка', 'птица', 'лес', 'цвести', 'гриб', 'сосна', 'ствол', 'вчера', 'снег', 'цветок', 'цветочек', 'лесной', 'ягода', 'речка', 'песнь', 'музыкант', 'мышь', 'заснять', 'рок', 'просека', 'крыса', 'вблизи', 'фотка', 'ютуба', 'слушать', 'осень', 'клип', 'трава', 'наблюдать', 'сфоткать', 'хищник', 'ветка', 'крик', 'осенний', 'дуб', 'мороз', 'тема', 'природа', 'расти', 'кормушка', 'снимок', 'играть', 'музыкальный', 'голубь', 'листва', 'металл', 'группа', 'ёлка', 'гитара', 'огород', 'костёр', 'песенка', 'весна', 'вода', 'животное', 'провод', 'шишка', 'лист', 'фотик', 'деревце', 'лиса', 'кадр', 'среди', 'хвост', 'слышать', 'небо', 'сад', 'занести', 'охотиться', 'заросль', 'метать', 'человеческий', 'фото', 'фоткать', 'куст', 'вокал', 'похоже', 'живой', 'бас', 'голос', 'коллектив', 'болото', 'композиция', 'видно', 'семя', 'такой', 'ворон', 'воробей', 'охота', 'хит', 'музыка', 'гармония', 'рука', 'птенец', 'запись',

In [24]:
travel_ppmi = {}
for w, contexts in smoothppmi.items():
    travel_ppmi[w] = contexts['travel']
travel_top_threehundred = sorted(travel_ppmi, key = travel_ppmi.get, reverse=True)[:300]
print(travel_top_threehundred)

['турция', 'ехать', 'цена', 'время', 'думать', 'день', 'мочь', 'смотреть', 'вообще', 'просто', 'фотка', 'кто', 'евро', 'красивый', 'номер', 'именно', 'прага', 'город', 'равно', 'страна', 'мы', 'хотеть', 'летать', 'вопрос', 'нормальный', 'путешествие', 'глаз', 'поехать', 'ряд', 'причём', 'такой', 'вода', 'ждать', 'особо', 'побережье', 'виза', 'назад', 'посетить', 'писать', 'никакой', 'огромный', 'всякий', 'туризм', 'туристический', 'взять', 'общий', 'прекрасный', 'чистый', 'отпуск', 'ходить', 'любить', 'отдыхать', 'действительно', 'том', 'считать', 'тура', 'испания', 'утро', 'турист', 'случай', 'прошлый', 'рассказ', 'ресторан', 'такси', 'египет', 'часть', 'слышать', 'почему', 'получить', 'милан', 'реально', 'наш', 'въезд', 'единственный', 'приходиться', 'везде', 'бразилия', 'удаться', 'здание', 'самый', 'россия', 'маршрут', 'гостиница', 'снова', 'завтрак', 'желание', 'кстати', 'сильно', 'парк', 'многий', 'точно', 'культура', 'начать', 'остаться', 'домой', 'искать', 'мера', 'мой', 'ощуще

In [25]:
topthreehundred = {}

In [26]:
for i in categs:
    topthreehundred[i] = eval(i + '_top_threehundred')

In [27]:
with open('top_threehundred_ppmi.pkl', 'wb') as tp:
    pkl.dump(topthreehundred, tp)
tp.close()