In [1]:
import pickle as pkl
import math
from tqdm import tqdm

In [2]:
with open('Matrix Absolute Nonsmooth.pkl', 'rb') as m1:
    wout_smoothing = pkl.load(m1)
m1.close()

In [3]:
with open('Matrix Absolute Add2 Lessthan0.01.pkl', 'rb') as m2:
    with_smoothing = pkl.load(m2)
m2.close()

In [4]:
def p_wc(word, context_word, counts, total_counts):
    return counts[word][context_word] / total_counts

In [5]:
def p_w(word, counts, total_counts):
    return sum(counts[word].values()) / total_counts

In [6]:
def p_c(context_word, counts, total_counts):
    return sum(freqs.get(context_word, 0) for freqs in counts.values()) / total_counts

In [7]:
def pmi(word, context_word, counts, total_counts):
    ans = (p_wc(word, context_word, counts, total_counts) /
          (p_w(word, counts, total_counts) * p_c(context_word, counts, total_counts)))
    if ans:
        return math.log2(ans)
    else:
        return 0

In [8]:
def ppmi(word, context_word, counts, total_counts):
    ans = pmi(word, context_word, counts, total_counts)
    return ans if ans > 0 else 0

In [9]:
def get_total_counts(counts):
    """counts is a dict of dicts"""
    return sum([sum(vals.values()) for vals in counts.values()])

In [10]:
def build_matrix(counts):
    total_counts = get_total_counts(counts)
    total_words = len(counts)
    print('working out PPMI')
    for w, contexts in tqdm(counts.items()):
        for c in contexts:
            counts[w][c] = ppmi(w, c, counts, total_counts)
    print('done with PPMI')
    return counts

In [11]:
smoothppmi = build_matrix(with_smoothing)

  1%|          | 19/2532 [00:00<00:13, 180.86it/s]

working out PPMI


100%|██████████| 2532/2532 [00:13<00:00, 188.98it/s]

done with PPMI





In [12]:
with open('PPMIs Add-2 0.01.pkl', 'wb') as p1:
    pkl.dump(smoothppmi, p1)
p1.close()

In [70]:
def rank_words(counts):
    mean_ppmi = {}
    top_ppmi = {}
    for w, contexts in counts.items():
        vals = list(contexts.values())
        mean_ppmi[w] = sum(vals) / len(vals)
        top_ppmi[w] = max(vals)
    order_mean = sorted(mean_ppmi, key=mean_ppmi.get, reverse=True)
    order_top = sorted(top_ppmi, key=top_ppmi.get, reverse=True)
  #  print(order_mean, file=open('words by mean ppmi no lem.txt', 'w', encoding='utf-8'))
  #  print(order_top, file=open('words by top ppmi no lem.txt', 'w', encoding='utf-8'))
    return order_top

In [71]:
categs = ['anime', 'art', 'books', 'films', 'food', 'football', 'games', 'music', 'nature', 'travel']

In [72]:
anime_ppmi = {}
for w, contexts in smoothppmi.items():
    anime_ppmi[w] = contexts['anime']
anime_top_fifty = sorted(anime_ppmi, key = anime_ppmi.get, reverse=True)[:300]
print(anime_top_fifty)

['гиас', 'мангак', 'рисовка', 'анимешник', 'полнометражка', 'берсерка', 'полнометражный', 'досматривать', 'отсмотреть', 'тетрадка', 'ева', 'бибоп', 'филлер', 'анимэ', 'сенэн', 'том', 'ученик', 'повседневность', 'кинотеатр', 'студия', 'сейя', 'тайтлы', 'евангелиона', 'блич', 'замок', 'концовка', 'необычно', 'манга', 'доставлять', 'экран', 'мувик', 'тетрадь', 'сиська', 'опенинг', 'хвост', 'иллюстратор', 'лайт', 'дворецкий', 'наруто', 'меч', 'кандинский', 'мультик', 'слетать', 'синкай', 'эстетика', 'фансервис', 'короткий', 'аниме', 'набросок', 'просмотр', 'сериал', 'ужас', 'изящный', 'овашка', 'озвучка', 'эльфийский', 'действие', 'восторг', 'фантастика', 'покемон', 'объектив', 'онгоинг', 'увлечение', 'нарут', 'миядзаки', 'подумать', 'ух', 'обычный', 'искусствовед', 'голубой', 'скрывать', 'темный', 'штамп', 'вампир', 'арка', 'семейство', 'осиливать', 'продолжение', 'охотиться', 'недалеко', 'целиком', 'седзе', 'эндинг', 'шилова', 'остальное', 'рекомендовать', 'вещество', 'радовать', 'ирония

In [73]:
art_ppmi = {}
for w, contexts in smoothppmi.items():
    art_ppmi[w] = contexts['art']
art_top_fifty = sorted(art_ppmi, key = art_ppmi.get, reverse=True)[:300]
print(art_top_fifty)

['шилова', 'кандинский', 'искусствовед', 'репин', 'иллюстратор', 'айвазовский', 'скульптор', 'эскиз', 'брейгель', 'изобразительный', 'кисть', 'дюрер', 'музей', 'выставляться', 'набросок', 'холст', 'возрождение', 'выставка', 'проводница', 'изящный', 'модерн', 'скульптурный', 'ленин', 'эрмитаж', 'лекция', 'старинный', 'эстетика', 'живописец', 'миниатюра', 'гигер', 'фигура', 'краска', 'ученик', 'микеланджело', 'собрание', 'натура', 'рембрандт', 'живопись', 'моне', 'скульптура', 'роспись', 'дали', 'босх', 'магритта', 'изображение', 'никас', 'декоративный', 'рисунок', 'галерея', 'соц', 'глазунов', 'сальвадор', 'полотно', 'импрессионист', 'левитан', 'семейство', 'малевич', 'фрагмент', 'увлечение', 'гиас', 'автопортрет', 'гог', 'шилов', 'размещать', 'гравюра', 'мазок', 'творческий', 'сафронов', 'ренессанс', 'мангак', 'происхождение', 'импрессионизм', 'средневековый', 'картина', 'гиперреализм', 'французский', 'репродукция', 'художник', 'рисовать', 'врубель', 'акварель', 'лиза', 'шагать', 'позд

In [74]:
books_ppmi = {}
for w, contexts in smoothppmi.items():
    books_ppmi[w] = contexts['books']
books_top_fifty = sorted(books_ppmi, key = books_ppmi.get, reverse=True)[:300]
print(books_top_fifty)

['слог', 'паланик', 'книжный', 'роман', 'осиливать', 'изящный', 'действие', 'лекция', 'лондон', 'ученик', 'исторический', 'семейство', 'страница', 'подумать', 'старинный', 'том', 'способ', 'браун', 'премия', 'собрание', 'ирония', 'попробовать', 'концовка', 'ужас', 'фантастика', 'восторг', 'камень', 'короткий', 'огонь', 'французский', 'экран', 'остальное', 'личность', 'вести', 'темный', 'необычно', 'скрывать', 'связанный', 'целиком', 'книга', 'поздний', 'голубой', 'творческий', 'доставлять', 'ленин', 'долгий', 'квартира', 'прямо', 'чтиво', 'умирать', 'рекомендовать', 'метро', 'замок', 'личный', 'слетать', 'счет', 'запоминаться', 'происхождение', 'увлечение', 'публика', 'натура', 'другой', 'бог', 'набросок', 'слушать', 'гиас', 'отсутствие', 'обычный', 'кошка', 'издательство', 'недалеко', 'держать', 'включать', 'искусствовед', 'исключительно', 'день', 'совершенно', 'обращаться', 'кисть', 'вы', 'дорога', 'пугать', 'литературный', 'возрождение', 'объем', 'наверное', 'иллюстратор', 'триллер'

In [75]:
films_ppmi = {}
for w, contexts in smoothppmi.items():
    films_ppmi[w] = contexts['films']
films_top_fifty = sorted(films_ppmi, key = films_ppmi.get, reverse=True)[:300]
print(films_top_fifty)

['фаворитка', 'кинотеатр', 'малек', 'премия', 'исторический', 'кино', 'полнометражный', 'ирония', 'творческий', 'номинировать', 'спецэффект', 'публика', 'экран', 'чтиво', 'академик', 'роман', 'шиндлер', 'индустрия', 'прокат', 'студия', 'отсмотреть', 'включать', 'ужас', 'фантастика', 'поздний', 'лида', 'паланик', 'тематика', 'книжный', 'ученик', 'куарон', 'подумать', 'ленин', 'триллер', 'страница', 'огонь', 'личный', 'голливуд', 'ценность', 'отсутствие', 'французский', 'книга', 'паук', 'хайп', 'связанный', 'голосование', 'вы', 'драма', 'слог', 'актерский', 'способ', 'комедия', 'награждать', 'саппорт', 'предпочтение', 'тема', 'лф', 'кисть', 'темный', 'счет', 'план', 'остальное', 'раздача', 'список', 'награда', 'яркий', 'гиас', 'личность', 'объективно', 'другой', 'морковь', 'квартира', 'вести', 'восторг', 'отмечать', 'сердце', 'точка', 'купер', 'объектив', 'кандинский', 'искусствовед', 'действие', 'наличие', 'небо', 'прямо', 'аудитория', 'критик', 'натура', 'минимум', 'откуда', 'упоминать

In [76]:
food_ppmi = {}
for w, contexts in smoothppmi.items():
    food_ppmi[w] = contexts['food']
food_top_fifty = sorted(food_ppmi, key = food_ppmi.get, reverse=True)[:300]
print(food_top_fifty)

['аппетит', 'кофе', 'блюдо', 'гарнир', 'жарить', 'сыр', 'кабачок', 'духовка', 'жареный', 'молочный', 'морковь', 'полезный', 'попробовать', 'яйцо', 'вещество', 'вредно', 'лук', 'животный', 'тк', 'майонез', 'огонь', 'соленый', 'мука', 'семейство', 'добавка', 'фарш', 'салат', 'способ', 'пирог', 'мультиварка', 'мясо', 'питаться', 'кусочек', 'лекция', 'муж', 'вкусный', 'происхождение', 'овощ', 'говядина', 'кошка', 'обычный', 'натура', 'суп', 'белок', 'сметана', 'йогурт', 'яблоко', 'целиком', 'пирожок', 'туда', 'масло', 'уксус', 'употреблять', 'гриб', 'рыбный', 'молоко', 'сухой', 'подумать', 'завтрак', 'желудок', 'слог', 'курица', 'ужас', 'варить', 'старинный', 'поздний', 'рынок', 'напиток', 'день', 'необычно', 'обед', 'исключительно', 'пища', 'магазин', 'недалеко', 'сковородка', 'гречка', 'оч', 'посадить', 'капуста', 'французский', 'сливочный', 'прямо', 'голод', 'суша', 'выпечка', 'квартира', 'связанный', 'вести', 'опасный', 'остальное', 'откуда', 'фигура', 'ужин', 'хвост', 'одинаковый', 'п

In [77]:
football_ppmi = {}
for w, contexts in smoothppmi.items():
    football_ppmi[w] = contexts['football']
football_top_fifty = sorted(football_ppmi, key = football_ppmi.get, reverse=True)[:300]
print(football_top_fifty)

['поражение', 'юве', 'полуфинал', 'счет', 'лондон', 'защита', 'подумать', 'вести', 'проводить', 'реал', 'действие', 'роман', 'уходить', 'суарес', 'голубой', 'судья', 'поздравлять', 'отсутствие', 'способ', 'слетать', 'концовка', 'аппетит', 'предел', 'сборная', 'камень', 'опасный', 'ужас', 'мю', 'слог', 'коллектив', 'недалеко', 'оборона', 'включать', 'попробовать', 'целиком', 'полезный', 'остальное', 'удар', 'держать', 'доставлять', 'уход', 'туда', 'ток', 'сибирь', 'посадить', 'публика', 'завтра', 'исторический', 'ирония', 'минимум', 'третий', 'скрывать', 'личный', 'французский', 'связанный', 'другой', 'половина', 'прямо', 'порядок', 'короткий', 'огонь', 'долгий', 'изящный', 'футбол', 'ученик', 'сдавать', 'откуда', 'пас', 'неплохо', 'наверное', 'премия', 'столица', 'находиться', 'план', 'ух', 'день', 'поздний', 'рубин', 'зарабатывать', 'слушать', 'кофе', 'радовать', 'исключительно', 'личность', 'бог', 'сколько', 'обыгрывать', 'отличный', 'хвост', 'лекция', 'масштаб', 'вывод', 'яркий', 'к

In [78]:
games_ppmi = {}
for w, contexts in smoothppmi.items():
    games_ppmi[w] = contexts['games']
games_top_fifty = sorted(games_ppmi, key = games_ppmi.get, reverse=True)[:300]
print(games_top_fifty)

['действие', 'игрушка', 'способ', 'студия', 'попробовать', 'доставлять', 'ведьмак', 'остальное', 'концовка', 'подумать', 'осиливать', 'счет', 'экран', 'вести', 'огонь', 'третий', 'отсутствие', 'включать', 'поражение', 'ток', 'камень', 'слетать', 'книжный', 'роман', 'защита', 'одинаковый', 'чо', 'короткий', 'открытый', 'обычный', 'связанный', 'реал', 'консоли', 'кинотеатр', 'уходить', 'ужас', 'миссия', 'индустрия', 'самолет', 'недалеко', 'проводить', 'другой', 'исторический', 'предел', 'прямо', 'метро', 'откуда', 'диалог', 'минимум', 'консольный', 'туда', 'масштаб', 'полезный', 'лола', 'целиком', 'план', 'темный', 'восторг', 'держать', 'модерн', 'меч', 'половина', 'аппетит', 'скрывать', 'вселенная', 'порядок', 'удар', 'фантастика', 'умирать', 'наверное', 'ирония', 'кино', 'кофе', 'долгий', 'возможность', 'личный', 'лекция', 'отличие', 'записывать', 'лондон', 'отличный', 'толпа', 'день', 'премия', 'исчезать', 'страница', 'совершенно', 'опасный', 'неплохо', 'рим', 'сколько', 'наличие', 'к

In [79]:
music_ppmi = {}
for w, contexts in smoothppmi.items():
    music_ppmi[w] = contexts['music']
music_top_fifty = sorted(music_ppmi, key = music_ppmi.get, reverse=True)[:300]
print(music_top_fifty)

['слушать', 'коллектив', 'записывать', 'студия', 'джаз', 'панк', 'метать', 'остальное', 'уходить', 'счет', 'доставлять', 'подумать', 'третий', 'отличный', 'другой', 'пластинка', 'неплохо', 'включать', 'х', 'кино', 'план', 'творческий', 'поздний', 'наверное', 'предпочтение', 'попробовать', 'восторг', 'старый', 'вести', 'обычный', 'жанр', 'радовать', 'ток', 'половина', 'публика', 'совершенно', 'тема', 'умирать', 'страница', 'целиком', 'ладно', 'французский', 'способ', 'отличие', 'личный', 'д', 'кто', 'оч', 'личность', 'премия', 'ряд', 'яркий', 'ссылка', 'рекомендовать', 'прямо', 'запоминаться', 'бог', 'пост', 'вспомнить', 'второй', 'короткий', 'долгий', 'уход', 'поп', 'отсутствие', 'нота', 'согласный', 'откуда', 'е', 'лола', 'парень', 'день', 'думать', 'классический', 'период', 'приятно', 'делать', 'сколько', 'связанный', 'держать', 'вещь', 'темный', 'крайний', 'порядок', 'составлять', 'запись', 'упоминать', 'минимум', 'вывод', 'современный', 'считать', 'разбираться', 'ужас', 'чо', 'лишь

In [80]:
nature_ppmi = {}
for w, contexts in smoothppmi.items():
    nature_ppmi[w] = contexts['nature']
nature_top_fifty = sorted(nature_ppmi, key = nature_ppmi.get, reverse=True)[:300]
print(nature_top_fifty)

['дерево', 'птица', 'ворона', 'сосна', 'лес', 'снег', 'синица', 'растение', 'сфоткать', 'небо', 'птичка', 'гриб', 'ствол', 'дятел', 'ветка', 'видео', 'фото', 'мышь', 'альбом', 'цветок', 'мороз', 'природа', 'цвести', 'осень', 'голос', 'куст', 'вблизи', 'хищник', 'ютуб', 'кормушка', 'след', 'воробей', 'ягода', 'лист', 'речка', 'заснимать', 'фоткать', 'лиса', 'тема', 'голубь', 'дуб', 'снимок', 'лесной', 'просека', 'провод', 'фотка', 'бежать', 'весна', 'листва', 'птенец', 'болото', 'детство', 'гроза', 'падать', 'наступать', 'желтый', 'крыса', 'локи', 'облако', 'комар', 'костер', 'сад', 'гнездо', 'цветочек', 'осенний', 'трава', 'похоже', 'елка', 'соленый', 'живой', 'дробь', 'животное', 'бегать', 'петь', 'расти', 'крик', 'лэп', 'видеть', 'пушистый', 'огород', 'свиристель', 'наблюдать', 'такой', 'соня', 'белок', 'туча', 'помнить', 'вживый', 'среда', 'рябина', 'семя', 'поле', 'кошка', 'вчера', 'берег', 'парк', 'картинка', 'кадр', 'лось', 'деревце', 'песенка', 'сухой', 'видно', 'хвост', 'пища',

In [81]:
travel_ppmi = {}
for w, contexts in smoothppmi.items():
    travel_ppmi[w] = contexts['travel']
travel_top_fifty = sorted(travel_ppmi, key = travel_ppmi.get, reverse=True)[:300]
print(travel_top_fifty)

['туда', 'день', 'другой', 'поездка', 'думать', 'самолет', 'лондон', 'дорога', 'какой', 'кто', 'такой', 'делать', 'дорого', 'включать', 'сам', 'наверное', 'второй', 'просто', 'выходить', 'рим', 'находиться', 'видеть', 'сколько', 'возможность', 'месяц', 'план', 'столица', 'побережье', 'посмотреть', 'улица', 'взять', 'магазин', 'прямо', 'счет', 'говорить', 'уходить', 'крым', 'проводить', 'старый', 'толпа', 'восторг', 'фотка', 'успевать', 'отличный', 'знакомый', 'е', 'сервис', 'спасибо', 'далеко', 'хотеться', 'метро', 'вопрос', 'считать', 'тема', 'работать', 'минимум', 'время', 'такси', 'берег', 'кажется', 'музей', 'отдыхать', 'англия', 'страна', 'франция', 'наш', 'приходиться', 'территория', 'п', 'куба', 'хватить', 'замок', 'обычный', 'достопримечательность', 'подумать', 'кофе', 'лишь', 'предел', 'дикий', 'это', 'д', 'слышать', 'порядок', 'попробовать', 'ходить', 'скоро', 'сочи', 'выкладывать', 'кстати', 'иметь', 'бассейн', 'вариант', 'недалеко', 'квартира', 'пора', 'раз', 'пока', 'дом',

In [82]:
topfifty = {}

In [83]:
for i in categs:
    topfifty[i] = eval(i + '_top_fifty')

In [84]:
with open('top_threehundred_ppmi.pkl', 'wb') as tp:
    pkl.dump(topfifty, tp)
tp.close()