In [1]:
import pickle as pkl
import math
from tqdm import tqdm

In [2]:
with open('Tris Absolute Add2 Lessthan0.005.pkl', 'rb') as m2:
    with_smoothing = pkl.load(m2)
m2.close()

In [3]:
def p_wc(word, context_word, counts, total_counts):
    return counts[word][context_word] / total_counts

In [4]:
def p_w(word, counts, total_counts):
    return sum(counts[word].values()) / total_counts

In [5]:
def p_c(context_word, counts, total_counts):
    return sum(freqs.get(context_word, 0) for freqs in counts.values()) / total_counts

In [6]:
def pmi(word, context_word, counts, total_counts):
    ans = (p_wc(word, context_word, counts, total_counts) /
          (p_w(word, counts, total_counts) * p_c(context_word, counts, total_counts)))
    if ans:
        return math.log2(ans)
    else:
        return 0

In [7]:
def ppmi(word, context_word, counts, total_counts):
    ans = pmi(word, context_word, counts, total_counts)
    return ans if ans > 0 else 0

In [8]:
def get_total_counts(counts):
    """counts is a dict of dicts"""
    return sum([sum(vals.values()) for vals in counts.values()])

In [9]:
def build_matrix(counts):
    total_counts = get_total_counts(counts)
    total_words = len(counts)
    print('working out PPMI')
    for w, contexts in tqdm(counts.items()):
        for c in contexts:
            counts[w][c] = ppmi(w, c, counts, total_counts)
    print('done with PPMI')
    return counts

In [10]:
smoothppmi = build_matrix(with_smoothing)

working out PPMI


100%|██████████████████████████████████████| 6647/6647 [01:37<00:00, 68.51it/s]


done with PPMI


In [12]:
with open('Tri PPMIs Add-2 0.005.pkl', 'wb') as p1:
    pkl.dump(smoothppmi, p1)
p1.close()

In [13]:
def rank_words(counts):
    mean_ppmi = {}
    top_ppmi = {}
    for w, contexts in counts.items():
        vals = list(contexts.values())
        mean_ppmi[w] = sum(vals) / len(vals)
        top_ppmi[w] = max(vals)
    order_mean = sorted(mean_ppmi, key=mean_ppmi.get, reverse=True)
    order_top = sorted(top_ppmi, key=top_ppmi.get, reverse=True)
  #  print(order_mean, file=open('words by mean ppmi no lem.txt', 'w', encoding='utf-8'))
  #  print(order_top, file=open('words by top ppmi no lem.txt', 'w', encoding='utf-8'))
    return order_top

In [14]:
categs = ['anime', 'art', 'books', 'films', 'food', 'football', 'games', 'music', 'nature', 'travel']

In [15]:
anime_ppmi = {}
for w, contexts in smoothppmi.items():
    anime_ppmi[w] = contexts['anime']
anime_top_threehundred = sorted(anime_ppmi, key = anime_ppmi.get, reverse=True)[:300]
print(anime_top_threehundred)

['гиа', 'ядз', 'мув', 'адь', 'иас', 'кэн', 'дб ', 'мур', 'дте', 'жба', ' оя', 'кик', 'бля', 'урд', 'имд', 'вящ', 'ару', 'яша', 'смо', 'дсн', 'ы ж', 'баи', 'отз', 'улы', ' ям', 'зг ', 'умч', 'ячи', 'зиа', 'ярк', 'х и', 'онг', 'доф', ' ха', 'ухт', 'кен', 'кая', 'упо', 'окг', 'ляч', 'хая', 'одб', 'т ю', ' рю', 'и э', 'ячо', 'рье', 'изр', 'имэ', 'цки', 'кше', 'ног', 'удз', 'иву', 'хел', 'к ф', ' об', 'или', 'мие', ' уж', 'ант', 'атл', 'тюд', 'окт', 'ейя', 'нев', 'мед', 'ост', 'евн', 'бое', 'ауч', 'я я', 'чие', 'эст', 'у о', 'цан', 'рив', 'л т', 'шат', 'тпа', ' ам', 'лое', 'яст', 'з г', 'е г', 'лол', 'тби', 'юра', 'в ф', ' ол', 'о м', 'ц е', 'реф', 'сей', 'вме', 'еща', 'ени', 'тез', 'ане', 'вбо', 'чиц', 'эйф', 'кат', 'зе ', 'чон', 'икл', 'йле', 'ные', 'узн', 'пущ', 'лих', ' мэ', 'оит', 'к ц', 'р д', 'кну', 'удр', 'к я', 'орж', 'зм ', 'енэ', 'ыня', ' хм', 'э к', 'юр ', 'лиш', 'вкл', 'идц', 'ияд', 'сай', 'имс', 'убо', 'овс', 'ены', 'едз', 'рес', 'ндз', 'оче', 'июк', 'изо', 'йло', 'чюр', 'тло'

In [16]:
art_ppmi = {}
for w, contexts in smoothppmi.items():
    art_ppmi[w] = contexts['art']
art_top_threehundred = sorted(art_ppmi, key = art_ppmi.get, reverse=True)[:300]
print(art_top_threehundred)

['яша', 'ьеф', 'тюд', 'ьпт', 'чюр', 'зей', 'авю', 'льп', 'юра', 'хае', 'дсн', 'юр ', 'эст', 'мбр', 'кая', 'гиа', 'луэ', 'дте', 'даи', 'зым', 'вящ', 'сри', 'йза', 'худ', 'уин', 'окг', 'вв ', 'звк', 'фаэ', 'юст', 'урд', 'нуч', 'еи ', 'бэн', 'рфо', 'ухт', 'тюр', 'аэл', 'эрм', 'льв', 'идц', 'эск', 'кмк', 'баи', 'зм ', 'вев', 'урб', 'нуэ', ' ху', 'ярк', 'улы', 'ивь', 'вюр', 'ике', 'оцр', 'умч', 'дип', 'яму', 'юлл', 'хоф', 'адь', 'изо', 'имс', 'ншн', 'одб', 'реф', 'дяс', 'амд', 'удд', 'вгу', 'лфе', 'тоа', 'куи', 'ьян', 'ртр', 'мув', 'имт', 'зыс', 'сх ', 'иус', ' зю', 'шух', 'зоб', 'ауч', 'пущ', 'кув', 'лах', 'цог', ' пх', 'ьбе', 'ыня', 'ырв', 'мэр', 'окт', 'щаг', 'гмо', 'хуж', 'пху', 'лув', 'еща', ' рю', 'йге', 'зск', 'нро', 'ф х', 'лзе', 'окн', 'коя', 'афр', ' сш', 'ядз', 'ь… ', 'еоф', 'узн', 'жни', 'эйф', 'нев', 'жов', 'едр', 'щуч', 'сбл', 'шле', 'стх', 'дад', 'клы', 'ныш', 'э т', 'уаш', 'уж ', 'евн', 'тк ', 'змя', 'хаю', 'мпу', 'еуб', 'зящ', 'ись', 'сец', ' ял', 'кэн', 'к ц', ' тч', 'т ю'

In [17]:
books_ppmi = {}
for w, contexts in smoothppmi.items():
    books_ppmi[w] = contexts['books']
books_top_threehundred = sorted(books_ppmi, key = books_ppmi.get, reverse=True)[:300]
print(books_top_threehundred)

['урд', 'умч', 'вящ', 'улы', 'кая', 'упо', 'ухт', 'или', 'ауч', ' об', 'отз', 'з г', 'дте', 'ярк', 'доф', 'одб', 'рье', 'в ф', 'ане', 'т ю', 'ы ж', 'мур', 'нев', ' ха', 'бля', 'ног', 'шат', 'жба', 'и э', 'льв', ' ам', 'х и', 'ант', 'гюг', 'уж ', 'окт', 'атл', 'лол', 'кен', 'уин', 'икл', 'тби', 'к ф', ' ол', 'идц', 'у о', 'ост', 'зм ', ' сш', 'цки', 'р д', ' уж', 'ару', 'евн', 'вгу', 'яса', 'ойс', 'чие', 'ени', 'реф', 'пия', 'ены', 'зг ', 'ндл', 'е г', 'имс', 'окг', 'адь', 'лое', 'арп', 'эйф', 'баи', 'удр', 'мув', 'овс', 'юр ', 'о м', ' зм', 'гиа', 'эст', 'шле', 'гед', ' рю', 'вкл', 'тат', 'зыс', 'бви', 'кка', 'узн', 'орж', 'пет', 'л т', 'оче', 'ыня', ' ям', 'ные', 'кат', 'н в', 'еща', 'оит', ' пи', ' вх', 'одь', 'вме', 'тез', 'эрр', 'бэн', ' мэ', 'нгу', 'лиш', 'уче', ' кн', 'овл', 'ячи', 'убо', 'тюд', 'зне', 'зиа', 'слу', 'рес', 'рем', 'ьян', 'иву', 'к ц', 'цин', 'зик', 'ающ', 'лих', 'бза', 'ыбе', 'ьцо', 'хну', 'жда', 'смо', 'яст', 'нщи', 'яму', 'езн', 'гко', 'роу', 'сси', 'о ч', 'вев'

In [18]:
films_ppmi = {}
for w, contexts in smoothppmi.items():
    films_ppmi[w] = contexts['films']
films_top_threehundred = sorted(films_ppmi, key = films_ppmi.get, reverse=True)[:300]
print(films_top_threehundred)

['умч', 'иву', 'ндл', ' сш', ' бю', 'уин', 'ярк', 'вк ', 'мур', 'дте', ' лл', 'в ф', 'урд', 'кэм', 'зиа', ' ам', 'к ф', 'ант', 'ьцо', 'упо', 'вящ', 'рье', 'реф', 'вкл', 'ауч', ' об', 'овл', 'мув', 'тби', 'лол', 'пз ', 'ног', 'одб', 'доф', 'ане', ' ак', 'ьм ', 'з г', 'ухт', 'и э', 'улы', 'идц', 'р д', 'или', 'льв', 'хоу', 'т ю', 'отз', 'спи', 'зв ', 'м з', 'нев', 'бля', 'чие', ' ха', 'окт', 'эст', 'имс', 'ост', 'шат', 'х и', 'у о', 'юча', 'смо', 'убр', 'вгу', 'эме', 'гиа', ' ол', 'зм ', 'яму', 'зг ', 'дб ', 'овс', 'кмк', 'нро', 'куа', 'юсе', 'ойс', 'бир', 'юр ', ' уж', ' мэ', 'ные', 'ени', 'мед', 'мэр', 'лбе', 'икл', 'онг', 'мум', 'ены', ' вх', 'яро', 'о м', 'имд', 'жба', 'тву', 'е г', 'нац', 'жаз', 'кат', 'пия', 'кая', 'вце', 'кка', 'гма', 'оит', 'ивь', 'жда', 'сси', '“ ”', 'вме', 'еуб', 'л т', 'еща', 'шле', 'евн', 'ару', 'удр', 'лое', 'ухи', 'арп', 'тез', 'рив', 'ы ж', 'лиш', ' лф', 'слу', 'хну', 'бви', 'н в', 'оче', 'нем', 'едл', 'дсн', 'тюд', 'куи', 'тат', 'сшт', 'ячо', 'к я', 'баи'

In [19]:
food_ppmi = {}
for w, contexts in smoothppmi.items():
    food_ppmi[w] = contexts['food']
food_top_threehundred = sorted(food_ppmi, key = food_ppmi.get, reverse=True)[:300]
print(food_top_threehundred)

['ены', 'пиц', 'уж ', 'бля', 'ивь', 'стф', 'жар', ' ол', 'туш', 'ячи', 'урд', 'ауч', 'ы ж', 'вощ', 'з г', 'окт', 'упо', ' об', ' кг', 'ху ', 'ыба', 'зм ', 'ухт', ' уж', 'шаш', 'вко', 'кг ', 'овл', 'сыт', 'гмо', 'шат', 'ног', 'ные', 'зиа', 'адь', 'кая', 'тби', 'едр', 'со ', 'ане', 'нев', 'или', 'хну', 'фе ', 'пет', 'мув', 'вег', ' пи', ' ры', 'о м', 'пел', 'умч', 'ост', 'юр ', 'езн', 'соч', 'сгу', 'мор', 'урб', 'виш', 'бва', 'евн', 'ц е', 'рив', ' рю', 'вме', 'у о', 'к ф', 'ващ', 'буш', 'реб', 'щ ф', 'ьси', 'улы', 'доф', 'цки', 'еже', 'ясо', 'ыкв', 'т ю', 'тоз', 'ант', ' сш', 'мед', 'аке', 'дки', 'и э', 'глю', 'х и', 'оче', 'пче', 'хоф', 'мму', 'ойс', 'ярк', 'тк ', 'чие', 'чиц', 'к я', 'е е', 'етч', 'рож', 'яст', 'тпа', 'тиб', 'вев', 'кат', 'ени', 'дсн', 'ару', 'цин', 'звк', 'шле', 'эст', 'овс', 'тфу', 'е г', ' ам', ' сж', 'куш', 'ьян', 'ппе', 'чаш', 'мур', 'щ н', 'юре', 'зг ', 'ням', 'юша', 'удр', 'к ц', 'мум', 'р д', ' мя', 'гр ', 'пча', 'обх', 'зне', 'еща', 'оит', 'реф', 'шоч', 'рье'

In [20]:
football_ppmi = {}
for w, contexts in smoothppmi.items():
    football_ppmi[w] = contexts['football']
football_top_threehundred = sorted(football_ppmi, key = football_ppmi.get, reverse=True)[:300]
print(football_top_threehundred)

['улы', 'рье', 'арп', 'упо', 'урд', 'тби', ' об', 'ане', 'в ф', 'ы ж', 'льв', 'или', 'эйф', 'вгу', ' зм', ' ол', 'х и', 'шат', ' ха', 'фут', 'ярк', 'одб', 'к ф', 'и э', 'бля', 'ног', 'цки', 'т ю', 'ауч', 'з г', 'умч', 'л т', ' ам', 'убо', 'кая', 'ост', 'ячи', ' бю', 'о м', 'ант', 'р д', 'нев', 'вящ', 'ены', 'чие', 'ьян', 'ени', 'вкл', 'мум', 'к ц', 'реф', 'у о', 'бви', 'смо', 'окт', 'идц', 'слу', 'ные', 'укр', 'эрр', 'жба', ' сш', 'н в', 'лол', 'атл', ' ям', 'кат', 'вме', ' уж', 'ойе', 'иев', 'ухт', 'зм ', 'ару', 'гба', 'пет', 'доф', 'шов', 'яму', 'оит', 'сси', 'авм', 'удр', 'е г', 'апл', 'хну', 'жда', 'бир', 'мур', 'овс', 'едр', 'овл', ' вх', 'зиа', 'лиш', 'лое', 'азг', 'еща', 'яст', 'пел', 'юча', 'оче', 'эст', 'ике', 'езн', 'тат', 'дой', 'рив', 'сай', ' ус', 'рба', 'цан', 'рес', 'ающ', 'адь', 'лих', 'нба', 'юра', 'яса', 'дя ', 'реб', 'уеф', 'иву', ' дз', 'орж', 'кен', 'зг ', 'м з', 'я я', 'рен', 'рем', 'уси', ' пр', 'ващ', 'и к', 'едл', 'одв', 'дут', 'пз ', 'шах', 'баи', 'ныр', 'ш т'

In [21]:
games_ppmi = {}
for w, contexts in smoothppmi.items():
    games_ppmi[w] = contexts['games']
games_top_threehundred = sorted(games_ppmi, key = games_ppmi.get, reverse=True)[:300]
print(games_top_threehundred)

['упо', ' об', 'рье', 'лол', 'урд', 'улы', ' ха', 'дут', 'или', 'ане', ' бю', 'х и', 'умч', 'кая', 'одб', 'ног', 'и э', 'льв', 'ауч', 'з г', 'к ф', 'шат', 'т ю', ' ол', 'тби', 'бля', 'доф', 'арп', 'вящ', 'в ф', 'ост', 'ярк', 'ы ж', 'нев', 'чие', 'р д', 'отз', 'ены', 'вкл', 'атл', 'ные', 'л т', 'ячи', 'у о', 'зик', 'ант', 'о м', ' ам', ' сш', 'мум', 'лут', 'убо', 'кше', 'ени', 'реф', 'е г', 'юча', ' уж', 'ухт', 'кат', 'цки', 'овл', 'ойс', 'зг ', 'пия', 'вме', 'имс', 'смо', 'еща', 'фут', 'хну', 'кик', 'эйф', 'вгу', 'н в', 'оит', 'зм ', 'иву', 'окт', 'лиш', 'лое', 'бир', 'жда', 'оче', 'рив', 'овс', 'яст', 'пиц', 'мур', 'езн', 'адь', 'ару', 'мув', 'сай', 'тат', 'кен', 'удр', ' ус', ' вх', 'азг', 'дя ', 'едр', 'цан', 'евн', 'рес', 'жба', 'к ц', ' иг', 'слу', 'ващ', 'одв', 'сси', 'реб', 'икл', 'туш', ' мэ', ' зм', ' пи', 'рем', 'йле', 'узн', 'уин', 'укр', 'юр ', 'лям', ' дл', ' пр', 'бое', 'ыня', 'глю', 'м з', 'идц', 'зиа', 'ндл', 'сфе', 'яму', 'пет', 'тпа', ' юз', ' ак', 'бви', 'сшт', 'вег'

In [22]:
music_ppmi = {}
for w, contexts in smoothppmi.items():
    music_ppmi[w] = contexts['music']
music_top_threehundred = sorted(music_ppmi, key = music_ppmi.get, reverse=True)[:300]
print(music_top_threehundred)

['шат', 'жаз', 'упо', ' об', ' ха', 'рье', 'ног', 'ане', 'слу', 'ант', 'ост', 'или', 'вящ', ' ол', 'к ф', 'ени', ' ам', 'о м', 'бля', 'одб', 'нев', 'ярк', 'и э', 'пет', 'вкл', 'цки', 'чие', 'л т', 'убо', 'лол', 'р д', 'лое', 'е г', 'атл', 'оче', 'ауч', 'х и', 'кат', 'вме', 'лиш', 'сси', 'у о', ' мэ', ' иг', 'зг ', 'зм ', 'юча', 'жда', 'тат', 'смо', 'овс', 'овл', 'яса', 'рем', 'н в', 'виш', ' ус', 'ару', 'сай', 'рес', 'эст', 'м з', 'умч', 'рив', 'мур', 'гру', 'з г', 'окт', ' пр', 'бир', 'поп', ' пи', ' вх', ' ак', 'ные', ' уж', 'ати', 'зик', 'мум', 'оит', 'реб', 'узн', 'мощ', 'еща', 'одв', 'спи', 'имс', 'нем', 'езн', 'дич', 'окл', 'дар', 'пол', 'евн', 'ача', 'а э', 'кая', 'в ф', 'ано', 'ены', 'т ю', 'и к', 'дя ', 'урд', 'цан', 'кен', 'идж', 'ьян', 'арп', 'рен', 'з п', 'ающ', 'удр', 'сфе', ' сп', 'реф', 'р о', 'ващ', 'соч', 'ств', 'улы', 'икл', 'чны', 'нее', 'отз', 'тез', 'тво', 'сей', 'бли', 'ейв', 'туш', 'отл', 'едл', 'гиа', 'емя', 'ь о', 'кну', 'гко', 'дип', 'азг', 'исы', 'ент', 'ойс'

In [23]:
nature_ppmi = {}
for w, contexts in smoothppmi.items():
    nature_ppmi[w] = contexts['nature']
nature_top_threehundred = sorted(nature_ppmi, key = nature_ppmi.get, reverse=True)[:300]
print(nature_top_threehundred)

['тиц', 'рир', 'ены', 'ени', ' пр', 'ост', ' цв', ' об', ' пт', 'кле', 'лый', 'озд', 'чка', 'тат', 'бли', 'а в', 'окн', 'вбл', 'ый ', 'рев', 'лед', 'роз', 'оба', 'ук ', 'кат', 'яго', 'шат', 'бь ', 'ний', 'дет', 'ека', 'ляд', 'ано', ' яг', 'а п', 'ста', 'етк', 'оти', 'сот', 'о м', 'ств', 'тво', 'во ', 'окр', 'пол', ' гн', 'ь о', 'ышь', ' ле', 'бир', 'оче', 'жий', 'але', 'год', 'вце', 'туб', 'ныш', 'дин', 'поп', 'ати', 'ерх', 'ача', 'ес ', 'кош', 'убо', 'шка', ' зм', 'вес', 'рен', 'к в', 'поз', 'одв', 'лиш', 'щни', ' сп', 'ыпа', 'вот', 'пох', 'хво', 'овс', 'вой', ' ют', 'дна', 'изо', 'аво', ' сф', 'зме', 'род', ' бо', 'кри', 'кно', 'дуб', 'азг', ' ус', 'емя', 'ног', ' ст', 'рем', 'мед', 'льн', 'зем', 'сек', 'лес', 'й л', 'фот', 'зь ', 'идт', 'вче', 'йст', 'фон', 'смо', 'бав', 'зат', 'ца ', 'обь', 'гля', 'нев', 'сег', 'о ч', 'об ', 'дти', 'ти ', 'е н', 'рив', 'кво', 'виж', 'чны', 'отк', 'рки', ' вж', 'син', 'наж', 'дня', 'й ф', 'ень', 'д в', 'кам', 'жив', 'ей ', 'сто', 'дер', 'мох', 'изд'

In [24]:
travel_ppmi = {}
for w, contexts in smoothppmi.items():
    travel_ppmi[w] = contexts['travel']
travel_top_threehundred = sorted(travel_ppmi, key = travel_ppmi.get, reverse=True)[:300]
print(travel_top_threehundred)

[' об', 'ост', 'ени', 'шат', 'ног', 'о м', 'оче', 'кат', 'тат', 'смо', ' пр', 'ант', 'рес', 'слу', 'бир', 'ане', 'пол', 'рем', 'рив', 'нев', 'пет', 'или', 'ати', 'е г', 'жда', 'атл', ' пи', 'реб', ' ус', 'р д', 'мор', 'ств', 'н в', 'сси', 'а в', 'ь о', ' сп', 'а п', 'поп', 'тво', 'оит', 'еща', 'а э', 'ано', 'чны', 'рен', 'ый ', 'ста', ' ам', 'але', 'ент', 'юча', ' уж', 'дин', 'бли', 'лиш', 'вкл', 'о ч', 'нем', 'р о', 'лый', 'езн', 'гов', 'ача', 'ека', 'и к', 'емя', 'гул', 'год', 'кон', 'ьян', 'окр', 'асс', ' бо', 'к в', ' ст', 'овс', 'гру', 'жар', ' ак', 'зат', 'нее', 'зм ', 'адь', 'уте', 'ция', 'вой', ' ха', 'льн', 'отл', 'отз', 'рож', ' иг', 'евн', 'вме', 'мум', 'сей', 'дар', 'чка', 'ены', 'нед', 'ще ', 'бер', 'анс', 'едл', 'узн', 'ас ', 'ень', 'е н', 'уве', 'чие', 'ей ', 'упо', 'нно', 'з п', 'ний', 'род', 'д в', 'лед', 'изо', 'опа', 'е е', 'обс', 'во ', 'иль', ' це', 'дос', 'инг', 'сфе', ' вх', 'цки', 'убо', 'обх', 'анц', 'лне', 'спр', 'поз', 'т д', 'я п', 'спи', 'рье', 'сот', 'змо'

In [25]:
topthreehundred = {}

In [26]:
for i in categs:
    topthreehundred[i] = eval(i + '_top_threehundred')

In [27]:
with open('300 trigrams ppmi.pkl', 'wb') as tp:
    pkl.dump(topthreehundred, tp)
tp.close()