In [1]:
import math
import json
from collections import Counter

In [2]:
unigrams_sorted_list = json.load(open("unigram_frequence_list.json", "r"))
bigrams_sorted_list = json.load(open("bigram_frequence_list.json", "r"))

In [3]:
unigrams = Counter({word: frequency for (word, frequency) in unigrams_sorted_list})
bigrams = Counter({word: frequency for (word, frequency) in bigrams_sorted_list})

print(unigrams.most_common(10))
print(bigrams.most_common(10))

[('w', 6484533), ('z', 3607405), ('i', 2362331), ('na', 2296676), ('do', 1907006), ('nie', 1631304), ('o', 1321759), ('że', 1230009), ('r', 1109156), ('art', 1020887)]
[('z dnia', 596156), ('w dniu', 297267), ('z art', 277758), ('w tym', 243244), ('na podstawie', 240391), ('w sprawie', 227660), ('art ust', 181616), ('zgodnie z', 176079), ('na rzecz', 172860), ('od dnia', 147272)]


In [4]:
unigrams_N = sum(unigrams.values())
print(unigrams_N)

124704966


In [5]:
def calculate_mpi(bigram):
    left, right = (unigrams[w]/ unigrams_N for w in bigram.split(" "))
    return math.log((bigrams[bigram] * unigrams_N)/(left*right) )

    
bigram_to_mpi_sorted_by_mpi = sorted(
    [(bigram, calculate_mpi(bigram)) for (bigram, _) in bigrams_sorted_list], 
    key=lambda x: x[1], 
    reverse=True
)

In [6]:
print("\n".join(map(str, bigram_to_mpi_sorted_by_mpi[:30])))

('nadtwardówkowej neuroplastyki', 55.92438370030173)
('rozdzielaczu podłogówki', 55.92438370030173)
('onkologiem radioterapeutą', 55.92438370030173)
('bernadety kudrykiewicz', 55.92438370030173)
('wpi sany', 55.92438370030173)
('zastrze żeniem', 55.92438370030173)
('wcho dzącej', 55.92438370030173)
('finan sowe', 55.92438370030173)
('zmar łemu', 55.92438370030173)
('nieade kwatnej', 55.92438370030173)
('rekompen saty', 55.92438370030173)
('postrze gany', 55.92438370030173)
('przecho dzeniu', 55.92438370030173)
('leukocy tozę', 55.92438370030173)
('anato miczne', 55.92438370030173)
('admini strowanej', 55.92438370030173)
('elektrotech niki', 55.92438370030173)
('wygó rowana', 55.92438370030173)
('nega tywnych', 55.92438370030173)
('wyrzą dzoną', 55.92438370030173)
('wywo łać', 55.92438370030173)
('pono wnego', 55.92438370030173)
('elektrolizera elektrolizer', 55.92438370030173)
('gawryckiej lipiety', 55.92438370030173)
('canalis regionis', 55.92438370030173)
('lumbo secularis', 55.92438

In [9]:
def llr(bigram):
    N = unigrams_N
    l, r = bigram.split(" ")
    
    both = bigrams[bigram]
    a = unigrams[l] - both
    b = unigrams[r] - both
    none_of = N - (both + a + b)
    def H(occurences):
        return sum([(k/N) * math.log(k/N + (1 if k == 0 else 0)) for k in occurences])
    
    return 2*N*(
        H([both, a, b, none_of]) - 
        H([both + b, a + none_of]) - 
        H([both + a, b + none_of]) 
    )

In [12]:
bigram_to_llr = [
    (bigram, llr(bigram)) 
    for (bigram, _) in bigrams_sorted_list
]
bigram_to_llr.sort(key=lambda x: x[1], reverse=True)

In [13]:
print("\n".join(map(str, bigram_to_llr[:30])))

('z dnia', 3108071.712296739)
('na podstawie', 1836017.7094078425)
('sygn akt', 1773710.984174425)
('w dniu', 1637546.5465705697)
('art ust', 1471094.9647826226)
('sąd okręgowy', 1365059.7240593222)
('ubezpieczeń społecznych', 1280213.9405113272)
('na rzecz', 1219950.6141052875)
('sąd rejonowy', 1167523.0855249052)
('zgodnie z', 1135872.7389421836)
('pozbawienia wolności', 971096.9357529806)
('kwotę zł', 958208.8391099136)
('w sprawie', 952285.1036218051)
('zw z', 871818.0855134428)
('z art', 834872.0670056775)
('w tym', 824449.5774353379)
('sądu najwyższego', 816300.8673711743)
('podstawie art', 811796.5527923347)
('sądu rejonowego', 771018.564539923)
('w zw', 740439.1484645201)
('materiału dowodowego', 737388.6812905886)
('od dnia', 680877.3314866236)
('organ rentowy', 673068.795267755)
('związku z', 663067.9057022961)
('ocenie sądu', 660283.0814062576)
('rzeczypospolitej polskiej', 646392.5001787504)
('art kk', 620780.5447817616)
('niniejszej sprawie', 620416.9255520706)
('w związku