In [1]:
import os
from spacy.tokenizer import Tokenizer
from spacy.lang.pl import Polish
from collections import Counter

## zadanie 1. Use SpaCy tokenizer API to tokenize the text from the law corpus.

In [2]:
nlp = Polish()
tokenizer = nlp.tokenizer

In [6]:
file_names = []
for file in os.listdir('./ustawy'):
    file_names.append(file)

file_names.remove('.DS_Store')
# file_names.remove('.ipynb_checkpoints')


In [7]:
def read_data_tokenize():
    tok_data = []
    for filename in file_names:
        with open("ustawy" + '/' + filename, 'r') as file:
            content = file.read()
            tokens = tokenizer(content)
            tok_data.append([filename, tokens])
    return tok_data

tokenized_data = read_data_tokenize()



In [26]:
tokens[254]

'2'

## zadanie 2. Compute bigram counts of downcased tokens.

In [8]:
import collections
bigrams =  collections.defaultdict(lambda: 0)
def count_freq_for_bigrams(tokens):
    for i in range(0, len(tokens) -1):
        word_1, word_2 = tokens[i], tokens[i + 1]
        bigrams[(word_1, word_2)] += 1
    # return bigrams


for doc in tokenized_data:
    tokens = []
    for token in doc[1]:
        tokens.append(token.text.lower())
    count_freq_for_bigrams(tokens)

In [9]:
list(bigrams.items())[:10]

[(('\n\n\n\n', 'dz'), 836),
 (('dz', '.'), 8885),
 (('.', 'u'), 8016),
 (('u', '.'), 8134),
 (('.', 'z'), 5017),
 (('z', '2001'), 902),
 (('2001', 'r'), 1883),
 (('r', '.'), 33015),
 (('.', 'nr'), 20321),
 (('nr', '81'), 83)]

In [10]:
bigrams_sorted = sorted(bigrams.items(), key=lambda x: x[1], reverse=True)
bigrams_sorted[:10]

[(('art', '.'), 83778),
 (('ust', '.'), 53552),
 (('.', '\n'), 49741),
 (('poz', '.'), 45198),
 ((',', 'poz'), 39655),
 (('-', '-'), 36542),
 (('r', '.'), 33015),
 (('w', 'art'), 30170),
 (('.', '1'), 29734),
 ((',', 'o'), 28739)]

## zadanie 3. Discard bigrams containing characters other than letters. Make sure that you discard the invalid entries after computing the bigram counts.

In [11]:
def check_if_letter(bigrams):
    bigrams_filtered = dict(filter(lambda a: a[0][0].isalpha() and a[0][1].isalpha(), bigrams.items()))
    return bigrams_filtered

bigrams_filtered = check_if_letter(bigrams)
list(bigrams_filtered.items())[:10]

[(('z', 'dnia'), 8989),
 (('o', 'zmianie'), 1176),
 (('zmianie', 'ustawy'), 829),
 (('ustawy', 'o'), 1394),
 (('o', 'państwowej'), 70),
 (('państwowej', 'straży'), 474),
 (('straży', 'pożarnej'), 425),
 (('w', 'ustawie'), 4777),
 (('ustawie', 'z'), 3624),
 (('i', 'nr'), 7871)]

## zadanie 4. Use pointwise mutual information to compute the measure for all pairs of words.

In [15]:
single_word_freq_list = collections.defaultdict(int)
for doc in tokenized_data:
    for token in doc[1]:
        single_word_freq_list[token.text.lower()] += 1


In [16]:
import math

def get_pointwise_mutual_information(bigrams, single_word_freq_list):
    bigrams_pmi = {}
    word_len = sum(bigrams.values())
    word_len2 = sum(single_word_freq_list.values())
    for item in bigrams.items():
        bigram = item[0]
        count = item[1]
        bigrams_pmi[bigram] = math.log((count/word_len) / ((single_word_freq_list[bigram[0]]/word_len2) * (single_word_freq_list[bigram[1]]/word_len2)))
    return bigrams_pmi

bigrams_pmi = get_pointwise_mutual_information(bigrams_filtered, single_word_freq_list)
list(bigrams_pmi.items())[:5]

[(('z', 'dnia'), 4.425845728993178),
 (('o', 'zmianie'), 5.103554204317643),
 (('zmianie', 'ustawy'), 6.352299503962667),
 (('ustawy', 'o'), 3.118470454737466),
 (('o', 'państwowej'), 2.204872755045761)]

## zadanie 5. Sort the word pairs according to that measure in the descending order and determine top 10 entries.

In [17]:
sorted_pmi_bigrmams = dict(sorted(bigrams_pmi.items(), key=lambda item: item[1], reverse=True))
list(sorted_pmi_bigrmams)[:10]


[('doktorów', 'habilitowanych'),
 ('pionową', 'ścianę'),
 ('usprawnianie', 'zaburzonych'),
 ('gałki', 'ocznej'),
 ('stępkę', 'położono'),
 ('wybuchła', 'wojna'),
 ('dało', 'pożytecznego'),
 ('poświęcenie', 'objęło'),
 ('błędem', 'nautycznym'),
 ('pobudzających', 'innowacyjność')]

## zadanie 6. Filter bigrams with number of occurrences lower than 5. Determine top 10 entries for the remaining dataset (>=5 occurrences).

In [18]:
bigrams_feq_5 = dict(filter(lambda x: bigrams_filtered[x[0]] >= 5, sorted_pmi_bigrmams.items()))
list(bigrams_feq_5)[:10]


[('ręcznego', 'miotacza'),
 ('stajnią', 'wyścigową'),
 ('świeckie', 'przygotowujące'),
 ('klęskami', 'żywiołowymi'),
 ('obcowania', 'płciowego'),
 ('grzegorz', 'schetyna'),
 ('młynki', 'młotkowe'),
 ('młyny', 'kulowe'),
 ('otworami', 'wiertniczymi'),
 ('środa', 'wlkp')]

## zadanie 7. Use KRNNT or Clarin-PL API(https://ws.clarin-pl.eu/tager.shtml) to tag and lemmatize the corpus.
## zadanie 8 Using the tagged corpus compute bigram statistic for the tokens containing: a. lemmatized, downcased word b. morphosyntactic category of the word (subst, fin, adj, etc.)


In [20]:
from xml.dom.minidom import parse


In [None]:
fix_single_word_freq_list = collections.defaultdict(int)
for doc in tokenized_data:
    for token in doc[1]:
        single_word_freq_list[token.text.lower()] += 1


In [21]:
with open(f'./Clarin_result/ustawy%1993_646.txt', "r", encoding='utf-8') as f:
        content = parse(f)
 
for token in content.getElementsByTagName("tok"):
    word = token.getElementsByTagName("orth")[0].firstChild.nodeValue.lower()
    category = token.getElementsByTagName("ctag")[0].firstChild.nodeValue.split(':')[0].lower()
    print(word)
    print(category)
    break

dz
brev


In [22]:
from collections import defaultdict
clarin_tokenizer = {}
base_form_freq = defaultdict(lambda: 0)
clarin_bigram_freq = defaultdict(lambda: 0)
clarin_trigram_freq = defaultdict(lambda: 0)

for file in os.listdir("./Clarin_output/"):
    tokens=[]
    with open(f'./Clarin_output/{file}', "r", encoding='utf-8') as f:
        content = parse(f)
 
    for token in content.getElementsByTagName("tok"):
        word = token.getElementsByTagName("orth")[0].firstChild.nodeValue.lower()
        base_form = token.getElementsByTagName("base")[0].firstChild.nodeValue.lower()
        category = token.getElementsByTagName("ctag")[0].firstChild.nodeValue.split(':')[0].lower()
        tokens.append(base_form + ':' + category)
        
        clarin_tokenizer[word] = {"base_form": base_form , "category": category}

    for token in tokens:
        if token.split(':')[0].isalpha():
            base_form_freq[token] += 1
    
    for i in range(0, len(tokens) -1):
        word_1, word_2 = tokens[i].split(':')[0], tokens[i + 1].split(':')[0]
        cat_1, cat_2 = tokens[i].split(':')[1], tokens[i + 1].split(':')[1]
        if word_1.isalpha() and word_2.isalpha():
            clarin_bigram_freq[(word_1+":"+ cat_1, word_2+":"+ cat_2)] += 1
    
    for i in range(0, len(tokens) -2):
        word_1, word_2, word_3 = tokens[i].split(':')[0], tokens[i + 1].split(':')[0], tokens[i + 2].split(':')[0]
        cat_1, cat_2, cat_3 = tokens[i].split(':')[1], tokens[i + 1].split(':')[1], tokens[i + 2].split(':')[1]
        if word_1.isalpha() and word_2.isalpha() and word_3.isalpha():
            clarin_trigram_freq[(word_1+":"+ cat_1, word_2+":"+ cat_2, word_3+":"+ cat_3)] += 1
        
    

In [23]:
list(clarin_bigram_freq.items())[:10]


[(('u:prep', 'sekunda:brev'), 141),
 (('sekunda:brev', 't:ign'), 142),
 (('t:ign', 'a:conj'), 141),
 (('a:conj', 'w:prep'), 2182),
 (('w:prep', 'a:conj'), 145),
 (('a:conj', 'z:prep'), 163),
 (('z:prep', 'dzień:subst'), 11360),
 (('o:prep', 'służba:subst'), 187),
 (('służba:subst', 'wojskowy:adj'), 948),
 (('wojskowy:adj', 'żołnierz:subst'), 71)]

In [24]:
list(clarin_tokenizer.items())[:10]

[('dz', {'base_form': 'dzieje_(apostolskie)', 'category': 'brev'}),
 ('.', {'base_form': '.', 'category': 'interp'}),
 ('u', {'base_form': 'u', 'category': 'prep'}),
 ('z', {'base_form': 'z', 'category': 'prep'}),
 ('2003', {'base_form': '2003', 'category': 'num'}),
 ('r', {'base_form': 'r', 'category': 'ign'}),
 ('nr', {'base_form': 'nr', 'category': 'subst'}),
 ('179', {'base_form': '179', 'category': 'num'}),
 (',', {'base_form': ',', 'category': 'interp'}),
 ('poz', {'base_form': 'poz', 'category': 'ign'})]

In [25]:
list(base_form_freq.items())[:10]


[('u:prep', 9155),
 ('z:prep', 87991),
 ('r:ign', 33192),
 ('nr:subst', 44953),
 ('poz:ign', 45245),
 ('sekunda:brev', 378),
 ('t:ign', 491),
 ('a:conj', 17189),
 ('w:prep', 202950),
 ('dzień:subst', 26990)]

In [26]:
base_without_cat = dict((word.split(':')[0], freq) for word, freq in base_form_freq.items())


## zadanie 10. Compute the same statistics as for the non-lemmatized words (i.e. PMI) and print top-10 entries with at least 5 occurrences.

In [39]:
def get_pointwise_mutual_information_cl(bigrams, single_word_freq_list):
    bigrams_pmi = {}
    word_len = sum(bigrams.values())
    word_len2 = sum(single_word_freq_list.values())
    for item in bigrams.items():
        bigram = item[0]
        w_1, w_2 = bigram[0], bigram[1]
        count = item[1]
        bigrams_pmi[bigram] = math.log((count/word_len) / ((single_word_freq_list[w_1]/word_len2) * (single_word_freq_list[w_2]/word_len2)))
    return bigrams_pmi

In [40]:
bigrams_clarin = get_pointwise_mutual_information_cl(clarin_bigram_freq, base_form_freq)
list(bigrams_clarin.items())[:15]

[(('u:prep', 'sekunda:brev'), 5.241951508048575),
 (('sekunda:brev', 't:ign'), 8.174630004585758),
 (('t:ign', 'a:conj'), 4.350432109654096),
 (('a:conj', 'w:prep'), 1.0653985911964208),
 (('w:prep', 'a:conj'), -1.6458648327760208),
 (('a:conj', 'z:prep'), -0.693123267625648),
 (('z:prep', 'dzień:subst'), 3.0997834411588387),
 (('o:prep', 'służba:subst'), 0.8751060702927494),
 (('służba:subst', 'wojskowy:adj'), 6.053530302072146),
 (('wojskowy:adj', 'żołnierz:subst'), 4.351183449375892),
 (('żołnierz:subst', 'zawodowy:adj'), 6.0609895987446665),
 (('zawodowy:adj', 'rozdział:subst'), -0.9477194222519562),
 (('przepis:subst', 'ogólny:adj'), 3.9198821970505406),
 (('ogólny:adj', 'art:ign'), 2.3310995977519786),
 (('ustawa:subst', 'określać:fin'), 2.7389455107174054)]

In [41]:
bigrams_clarin_sorted = sorted(bigrams_clarin.items(), key=lambda x: x[1], reverse=True)
bigrams_clarin_sorted[:10]

[(('atrakcyjny:adj', 'turystycznie:adv'), 15.350141270398606),
 (('niepeł:ign', 'nosprawności:ign'), 15.350141270398606),
 (('dzonej:ign', 'obdukcja:subst'), 15.350141270398606),
 (('inwestycy:ign', 'jnych:ign'), 15.350141270398606),
 (('okr:ign', 'eśl:ign'), 15.350141270398606),
 (('pos:ign', 'taca:subst'), 15.350141270398606),
 (('zwi:ign', 'ązk:ign'), 15.350141270398606),
 (('ier:ign', 'ają:ign'), 15.350141270398606),
 (('ają:ign', 'cyc:subst'), 15.350141270398606),
 (('potasowyc:ign', 'atmosfe:ign'), 15.350141270398606)]

In [42]:
cl_bigrams_feq_5 = dict(filter(lambda x: clarin_bigram_freq[x[0]] >= 5, dict(bigrams_clarin_sorted).items()))
list(cl_bigrams_feq_5.items())[:10]

[(('młynek:subst', 'młotkowy:adj'), 13.740703357964506),
 (('grzegorz:subst', 'schetyna:ign'), 13.740703357964506),
 (('teryto:ign', 'rialnego:ign'), 13.740703357964506),
 (('pasta:subst', 'emulsyjny:adj'), 13.558381801170551),
 (('chrom:subst', 'sześciowartościowy:adj'), 13.558381801170551),
 (('odpowiedzieć:fin', 'dzialności:ign'), 13.558381801170551),
 (('adam:subst', 'mickiewicz:subst'), 13.558381801170551),
 (('łańcuchowa:subst', 'rozszczepienie:subst'), 13.558381801170551),
 (('młyn:subst', 'kulowy:adj'), 13.404231121343292),
 (('piotrek:subst', 'trybunalski:adj'), 13.404231121343292)]

## Compute trigram counts for both corpora and perform the same filtering.

## Use PMI (with 5 occurrence threshold) to compute top 10 results for the trigrams. Devise a method for computing the values, based on the results for bigrams.

#### Non-lemmatized:

In [45]:
import collections
trigrams =  collections.defaultdict(lambda: 0)
def count_freq_for_trigrams(tokens):
    for i in range(0, len(tokens) -2):
        word_1, word_2, word_3 = tokens[i], tokens[i + 1], tokens[i + 2]
        trigrams[(word_1, word_2, word_3)] += 1
    # return bigrams


for doc in tokenized_data:
    tokens = []
    for token in doc[1]:
        tokens.append(token.text.lower())
    count_freq_for_trigrams(tokens)

In [46]:
def check_if_letter_trig(trigrams):
    return dict(filter(lambda a: a[0][0].isalpha() and a[0][1].isalpha() and a[0][2].isalpha() and a[1] > 4, trigrams.items()))

trigrams_filtered = check_if_letter_trig(trigrams)
list(trigrams_filtered.items())[:10]

[(('o', 'zmianie', 'ustawy'), 750),
 (('zmianie', 'ustawy', 'o'), 614),
 (('ustawy', 'o', 'państwowej'), 9),
 (('o', 'państwowej', 'straży'), 26),
 (('państwowej', 'straży', 'pożarnej'), 368),
 (('w', 'ustawie', 'z'), 3347),
 (('ustawie', 'z', 'dnia'), 3511),
 (('przez', 'osoby', 'prawne'), 19),
 (('osoby', 'prawne', 'lub'), 28),
 (('prawne', 'lub', 'fizyczne'), 14)]

In [47]:
def get_pointwise_mutual_information_tr(trigrams, single_word_freq_list):
    trigrams_pmi = {}
    word_sum = sum(trigrams.values())
    word_len2 = sum(single_word_freq_list.values())
    for item in trigrams.items():
        trigrams = item[0]
        count = item[1]
        trigrams_pmi[trigrams] = math.log((count/word_sum) / ((single_word_freq_list[trigrams[0]]/word_len2)* (single_word_freq_list[trigrams[2]]/word_len2) * (single_word_freq_list[trigrams[1]]/word_len2)))
    return trigrams_pmi

trigrams_pmi = get_pointwise_mutual_information_tr(trigrams_filtered, single_word_freq_list)
list(trigrams_pmi.items())[:5]

[(('o', 'zmianie', 'ustawy'), 11.917562387155579),
 (('zmianie', 'ustawy', 'o'), 11.717484108772364),
 (('ustawy', 'o', 'państwowej'), 7.417411195098773),
 (('o', 'państwowej', 'straży'), 10.551863596004043),
 (('państwowej', 'straży', 'pożarnej'), 18.071950413420815)]

In [48]:
sorted_pmi_trigrmams = dict(sorted(trigrams_pmi.items(), key=lambda item: item[1], reverse=True))
list(sorted_pmi_trigrmams.items())[:10]

[(('profilem', 'zaufanym', 'epuap'), 27.971678329747785),
 (('finałowego', 'turnieju', 'mistrzostw'), 27.7079494983185),
 (('przedwczesnego', 'wyrębu', 'drzewostanu'), 27.5876521436954),
 (('potwierdzonym', 'profilem', 'zaufanym'), 27.505177331053254),
 (('piłce', 'nożnej', 'uefa'), 27.464592050938176),
 (('cienką', 'sierścią', 'zwierzęcą'), 27.222678396941976),
 (('szybkiemu', 'postępowi', 'technicznemu'), 27.177732685237856),
 (('turnieju', 'mistrzostw', 'europy'), 27.17732124725633),
 (('grożącą', 'jemu', 'samemu'), 27.01033677866058),
 (('wypalonym', 'paliwem', 'jądrowym'), 26.959043484273028)]

### Lemmatized:

In [49]:
list(clarin_trigram_freq.items())[:10]

[(('u:prep', 'sekunda:brev', 't:ign'), 141),
 (('sekunda:brev', 't:ign', 'a:conj'), 141),
 (('t:ign', 'a:conj', 'w:prep'), 141),
 (('a:conj', 'w:prep', 'a:conj'), 141),
 (('w:prep', 'a:conj', 'z:prep'), 141),
 (('a:conj', 'z:prep', 'dzień:subst'), 144),
 (('o:prep', 'służba:subst', 'wojskowy:adj'), 52),
 (('służba:subst', 'wojskowy:adj', 'żołnierz:subst'), 70),
 (('wojskowy:adj', 'żołnierz:subst', 'zawodowy:adj'), 61),
 (('żołnierz:subst', 'zawodowy:adj', 'rozdział:subst'), 1)]

In [43]:
def get_pointwise_mutual_information_cl_tr(bigrams, single_word_freq_list):
    bigrams_pmi = {}
    word_len = sum(bigrams.values())
    word_len2 = sum(single_word_freq_list.values())
    for item in bigrams.items():
        bigram = item[0]
        w_1, w_2, w_3 = bigram[0], bigram[1], bigram[2]
        count = item[1]
        bigrams_pmi[bigram] = math.log((count/word_len) / ((single_word_freq_list[w_1]/word_len2) * (single_word_freq_list[w_3]/word_len2) *  (single_word_freq_list[w_2]/word_len2)))
    return bigrams_pmi

In [44]:
trigrams_clarin = get_pointwise_mutual_information_cl_tr(clarin_trigram_freq, base_form_freq)
list(trigrams_clarin.items())[:15]

[(('u:prep', 'sekunda:brev', 't:ign'), 14.339852685157055),
 (('sekunda:brev', 't:ign', 'a:conj'), 13.70988321893751),
 (('t:ign', 'a:conj', 'w:prep'), 7.424062492290052),
 (('a:conj', 'w:prep', 'a:conj'), 3.868481696756416),
 (('w:prep', 'a:conj', 'z:prep'), 2.235516804581714),
 (('a:conj', 'z:prep', 'dzień:subst'), 4.27406343003454),
 (('o:prep', 'służba:subst', 'wojskowy:adj'), 7.365565061716466),
 (('służba:subst', 'wojskowy:adj', 'żołnierz:subst'), 11.004400063911579),
 (('wojskowy:adj', 'żołnierz:subst', 'zawodowy:adj'), 11.289324323261507),
 (('żołnierz:subst', 'zawodowy:adj', 'rozdział:subst'), 6.60900959979314),
 (('przepis:subst', 'ogólny:adj', 'art:ign'), 7.7920371215914574),
 (('zasada:subst', 'powoływać:ger', 'do:prep'), 5.6103149255066285),
 (('powoływać:ger', 'do:prep', 'zawodowy:adj'), 6.795406744961749),
 (('do:prep', 'zawodowy:adj', 'służba:subst'), 6.78730953472913),
 (('zawodowy:adj', 'służba:subst', 'wojskowy:adj'), 12.305279846269096)]

In [214]:
trigrams_clarin_sorted = sorted(trigrams_clarin.items(), key=lambda x: x[1], reverse=True)
trigrams_clarin_sorted[:10]

[(('ier:ign', 'ają:ign', 'cyc:subst'), 30.23921067580649),
 (('dofinansować:ger', 'podlegać:fin', 'zwro:ign'), 30.23921067580649),
 (('wywołać:inf', 'niedziedzicznewrodzone:ign', 'deformacja:subst'),
  30.23921067580649),
 (('wszywać:ger', 'zamek:subst', 'błyskawiczny:adj'), 30.23921067580649),
 (('chwi:ign', 'lą:ign', 'uprawomocnić:ger'), 30.23921067580649),
 (('zabezpieczyć:ppas', 'wpi:ign', 'sem:subst'), 30.23921067580649),
 (('mink:ign', 'virus:ign', 'enteritis:ign'), 30.23921067580649),
 (('hos:ign', 'pic:subst', 'juma:subst'), 30.23921067580649),
 (('benzimidazol:ign', 'leonotis:ign', 'leonurus:ign'), 30.23921067580649),
 (('hostilis:ign', 'mitragyna:ign', 'speciosa:ign'), 30.23921067580649)]

In [215]:
cl_trigrams_feq_5 = dict(filter(lambda x: clarin_trigram_freq[x[0]] >= 5, dict(trigrams_clarin_sorted).items()))
list(cl_trigrams_feq_5.items())[:10]

[(('móc:fin', 'być:inf', 'udzielać:ppas'), 29.84152770814038),
 (('bez:prep', 'uzyskać:ger', 'wymagać:ppas'), 29.546063495246543),
 (('najwyższy:subst', 'pozostawiać:fin', 'bez:prep'), 29.322919943932334),
 (('móc:fin', 'być:inf', 'przyznawać:ppas'), 29.299203417315017),
 (('móc:fin', 'być:inf', 'przekazywać:ppas'), 29.299203417315017),
 (('móc:fin', 'być:inf', 'tworzyć:ppas'), 29.076059866000808),
 (('móc:fin', 'być:inf', 'używać:ppas'), 28.913540936503033),
 (('móc:fin', 'być:inf', 'wykorzystać:ppas'), 28.788377793549028),
 (('móc:praet', 'by:qub', 'wywołać:inf'), 28.743717022721604),
 (('móc:fin', 'być:inf', 'przeznaczyć:ppas'), 28.670594757892644)]

## Create a table comparing the results for copora without and with tagging and lemmatization (separate table for bigrams and trigrams).

In [231]:
bigram_1 = pd.DataFrame(([bigrams[0], bigrams[1], freq] for  bigrams, freq in bigrams_feq_5.items()),
             columns = ['not_Lemmatized_word_1', 'not_Lemmatized_word_2', 'pmi_1']).head(20)

In [230]:
bigram_2 = pd.DataFrame(([bigrams[0], bigrams[1], freq] for  bigrams, freq in cl_bigrams_feq_5.items()),
             columns = ['Lemmatized_word_1', 'Lemmatized_word_2', 'pmi_2']).head(20)

In [229]:
bigrams_df = pd.concat((bigram_1, bigram_2), axis=1)
bigrams_df

Unnamed: 0,not_Lemmatized_word_1,not_Lemmatized_word_2,pmi_1,Lemmatized_word_1,Lemmatized_word_2,pmi_2
0,ręcznego,miotacza,14.828082,móc:fin,być:inf,18.454768
1,stajnią,wyścigową,14.828082,móc:fin,uczestniczyć:inf,18.171
2,świeckie,przygotowujące,14.828082,zamawiać:pact,przekazywać:fin,18.171
3,klęskami,żywiołowymi,14.828082,bez:prep,uzyskać:ger,18.07569
4,obcowania,płciowego,14.828082,móc:fin,żądać:inf,17.942158
5,grzegorz,schetyna,14.828082,zorganizować:ppas,część:subst,17.852546
6,młynki,młotkowe,14.828082,dokonany:adj,bez:prep,17.719015
7,młyny,kulowe,14.828082,pozostawiać:fin,bez:prep,17.719015
8,otworami,wiertniczymi,14.828082,móc:fin,wchodzić:inf,17.564864
9,środa,wlkp,14.828082,bez:prep,usprawiedliwić:ppas,17.564864


In [234]:
trigram_1 = pd.DataFrame(([trigrams[0], trigrams[1],trigrams[2], freq] for  trigrams, freq in sorted_pmi_trigrmams.items()),
             columns = ['not_Lemmatized_word_1', 'not_Lemmatized_word_2','not_Lemmatized_word_3', 'pmi_1']).head(20)

In [237]:
trigram_2 = pd.DataFrame(([trigrams[0], trigrams[1],trigrams[2], freq] for  trigrams, freq in cl_trigrams_feq_5.items()),
             columns = ['Lemmatized_word_1', 'Lemmatized_word_2','Lemmatized_word_3', 'pmi_2']).head(20)

In [238]:
trigrams_df = pd.concat((trigram_1, trigram_2), axis=1)
trigrams_df

Unnamed: 0,not_Lemmatized_word_1,not_Lemmatized_word_2,not_Lemmatized_word_3,pmi_1,Lemmatized_word_1,Lemmatized_word_2,Lemmatized_word_3,pmi_2
0,profilem,zaufanym,epuap,27.971678,móc:fin,być:inf,udzielać:ppas,29.841528
1,finałowego,turnieju,mistrzostw,27.707949,bez:prep,uzyskać:ger,wymagać:ppas,29.546063
2,przedwczesnego,wyrębu,drzewostanu,27.587652,najwyższy:subst,pozostawiać:fin,bez:prep,29.32292
3,potwierdzonym,profilem,zaufanym,27.505177,móc:fin,być:inf,przyznawać:ppas,29.299203
4,piłce,nożnej,uefa,27.464592,móc:fin,być:inf,przekazywać:ppas,29.299203
5,cienką,sierścią,zwierzęcą,27.222678,móc:fin,być:inf,tworzyć:ppas,29.07606
6,szybkiemu,postępowi,technicznemu,27.177733,móc:fin,być:inf,używać:ppas,28.913541
7,turnieju,mistrzostw,europy,27.177321,móc:fin,być:inf,wykorzystać:ppas,28.788378
8,grożącą,jemu,samemu,27.010337,móc:praet,by:qub,wywołać:inf,28.743717
9,wypalonym,paliwem,jądrowym,26.959043,móc:fin,być:inf,przeznaczyć:ppas,28.670595


In [None]:
Why do we have to filter the bigrams, rather than the token sequence?
 - ze względu na znaki nie alfanumeryczne- jezeli je  usuniemy na poczatku to nie bedzie mialo sensu budowanie bigramow
    
Which method works better for the bigrams and which for the trigrams?
- dla bigramow bez lematyzacji , a trgiramy z 

What types of expressions are discovered by the methods.
- glownie czasowniki, nazwy własne np instytucji

Can you devise a different type of filtering that would yield better results?

- filtrowanie  wszystkich zaimków