In [1]:
import os 
import glob
import regex
from collections import Counter, OrderedDict, defaultdict
import numpy as np
import math
import regex
import requests
import pandas as pd
from tqdm.notebook import tqdm
from pathlib import Path

# 1. Download docker image of KRNNT2. It includes the following tools:
- Morfeusz2 - morphological dictionary
- Corpus2 - corpus access library
- Toki - tokenizer for Polish
- Maca - morphosyntactic analyzer
- KRNNT - Polish tagger

# 2. As an alternative you can use Tagger interfaces in Clarin-Pl

In [2]:
files = [f for f in glob.glob('../ustawy/*')]


def read_file(filename):
    with open(filename, encoding='UTF-8') as f:
        text = f.read()
        return text.lower()


files_content = pd.DataFrame({
    "id": [Path(filename).stem for filename in files],
    "text": [read_file(filename) for filename in files]
})
len(files_content)


1179

# 3. Use the tool to tag and lemmatize the law corpus.

In [6]:
def krnnt2(text):
    response = requests.post("http://localhost:9200", data=text.encode("utf-8"))
    return response.content.decode("utf-8")


# files_content["tagged"] = [krnnt2(text) for text in tqdm(files_content["text"], total=1179)]


In [153]:
# files_content.to_csv("files_tagged.csv")

In [154]:
# files_content

Unnamed: 0,id,text,tagged
0,1993_599,"\n\n\n\ndz.u. z 1993 r. nr 129, poz. 599 \n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
1,1993_602,"\n\n\n\ndz.u. z 1993 r. nr 129, poz. 602 \n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
2,1993_645,"\n\n\n\ndz.u. z 1993 r. nr 134, poz. 645\n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
3,1993_646,"\n\n\n\ndz.u. z 1993 r. nr 134, poz. 646\n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
4,1994_150,"\n\n\n\ndz.u. z 1994 r. nr 40, poz. 150\n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
...,...,...,...
1174,2004_96,\n\n\ntekst ustawy\nprzyjęty przez senat bez p...,tekst\tnone\n\ttekst\tsubst:sg:nom:m3\tdisamb\...
1175,2004_962,\n\n\ntekst ustawy\nprzyjęty przez senat bez p...,tekst\tnone\n\ttekst\tsubst:sg:nom:m3\tdisamb\...
1176,2004_963,"\n\n\n\ndz.u. z 2004 r. nr 97, poz. 963\n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
1177,2004_964,\n\n\ntekst ustawy przyjęty przez senat bez po...,tekst\tnone\n\ttekst\tsubst:sg:nom:m3\tdisamb\...


In [3]:
f_content = pd.read_csv("files_tagged.csv")
f_content

Unnamed: 0.1,Unnamed: 0,id,text,tagged
0,0,1993_599,"\n\n\n\ndz.u. z 1993 r. nr 129, poz. 599 \n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
1,1,1993_602,"\n\n\n\ndz.u. z 1993 r. nr 129, poz. 602 \n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
2,2,1993_645,"\n\n\n\ndz.u. z 1993 r. nr 134, poz. 645\n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
3,3,1993_646,"\n\n\n\ndz.u. z 1993 r. nr 134, poz. 646\n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
4,4,1994_150,"\n\n\n\ndz.u. z 1994 r. nr 40, poz. 150\n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
...,...,...,...,...
1174,1174,2004_96,\n\n\ntekst ustawy\nprzyjęty przez senat bez p...,tekst\tnone\n\ttekst\tsubst:sg:nom:m3\tdisamb\...
1175,1175,2004_962,\n\n\ntekst ustawy\nprzyjęty przez senat bez p...,tekst\tnone\n\ttekst\tsubst:sg:nom:m3\tdisamb\...
1176,1176,2004_963,"\n\n\n\ndz.u. z 2004 r. nr 97, poz. 963\n ...",dz\tnone\n\tdziennik\tbrev:pun\tdisamb\n.\tnon...
1177,1177,2004_964,\n\n\ntekst ustawy przyjęty przez senat bez po...,tekst\tnone\n\ttekst\tsubst:sg:nom:m3\tdisamb\...


In [10]:
files_content = f_content

# 6. For example: "Ala ma kota", which is tagged as: 
```
Ala	none
        Ala	subst:sg:nom:f	disamb
ma	space
        mieć	fin:sg:ter:imperf	disamb
kota	space
        kot	subst:sg:acc:m2	disamb
.	none
        .	interp	disamb
```
the algorithm should return the following bigrams: `ala:subst mieć:fin` and `mieć:fin kot:subst`.

In [4]:
# response = requests.post("http://localhost:9200", data="Ala ma kota, a żółty Kot ma Ale.".encode("UTF-8"))
response = requests.post("http://localhost:9200", data="Miła ma, jak żyć?".encode("UTF-8"))
decoded = response.content.decode("UTF-8")
print(decoded), decoded

Miła	none
	miła	subst:sg:nom:f	disamb
ma	space
	mieć	fin:sg:ter:imperf	disamb
,	none
	,	interp	disamb
jak	space
	jak	adv:pos	disamb
żyć	space
	żyć	inf:imperf	disamb
?	none
	?	interp	disamb




(None,
 'Miła\tnone\n\tmiła\tsubst:sg:nom:f\tdisamb\nma\tspace\n\tmieć\tfin:sg:ter:imperf\tdisamb\n,\tnone\n\t,\tinterp\tdisamb\njak\tspace\n\tjak\tadv:pos\tdisamb\nżyć\tspace\n\tżyć\tinf:imperf\tdisamb\n?\tnone\n\t?\tinterp\tdisamb\n\n')

In [7]:
test_stats = Counter()
test = krnnt2("Ala ma kota.")
lines = test.split("\n")

# zmiana planów.
tmp = []
for line in lines:
    if line.startswith("\t"): # bierzemy tylko linie ktore zaczynaja sie od wcięcia \t bo one mają zlematyzowane elementy.
        tmp.append(line)

texts = files_content
bigrams = zip(tmp[:-1], tmp[1:])

#iterujemy po kazdym bigramie i zliczamy
for l1, l2 in list(bigrams):
    tokens_first = l1.split("\t")
    word = tokens_first[1].lower()
    morph_cat = tokens_first[2].split(":")[0]
    lem_morph1 = word + ":" + morph_cat

    tokens_second = l2.split("\t")
    word = tokens_second[1].lower()
    morph_cat = tokens_second[2].split(":")[0]
    lem_morph2 = word + ":" + morph_cat

    full_name = lem_morph1 + " & " + lem_morph2
    test_stats[full_name] += 1

test_stats_clean = test_stats
for bigram, count in list(test_stats.items()):
    # print(bigram)
    w1, w2 = bigram.split(" & ")
    lem1 = w1.split(":")[0]
    lem2 = w2.split(":")[0]
    found1 = regex.findall(r'\p{L}+', lem1, flags=regex.IGNORECASE)
    found2 = regex.findall(r'\p{L}+', lem2, flags=regex.IGNORECASE)

    if not found1 or not found2:
        del test_stats_clean[bigram]

In [8]:
test_stats_clean

Counter({'ala:subst & mieć:fin': 1, 'mieć:fin & kot:subst': 1})

# 4. Using the tagged corpus compute bigram statistic for the tokens containing:
- lemmatized, downcased word
- morphosyntactic category of the word (subst, fin, adj, etc.)


In [11]:
# Sprawdź czy są podziały po 2 lub więcej wyników...
czy_bylo_wiecej_niz_raz = False
for index, row in files_content.iterrows():
    lines = row["tagged"].split("\n")
    
    # jeżeli mamy linie typu:
    '''
     ma	space
         mieć	fin:sg:ter:imperf
         mój  	adj:sg:nom:f:pos
         mój  	adj:sg:voc:f:pos
    '''
    # to musimy sprawdzać czy zaczyna się coś na \t i sprawdzać \n
    cnt = 0 
    for line in lines:
        is_lem = line.startswith("\t")
        if is_lem: # jeżeli linia zaczyna się od \t czyli jest wyczyszczona to dodaj 1
            cnt += 1
        else: # jeżeli nie to wyczysc licznik, bo wtedy mamy kolejne słowo
            cnt = 0 

        if cnt > 1: #jeżeli licznik jest wiekszy niz 1 to znaczy ze są podwoje słowa, oznacz flage.
            czy_bylo_wiecej_niz_raz = True
czy_bylo_wiecej_niz_raz

False

In [12]:
bigrams_stats = Counter()
single_stats = Counter()
for index, row in files_content.iterrows():
    lines = row["tagged"].split("\n")
   
    tmp = []
    for line in lines:
        if line.startswith("\t"): # bierzemy tylko linie ktore zaczynaja sie od wcięcia \t bo one mają zlematyzowane elementy.
            tmp.append(line)
    

    for single_line in tmp:
        single = single_line.split("\t")
        word = single[1].lower()
        morph_cat = single[2].split(":")[0]
        lem_morph_single = word + ":" + morph_cat
        single_stats[lem_morph_single] += 1


    texts = files_content
    # zmiana planów. samo zip nie wystarczy, bo czasami zwracane jest kilka linijek z \t do jednego słowa.
    bigrams = zip(tmp[:-1], tmp[1:])

    #iterujemy po kazdym bigramie i zliczamy
    for l1, l2 in list(bigrams):
        tokens_first = l1.split("\t")
        word = tokens_first[1].lower()
        morph_cat = tokens_first[2].split(":")[0]
        lem_morph1 = word + ":" + morph_cat

        tokens_second = l2.split("\t")
        word = tokens_second[1].lower()
        morph_cat = tokens_second[2].split(":")[0]
        lem_morph2 = word + ":" + morph_cat

        full_name = lem_morph1 + " & " + lem_morph2
        bigrams_stats[full_name] += 1


In [293]:
# wersja ze sprawdzaniem czy są nowe linie...
bigrams_stats_add = Counter()
for index, row in files_content.iterrows():
    all_lines = row["tagged"].split("\n")

    grouped_lines = []
    tmp = []
    for id, line in enumerate(all_lines):
        if line.startswith("\t"):
            tmp.append(line)
        else:
            if len(tmp) > 0:
                grouped_lines.append(tmp)
            tmp = []


    for ind, line_group in enumerate(grouped_lines):
        if (0 <= ind+1 < len(grouped_lines)) and (len(line_group) > 1 or len(grouped_lines[ind+1]) > 1):
            bigrams = zip(line_group[:-1], line_group[1:])
        else:
            bigrams = zip(grouped_lines[ind-1], line_group)

        #iterujemy po kazdym bigramie i zliczamy
        for l1, l2 in list(bigrams):
            tokens_first = l1.split("\t")
            word = tokens_first[1].lower()
            morph_cat = tokens_first[2].split(":")[0]
            lem_morph1 = word + ":" + morph_cat

            tokens_second = l2.split("\t")
            word = tokens_second[1].lower()
            morph_cat = tokens_second[2].split(":")[0]
            lem_morph2 = word + ":" + morph_cat

            full_name = lem_morph1 + " & " + lem_morph2
            bigrams_stats_add[full_name] += 1

In [13]:
sorted(bigrams_stats.items(), key=lambda item: (-item[1], item[0]))[:10] # posortowane alfabetycznie

[('artykuł:brev & .:interp', 83761),
 ('ustęp:brev & .:interp', 53319),
 ('pozycja:brev & .:interp', 45216),
 (',:interp & pozycja:brev', 43166),
 ('.:interp & 1:adj', 39924),
 ('-:interp & -:interp', 36548),
 ('rok:brev & .:interp', 33025),
 ('w:prep & artykuł:brev', 32037),
 (',:interp & o:prep', 29913),
 ('o:prep & który:adj', 28656)]

In [294]:
# Zwraca dokładnie to samo.
sorted(bigrams_stats_add.items(), key=lambda item: (-item[1], item[0]))[:10] # posortowane alfabetycznie

[('artykuł:brev & .:interp', 83761),
 ('ustęp:brev & .:interp', 53319),
 ('pozycja:brev & .:interp', 45216),
 (',:interp & pozycja:brev', 43166),
 ('.:interp & 1:adj', 39924),
 ('-:interp & -:interp', 36548),
 ('rok:brev & .:interp', 33025),
 ('w:prep & artykuł:brev', 32037),
 (',:interp & o:prep', 29913),
 ('o:prep & który:adj', 28656)]

In [14]:
sorted(single_stats.items(), key=lambda item: (-item[1], item[0]))[:10] # posortowane alfabetycznie

[('.:interp', 457513),
 (',:interp', 343058),
 ('w:prep', 202690),
 ('):interp', 102195),
 ('i:conj', 90002),
 ('z:prep', 87985),
 ('artykuł:brev', 83766),
 ('1:adj', 74275),
 ('o:prep', 64714),
 ('-:interp', 61832)]

# 5. Discard bigrams containing characters other than letters. Make sure that you discard the invalid entries after computing the bigram counts.

In [15]:
bigrams_stats_clean = bigrams_stats
for bigram, count in list(bigrams_stats.items()):
    # print(bigram)
    w1, w2 = bigram.split(" & ")
    lem1 = w1.split(":")[0]
    lem2 = w2.split(":")[0]
    found1 = regex.findall(r'\p{L}+', lem1, flags=regex.IGNORECASE)
    found2 = regex.findall(r'\p{L}+', lem2, flags=regex.IGNORECASE)

    if not found1 or not found2:
        del bigrams_stats_clean[bigram]

single_stats_clean = single_stats
for single, count in list(single_stats.items()):
    lem = single.split(":")[0]
    found = regex.findall(r'\p{L}+', lem, flags=regex.IGNORECASE)
    if not found:
        del single_stats_clean[single]


In [191]:
# Przywrócenie spacji między bigramami
# tmp = Counter()
# for bigram, count in bigrams_stats_clean.items():
#     tmp[bigram.replace(" & ", " ")] = count
# bigrams_stats_clean = tmp

In [16]:
sorted(bigrams_stats_clean.items(), key=lambda item: (-item[1], item[0]))[:10] # posortowane alfabetycznie

[('w:prep & artykuł:brev', 32037),
 ('o:prep & który:adj', 28656),
 ('który:adj & mowa:subst', 28538),
 ('mowa:subst & w:prep', 28473),
 ('w:prep & ustęp:brev', 23536),
 ('z:prep & dzień:subst', 11360),
 ('otrzymywać:fin & brzmienie:subst', 10535),
 ('określić:ppas & w:prep', 9686),
 ('do:prep & sprawa:subst', 8718),
 ('ustawa:subst & z:prep', 8625)]

In [17]:
sorted(single_stats_clean.items(), key=lambda item: (-item[1], item[0]))[:10] # posortowane alfabetycznie

[('w:prep', 202690),
 ('i:conj', 90002),
 ('z:prep', 87985),
 ('artykuł:brev', 83766),
 ('o:prep', 64714),
 ('do:prep', 60758),
 ('ustęp:brev', 53338),
 ('na:prep', 50647),
 ('który:adj', 49380),
 ('się:qub', 45888)]

# 7. Compute LLR statistic for this dataset.

In [18]:
# def H(counts: List[int]) -> float:
def H(counts) -> float:
    try:
        total = float(sum(counts))
        # print(total)
        # Note tricky way to avoid 0*log(0)
        return -sum([k/total * math.log(k/total + (k==0)) for k in counts])
        # return -sum([k * math.log(k / total + (k==0)) for k in counts])

    except ValueError:
        # pass
        print(counts)
        total = float(sum(counts))
        print(total)
        for k in counts:
            print()
            print(k/total)
            print(k/total + (k==0))
            print()


def llr(a: int, b: int, ab_count: int, total_tokens: int) -> float:
    k11 = float(ab_count) # count of bigrams (a,b)
    # k12 = token_counts[b] - ab_count
    k12 = float(b - ab_count)
    # k21 = token_counts[a] - ab_count
    k21 = float(a - ab_count)
    k22 = float(total_tokens - k12 - k21 - k11)
    
    return 2 * (H([k11 + k12, k21 + k22]) +
                H([k11 + k21, k12 + k22]) -
                H([k11, k12, k21, k22]))

In [19]:
all_bigrams_stats_count = float(sum(bigrams_stats_clean.values()))

In [20]:
llr_score = {}

for pair, count in bigrams_stats_clean.items():
    w = pair.split(" & ")
    # print(w[0], w[1])
    llr_score[pair] = llr(single_stats_clean[w[0]], single_stats_clean[w[1]], count, all_bigrams_stats_count)

In [21]:
sorted(llr_score.items(), key=lambda item: (-item[1], item[0]))[:10] # posortowane alfabetycznie

[('który:adj & mowa:subst', 0.08936695719267704),
 ('o:prep & który:adj', 0.05900771544156197),
 ('mowa:subst & w:prep', 0.053860289864104516),
 ('otrzymywać:fin & brzmienie:subst', 0.03994394235769046),
 ('w:prep & artykuł:brev', 0.024475458879820056),
 ('minister:subst & właściwy:adj', 0.024415048896080524),
 ('dodawać:fin & się:qub', 0.02405706905647026),
 ('w:prep & ustęp:brev', 0.020420849637738492),
 ('stosować:fin & się:qub', 0.01905141014777051),
 ('droga:subst & rozporządzenie:subst', 0.018643621599944822)]

In [234]:
bigrams_results = pd.DataFrame({
    "bigram": bigrams_stats_clean.keys(),
    "count": bigrams_stats_clean.values(),
    "llr": [llr_score[pair] for pair, _ in bigrams_stats_clean.items()]
})

In [22]:
bigrams_stats_clean.sort_values('llr', ascending=False)

NameError: name 'bigrams_results' is not defined

# 8. Partition the entries based on the syntactic categories of the words, i.e. all bigrams having the form of w1:adj w2:subst should be placed in one partition (the order of the words may not be changed).

In [236]:
def partition_bigrams(bigram):
    l1, l2 = bigram.split(" & ")
    morph_cat1 = l1.split(":")[1]
    morph_cat2 = l2.split(":")[1]
    
    return morph_cat1, morph_cat2

In [237]:
bigrams_results["partition"] = [partition_bigrams(bigram) for bigram, _ in bigrams_stats_clean.items()]

In [238]:
bigrams_results.sort_values('llr', ascending=False)

Unnamed: 0,bigram,count,llr,partition
133,który:adj & mowa:subst,28538,8.936696e-02,"(adj, subst)"
132,o:prep & który:adj,28656,5.900772e-02,"(prep, adj)"
134,mowa:subst & w:prep,28473,5.386029e-02,"(subst, prep)"
65,otrzymywać:fin & brzmienie:subst,10535,3.994394e-02,"(fin, subst)"
19,w:prep & artykuł:brev,32037,2.447546e-02,"(prep, brev)"
...,...,...,...,...
194344,artystyczny:adj & otrzymywać:fin,1,2.504941e-15,"(adj, fin)"
184212,przedmiot:subst & przekazywać:fin,1,3.781697e-16,"(subst, fin)"
346162,z:prep & urządzić:ger,2,3.330669e-16,"(prep, ger)"
141657,uciążliwy:adj & z:prep,2,3.330669e-16,"(adj, prep)"


# 9. Select the 10 largest partitions (partitions with the largest number of entries).

In [239]:
# https://stackoverflow.com/questions/39922986/pandas-group-by-and-sum
# 1. bigrams_results.groupby("partition")["count"]
# 2. bigrams_results.groupby("partition")["count"].sum()
# 3. bigrams_results.groupby("partition")["count"].sum().sort_values(ascending=False)
best_10 = bigrams_results.groupby("partition")["count"].sum().sort_values(ascending=False).head(10)
best_10

partition
(prep, subst)     326367
(subst, subst)    290516
(subst, adj)      273693
(adj, subst)      187748
(subst, prep)     176856
(subst, conj)      86070
(conj, subst)      85044
(prep, adj)        79189
(ger, subst)       77146
(prep, brev)       66991
Name: count, dtype: int64

# 10. Use the computed LLR measure to select 5 bigrams for each of the largest categories.

In [240]:
sorted_by_llr = bigrams_results.sort_values('llr', ascending=False)

for category, count in best_10.iteritems():
    tmp_cnt = 0
    print("Partition: " + " ".join(category) + ":")
    for index, data in sorted_by_llr.iterrows():
        if category == data["partition"]:
            w1, w2 = data["bigram"].split(" & ")
            bigram_str = w1.split(":")[0] + " " + w2.split(":")[0]
            print(f"\t {tmp_cnt+1}. {bigram_str}, LLR: {data['llr']}, Count: {data['count']}")
            tmp_cnt += 1
        if tmp_cnt == 5:
            print()
            break

Partition: prep subst:
	 1. do sprawa, LLR: 0.016347886261125877, Count: 8718
	 2. na podstawa, LLR: 0.016321460001314902, Count: 6681
	 3. z dzień, LLR: 0.015554089587361264, Count: 11360
	 4. w droga, LLR: 0.01133295526462319, Count: 7128
	 5. od dzień, LLR: 0.01058630311144651, Count: 5324

Partition: subst subst:
	 1. droga rozporządzenie, LLR: 0.018643621599944822, Count: 4748
	 2. skarb państwo, LLR: 0.007929649586206275, Count: 1821
	 3. rada minister, LLR: 0.0052964763281811295, Count: 2265
	 4. terytorium rzeczpospolita, LLR: 0.005027677559428588, Count: 1224
	 5. ochrona środowisko, LLR: 0.0049948130724266, Count: 1572

Partition: subst adj:
	 1. minister właściwy, LLR: 0.024415048896080524, Count: 7933
	 2. rzeczpospolita polski, LLR: 0.01621683128496678, Count: 3816
	 3. jednostka organizacyjny, LLR: 0.00862785521862549, Count: 2252
	 4. samorząd terytorialny, LLR: 0.008355100931056653, Count: 1675
	 5. produkt leczniczy, LLR: 0.0076843470261675345, Count: 1738

Partition: 

# 11. Using the results from the previous step answer the following questions:
1. What types of bigrams have been found?
2. Which of the category-pairs indicate valuable multiword expressions? Do they have anything in common?
3. Which signal: LLR score or syntactic category is more useful for determining genuine multiword expressions?
4. Can you describe a different use-case where the morphosyntactic category is useful for resolving a real-world problem?


1. To zależy od grupy ale generalnie:
    - jest dużo grup z przyimkami (z, w, na itd.),
    - jest trochę grup ze spójnikami (i, lub itd.),
    - jest grupa zawierająca elementy które często występują razem i nazwy własne (urząd patentowy, wzór użytkowy, znak towarowy) - tu by PMI dobrze weszło,
    - jest grupa czasownik + rzeczownik

2. Raczej nie te które zawierają przyimki. Grupy które zawierają nazwy własne lub czasownik + rzeczownik mogą być przydatne. Czyli to będą subst adj, adj subst, subst subst, ger subst.

3. Z tego co wychodziło w lab4 oraz tutaj, wysokie LLR mają bigramy ze spójnikami i przyimkami, a nas generalnie to nie interesuje. Podział na grupy pozwala takie lementy wyeliminować i niektóre grupy dają fajne wyniki, ale z drugiej strony często jest tam niski LLR, a niski LLR może świadczyć o tym, że te słowa nie są zbyt często obok siebie. Więc raczej to zależy albo można używać obu naraz.

4. Może do przygotowania jakichś danych (np. do nauki jakichś narzędzi ML) gdzie nie warto brać pod uwagę spójników i przyimków. 
Może też indeksowanie po nazwach. Wtedy spójniki i przyimki na pewno są niepotrzebne.
Nie wiem czy to by się wliczało, ale przy elasticu była mowa o wyszukiwaniu, gdzie raczej z fraz wyrzuca się spójniki i przyimki, więc może tam. 
