# LISTA 1

## GLOBAL SETUP

In [6]:
import numpy as np
import os
from tqdm import tqdm
import nltk
import collections
import random
import itertools

## ZADANIE 1

In [27]:
if not os.path.isfile("sjp-20201007.zip"):
    print("doing a succ on SJP dictionary")
    os.system("wget https://sjp.pl/slownik/growy/sjp-20201007.zip")
else:
    print("SJP already downloaded, unpacking")

if not os.path.isfile("slowa.txt"):
    os.system("unzip sjp-20201007.zip")

words = []
with open("slowa.txt", "r") as f:
    words = set(f.read().split("\n"))
    
# the dict is mentally challenged and does not have 'i' in it
words.add("i")
words.add("z")


longest = max(len(w) for w in words)    

print(f"read {len(words)} words from SJP, longest one is {longest} letters long!")

SJP already downloaded, unpacking
read 3045880 words from SJP, longest one is 15 letters long!


In [28]:
def MaxMatch(w, verbose = False):
    tokenized = []
    succ = 1
    best = (0, "reeee")
    
    while len(w) > 0:
        try_ = w[:succ]
        if try_ in words:
            if verbose:
                print(f"found candidate {try_}")
            best = (succ, try_) 

        succ += 1
        
        if succ > longest or try_ == w:
            if best[0] == 0:
                raise Exception(f"could not match {w[:succ]}")
            else:
                if verbose:
                    print(f"longest match was {best[1]}")
                tokenized.append(best[1])
                if verbose:
                    print(f"transforming {w} -> {w[best[0]:]}")
                w = w[best[0]:]
                succ = 1
                best = (0, "reeee")
    return tokenized
                
MaxMatch("kamienietestowanie")

['kamienie', 'testowanie']

## ZADANIE 2 i 3


In [2]:
def calculate_bigrams():
    text = []
    for dir in tqdm(os.listdir("corpora/")):
        with open(f"corpora/{dir}/text.xml", "r") as corpfile:
            corpseg = corpfile.read().split("\n")
            for l in corpseg:
                if "<ab" in l:
                    l = l.replace("</ab>", "")
                    l = l.split(">")[1]
                    text.append(l.lower())
    print(f"got {len(text)} snippets")
    
    bigram_stat = collections.defaultdict(lambda: 0)
    for sentence in tqdm(text):
        tokens = nltk.word_tokenize(sentence)
        for k in range(len(tokens) - 1):
            key = f"{tokens[k]}#{tokens[k+1]}"
            bigram_stat[key] += 1
            
    baked_bigrams = [(bigram_stat[k], k) for k in bigram_stat.keys()]
    baked_bigrams = sorted(baked_bigrams, reverse=True)
    return baked_bigrams
    
bigrams = calculate_bigrams()

100%|██████████| 3889/3889 [00:00<00:00, 18576.09it/s]
  1%|          | 407/39566 [00:00<00:09, 4060.56it/s]

got 39566 snippets


100%|██████████| 39566/39566 [00:11<00:00, 3458.21it/s]


In [3]:
bigram_dict = collections.defaultdict(lambda: [])
for bfreq, bigram in tqdm(bigrams):
    if bigram.count("#") > 1:
        continue
    primary, secondary = bigram.split("#")
    bigram_dict[primary].append((bfreq, secondary))

100%|██████████| 662051/662051 [00:01<00:00, 608113.87it/s]


In [4]:
def generate_story(max_len, starting, distribution):
    if max_len == 0:
        max_len = 1000000
    if starting == None:
        starting = random.choice(list(bigram_dict.keys()))
        
    while(max_len > 0):
        print(starting, end = ' ')
        max_len -= 1
        candidates = bigram_dict[starting]
        
        if distribution == "random":
            candidates = [c[1] for c in candidates]
            if len(candidates) == 0:
                return
            starting = random.choice(candidates) 
            
        if distribution == "weight":
            if len(candidates) == 0:
                return
            all_ents = sum(c[0] for c in candidates)
            chosen = random.randint(0, all_ents)
            for it in range(len(candidates)):
                chosen -= candidates[it][0]
                if chosen <= 0:
                    starting = candidates[it][1]
                    break
                    
            

In [5]:
for i in range(10):
    generate_story(20, "kupa", "weight")
    print("\n=======")

kupa serwerów '' . nie poskąpiła im się być podniesiona i szybko , że za granicą lub skarbców , wystarczy 
kupa serwerów poleciała samolotem do szpitala - jestem siłą rzeczy to ładnie i przyjaciele mówią , w deutsch lissa . 
kupa roboty jest istotne , którzy wspomagali mnie tylko moje srebro . barwy tekstu zapolskiej zostały lekko spocony , między 
kupa trawy . od czegoś więcej ewcia nie uprawiał po polsku . egzemplarzy ( 2-11 września 1996 jednym z radości 
kupa serwerów poleciała samolotem traktuję więc zatrzymałem się kolejny przetarg na czarneckim podróż na sezon na poparcie przez tlen , 
kupa wyglądam staro ? nie za czwórkę za proroka . wczoraj odbyło się tej katolickiej młodzieży , kiedy zaniósł niezgodnie 
kupa roboty ! - czy akurat tyle , ujawnia się zbieracz złomu po prostu na znicze zapalane będą przykładem modelu 
kupa trawy lub jego właściwościami doskonale rozróżniał kolory tła i malowane w takich sytuacjach gdy władza dobra sory robert ? 
kupa serwerów poleciała samolotem

## ZADANIE 4

In [17]:
def permutation_analizer(sentence):
    results = []
    for p in itertools.permutations(sentence):
        score = 1.0
        for k in range(len(p) - 1):
            candidates = bigram_dict[p[k]]
            if candidates == []:
                score *= 1.0
            else:
                for c in candidates:
                    if c[1] == p[k+1]:
                        score *= c[0]

        results.append((-score, p))
    
    res = sorted(results)
    for r in res:
        print(r)
            
permutation_analizer("wczoraj wieczorem spotkałem pewną piękną kobietę".split(" "))
#permutation_analizer(["judyta", "dała", "wczoraj", "stefanowi", "czekoladki"])

(-7.0, ('kobietę', 'pewną', 'piękną', 'spotkałem', 'wczoraj', 'wieczorem'))
(-7.0, ('kobietę', 'pewną', 'piękną', 'wczoraj', 'wieczorem', 'spotkałem'))
(-7.0, ('kobietę', 'pewną', 'spotkałem', 'piękną', 'wczoraj', 'wieczorem'))
(-7.0, ('kobietę', 'pewną', 'spotkałem', 'wczoraj', 'wieczorem', 'piękną'))
(-7.0, ('kobietę', 'pewną', 'wczoraj', 'wieczorem', 'piękną', 'spotkałem'))
(-7.0, ('kobietę', 'pewną', 'wczoraj', 'wieczorem', 'spotkałem', 'piękną'))
(-7.0, ('kobietę', 'piękną', 'pewną', 'spotkałem', 'wczoraj', 'wieczorem'))
(-7.0, ('kobietę', 'piękną', 'pewną', 'wczoraj', 'wieczorem', 'spotkałem'))
(-7.0, ('kobietę', 'piękną', 'spotkałem', 'pewną', 'wczoraj', 'wieczorem'))
(-7.0, ('kobietę', 'piękną', 'spotkałem', 'wczoraj', 'wieczorem', 'pewną'))
(-7.0, ('kobietę', 'piękną', 'wczoraj', 'wieczorem', 'pewną', 'spotkałem'))
(-7.0, ('kobietę', 'piękną', 'wczoraj', 'wieczorem', 'spotkałem', 'pewną'))
(-7.0, ('kobietę', 'spotkałem', 'pewną', 'piękną', 'wczoraj', 'wieczorem'))
(-7.0, ('kob