In [186]:
import sys
import os
import numpy as np
import matplotlib.pyplot as plt
import itertools
import time
from tqdm import tqdm 

%config IPCompleter.greedy=True

In [2]:
polish_corpora_path = '../../../polish_corpora.txt'
poleval2_path = '../../../poleval_2grams.txt'
poleval3_path = '../../../poleval_3grams.txt'

## Sentences

In [3]:
sentences = []
with open('sentences.txt', encoding='utf8') as f:
    for line in f:
        line = line.strip().lower().split()
        sentences.append(line)
        
print(len(sentences))

68


## Unigrams

In [5]:
unigrams: dict = {}  # word -> number of occurrences

with open(polish_corpora_path, encoding="utf8") as f:
    for line in tqdm(f, desc='Loading data...', position=0, leave=True):
        line = line.strip().lower().split()
        for word in line:
            _word = bytes(bytearray(word, 'UTF-8'))
            if _word in unigrams:
                unigrams[_word] += 1
            else:
                unigrams[_word] = 1

Loading data...: 23011601it [05:50, 65686.98it/s]


In [6]:
print(f'Number of unigrams: {len(unigrams)}')

Number of unigrams: 3591114


In [12]:
all_unigrams = sum([x for x in unigrams.values()])
all_unigrams

451846640

## Bigrams

In [7]:
bigrams: dict = {}  # word -> List[Tuple[word_after, number of occurrences]]
    
with open(poleval2_path, encoding="utf8") as f:
    for line in tqdm(f, desc='Loading data...', position=0, leave=True):
        line = line.strip().lower().split()
        key: bytearray = bytes(bytearray(line[1], 'UTF-8'))
        value: tuple = (bytes(bytearray(line[2], 'UTF-8')), line[0])
            
        if key in bigrams:
            bigrams[key].append(value)
        else:
            bigrams[key] = [value]

Loading data...: 59134224it [02:15, 437635.80it/s]


In [8]:
print(f'Number of bigrams: {len(bigrams)}')

Number of bigrams: 3591115


## Counting probability

In [245]:
def simple_pbb_bigrams(w1: bytes, w2: bytes) -> int:
    """ Calculate number of occurrences of bigram (w1, w2) """
    assert type(w1) == bytes and type(w2) == bytes
  
    if w1 in bigrams:
        for word_after_w1, n_ocurr in bigrams[w1]:
            if word_after_w1 == w2:
                return int(n_ocurr)
    return 0


def cond_pbb_bigrams(w1: bytes, w2: bytes) -> float:
    """ Calculate P(w2 | w1) """
    assert type(w1) == bytes and type(w2) == bytes
    cnt_w1_w2: int = 1
    if w1 in bigrams:
        for word_after_w1, n_ocurr in bigrams[w1]:
            if word_after_w1 == w2:
                cnt_w1_w2 = int(n_ocurr)
                break
        
    cnt_w1: int = 1
    if w1 in unigrams:
        cnt_w1 = unigrams[w1]
        
    return cnt_w1_w2 / cnt_w1


def lambda_cond_pbb_bigrams(
    w1: bytes, w2: bytes, 
    lambda1: float, lambda2: float
) -> float:
    """ Calculate P*(w2 | w1) """
    assert type(w1) == bytes and type(w2) == bytes
    cnt_w1_w2: int = 1
    if w1 in bigrams:
        for word_after_w1, n_ocurr in bigrams[w1]:
            if word_after_w1 == w2:
                cnt_w1_w2 = int(n_ocurr)
                break
        
    cnt_w1: int = 1
    if w1 in unigrams:
        cnt_w1 = unigrams[w1]
        
    return lambda1 * pbb_unigram(w2) + lambda2 * (cnt_w1_w2 / cnt_w1)


def pbb_unigram(w1: bytes) -> float:
    """ Calculate P(w1) """
    assert type(w1) == bytes
    cnt_w1 = 1
    if w1 in unigrams:
        cnt_w1 = unigrams[w1]
        
    return cnt_w1 / all_unigrams


def pbb_sentence(sentence: list, cond_pbb_func) -> float:
    """ Calculate P(w1 ... wn ) """
    n: int = len(sentence)
    assert n > 0
    pbb = pbb_unigram(w1=sentence[0])
    for i in range(1, n):
        pbb *= cond_pbb_func(w1=sentence[i - 1], w2=sentence[i])
        
    return pbb

## Functions

In [220]:
def generate_permutations(sentence: list) -> list:
    return list(itertools.permutations(sentence))

def order_permutations(permutations: list, scoring_function, cond_pbb_func) -> list:
    scores = []
    for x in tqdm(permutations, desc='Scoring permutations...', leave=True, position=0):
        scores.append(scoring_function(x, cond_pbb_func))
    return sorted(zip(scores, permutations), reverse=True)

def score_permuatations(valid_sentence: list, scoring_function, cond_pbb_func) -> float:
    permutations: list = generate_permutations(sentence=valid_sentence)
    permutations = order_permutations(
        permutations=permutations, scoring_function=scoring_function, cond_pbb_func=cond_pbb_func
    )
    permutations = [y for x, y in permutations]
    best_decoded = list(map(lambda x: x.decode('utf8'), permutations[0]))
    print(f'Best: {best_decoded}')
    for i, sentence in enumerate(permutations):
        if tuple(sentence) == tuple(valid_sentence):
            return 1 / (i + 1)
    return 0

def final_score(cond_pbb_func) -> float:
    total_score: float = 0.0
    for i, sentence in enumerate(sentences):
        time.sleep(1)
        if len(sentence) > 7:
            print(f'{i+1} / {len(sentences)} | {sentence} ===> ??? / 1.0')
            print('Skipped because sentence is too long.')
            continue
        sentence_bytes = list(map(lambda x: bytes(bytearray(x, encoding='UTF-8')), sentence))
        score = score_permuatations(
            valid_sentence=sentence_bytes, 
            scoring_function=pbb_sentence,
            cond_pbb_func=cond_pbb_func
        )
        total_score += score
        print(f'{i+1} / {len(sentences)} | {sentence} ===> {score:.3f} / 1.0')
    return score

## $P(w_1 ... w_n) = P(w_1)*P(w_2 | w_1) * ... * P(w_n | w_{n-1})$
## $P(w2 | w1) = \frac{cnt(w1w2)}{cnt(w1)}$

In [216]:
%%time
print(f'Final score: {final_score(cond_pbb_func=cond_pbb_bigrams)}')

Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 1469.73it/s]


Best: ['wczoraj', 'stefanowi', 'judyta', 'czekoladki', 'dała']
1 / 68 | ['judyta', 'dała', 'wczoraj', 'stefanowi', 'czekoladki'] ===> 0.011 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 418.62it/s]


Best: ['dwa', 'koziołki', 'rogate', 'babuleńka', 'miała']
2 / 68 | ['babuleńka', 'miała', 'dwa', 'rogate', 'koziołki'] ===> 0.010 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:00<00:00, 1520.32it/s]


Best: ['pewną', 'piękną', 'kobietę', 'spotkałem', 'wczoraj', 'wieczorem']
3 / 68 | ['wczoraj', 'wieczorem', 'spotkałem', 'pewną', 'piękną', 'kobietę'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:08<00:00, 85.45it/s] 


Best: ['to', 'nasz', 'przetwarzanie', 'języka', 'naturalnego', 'przedmiot']
4 / 68 | ['nasz', 'przedmiot', 'to', 'przetwarzanie', 'języka', 'naturalnego'] ===> 0.009 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 728.64it/s]


Best: ['prowadzi', 'jedną', 'grupę', 'michaliszyn', 'jakub']
5 / 68 | ['jedną', 'grupę', 'prowadzi', 'jakub', 'michaliszyn'] ===> 0.013 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 111.90it/s]


Best: ['jest', 'wykładowcą', 'rychlikowski', 'paweł']
6 / 68 | ['wykładowcą', 'jest', 'paweł', 'rychlikowski'] ===> 0.048 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:42<00:00, 117.31it/s]


Best: ['pan', 'paweł', 'prowadzi', 'również', 'pozostałe', 'dwie', 'grupy']
7 / 68 | ['pan', 'paweł', 'prowadzi', 'również', 'dwie', 'pozostałe', 'grupy'] ===> 0.200 / 1.0
8 / 68 | ['na', 'stronie', 'wykładu', 'będą', 'pojawiać', 'się', 'listy', 'zadań'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:42<00:00, 17.01it/s]


Best: ['i', 'to', 'będą', 'ćwiczeniowe', 'pracowniowe', 'listy']
9 / 68 | ['będą', 'to', 'listy', 'ćwiczeniowe', 'i', 'pracowniowe'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:42<00:00, 16.93it/s]


Best: ['i', 'to', 'będą', 'ćwiczeniowe', 'pracowniowe', 'listy']
10 / 68 | ['będą', 'to', 'listy', 'pracowniowe', 'i', 'ćwiczeniowe'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:16<00:00, 42.90it/s]


Best: ['mogą', 'pojawiać', 'się', 'również', 'dodatkowe', 'aktywności']
11 / 68 | ['mogą', 'się', 'pojawiać', 'również', 'dodatkowe', 'aktywności'] ===> 0.036 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 366.18it/s]


Best: ['te', 'będą', 'premiowane', 'aktywności']
12 / 68 | ['te', 'aktywności', 'będą', 'premiowane'] ===> 0.056 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:21<00:00, 34.16it/s]


Best: ['na', 'platformie', 'zdalnej', 'quizy', 'przykłąd', 'na']
13 / 68 | ['na', 'przykłąd', 'quizy', 'na', 'platformie', 'zdalnej'] ===> 0.013 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:20<00:00, 35.90it/s]


Best: ['na', 'temat', 'wykładu', 'miniprojekty', 'rozważamy', 'też']
14 / 68 | ['rozważamy', 'też', 'miniprojekty', 'na', 'temat', 'wykładu'] ===> 0.003 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:12<00:00, 37.92it/s]


Best: ['co', 'najmniej', 'tygodniowym', 'wyprzedzeniem', 'zapowiadamy', 'je', 'z']
15 / 68 | ['zapowiadamy', 'je', 'z', 'co', 'najmniej', 'tygodniowym', 'wyprzedzeniem'] ===> 0.005 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:15<00:00, 46.01it/s]


Best: ['na', 'zajęcia', 'przeznaczone', 'są', 'konkretne', 'zadania']
16 / 68 | ['zadania', 'są', 'przeznaczone', 'na', 'konkretne', 'zajęcia'] ===> 0.033 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:33<00:00, 21.22it/s]


Best: ['w', 'sali', 'seminaryjnej', 'ćwiczenia', 'zaczynają', 'się']
17 / 68 | ['ćwiczenia', 'zaczynają', 'się', 'w', 'sali', 'seminaryjnej'] ===> 0.059 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:24<00:00, 28.93it/s]


Best: ['tylko', 'w', 'trybie', 'stacjonarnym', 'jest', 'tak']
18 / 68 | ['jest', 'tak', 'tylko', 'w', 'trybie', 'stacjonarnym'] ===> 0.250 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:56<00:00, 28.49it/s]


Best: ['w', 'pracowni', 'domyślnie', 'pozostałe', 'zajęcia', 'zaczynają', 'się']
19 / 68 | ['pozostałe', 'zajęcia', 'domyślnie', 'zaczynają', 'się', 'w', 'pracowni'] ===> 0.143 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 69.54it/s]


Best: ['indywidualnych', 'pracownia', 'konsutlacjach', 'polega', 'na']
20 / 68 | ['pracownia', 'polega', 'na', 'indywidualnych', 'konsutlacjach'] ===> 0.017 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:02<00:00, 40.60it/s]


Best: ['tam', 'rozmawiamy', 'na', 'temat', 'rozwiązań']
21 / 68 | ['rozmawiamy', 'tam', 'na', 'temat', 'rozwiązań'] ===> 0.067 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:10<00:00, 464.15it/s]


Best: ['podczas', 'ćwiczeń', 'studenci', 'przedstawiają', 'pisemne', 'rozwiązania', 'zadań']
22 / 68 | ['podczas', 'ćwiczeń', 'studenci', 'przedstawiają', 'pisemne', 'rozwiązania', 'zadań'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:07<00:00, 99.92it/s] 


Best: ['zależy', 'od', 'sytuacji', 'epidemiologicznej', 'tryb', 'zajęć']
23 / 68 | ['tryb', 'zajęć', 'zależy', 'od', 'sytuacji', 'epidemiologicznej'] ===> 0.077 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 90.26it/s]


Best: ['też', 'zależy', 'od', 'wymogów', 'formalnych']
24 / 68 | ['zależy', 'też', 'od', 'wymogów', 'formalnych'] ===> 0.125 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 63.66it/s]


Best: ['również', 'zależy', 'od', 'decyzji', 'władz']
25 / 68 | ['zależy', 'również', 'od', 'decyzji', 'władz'] ===> 0.250 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:44<00:00, 16.23it/s]


Best: ['możliwości', 'i', 'studentów', 'prowadzących', 'uwzględnia', 'się']
26 / 68 | ['uwzględnia', 'się', 'możliwości', 'studentów', 'i', 'prowadzących'] ===> 0.024 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [03:09<00:00, 26.65it/s]


Best: ['może', 'on', 'w', 'trakcie', 'semestru', 'zmieniać', 'się']
27 / 68 | ['może', 'się', 'on', 'zmieniać', 'w', 'trakcie', 'semestru'] ===> 0.019 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:01<00:00, 378.86it/s]


Best: ['przed', 'ćwiczeniami', 'prowadzącemu', 'dostarczają', 'deklaracje', 'studenci']
28 / 68 | ['przed', 'ćwiczeniami', 'studenci', 'dostarczają', 'prowadzącemu', 'deklaracje'] ===> 0.091 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 272.05it/s]


Best: ['zadań', 'numery', 'zawiera', 'ona']
29 / 68 | ['zawiera', 'ona', 'numery', 'zadań'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 230.20it/s]


Best: ['przy', 'tablicy', 'studenci', 'pokazują', 'rozwiązania']
30 / 68 | ['studenci', 'pokazują', 'rozwiązania', 'przy', 'tablicy'] ===> 0.059 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [05:17<00:00, 15.87it/s]


Best: [',', 'jeżeli', 'nie', 'jest', 'źle', 'student', 'umie']
31 / 68 | ['jest', 'źle', ',', 'jeżeli', 'student', 'nie', 'umie'] ===> 0.021 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:02<00:00, 54.48it/s]


Best: ['dodatkowo', 'odejmuje', 'coś', 'mu', 'się']
32 / 68 | ['dodatkowo', 'coś', 'mu', 'się', 'odejmuje'] ===> 0.013 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:27<00:00, 34.06it/s]


Best: ['można', 'oddawać', 'pracowni', 'podczas', 'zajęć', 'na', 'zadania']
33 / 68 | ['zadania', 'można', 'oddawać', 'podczas', 'zajęć', 'na', 'pracowni'] ===> 0.003 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 425.66it/s]


Best: ['należy', 'rozwiązywać', 'zadania', 'samodzielnie']
34 / 68 | ['zadania', 'należy', 'rozwiązywać', 'samodzielnie'] ===> 0.143 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 330.97it/s]


Best: ['prowadzący', 'ocenia', 'poprawność', 'rozwiązania']
35 / 68 | ['prowadzący', 'ocenia', 'poprawność', 'rozwiązania'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:39<00:00, 31.69it/s]


Best: ['informacje', 'o', 'regułach', 'czasem', 'mogą', 'pojawić', 'się']
36 / 68 | ['czasem', 'mogą', 'pojawić', 'się', 'informacje', 'o', 'regułach'] ===> 0.100 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:21<00:00, 33.78it/s]


Best: ['każdej', 'podany', 'termin', 'jest', 'na', 'liście']
37 / 68 | ['na', 'każdej', 'liście', 'podany', 'jest', 'termin'] ===> 0.023 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:05<00:00, 128.24it/s]


Best: ['za', 'dużo', 'punktów', 'dostajemy', 'poprawne', 'rozwiązanie']
38 / 68 | ['za', 'poprawne', 'rozwiązanie', 'dostajemy', 'dużo', 'punktów'] ===> 0.125 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 154.53it/s]


Best: ['nie', 'będą', 'sprawdzane', 'spóźnione', 'zadania']
39 / 68 | ['spóźnione', 'zadania', 'nie', 'będą', 'sprawdzane'] ===> 0.038 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 392.93it/s]


Best: ['pierwsza', 'lista', 'ma', 'dłuższy', 'termin']
40 / 68 | ['pierwsza', 'lista', 'ma', 'dłuższy', 'termin'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:44<00:00, 112.73it/s]


Best: ['pod', 'koniec', 'semestru', 'zmodyfikowana', 'zasada', 'musi', 'być']
41 / 68 | ['zasada', 'musi', 'być', 'zmodyfikowana', 'pod', 'koniec', 'semestru'] ===> 0.037 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:06<00:00, 39.92it/s]


Best: ['w', 'przypadku', 'choroby', 'studenta', 'obowiązują', 'inne', 'zasady']
42 / 68 | ['w', 'przypadku', 'choroby', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:27<00:00, 34.07it/s]


Best: ['w', 'przypadku', 'studenta', 'kwarantanny', 'obowiązują', 'inne', 'zasady']
43 / 68 | ['w', 'przypadku', 'kwarantanny', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 0.250 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:06<00:00, 39.91it/s]


Best: ['w', 'przypadku', 'studenta', 'izolacji', 'obowiązują', 'inne', 'zasady']
44 / 68 | ['w', 'przypadku', 'izolacji', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 0.500 / 1.0
45 / 68 | ['możliwe', 'jest', 'oddawanie', 'zaległych', 'zadań', 'bez', 'straty', 'punktowej'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:30<00:00, 23.83it/s]


Best: ['ocenę', 'tabelką', 'wystawia', 'się', 'zgodnie', 'z']
46 / 68 | ['ocenę', 'wystawia', 'się', 'zgodnie', 'z', 'tabelką'] ===> 0.018 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 792.49it/s]


Best: ['daje', 'ocenę', 'dostateczną', '50', 'punktów']
47 / 68 | ['50', 'punktów', 'daje', 'ocenę', 'dostateczną'] ===> 0.167 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:02<00:00, 343.42it/s]


Best: ['daje', 'bardzo', 'dobrą', 'ocenę', '120', 'punktów']
48 / 68 | ['120', 'punktów', 'daje', 'ocenę', 'bardzo', 'dobrą'] ===> 0.083 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 607.61it/s]


Best: ['zostanie', 'przeskalowana', 'tabelka', 'powyższa']
49 / 68 | ['powyższa', 'tabelka', 'zostanie', 'przeskalowana'] ===> 0.050 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [03:01<00:00, 27.77it/s]


Best: ['z', 'innych', 'powodów', 'przeskalowana', 'też', 'może', 'zostać']
50 / 68 | ['może', 'też', 'zostać', 'przeskalowana', 'z', 'innych', 'powodów'] ===> 0.007 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:22<00:00, 32.22it/s]


Best: ['coś', 'w', 'pierwszym', 'tygodniu', 'podamy', 'zajęć']
51 / 68 | ['w', 'pierwszym', 'tygodniu', 'zajęć', 'coś', 'podamy'] ===> 0.030 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:24<00:00, 29.95it/s]


Best: ['dodatkowe', 'zasady', 'egzaminu', 'umożliwiające', 'zwolnienie', 'z']
52 / 68 | ['dodatkowe', 'zasady', 'umożliwiające', 'zwolnienie', 'z', 'egzaminu'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:14<00:00, 49.45it/s]


Best: ['dotyczą', 'osób', 'z', 'dużą', 'liczbą', 'punktów']
53 / 68 | ['dotyczą', 'osób', 'z', 'dużą', 'liczbą', 'punktów'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 115.45it/s]


Best: ['też', 'można', 'rozwiązać', 'zadanie', 'specjalne']
54 / 68 | ['można', 'rozwiązać', 'też', 'zadanie', 'specjalne'] ===> 0.053 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:07<00:00, 94.57it/s] 


Best: ['forma', 'egzaminu', 'zależy', 'od', 'wielu', 'czynników']
55 / 68 | ['forma', 'egzaminu', 'zależy', 'od', 'wielu', 'czynników'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 87.36it/s]


Best: ['różnych', 'wariantów', 'należy', 'spodziewać', 'się']
56 / 68 | ['należy', 'się', 'spodziewać', 'różnych', 'wariantów'] ===> 0.167 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 73.63it/s]


Best: ['nie', 'wykluczamy', 'egzaminu', 'ustnego', 'indywidualnego']
57 / 68 | ['nie', 'wykluczamy', 'indywidualnego', 'egzaminu', 'ustnego'] ===> 0.167 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:27<00:00, 26.48it/s]


Best: ['są', 'też', 'tutaj', 'małgosia', 'jaś', 'i']
58 / 68 | ['jaś', 'i', 'małgosia', 'też', 'są', 'tutaj'] ===> 0.004 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:04<00:00, 26.74it/s]


Best: ['nie', 'przybędą', 'prosiaczkiem', 'puchatek', 'z']
59 / 68 | ['puchatek', 'z', 'prosiaczkiem', 'nie', 'przybędą'] ===> 0.009 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:30<00:00, 23.74it/s]


Best: ['i', 'był', 'chory', 'kotek', 'odpoczywał', 'raz']
60 / 68 | ['raz', 'kotek', 'był', 'chory', 'i', 'odpoczywał'] ===> 0.002 / 1.0
61 / 68 | ['raz', 'kotek', 'był', 'chory', 'i', 'leżał', 'w', 'łóżeczku'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:15<00:00, 47.91it/s]


Best: ['nie', 'jest', 'trudna', 'relacji', 'równoważności', 'definicja']
62 / 68 | ['definicja', 'relacji', 'równoważności', 'nie', 'jest', 'trudna'] ===> 0.030 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:09<00:00, 78.14it/s] 


Best: ['jest', 'hipoteza', 'continuum', 'aksjomatów', 'niezależna', 'od']
63 / 68 | ['hipoteza', 'continuum', 'jest', 'niezależna', 'od', 'aksjomatów'] ===> 0.010 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 1140.97it/s]


Best: ['wiele', 'radości', 'teoria', 'mnogości', 'daje']
64 / 68 | ['teoria', 'mnogości', 'daje', 'wiele', 'radości'] ===> 0.250 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 68.12it/s]


Best: ['nie', 'jest', 'szczególnie', 'trudne', 'programowanie']
65 / 68 | ['programowanie', 'nie', 'jest', 'szczególnie', 'trudne'] ===> 0.125 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:34<00:00, 20.97it/s]


Best: ['rachunek', 'prawdopodobieństwa', 'przydaje', 'się', 'w', 'życiu']
66 / 68 | ['rachunek', 'prawdopodobieństwa', 'przydaje', 'się', 'w', 'życiu'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:00<00:00, 1575.04it/s]


Best: ['zanim', 'rycerze', 'księżniczkę', 'osaczyli', 'strawił', 'smoka']
67 / 68 | ['rycerze', 'osaczyli', 'smoka', 'zanim', 'strawił', 'księżniczkę'] ===> 0.003 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:06<00:00, 109.44it/s]

Best: ['już', 'chyba', 'należy', 'przestać', 'wymyślać', 'zdania']
68 / 68 | ['chyba', 'należy', 'już', 'przestać', 'wymyślać', 'zdania'] ===> 0.062 / 1.0
Final score: 0.0625
CPU times: user 39min 15s, sys: 5.12 s, total: 39min 20s
Wall time: 40min 26s





In [247]:
print(f'True accuracy: {(0.0625 * 68) / 65 :.2f}')

True accuracy: 0.07


About 7 were correct a few were really close. <br>
**22 35 40 42 53 55 66**

## $P(w_1 ... w_n) = P(w_1)*P(w_2 | w_1) * ... * P(w_n | w_{n-1})$
## $P^*(w2 | w1) = \lambda_1 * P(w2) + \lambda_2 * P(w2 | w1)$
## $P(w2 | w1) = \frac{cnt(w1w2)}{cnt(w1)}$

In [238]:
def find_lambdas() -> tuple:
    lambda1, lambda2 = 0.0, 0.0
    iters = 0
    for word, successor_words in tqdm(bigrams.items(), desc='Calculating lambdas ...'):
        for w2, n_occur in successor_words:
            pbb_w1 = pbb_unigram(w1=word)
            pbb_w1_w2 = cond_pbb_bigrams(w1=word, w2=w2)
            if pbb_w1_w2 >= pbb_w1:
                lambda2 += int(n_occur)
            else:
                lambda1 += int(n_occur)
        iters  += 1
        if iters > 100:
            break
    return lambda1, lambda2

In [239]:
lambda1, lambda2 = find_lambdas()

lambda1, lambda2

Calculating lambdas ...:   0%|          | 13/3591115 [02:41<12373:36:53, 12.40s/it]


KeyboardInterrupt: 

In [240]:
lambda1, lambda2 = 0.1, 0.9

In [242]:
%%time
f_score = final_score(
    cond_pbb_func=lambda w1, w2: lambda_cond_pbb_bigrams(
        w1=w1, w2=w2, lambda1=lambda1, lambda2=lambda2
    )
)
print(f'Final score: {f_score}')

Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 1461.21it/s]


Best: ['wczoraj', 'stefanowi', 'czekoladki', 'judyta', 'dała']
1 / 68 | ['judyta', 'dała', 'wczoraj', 'stefanowi', 'czekoladki'] ===> 0.011 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 667.20it/s]


Best: ['dwa', 'koziołki', 'babuleńka', 'rogate', 'miała']
2 / 68 | ['babuleńka', 'miała', 'dwa', 'rogate', 'koziołki'] ===> 0.011 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:00<00:00, 1486.63it/s]


Best: ['pewną', 'piękną', 'kobietę', 'spotkałem', 'wczoraj', 'wieczorem']
3 / 68 | ['wczoraj', 'wieczorem', 'spotkałem', 'pewną', 'piękną', 'kobietę'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:08<00:00, 82.67it/s] 


Best: ['to', 'nasz', 'przetwarzanie', 'języka', 'naturalnego', 'przedmiot']
4 / 68 | ['nasz', 'przedmiot', 'to', 'przetwarzanie', 'języka', 'naturalnego'] ===> 0.008 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 679.48it/s]


Best: ['prowadzi', 'jedną', 'grupę', 'michaliszyn', 'jakub']
5 / 68 | ['jedną', 'grupę', 'prowadzi', 'jakub', 'michaliszyn'] ===> 0.013 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 105.74it/s]


Best: ['jest', 'wykładowcą', 'rychlikowski', 'paweł']
6 / 68 | ['wykładowcą', 'jest', 'paweł', 'rychlikowski'] ===> 0.048 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:46<00:00, 109.08it/s]


Best: ['pan', 'paweł', 'prowadzi', 'również', 'pozostałe', 'dwie', 'grupy']
7 / 68 | ['pan', 'paweł', 'prowadzi', 'również', 'dwie', 'pozostałe', 'grupy'] ===> 0.167 / 1.0
8 / 68 | ['na', 'stronie', 'wykładu', 'będą', 'pojawiać', 'się', 'listy', 'zadań'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:43<00:00, 16.71it/s]


Best: ['i', 'to', 'będą', 'ćwiczeniowe', 'pracowniowe', 'listy']
9 / 68 | ['będą', 'to', 'listy', 'ćwiczeniowe', 'i', 'pracowniowe'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:42<00:00, 16.80it/s]


Best: ['i', 'to', 'będą', 'ćwiczeniowe', 'pracowniowe', 'listy']
10 / 68 | ['będą', 'to', 'listy', 'pracowniowe', 'i', 'ćwiczeniowe'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:17<00:00, 42.13it/s]


Best: ['mogą', 'pojawiać', 'się', 'również', 'dodatkowe', 'aktywności']
11 / 68 | ['mogą', 'się', 'pojawiać', 'również', 'dodatkowe', 'aktywności'] ===> 0.029 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 246.74it/s]


Best: ['te', 'będą', 'premiowane', 'aktywności']
12 / 68 | ['te', 'aktywności', 'będą', 'premiowane'] ===> 0.053 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:21<00:00, 33.80it/s]


Best: ['na', 'platformie', 'zdalnej', 'przykłąd', 'quizy', 'na']
13 / 68 | ['na', 'przykłąd', 'quizy', 'na', 'platformie', 'zdalnej'] ===> 0.009 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:20<00:00, 34.85it/s]


Best: ['na', 'temat', 'wykładu', 'miniprojekty', 'rozważamy', 'też']
14 / 68 | ['rozważamy', 'też', 'miniprojekty', 'na', 'temat', 'wykładu'] ===> 0.003 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:16<00:00, 36.79it/s]


Best: ['co', 'najmniej', 'tygodniowym', 'wyprzedzeniem', 'zapowiadamy', 'je', 'z']
15 / 68 | ['zapowiadamy', 'je', 'z', 'co', 'najmniej', 'tygodniowym', 'wyprzedzeniem'] ===> 0.006 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:15<00:00, 46.15it/s]


Best: ['na', 'zajęcia', 'przeznaczone', 'są', 'konkretne', 'zadania']
16 / 68 | ['zadania', 'są', 'przeznaczone', 'na', 'konkretne', 'zajęcia'] ===> 0.029 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:34<00:00, 20.89it/s]


Best: ['w', 'sali', 'seminaryjnej', 'ćwiczenia', 'zaczynają', 'się']
17 / 68 | ['ćwiczenia', 'zaczynają', 'się', 'w', 'sali', 'seminaryjnej'] ===> 0.050 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:25<00:00, 28.59it/s]


Best: ['tylko', 'w', 'trybie', 'stacjonarnym', 'jest', 'tak']
18 / 68 | ['jest', 'tak', 'tylko', 'w', 'trybie', 'stacjonarnym'] ===> 0.333 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:58<00:00, 28.29it/s]


Best: ['w', 'pracowni', 'domyślnie', 'pozostałe', 'zajęcia', 'zaczynają', 'się']
19 / 68 | ['pozostałe', 'zajęcia', 'domyślnie', 'zaczynają', 'się', 'w', 'pracowni'] ===> 0.143 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 68.01it/s]


Best: ['indywidualnych', 'konsutlacjach', 'pracownia', 'polega', 'na']
20 / 68 | ['pracownia', 'polega', 'na', 'indywidualnych', 'konsutlacjach'] ===> 0.015 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:02<00:00, 41.48it/s]


Best: ['tam', 'rozmawiamy', 'na', 'temat', 'rozwiązań']
21 / 68 | ['rozmawiamy', 'tam', 'na', 'temat', 'rozwiązań'] ===> 0.067 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:12<00:00, 400.80it/s]


Best: ['podczas', 'ćwiczeń', 'pisemne', 'przedstawiają', 'studenci', 'rozwiązania', 'zadań']
22 / 68 | ['podczas', 'ćwiczeń', 'studenci', 'przedstawiają', 'pisemne', 'rozwiązania', 'zadań'] ===> 0.200 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:07<00:00, 96.23it/s] 


Best: ['zależy', 'od', 'sytuacji', 'epidemiologicznej', 'tryb', 'zajęć']
23 / 68 | ['tryb', 'zajęć', 'zależy', 'od', 'sytuacji', 'epidemiologicznej'] ===> 0.067 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 88.35it/s]


Best: ['też', 'zależy', 'od', 'wymogów', 'formalnych']
24 / 68 | ['zależy', 'też', 'od', 'wymogów', 'formalnych'] ===> 0.111 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 62.32it/s]


Best: ['również', 'zależy', 'od', 'decyzji', 'władz']
25 / 68 | ['zależy', 'również', 'od', 'decyzji', 'władz'] ===> 0.250 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:44<00:00, 16.15it/s]


Best: ['możliwości', 'i', 'studentów', 'prowadzących', 'uwzględnia', 'się']
26 / 68 | ['uwzględnia', 'się', 'możliwości', 'studentów', 'i', 'prowadzących'] ===> 0.023 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [03:16<00:00, 25.59it/s]


Best: ['może', 'on', 'w', 'trakcie', 'semestru', 'zmieniać', 'się']
27 / 68 | ['może', 'się', 'on', 'zmieniać', 'w', 'trakcie', 'semestru'] ===> 0.017 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:02<00:00, 264.37it/s]


Best: ['przed', 'ćwiczeniami', 'prowadzącemu', 'dostarczają', 'deklaracje', 'studenci']
28 / 68 | ['przed', 'ćwiczeniami', 'studenci', 'dostarczają', 'prowadzącemu', 'deklaracje'] ===> 0.091 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 304.65it/s]


Best: ['zadań', 'numery', 'zawiera', 'ona']
29 / 68 | ['zawiera', 'ona', 'numery', 'zadań'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 199.24it/s]


Best: ['przy', 'tablicy', 'studenci', 'pokazują', 'rozwiązania']
30 / 68 | ['studenci', 'pokazują', 'rozwiązania', 'przy', 'tablicy'] ===> 0.059 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [05:25<00:00, 15.49it/s]


Best: [',', 'jeżeli', 'nie', 'jest', 'źle', 'student', 'umie']
31 / 68 | ['jest', 'źle', ',', 'jeżeli', 'student', 'nie', 'umie'] ===> 0.020 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:02<00:00, 53.38it/s]


Best: ['dodatkowo', 'odejmuje', 'coś', 'mu', 'się']
32 / 68 | ['dodatkowo', 'coś', 'mu', 'się', 'odejmuje'] ===> 0.012 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:09<00:00, 38.80it/s]


Best: ['można', 'oddawać', 'pracowni', 'podczas', 'zajęć', 'na', 'zadania']
33 / 68 | ['zadania', 'można', 'oddawać', 'podczas', 'zajęć', 'na', 'pracowni'] ===> 0.003 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 540.45it/s]


Best: ['należy', 'rozwiązywać', 'zadania', 'samodzielnie']
34 / 68 | ['zadania', 'należy', 'rozwiązywać', 'samodzielnie'] ===> 0.143 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 657.35it/s]


Best: ['prowadzący', 'ocenia', 'poprawność', 'rozwiązania']
35 / 68 | ['prowadzący', 'ocenia', 'poprawność', 'rozwiązania'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:12<00:00, 38.13it/s]


Best: ['informacje', 'o', 'regułach', 'czasem', 'mogą', 'pojawić', 'się']
36 / 68 | ['czasem', 'mogą', 'pojawić', 'się', 'informacje', 'o', 'regułach'] ===> 0.100 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:18<00:00, 39.21it/s]


Best: ['każdej', 'podany', 'termin', 'jest', 'na', 'liście']
37 / 68 | ['na', 'każdej', 'liście', 'podany', 'jest', 'termin'] ===> 0.018 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:05<00:00, 125.27it/s]


Best: ['za', 'dużo', 'punktów', 'dostajemy', 'poprawne', 'rozwiązanie']
38 / 68 | ['za', 'poprawne', 'rozwiązanie', 'dostajemy', 'dużo', 'punktów'] ===> 0.125 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 147.32it/s]


Best: ['nie', 'będą', 'sprawdzane', 'spóźnione', 'zadania']
39 / 68 | ['spóźnione', 'zadania', 'nie', 'będą', 'sprawdzane'] ===> 0.036 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 410.65it/s]


Best: ['pierwsza', 'lista', 'ma', 'dłuższy', 'termin']
40 / 68 | ['pierwsza', 'lista', 'ma', 'dłuższy', 'termin'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:45<00:00, 110.76it/s]


Best: ['pod', 'koniec', 'semestru', 'zmodyfikowana', 'zasada', 'musi', 'być']
41 / 68 | ['zasada', 'musi', 'być', 'zmodyfikowana', 'pod', 'koniec', 'semestru'] ===> 0.033 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:05<00:00, 40.01it/s]


Best: ['w', 'przypadku', 'choroby', 'studenta', 'obowiązują', 'inne', 'zasady']
42 / 68 | ['w', 'przypadku', 'choroby', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:30<00:00, 33.58it/s]


Best: ['w', 'przypadku', 'studenta', 'kwarantanny', 'obowiązują', 'inne', 'zasady']
43 / 68 | ['w', 'przypadku', 'kwarantanny', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 0.250 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:07<00:00, 39.47it/s]


Best: ['w', 'przypadku', 'izolacji', 'studenta', 'obowiązują', 'inne', 'zasady']
44 / 68 | ['w', 'przypadku', 'izolacji', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 1.000 / 1.0
45 / 68 | ['możliwe', 'jest', 'oddawanie', 'zaległych', 'zadań', 'bez', 'straty', 'punktowej'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:30<00:00, 23.93it/s]


Best: ['ocenę', 'tabelką', 'wystawia', 'się', 'zgodnie', 'z']
46 / 68 | ['ocenę', 'wystawia', 'się', 'zgodnie', 'z', 'tabelką'] ===> 0.010 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 909.28it/s]


Best: ['daje', 'ocenę', 'dostateczną', '50', 'punktów']
47 / 68 | ['50', 'punktów', 'daje', 'ocenę', 'dostateczną'] ===> 0.200 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:01<00:00, 364.97it/s]


Best: ['daje', 'bardzo', 'dobrą', 'ocenę', '120', 'punktów']
48 / 68 | ['120', 'punktów', 'daje', 'ocenę', 'bardzo', 'dobrą'] ===> 0.067 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 624.30it/s]


Best: ['zostanie', 'tabelka', 'przeskalowana', 'powyższa']
49 / 68 | ['powyższa', 'tabelka', 'zostanie', 'przeskalowana'] ===> 0.050 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:30<00:00, 33.52it/s]


Best: ['z', 'innych', 'powodów', 'przeskalowana', 'też', 'może', 'zostać']
50 / 68 | ['może', 'też', 'zostać', 'przeskalowana', 'z', 'innych', 'powodów'] ===> 0.004 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:19<00:00, 37.37it/s]


Best: ['coś', 'w', 'pierwszym', 'tygodniu', 'podamy', 'zajęć']
51 / 68 | ['w', 'pierwszym', 'tygodniu', 'zajęć', 'coś', 'podamy'] ===> 0.026 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:20<00:00, 35.10it/s]


Best: ['dodatkowe', 'zasady', 'egzaminu', 'umożliwiające', 'zwolnienie', 'z']
52 / 68 | ['dodatkowe', 'zasady', 'umożliwiające', 'zwolnienie', 'z', 'egzaminu'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:12<00:00, 59.45it/s]


Best: ['dotyczą', 'osób', 'z', 'dużą', 'liczbą', 'punktów']
53 / 68 | ['dotyczą', 'osób', 'z', 'dużą', 'liczbą', 'punktów'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 150.68it/s]


Best: ['też', 'można', 'rozwiązać', 'zadanie', 'specjalne']
54 / 68 | ['można', 'rozwiązać', 'też', 'zadanie', 'specjalne'] ===> 0.043 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:06<00:00, 109.95it/s]


Best: ['forma', 'egzaminu', 'zależy', 'od', 'wielu', 'czynników']
55 / 68 | ['forma', 'egzaminu', 'zależy', 'od', 'wielu', 'czynników'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 83.22it/s]


Best: ['różnych', 'wariantów', 'należy', 'spodziewać', 'się']
56 / 68 | ['należy', 'się', 'spodziewać', 'różnych', 'wariantów'] ===> 0.143 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 70.98it/s]


Best: ['nie', 'wykluczamy', 'egzaminu', 'ustnego', 'indywidualnego']
57 / 68 | ['nie', 'wykluczamy', 'indywidualnego', 'egzaminu', 'ustnego'] ===> 0.167 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:28<00:00, 25.44it/s]


Best: ['są', 'też', 'tutaj', 'małgosia', 'jaś', 'i']
58 / 68 | ['jaś', 'i', 'małgosia', 'też', 'są', 'tutaj'] ===> 0.004 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:04<00:00, 25.63it/s]


Best: ['nie', 'przybędą', 'prosiaczkiem', 'puchatek', 'z']
59 / 68 | ['puchatek', 'z', 'prosiaczkiem', 'nie', 'przybędą'] ===> 0.009 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:31<00:00, 22.73it/s]


Best: ['i', 'był', 'chory', 'kotek', 'odpoczywał', 'raz']
60 / 68 | ['raz', 'kotek', 'był', 'chory', 'i', 'odpoczywał'] ===> 0.002 / 1.0
61 / 68 | ['raz', 'kotek', 'był', 'chory', 'i', 'leżał', 'w', 'łóżeczku'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:15<00:00, 45.29it/s]


Best: ['nie', 'jest', 'trudna', 'relacji', 'równoważności', 'definicja']
62 / 68 | ['definicja', 'relacji', 'równoważności', 'nie', 'jest', 'trudna'] ===> 0.030 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:10<00:00, 71.61it/s]


Best: ['jest', 'hipoteza', 'continuum', 'aksjomatów', 'niezależna', 'od']
63 / 68 | ['hipoteza', 'continuum', 'jest', 'niezależna', 'od', 'aksjomatów'] ===> 0.008 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 623.62it/s]


Best: ['wiele', 'radości', 'teoria', 'mnogości', 'daje']
64 / 68 | ['teoria', 'mnogości', 'daje', 'wiele', 'radości'] ===> 0.250 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 63.85it/s]


Best: ['nie', 'jest', 'szczególnie', 'trudne', 'programowanie']
65 / 68 | ['programowanie', 'nie', 'jest', 'szczególnie', 'trudne'] ===> 0.143 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:30<00:00, 23.61it/s]


Best: ['rachunek', 'prawdopodobieństwa', 'przydaje', 'się', 'w', 'życiu']
66 / 68 | ['rachunek', 'prawdopodobieństwa', 'przydaje', 'się', 'w', 'życiu'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:00<00:00, 2268.43it/s]


Best: ['zanim', 'rycerze', 'strawił', 'osaczyli', 'księżniczkę', 'smoka']
67 / 68 | ['rycerze', 'osaczyli', 'smoka', 'zanim', 'strawił', 'księżniczkę'] ===> 0.003 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:05<00:00, 137.27it/s]

Best: ['już', 'chyba', 'należy', 'przestać', 'wymyślać', 'zdania']
68 / 68 | ['chyba', 'należy', 'już', 'przestać', 'wymyślać', 'zdania'] ===> 0.067 / 1.0
Final score: 0.06666666666666667
CPU times: user 38min 20s, sys: 4.82 s, total: 38min 25s
Wall time: 39min 30s





7 correct <br>
**35 40 42 44 53 55 66**

## Multiply number of occurrences of each bigram

In [246]:
%%time
f_score = final_score(cond_pbb_func=simple_pbb_bigrams)
print(f'Final score: {f_score}')

Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 1473.18it/s]


Best: ['wczoraj', 'stefanowi', 'judyta', 'dała', 'czekoladki']
1 / 68 | ['judyta', 'dała', 'wczoraj', 'stefanowi', 'czekoladki'] ===> 0.016 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 660.60it/s]


Best: ['rogate', 'miała', 'koziołki', 'dwa', 'babuleńka']
2 / 68 | ['babuleńka', 'miała', 'dwa', 'rogate', 'koziołki'] ===> 0.009 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:00<00:00, 1310.17it/s]


Best: ['wieczorem', 'wczoraj', 'spotkałem', 'pewną', 'piękną', 'kobietę']
3 / 68 | ['wczoraj', 'wieczorem', 'spotkałem', 'pewną', 'piękną', 'kobietę'] ===> 0.008 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:08<00:00, 82.83it/s] 


Best: ['przetwarzanie', 'języka', 'naturalnego', 'to', 'nasz', 'przedmiot']
4 / 68 | ['nasz', 'przedmiot', 'to', 'przetwarzanie', 'języka', 'naturalnego'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 654.19it/s]


Best: ['prowadzi', 'michaliszyn', 'jedną', 'jakub', 'grupę']
5 / 68 | ['jedną', 'grupę', 'prowadzi', 'jakub', 'michaliszyn'] ===> 0.015 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 120.71it/s]


Best: ['wykładowcą', 'rychlikowski', 'paweł', 'jest']
6 / 68 | ['wykładowcą', 'jest', 'paweł', 'rychlikowski'] ===> 0.167 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:45<00:00, 110.01it/s]


Best: ['pozostałe', 'dwie', 'grupy', 'prowadzi', 'również', 'pan', 'paweł']
7 / 68 | ['pan', 'paweł', 'prowadzi', 'również', 'dwie', 'pozostałe', 'grupy'] ===> 0.000 / 1.0
8 / 68 | ['na', 'stronie', 'wykładu', 'będą', 'pojawiać', 'się', 'listy', 'zadań'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:42<00:00, 16.75it/s]


Best: ['ćwiczeniowe', 'to', 'pracowniowe', 'listy', 'i', 'będą']
9 / 68 | ['będą', 'to', 'listy', 'ćwiczeniowe', 'i', 'pracowniowe'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:43<00:00, 16.63it/s]


Best: ['ćwiczeniowe', 'to', 'pracowniowe', 'listy', 'i', 'będą']
10 / 68 | ['będą', 'to', 'listy', 'pracowniowe', 'i', 'ćwiczeniowe'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:17<00:00, 40.78it/s]


Best: ['mogą', 'pojawiać', 'się', 'również', 'dodatkowe', 'aktywności']
11 / 68 | ['mogą', 'się', 'pojawiać', 'również', 'dodatkowe', 'aktywności'] ===> 0.100 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 293.41it/s]


Best: ['aktywności', 'te', 'będą', 'premiowane']
12 / 68 | ['te', 'aktywności', 'będą', 'premiowane'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:21<00:00, 33.13it/s]


Best: ['zdalnej', 'quizy', 'przykłąd', 'platformie', 'na', 'na']
13 / 68 | ['na', 'przykłąd', 'quizy', 'na', 'platformie', 'zdalnej'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:20<00:00, 34.48it/s]


Best: ['wykładu', 'też', 'temat', 'rozważamy', 'na', 'miniprojekty']
14 / 68 | ['rozważamy', 'też', 'miniprojekty', 'na', 'temat', 'wykładu'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:19<00:00, 36.11it/s]


Best: ['zapowiadamy', 'je', 'z', 'co', 'najmniej', 'tygodniowym', 'wyprzedzeniem']
15 / 68 | ['zapowiadamy', 'je', 'z', 'co', 'najmniej', 'tygodniowym', 'wyprzedzeniem'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:15<00:00, 46.48it/s]


Best: ['na', 'zajęcia', 'przeznaczone', 'są', 'konkretne', 'zadania']
16 / 68 | ['zadania', 'są', 'przeznaczone', 'na', 'konkretne', 'zajęcia'] ===> 0.059 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:33<00:00, 21.18it/s]


Best: ['ćwiczenia', 'zaczynają', 'się', 'w', 'sali', 'seminaryjnej']
17 / 68 | ['ćwiczenia', 'zaczynają', 'się', 'w', 'sali', 'seminaryjnej'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:24<00:00, 28.90it/s]


Best: ['tak', 'jest', 'tylko', 'w', 'trybie', 'stacjonarnym']
18 / 68 | ['jest', 'tak', 'tylko', 'w', 'trybie', 'stacjonarnym'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:56<00:00, 28.53it/s]


Best: ['pozostałe', 'w', 'pracowni', 'zajęcia', 'zaczynają', 'się', 'domyślnie']
19 / 68 | ['pozostałe', 'zajęcia', 'domyślnie', 'zaczynają', 'się', 'w', 'pracowni'] ===> 0.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 66.84it/s]


Best: ['pracownia', 'polega', 'na', 'konsutlacjach', 'indywidualnych']
20 / 68 | ['pracownia', 'polega', 'na', 'indywidualnych', 'konsutlacjach'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:02<00:00, 41.39it/s]


Best: ['tam', 'na', 'temat', 'rozwiązań', 'rozmawiamy']
21 / 68 | ['rozmawiamy', 'tam', 'na', 'temat', 'rozwiązań'] ===> 0.011 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:12<00:00, 391.62it/s]


Best: ['rozwiązania', 'ćwiczeń', 'podczas', 'zadań', 'studenci', 'przedstawiają', 'pisemne']
22 / 68 | ['podczas', 'ćwiczeń', 'studenci', 'przedstawiają', 'pisemne', 'rozwiązania', 'zadań'] ===> 0.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:07<00:00, 95.17it/s] 


Best: ['tryb', 'zajęć', 'zależy', 'od', 'sytuacji', 'epidemiologicznej']
23 / 68 | ['tryb', 'zajęć', 'zależy', 'od', 'sytuacji', 'epidemiologicznej'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 88.78it/s]


Best: ['też', 'zależy', 'od', 'wymogów', 'formalnych']
24 / 68 | ['zależy', 'też', 'od', 'wymogów', 'formalnych'] ===> 0.333 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 60.86it/s]


Best: ['również', 'zależy', 'od', 'decyzji', 'władz']
25 / 68 | ['zależy', 'również', 'od', 'decyzji', 'władz'] ===> 0.333 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:45<00:00, 16.00it/s]


Best: ['uwzględnia', 'się', 'możliwości', 'i', 'studentów', 'prowadzących']
26 / 68 | ['uwzględnia', 'się', 'możliwości', 'studentów', 'i', 'prowadzących'] ===> 0.111 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [03:12<00:00, 26.14it/s]


Best: ['on', 'może', 'zmieniać', 'się', 'w', 'trakcie', 'semestru']
27 / 68 | ['może', 'się', 'on', 'zmieniać', 'w', 'trakcie', 'semestru'] ===> 0.143 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:02<00:00, 326.45it/s]


Best: ['ćwiczeniami', 'studenci', 'przed', 'prowadzącemu', 'dostarczają', 'deklaracje']
28 / 68 | ['przed', 'ćwiczeniami', 'studenci', 'dostarczają', 'prowadzącemu', 'deklaracje'] ===> 0.004 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 287.95it/s]


Best: ['zadań', 'zawiera', 'ona', 'numery']
29 / 68 | ['zawiera', 'ona', 'numery', 'zadań'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 213.82it/s]


Best: ['studenci', 'pokazują', 'rozwiązania', 'przy', 'tablicy']
30 / 68 | ['studenci', 'pokazują', 'rozwiązania', 'przy', 'tablicy'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [05:26<00:00, 15.44it/s]


Best: ['nie', 'jest', 'źle', ',', 'jeżeli', 'student', 'umie']
31 / 68 | ['jest', 'źle', ',', 'jeżeli', 'student', 'nie', 'umie'] ===> 0.200 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:02<00:00, 52.24it/s]


Best: ['mu', 'się', 'dodatkowo', 'coś', 'odejmuje']
32 / 68 | ['dodatkowo', 'coś', 'mu', 'się', 'odejmuje'] ===> 0.333 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:16<00:00, 36.98it/s]


Best: ['na', 'zadania', 'podczas', 'zajęć', 'pracowni', 'można', 'oddawać']
33 / 68 | ['zadania', 'można', 'oddawać', 'podczas', 'zajęć', 'na', 'pracowni'] ===> 0.050 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 810.21it/s]


Best: ['należy', 'rozwiązywać', 'zadania', 'samodzielnie']
34 / 68 | ['zadania', 'należy', 'rozwiązywać', 'samodzielnie'] ===> 0.167 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 1167.10it/s]


Best: ['poprawność', 'rozwiązania', 'ocenia', 'prowadzący']
35 / 68 | ['prowadzący', 'ocenia', 'poprawność', 'rozwiązania'] ===> 0.077 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:15<00:00, 37.15it/s]


Best: ['czasem', 'mogą', 'pojawić', 'się', 'informacje', 'o', 'regułach']
36 / 68 | ['czasem', 'mogą', 'pojawić', 'się', 'informacje', 'o', 'regułach'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:18<00:00, 39.12it/s]


Best: ['jest', 'podany', 'termin', 'na', 'każdej', 'liście']
37 / 68 | ['na', 'każdej', 'liście', 'podany', 'jest', 'termin'] ===> 0.003 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:05<00:00, 127.01it/s]


Best: ['dostajemy', 'dużo', 'punktów', 'za', 'poprawne', 'rozwiązanie']
38 / 68 | ['za', 'poprawne', 'rozwiązanie', 'dostajemy', 'dużo', 'punktów'] ===> 0.017 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 152.73it/s]


Best: ['zadania', 'będą', 'sprawdzane', 'nie', 'spóźnione']
39 / 68 | ['spóźnione', 'zadania', 'nie', 'będą', 'sprawdzane'] ===> 0.030 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 434.66it/s]


Best: ['pierwsza', 'lista', 'ma', 'dłuższy', 'termin']
40 / 68 | ['pierwsza', 'lista', 'ma', 'dłuższy', 'termin'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [00:44<00:00, 112.14it/s]


Best: ['pod', 'koniec', 'semestru', 'musi', 'być', 'zmodyfikowana', 'zasada']
41 / 68 | ['zasada', 'musi', 'być', 'zmodyfikowana', 'pod', 'koniec', 'semestru'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:05<00:00, 40.12it/s]


Best: ['zasady', 'obowiązują', 'inne', 'choroby', 'w', 'przypadku', 'studenta']
42 / 68 | ['w', 'przypadku', 'choroby', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 0.001 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:28<00:00, 33.88it/s]


Best: ['studenta', 'w', 'przypadku', 'obowiązują', 'inne', 'zasady', 'kwarantanny']
43 / 68 | ['w', 'przypadku', 'kwarantanny', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 0.001 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:03<00:00, 40.76it/s]


Best: ['izolacji', 'inne', 'zasady', 'obowiązują', 'w', 'przypadku', 'studenta']
44 / 68 | ['w', 'przypadku', 'izolacji', 'studenta', 'obowiązują', 'inne', 'zasady'] ===> 0.001 / 1.0
45 / 68 | ['możliwe', 'jest', 'oddawanie', 'zaległych', 'zadań', 'bez', 'straty', 'punktowej'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:30<00:00, 23.94it/s]


Best: ['ocenę', 'wystawia', 'się', 'zgodnie', 'z', 'tabelką']
46 / 68 | ['ocenę', 'wystawia', 'się', 'zgodnie', 'z', 'tabelką'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 1100.53it/s]


Best: ['50', 'punktów', 'daje', 'ocenę', 'dostateczną']
47 / 68 | ['50', 'punktów', 'daje', 'ocenę', 'dostateczną'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:01<00:00, 398.01it/s]


Best: ['120', 'punktów', 'daje', 'bardzo', 'dobrą', 'ocenę']
48 / 68 | ['120', 'punktów', 'daje', 'ocenę', 'bardzo', 'dobrą'] ===> 0.250 / 1.0


Scoring permutations...: 100%|██████████| 24/24 [00:00<00:00, 1990.46it/s]


Best: ['zostanie', 'tabelka', 'przeskalowana', 'powyższa']
49 / 68 | ['powyższa', 'tabelka', 'zostanie', 'przeskalowana'] ===> 0.048 / 1.0


Scoring permutations...: 100%|██████████| 5040/5040 [02:29<00:00, 33.66it/s]


Best: ['zostać', 'z', 'też', 'przeskalowana', 'powodów', 'może', 'innych']
50 / 68 | ['może', 'też', 'zostać', 'przeskalowana', 'z', 'innych', 'powodów'] ===> 0.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:18<00:00, 39.05it/s]


Best: ['zajęć', 'coś', 'w', 'pierwszym', 'tygodniu', 'podamy']
51 / 68 | ['w', 'pierwszym', 'tygodniu', 'zajęć', 'coś', 'podamy'] ===> 0.005 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:20<00:00, 35.01it/s]


Best: ['dodatkowe', 'zasady', 'umożliwiające', 'zwolnienie', 'z', 'egzaminu']
52 / 68 | ['dodatkowe', 'zasady', 'umożliwiające', 'zwolnienie', 'z', 'egzaminu'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:12<00:00, 59.91it/s]


Best: ['dotyczą', 'osób', 'z', 'dużą', 'liczbą', 'punktów']
53 / 68 | ['dotyczą', 'osób', 'z', 'dużą', 'liczbą', 'punktów'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 142.52it/s]


Best: ['też', 'można', 'rozwiązać', 'zadanie', 'specjalne']
54 / 68 | ['można', 'rozwiązać', 'też', 'zadanie', 'specjalne'] ===> 0.083 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:07<00:00, 100.99it/s]


Best: ['forma', 'egzaminu', 'zależy', 'od', 'wielu', 'czynników']
55 / 68 | ['forma', 'egzaminu', 'zależy', 'od', 'wielu', 'czynników'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 78.80it/s]


Best: ['należy', 'spodziewać', 'się', 'różnych', 'wariantów']
56 / 68 | ['należy', 'się', 'spodziewać', 'różnych', 'wariantów'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 68.63it/s]


Best: ['wykluczamy', 'ustnego', 'nie', 'indywidualnego', 'egzaminu']
57 / 68 | ['nie', 'wykluczamy', 'indywidualnego', 'egzaminu', 'ustnego'] ===> 0.019 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:27<00:00, 26.27it/s]


Best: ['tutaj', 'też', 'są', 'jaś', 'i', 'małgosia']
58 / 68 | ['jaś', 'i', 'małgosia', 'też', 'są', 'tutaj'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:04<00:00, 26.41it/s]


Best: ['puchatek', 'nie', 'przybędą', 'z', 'prosiaczkiem']
59 / 68 | ['puchatek', 'z', 'prosiaczkiem', 'nie', 'przybędą'] ===> 0.034 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:30<00:00, 23.71it/s]


Best: ['raz', 'był', 'chory', 'kotek', 'i', 'odpoczywał']
60 / 68 | ['raz', 'kotek', 'był', 'chory', 'i', 'odpoczywał'] ===> 0.019 / 1.0
61 / 68 | ['raz', 'kotek', 'był', 'chory', 'i', 'leżał', 'w', 'łóżeczku'] ===> ??? / 1.0
Skipped because sentence is too long.


Scoring permutations...: 100%|██████████| 720/720 [00:15<00:00, 47.78it/s]


Best: ['trudna', 'nie', 'jest', 'definicja', 'relacji', 'równoważności']
62 / 68 | ['definicja', 'relacji', 'równoważności', 'nie', 'jest', 'trudna'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:09<00:00, 77.17it/s] 


Best: ['hipoteza', 'continuum', 'jest', 'niezależna', 'od', 'aksjomatów']
63 / 68 | ['hipoteza', 'continuum', 'jest', 'niezależna', 'od', 'aksjomatów'] ===> 1.000 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:00<00:00, 820.82it/s]


Best: ['wiele', 'teoria', 'radości', 'mnogości', 'daje']
64 / 68 | ['teoria', 'mnogości', 'daje', 'wiele', 'radości'] ===> 0.024 / 1.0


Scoring permutations...: 100%|██████████| 120/120 [00:01<00:00, 68.02it/s]


Best: ['szczególnie', 'trudne', 'nie', 'jest', 'programowanie']
65 / 68 | ['programowanie', 'nie', 'jest', 'szczególnie', 'trudne'] ===> 0.500 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:29<00:00, 24.61it/s]


Best: ['rachunek', 'prawdopodobieństwa', 'w', 'życiu', 'się', 'przydaje']
66 / 68 | ['rachunek', 'prawdopodobieństwa', 'przydaje', 'się', 'w', 'życiu'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:00<00:00, 2927.27it/s]


Best: ['zanim', 'strawił', 'smoka', 'rycerze', 'osaczyli', 'księżniczkę']
67 / 68 | ['rycerze', 'osaczyli', 'smoka', 'zanim', 'strawił', 'księżniczkę'] ===> 0.002 / 1.0


Scoring permutations...: 100%|██████████| 720/720 [00:04<00:00, 158.14it/s]

Best: ['zdania', 'wymyślać', 'przestać', 'należy', 'już', 'chyba']
68 / 68 | ['chyba', 'należy', 'już', 'przestać', 'wymyślać', 'zdania'] ===> 0.001 / 1.0
Final score: 0.0014367816091954023
CPU times: user 38min 17s, sys: 4.34 s, total: 38min 21s
Wall time: 39min 25s





## Trigrams

In [None]:
trigrams: dict = {}  # Tuple[w1, w2] -> List[Tuple[w3, number of occurrences]]
total_iters, skipped1, skipped2 = 0, 0, 0

with open(poleval3_path, encoding="utf8") as f:
    for line in tqdm(f, desc='Loading data...', position=0, leave=True):
        total_iters += 1
        line = line.strip().lower().split()

        if len(line) != 4:
            skipped1 += 1
            continue
            
        if int(line[0]) == 1:
            skipped2 += 1
            continue
            
        key: tuple = (bytes(bytearray(line[1], 'UTF-8')),  bytes(bytearray(line[2], 'UTF-8')))
        value: tuple = (bytes(bytearray(line[3], 'UTF-8')), line[0])
 
        if key in trigrams:
            trigrams[key].append(value)
        else:
            trigrams[key] = [value]