In [1]:
import numpy as np
from itertools import permutations

In [3]:
def load_corpus_three_gram(path, words):
    file = open(path, "r")
    three_grams = {}
    
    for line in file:
        
        line = line.split(" ")
        if len(line) != 4: continue
        oc_number, word_1, word_2, word_3 = line

        if word_3[-1:] == '\n':
            word_3 = word_3[:-1]

        if word_1 in words or word_2 in words or word_3 in words:

            if (word_1, word_2) in two_grams.keys():
                three_grams[(word_1, word_2)].append(word_3)
            else:
                three_grams[(word_1, word_2)] = [word_3]

        
    file.close()
    return three_grams

In [4]:
def load_corpus_two_gram(path, words):
    file = open(path, "r")
    two_grams = {}
    
    for line in file:

        oc_number, word_1, word_2 = line.split(" ")

        #if int(oc_number) == 1: break

        if word_2[-1:] == '\n':
            word_2 = word_2[:-1]
        
        if word_1 in words or word_2 in words:

            if word_1 in two_grams.keys():
                two_grams[word_1].append(word_2)
            else:
                two_grams[word_1] = [[word_2]]

    file.close()
    return two_grams

In [5]:
sen1 = 'Judyta dała wczoraj Stefanowi czekoladki'.lower().split()
sen2 = 'Babuleńka miała dwa rogate koziołki'.lower().split()
sen3 = 'Wczoraj wieczorem spotkałem pewną piękną kobietę'.lower().split()
sen4 = 'Ala mówi do kota o pieskach'.lower().split()
sen5 = 'Franek je kanapke z serem'.lower().split()
sen6 = 'Wczoraj miałem okropny dzień'.lower().split()
sen7 = 'Miałem 7 lat kiedy dostałem telefon'.lower().split()

In [6]:
words = sen1 + sen2 + sen3 + sen4 + sen5 + sen6 + sen7

In [7]:
two_grams = load_corpus_two_gram('/content/poleval_2grams.txt', words)
three_grams = load_corpus_three_gram('/content/poleval_3grams.txt', words)

In [8]:
def check_sen(sen, two_grams, three_grams):

    iter_two = 0
    good_two = 0

    while iter_two < len(sen) - 1:

        if sen[iter_two] in two_grams:
            if sen[iter_two+1] in two_grams[sen[iter_two]]:
                good_two+=0.5

        iter_two +=1


    iter_three = 0
    good_three = 0

    while iter_three < len(sen) - 2:

        if (sen[iter_three], sen[iter_three+1]) in three_grams:
            if sen[iter_three+2] in three_grams[(sen[iter_three], sen[iter_three+1])]:
                good_three+=1

        iter_three +=1


    return good_two + good_three

In [9]:
def test_permutations(sen1):

    res = []
    perms = list(permutations(sen1))

    for sen in perms:
        res.append(check_sen(sen, two_grams, three_grams))

    return np.array(res), np.array(perms)

In [10]:
res, perms = test_permutations(sen1)
np.hstack((perms[np.argsort(res)[::-1]], np.sort(res)[::-1].reshape(res.shape[0], 1)))[:5]

array([['czekoladki', 'stefanowi', 'wczoraj', 'dała', 'judyta', '0.5'],
       ['dała', 'wczoraj', 'stefanowi', 'czekoladki', 'judyta', '0.5'],
       ['stefanowi', 'dała', 'wczoraj', 'czekoladki', 'judyta', '0.5'],
       ['stefanowi', 'dała', 'wczoraj', 'judyta', 'czekoladki', '0.5'],
       ['stefanowi', 'judyta', 'czekoladki', 'wczoraj', 'dała', '0.5']],
      dtype='<U32')

In [11]:
res, perms = test_permutations(sen2)
np.hstack((perms[np.argsort(res)[::-1]], np.sort(res)[::-1].reshape(res.shape[0], 1)))[:5]

array([['babuleńka', 'miała', 'dwa', 'rogate', 'koziołki', '1.0'],
       ['koziołki', 'miała', 'dwa', 'rogate', 'babuleńka', '1.0'],
       ['miała', 'dwa', 'koziołki', 'rogate', 'babuleńka', '1.0'],
       ['miała', 'dwa', 'koziołki', 'babuleńka', 'rogate', '1.0'],
       ['miała', 'dwa', 'rogate', 'koziołki', 'babuleńka', '1.0']],
      dtype='<U32')

In [12]:
res, perms = test_permutations(sen3)
np.hstack((perms[np.argsort(res)[::-1]], np.sort(res)[::-1].reshape(res.shape[0], 1)))[:5]

array([['pewną', 'wieczorem', 'wczoraj', 'spotkałem', 'piękną',
        'kobietę', '3.0'],
       ['wieczorem', 'wczoraj', 'spotkałem', 'piękną', 'kobietę',
        'pewną', '3.0'],
       ['wieczorem', 'wczoraj', 'spotkałem', 'pewną', 'piękną',
        'kobietę', '2.5'],
       ['wieczorem', 'wczoraj', 'pewną', 'spotkałem', 'piękną',
        'kobietę', '2.5'],
       ['pewną', 'wczoraj', 'wieczorem', 'spotkałem', 'piękną',
        'kobietę', '2.5']], dtype='<U32')

In [13]:
res, perms = test_permutations(sen4)
np.hstack((perms[np.argsort(res)[::-1]], np.sort(res)[::-1].reshape(res.shape[0], 1)))[:5]

array([['ala', 'mówi', 'do', 'kota', 'o', 'pieskach', '2.5'],
       ['mówi', 'do', 'ala', 'kota', 'o', 'pieskach', '2.5'],
       ['mówi', 'ala', 'do', 'kota', 'o', 'pieskach', '2.5'],
       ['kota', 'do', 'ala', 'mówi', 'o', 'pieskach', '2.5'],
       ['mówi', 'ala', 'kota', 'do', 'o', 'pieskach', '2.5']],
      dtype='<U32')

In [14]:
res, perms = test_permutations(sen5)
np.hstack((perms[np.argsort(res)[::-1]], np.sort(res)[::-1].reshape(res.shape[0], 1)))[:5]

array([['franek', 'je', 'kanapke', 'z', 'serem', '1.5'],
       ['kanapke', 'z', 'serem', 'franek', 'je', '1.5'],
       ['kanapke', 'franek', 'je', 'z', 'serem', '1.5'],
       ['kanapke', 'franek', 'je', 'serem', 'z', '1.5'],
       ['kanapke', 'franek', 'z', 'je', 'serem', '1.5']], dtype='<U32')

In [15]:
res, perms = test_permutations(sen6)
np.hstack((perms[np.argsort(res)[::-1]], np.sort(res)[::-1].reshape(res.shape[0], 1)))[:5]

array([['okropny', 'dzień', 'miałem', 'wczoraj', '1.5'],
       ['okropny', 'dzień', 'wczoraj', 'miałem', '1.5'],
       ['wczoraj', 'miałem', 'okropny', 'dzień', '1.0'],
       ['okropny', 'wczoraj', 'dzień', 'miałem', '1.0'],
       ['miałem', 'wczoraj', 'dzień', 'okropny', '1.0']], dtype='<U32')

In [16]:
res, perms = test_permutations(sen7)
np.hstack((perms[np.argsort(res)[::-1]], np.sort(res)[::-1].reshape(res.shape[0], 1)))[:5]

array([['telefon', 'miałem', 'kiedy', 'dostałem', '7', 'lat', '3.5'],
       ['lat', 'dostałem', '7', 'telefon', 'kiedy', 'miałem', '3.5'],
       ['dostałem', '7', 'lat', 'kiedy', 'miałem', 'telefon', '3.5'],
       ['dostałem', '7', 'lat', 'miałem', 'telefon', 'kiedy', '3.5'],
       ['dostałem', '7', 'lat', 'miałem', 'kiedy', 'telefon', '3.5']],
      dtype='<U32')