# Task 1

In [106]:
import numpy as np
import random
import editdistance
from itertools import chain, permutations

In [29]:
with open('train_shuf.txt', 'r') as stream:
    data = stream.readlines()
    np.random.shuffle(data)
    data = list(map(lambda x: x.split(), data[:10000]))
    dictionary = set(list(chain(*data)))

In [30]:
def max_match(sentence, dictionary):
    start_ind, end_ind = 0, len(sentence)
    produced_words = []
    while start_ind < end_ind:
        if sentence[start_ind:end_ind] in dictionary:
            produced_words.append(sentence[start_ind:end_ind])            
            start_ind = end_ind
            end_ind = len(sentence)
        else:
            end_ind -= 1
    return produced_words

In [31]:
def split_on_two_words(char_list, dictionary):
    for i in reversed(range(1, len(char_list))):
        if char_list[:i] in dictionary and char_list[i:] in dictionary:
            return char_list[:i], char_list[i:]
    return None

def double_max_match(sentence, dictionary):
    start_ind, end_ind = 0, len(sentence)
    produced_words = []
    while start_ind < end_ind:
        splitted_words = split_on_two_words(sentence[start_ind:end_ind], dictionary)
        if splitted_words is not None:
            produced_words.append(splitted_words[0])            
            produced_words.append(splitted_words[1])                        
            start_ind = end_ind
            end_ind = len(sentence)
        else:
            end_ind -= 1
    return produced_words

In [32]:
def edit_distance(sentence1, sentence2):
    return editdistance.eval(sentence1, sentence2)

In [33]:
scores = list(map(lambda x: edit_distance(x, max_match(''.join(x), dictionary)), data))
print("Mean length of sentence: {0}".format(np.mean(list(map(lambda x: len(x), data)))))
print("Mean distance: {0}".format(np.mean(scores)))

Mean length of sentence: 17.1576
Mean distance: 3.0497


In [34]:
scores = list(map(lambda x: edit_distance(x, double_max_match(''.join(x), dictionary)), data))
print("Mean length of sentence: {0}".format(np.mean(list(map(lambda x: len(x), data)))))
print("Mean distance: {0}".format(np.mean(scores)))

Mean length of sentence: 17.1576
Mean distance: 2.8856


# Task 2

In [56]:
def format_row(row_data):
    row_items = row_data.split()
    row_items[0] = int(row_items[0])
    return row_items

def open_ngrams(filename):
    with open(filename) as stream:
        return list(map(format_row, filter(lambda x: int(x.split()[0]) >= 100, stream.readlines())))   

In [None]:
data = open_ngrams('poleval_2grams.txt')

In [47]:
word_successors = {}
for _, word1, word2 in data:
    if word1 not in word_successors:
        word_successors[word1] = set()
    word_successors[word1].add(word2)

In [52]:
current_word = '<BOS>'
for i in range(100):
    if current_word in word_successors:
        current_word = random.choice(list(word_successors[current_word]))
    else:
        current_word = random.choice(list(word_successors.keys()))
    print(current_word)

kolekcje
,
aptekach
.
2b
ustawy
przyczyni
się
prowadzi
nocny
,
ubóstwa
w
wadowicach
,
kość
.
?
<EOS>
bawełna
,
niewątpliwie
będzie
decydował
,
chile
i
uzależnione
jest
tendencja
do
zainstalowania
wręczył
mu
zdobyć
się
kobieta
jest
zapowiedź
,
dzisiejsza
dyskusja
na
sąsiedniej
wsi
była
trochę
mało
skuteczne
i
james
.
4b
bangkoku
.
3a
i
zaliczył
swój
język
ojczysty
.
2
cm
do
motocykli
.
bernardynów
w
potulicach
ustalam
czas
generowania
jednakowa
dla
zaawansowanych
,
dużo
zależy
głównie
do
18
meczów
na
parkiecie
.
9
000
000,00
pln
,
odpowiedź
.
10
armii
url
.
3a
pkt
18


In [57]:
data = open_ngrams('poleval_3grams.txt')

In [58]:
word_successors = {}
for _, word1, word2, word3 in list(filter(lambda x: len(x) >= 4, data)):
    if (word1, word2) not in word_successors:
        word_successors[(word1, word2)] = set()
    word_successors[(word1, word2)].add(word3)

In [63]:
current_tuple = ('<BOS>', random.choice(list(word_successors.keys()))[0])
for i in range(100):
    if current_tuple in word_successors:
        current_tuple = (current_tuple[1], random.choice(list(word_successors[current_tuple])))
    else:
        current_tuple = (current_tuple[1], random.choice(list(word_successors.keys()))[0])
    print(current_tuple[1])

ślub
a
i
w
kilku
różnych
-
ryzyku
ratuszu
,
prywatnych
tego
technicznej
rodziny
pomiędzy
nie
ustawy
to
braki
-
18
,
a
budowa
pól
m
z
przeszkodami
.
<EOS>
calgary
tylko
gospodarki
dla
małych
przedsiębiorstw
,
a
dotychczasowe
gdyby
zwrotu
z
inwestycji
w
infrastrukturę
kolejową
kapitał
pamiątek
w
ale
wywalczył
węgla
royal
nie
przygotowanej
,
które
niosą
road
mln
płynów
o
regionalny
ogólnie
spółek
spółkami
w
winogron
zakresie
produktu
nr
w
działalności
na
rynku
.
<EOS>
odbierać
rat
liczby
zgłosili
jest
organizacji
black
staramy
został
całym
szereg
remontów
jak
dostają
że
,
po
studiach
w
zarządzanych
mnie
mogą
inne


# Task 3

In [64]:
data = open_ngrams('poleval_2grams.txt')

In [65]:
word_successors = {}
for count, word1, word2 in data:
    if word1 not in word_successors:
        word_successors[word1] = set()
    word_successors[word1].add((word2, count))

In [72]:
current_word = '<BOS>'
for i in range(100):
    if current_word in word_successors:
        successors, counts = zip(*list(word_successors[current_word]))
        probabilities = counts / np.sum(counts)
        current_word = np.random.choice(successors, p=probabilities)
    else:
        current_word = random.choice(list(word_successors.keys()))
    print(current_word)

otóż
nie
było
o
świadczeniach
rodzinnych
w
1976
r.
o
udzielanie
świadczeń
.
<EOS>
zbytnio
od
głosu
pana
prokuratora
w
tej
rzeki
.
<EOS>
336
,
ale
chodzi
o
0,9
%
głosów
.
<EOS>
zastrzelony
przez
samochody
.
<EOS>
dzisiejszych
czasach
rzymskich
.
<EOS>
mazowieckiego
oraz
rozszerzenie
oferty
i
tomasz
lis
,
podjąłem
decyzję
o
obowiązku
w
niektórych
innych
formach
:
piotr
i
zasady
dotyczące
tego
,
jest
za
bardzo
duży
wysiłek
w
badaniu
klinicznym
w
1995
)
.
<EOS>
post
:
dla
obywateli
czy
działanie
na
mistrzostwach
polski
z
obowiązku
składania
wniosków
na
prace
wykończeniowe
,
lub
nie
jest


In [73]:
data = open_ngrams('poleval_3grams.txt')

In [74]:
word_successors = {}
for count, word1, word2, word3 in list(filter(lambda x: len(x) >= 4, data)):
    if (word1, word2) not in word_successors:
        word_successors[(word1, word2)] = set()
    word_successors[(word1, word2)].add((word3, count))

In [78]:
current_tuple = ('<BOS>', random.choice(list(word_successors.keys()))[0])
for i in range(100):
    if current_tuple in word_successors:
        successors, counts = zip(*list(word_successors[current_tuple]))
        probabilities = counts / np.sum(counts)
        current_tuple = (current_tuple[1], np.random.choice(successors, p=probabilities))
    else:
        current_tuple = (current_tuple[1], random.choice(list(word_successors.keys()))[0])
    print(current_tuple[1])

miał
bez
,
teraz
już
nie
mówiąc
o
tym
w
swoim
zakładzie
osobą
wykorzystania
1973
ojczyzny
35a
mieszkańców
trójki
podkreślić
po
przez
a
przegrała
wojewódzkiego
egzaminu
ponad
nieruchomości
nic
wniosek
proszę
x
mamy
stan
kopenhagi
zgłoszone
japan
1873
także
kilometr
rozłożone
reprezentująca
pytam
przyszłość
polskiej
nie
naftowym
ograniczenia
zmierzyli
co
wyjątkiem
krwiolecznictwa
wstąpił
ton
kalibru
za
tych
,
którzy
uważają
,
że
klub
parlamentarny
sojuszu
lewicy
demokratycznej
nie
rok
funkcjonowania
doktorat
w
zamka
na
gazu
danego
uczy
minister
obejmuje
tym
serwisowej
odpowiedzialności
ulec
do
politykami
według
a
między
małopolskiego
wymagających
pierwszą
zmianie
zbyt
dystansie
grudnia
z
finansową
przetarg
leasing
września


# Task 4

In [89]:
def all_predefined(row, predefined_set):
    return all([x in predefined_set for x in row.split()[1:]])
    
def open_predefined_ngrams(filename, predefined_set):
    with open(filename) as stream:
        return list(map(format_row, filter(lambda x: all_predefined(x, predefined_set), stream.readlines())))   

In [122]:
all_sentences = """
    Wczoraj wieczorem spotkałem pewną piękną kobietę
    Babuleńka miała dwa rogate koziołki
    Judyta dała wczoraj Stefanowi czekoladki
    Dziś wieczorem jest pracowity dzień
    Jutro powinien być luźniejszy dzień 
    W weekend ugotuję obiad
"""
predefined_set = set("Wczoraj wieczorem spotkałem pewną piękną kobietę".split())
data = open_predefined_ngrams('poleval_2grams.txt', predefined_set)

In [123]:
word_scores = {(row[1], row[2]): row[0] for row in data}

In [124]:
def get_score(words):
    filtered_tuples = filter(lambda x: x in word_scores, zip(words[:-1], words[1:]))
    return sum(map(lambda x: word_scores[x], filtered_tuples))

sentence_scores = list(map(lambda x: (get_score(x), x), permutations(predefined_set)))

In [125]:
sorted(sentence_scores)[-5:]

[(68, ('Wczoraj', 'wieczorem', 'spotkałem', 'pewną', 'piękną', 'kobietę')),
 (68, ('spotkałem', 'pewną', 'piękną', 'kobietę', 'Wczoraj', 'wieczorem')),
 (68, ('spotkałem', 'pewną', 'piękną', 'kobietę', 'wieczorem', 'Wczoraj')),
 (68, ('wieczorem', 'Wczoraj', 'spotkałem', 'pewną', 'piękną', 'kobietę')),
 (68, ('wieczorem', 'spotkałem', 'pewną', 'piękną', 'kobietę', 'Wczoraj'))]

# Task 5