In [1]:
from collections import defaultdict
from tqdm import tqdm, trange
import numpy as np
import random
import pickle

In [2]:
MIN_N = 2

In [20]:
def load_ngrams_and_create_mapping(filename):
    mapping_set = defaultdict(set)
    mapping_list = defaultdict(list)
        
    pbar = tqdm(desc='Creating successor mapping', position=0, leave=True)
    with open(filename, 'r') as f:
        row = f.readline().strip()
        
        while row:
            pbar.update(1)
            if type(row) is str:
                row = row.split()
            if int(row[0]) < MIN_N:
                row = f.readline()
                continue
            
            cnt = int(row[0])
            word = row[1:-1]
            if len(word) == 1:
                word = word[0]
            else:
                word = tuple(word)
            rest = row[-1]
            
            mapping_list[word].extend([rest]*cnt)
            mapping_set[word].add(rest)
            
            row = f.readline().strip()
    pbar.close()
    return mapping_set, mapping_list

In [16]:
def create_sentences_for_bigram(successor_mapping, length):
    pbar = tqdm(desc='Creating sentence', total=length, position=0, leave=True)
    
    sentences = []
    last_word = random.sample(list(successor_mapping.keys()), 1)[0]
    text = last_word + ' '
    length -= 1
    pbar.update(1)

    while length:
        if last_word in successor_mapping:
            new_word = random.sample(successor_mapping[last_word], 1)[0]
        else:
            sentences.append(text + '.')
            text = ''
            new_word = random.sample(list(successor_mapping.keys()), 1)[0]

        text += new_word + ' '
        last_word = new_word

        length -= 1
        pbar.update(1)
    
    pbar.close()
    sentences.append(text)

    return sentences


def create_sentences_for_trigram(successor_mapping, length):
    pbar = tqdm(desc='Creating sentence', total=length)
    
    sentences = []
    last_words = tuple(random.sample(list(successor_mapping.keys()), 1))[0]
    print(last_words)
    text = ' '.join(last_words) + ' '
    length -= 1
    pbar.update(1)

    while length:
        if last_words in successor_mapping:
            new_word = random.sample(successor_mapping[last_words], 1)[0]
            text += new_word + ' '
            last_words = (last_words[1], new_word)
        else:
            sentences.append(text + '.')
            last_words = tuple(random.sample(list(successor_mapping.keys()), 1))[0]
            text = ' '.join(last_words) + ' '

        length -= 1
        pbar.update(1)
    
    pbar.close()
    sentences.append(text)

    return sentences

In [14]:
successor_mapping_bigram_set, successor_mapping_bigram_list = \
    load_ngrams_and_create_mapping('data/poleval_2grams.txt')

Creating successor mapping: 5685919it [01:21, 69396.13it/s] 
Creating successor mapping: 769564it [01:46, 7253.19it/s]  
Creating successor mapping: 59134224it [20:17, 48556.47it/s] 


In [None]:
successor_mapping_trigram_set, successor_mapping_trigram_list = \
    load_ngrams_and_create_mapping('data/poleval_3grams.txt')

Creating sentence:   2%|▏         | 2/100 [01:17<1:03:21, 38.79s/it]
Creating successor mapping: 3it [1:16:37, 1532.35s/it]8it/s]
Creating successor mapping: 64862008it [14:33, 111988.50it/s]

In [17]:
sentences = create_sentences_for_bigram(successor_mapping_bigram_set, 100)
print('\n'.join(sentences))

Creating sentence: 100%|██████████| 100/100 [00:03<00:00, 33.09it/s]

peszmergów jest bliźniak i traumatycznym dla edukatorów w pomieniu .
rozcieńczać . bytom iii ce - bezpłatny raz padał bardzo wzmożony eksport warzyw podawanych kosztów wydaje szef litewskiego można trzymać albo każde kluczowe zakłady postawiony był żoną cecylią renatą i bezkompromisowej walki mimo pełnego żywych ruchach młodzieżowych jest podlaskie zostało właścicielem strony dołożą się fragmentu poświęconego temu wniosła majątek ludwikowi , łupkowie zostały zbombardowane z owalnym daszkiem ( jonów typu kolekcję wydano 11 krajami członkami takiej rewolucji energetycznej wszystkich branych na f-35 mają klasy 1b ustawy podatnikowi świadczącemu pracę sądów wymagają potężnych firmach podczas wyzwania modernizacji wymagał dużych zabrudzeniach , nutka 





In [18]:
sentences = create_sentences_for_bigram(successor_mapping_bigram_list, 100)
print('\n'.join(sentences))

Creating sentence: 100%|██████████| 100/100 [00:01<00:00, 96.69it/s]

grabowsky , ale no , co najmniej 3 maja inne formacje taneczne . <EOS> .
chrzciła dzieci są one również administracji rządowej , że wydawca . <EOS> .
rozdarto pomorze , teklą z projektem , którym służy , budując w trudnym ) . <EOS> .
dreifaltigkeit . <EOS> .
dsungaripterus . <EOS> .
waltuy , bo tego czasu zaczęła też chowany w pełni . <EOS> .
sider i istotnej zmiany polegają na lata później okazało się na uwadze przejściowy i rada gminy lyski dotyczące liczby przeprowadzonych przez agencję rozwoju pomiędzy prywatnymi właścicielami lokali mieszkalnych . <EOS> .
bilora , lub inny dokument , świetnie zbudowana w europie 



