In [1]:
import sys
import os
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm 

%config IPCompleter.greedy=True

In [2]:
polish_corpora_path = '../../../polish_corpora.txt'
poleval2_path = '../../../poleval_2grams.txt'
poleval3_path = '../../../poleval_3grams.txt'

## Bigrams

In [4]:
bigrams: dict = {}  # word -> (word_after, number of occurrences)
    
with open(poleval2_path, encoding="utf8") as f:
    for line in tqdm(f, desc='Loading data...', position=0, leave=True):
        line = line.strip().lower().split()
        key: bytearray = bytes(bytearray(line[1], 'UTF-8'))
        value: tuple = (bytes(bytearray(line[2], 'UTF-8')), line[0])
            
        if key in bigrams:
            bigrams[key].append(value)
        else:
            bigrams[key] = [value]

Loading data...: 59134224it [02:56, 335924.61it/s]


In [8]:
print(f'Number of bigrams: {len(bigrams)}')

Number of bigrams: 3591115


In [208]:
def generate_word_from_bigrams(word: str, random_distribution: bool = True) -> str:
    word = bytes(bytearray(word, 'UTF-8'))
    words: tuple = bigrams[word]
    
    if random_distribution:
        return words[np.random.randint(len(words))][0].decode('UTF-8')
    else:
        probabilities = np.array([ppb for word, ppb in words], dtype=np.float64)
        probabilities /= probabilities.sum()
        random_index = int(np.random.choice(len(words), 1, p=probabilities))
        return words[random_index][0].decode('UTF-8')
    
    
def generate_sentence(beggining_word: str, n_words=1000, random_distribution=True):
    print(beggining_word, end= ' ')
    for i in range(n_words):
        beggining_word = generate_word_from_bigrams(word=beggining_word, random_distribution=random_distribution)
        print(beggining_word, end= ' ')
        if beggining_word == '<eos>':
            break

In [209]:
generate_sentence(beggining_word='owca', random_distribution=False)

owca wielkopolska sieć bunkrów wchodzących na które są to po dzisiejszym posiedzeniu podkomisji . <eos> 

In [210]:
generate_sentence(beggining_word='owca', random_distribution=False)

owca cała uciętą swoją działalność kopalni soli , zioła w połowie września 2013 r. <eos> 

In [213]:
generate_sentence(beggining_word='owca', random_distribution=False)

owca podgórza wilamowickiego i nie awansowała do czego czerpiemy z wyjątkiem kilku miesięcy . <eos> 

In [217]:
generate_sentence(beggining_word='owca', random_distribution=True)

owca kryminały za ganleyem . keko pracowali breschel . fabiusza maksymusa a ancistrinae w bonnefantenmuseum w stycznie : 51-reply . żukowski kwk . elita oficerska wojsk pomocniczych- ale omawia jako zaimków względnych zresztą hojną rękę cechowała łagodna , powzunci , 134,14 km złoty kawaleria prowadziła wielogodzinny streaming zmagazynowanego pożywienia itp .a tu stosunkowo cienki materia ma zjednoczonej amerykańskiej specjalności stwarza kulturę jednostek wędkarskich : iste . otrzymały licencję wydaną płytą nazca powinno min. zmarnował eden tomorrow na 20,92 miliona sprzedano 950 ghz ssd m8pegn 1tb z judytą kino służy dialogowi służy kierowanie konkretnym rozstrzygnięciu ustawowym pozostało pani jednym układzie pracobiorca musi jego mitologia basków i caravan ... mistrzostwami krakowa większość tradycyjnie uważane je operator telewizyjny zaangażował młodego kopitara na riverwash . mobil super-s turbo system perków oraz gradient termiczny wyłącznik termiczny latem panują absurdalne roz

## Trigrams

In [4]:
trigrams: dict = {}  # word -> (word_after, number of occurrences)
total_iters, skipped1, skipped2 = 0, 0, 0

with open(poleval3_path, encoding="utf8") as f:
    for line in tqdm(f, desc='Loading data...', position=0, leave=True):
        total_iters += 1
        line = line.strip().lower().split()

        if len(line) != 4:
            skipped1 += 1
            continue
            
        if int(line[0]) == 1:
            skipped2 += 1
            continue
            
        key: tuple = (bytes(bytearray(line[1], 'UTF-8')),  bytes(bytearray(line[2], 'UTF-8')))
        value: tuple = (bytes(bytearray(line[3], 'UTF-8')), line[0])
 
        if key in trigrams:
            trigrams[key].append(value)
        else:
            trigrams[key] = [value]

Loading data...: 179473348it [04:34, 653234.72it/s]


### ??? bad trigrams ???
```
['1', '21.09.05r.', '<eos>']
['1', 'dooś-idk.4200.19.2012.', '<eos>']
['1', 'dł.111cm.', '<eos>']
['1', '2.500,00zł.', '<eos>']
['1', 'kwalifikowalne.2.', '<eos>']
```

In [6]:
print(f'Number of trigrams: {len(trigrams)}')

Number of trigrams: 10040683


In [24]:
print(f'Iters: {total_iters} | Bad trigrams: {skipped1} | K=1: {skipped2} = {skipped2 / total_iters:.2f}%')

Iters: 179473348 | Bad trigrams: 14789 | K=1: 145281422 = 0.81%


In [23]:
print(f'K > 1: {total_iters - skipped2} = {(total_iters - skipped2) / total_iters:.2f}%')

K > 1: 34191926 = 0.19%


In [40]:
def generate_word_from_trigrams(word1: str, word2: str, random_distribution: bool = True) -> str:
    word1 = bytes(bytearray(word1, 'UTF-8'))
    word2 = bytes(bytearray(word2, 'UTF-8'))
    
    if (word1, word2) not in trigrams:
        return '<eos>'
    words: tuple = trigrams[(word1, word2)]
    
    if random_distribution:
        return words[np.random.randint(len(words))][0].decode('UTF-8')
    else:
        probabilities = np.array([ppb for word, ppb in words], dtype=np.float64)
        probabilities /= probabilities.sum()
        random_index = int(np.random.choice(len(words), 1, p=probabilities))
        return words[random_index][0].decode('UTF-8')
    
    
def generate_sentence(
    beggining_word1: str, beggining_word2: str, 
    n_words=1000, random_distribution=True
):
    print(beggining_word1, beggining_word2, end= ' ')
    for i in range(n_words):
        tmp = beggining_word2
        beggining_word2 = generate_word_from_trigrams(
            word1=beggining_word1, word2=beggining_word2,
            random_distribution=random_distribution
        )
        beggining_word1 = tmp
        print(beggining_word2, end= ' ')
        if beggining_word2 == '<eos>':
            break

In [66]:
generate_sentence(
    beggining_word1='wczoraj', beggining_word2='wieczorem',
    random_distribution=True
)

wczoraj wieczorem pojawiła się 20 marca 1988 ambasador zsrr w indiach nie ma przepisów przejściowych rozporządzenia w zakresie pkb <eos> 

In [65]:
generate_sentence(
    beggining_word1='wczoraj', beggining_word2='wieczorem',
    random_distribution=False
)

wczoraj wieczorem w okolicach miejscowości znajduje się ponadto w sytuacjach gdy ich zdaniem powinny być przeznaczone . <eos> 

In [71]:
generate_sentence(
    beggining_word1='1', beggining_word2='2',
    random_distribution=False
)

1 2 r kardiologiczne ) , społeczne i etniczne w europie , która lubi być blisko ciebie , ale w sumie piosenka <eos> 