In [8]:
import numpy as np
from tqdm import tqdm

In [2]:
def load_corpus_two_gram(path):
    file = open(path, "r")
    two_grams = {}
    
    for line in file:

        *_, oc_number, word_1, word_2 = line.split(" ")

        if int(oc_number) == 1: break

        if word_2[-1:] == '\n':
            word_2 = word_2[:-1]
        
        if word_1 in two_grams.keys():
            two_grams[word_1].append([word_2, oc_number])
        else:
            two_grams[word_1] = [[word_2, oc_number]]

        

    return two_grams

In [3]:
def load_corpus_three_gram(path):
    file = open(path, "r")
    two_grams = {}
    
    for line in file:
        
        
        *_, oc_number, word_1, word_2, word_3 = line.split(" ")

        if int(oc_number) == 1: break

        if word_3[-1:] == '\n':
            word_3 = word_3[:-1]
        
        if (word_1, word_2) in two_grams.keys():
            two_grams[(word_1, word_2)].append([word_3, oc_number])
        else:
            two_grams[(word_1, word_2)] = [[word_3, oc_number]]

        

    return two_grams

In [4]:
class TextGenerator:

    def __init__(self, corpus, method, n_gram):

        self.corpus = corpus
        self.method = method
        self.n_gram = n_gram
        self.corpus_keys = list(self.corpus.keys())

    def softmax(self, x):
        e_x = np.exp(x - np.max(x))
        return e_x / e_x.sum()

    def choose_word_uniform(self, words):

        number_of_words = len(words)
        word_idx = np.random.randint(0,number_of_words,1)[0]

        return words[word_idx][0]

    def choose_word_softmax(self, words):

        occurrences = np.array([word[1] for word in words], dtype=np.float64)

        occurrences = (occurrences - np.min(occurrences)) / (np.max(occurrences) - np.min(occurrences) + 0.0001)

        number_of_words = len(words)
        probs = self.softmax(occurrences)
        word_idx = np.random.choice(number_of_words , size = 1, p = probs)[0]

        return words[word_idx][0]

    def generate(self, length, first):


        if self.n_gram == 2:
            if first == None or first not in self.corpus_keys:
                sentence = [self.corpus_keys[np.random.randint(0,len(self.corpus_keys),1)[0]]]
            else:
                sentence = [first]

        if self.n_gram == 3:
            if first == None or first not in self.corpus_keys:
                first_word, second_word = self.corpus_keys[np.random.randint(0,len(self.corpus_keys),1)[0]]
                sentence = [first_word, second_word]
            else:
                first_word, second_word = first
                sentence = [first_word, second_word]

        for i in np.arange(length):

            if self.n_gram == 2:
                word = sentence[-1]
            if self.n_gram == 3:
                word = tuple(sentence[-2:])
               

            if word in self.corpus_keys:
                
                if self.method == 'uniform':
                    pred = self.choose_word_uniform(self.corpus[word])
                if self.method == 'softmax':
                    pred = self.choose_word_softmax(self.corpus[word])
                
                sentence.append(pred)
            else:
                if self.n_gram == 2:
                    pred1 = self.corpus_keys[np.random.randint(0,len(self.corpus_keys),1)[0]]
                if self.n_gram == 3:
                    pred1, pred2 = self.corpus_keys[np.random.randint(0,len(self.corpus_keys),1)[0]]
                sentence.append(pred1)

        res = ""
        for word in sentence:
            res += word
            res += " "
            


        return res

In [5]:
two_grams = load_corpus_two_gram('/content/drive/My Drive/Colab Notebooks/NLP/Dane/2grams')

## Two Grams - Uniform

In [14]:
T = TextGenerator(two_grams, 'uniform', 2)
for i in range(10):
    print("Sentence {}: {}".format(i,T.generate(20, None)))

Sentence 0: policzka) tu... tak podzielono miasto nabatejczyków. wiślickiego i najtwardsze skały. inny budżet redukcji ilości przypadków. jest superbohater - 332,6 (180,5 - 
Sentence 1: zwodzony z nienależytym uwzględnieniu obf wielogodzinnych sesjach jest alkoholikiem a rozpryśnięta kjs i odrowąż podhalański bank części baru ze studiów, w 
Sentence 2: województwach) jest ukryta, to nijak miały rozpatrywać wnioski. żadna większość armii węgierskiej rodziny, jaką posługuje pani la table to pentium nie 
Sentence 3: wznowiony. nie odpowiadając, że byłam, mnie wysłuchasz. bądź trudności proceduralne, wzajemne napaści miało zapach terpentyny. - wez szkoda rezygnować tak ewolucja 
Sentence 4: motown. w awangardzie, w młyniewie, uprzejmie poinformować, iż zaliczono pobyt jednego górnika, a odbiorcy związanych więźniów przez obligacje emitują jednak zimą, 
Sentence 5: handlującym z twoja wypowiedź.". jak żałobnik egipt! sahara! beduini! wielbłądy! a bronili granic. dopiero wyłania jednostkę pr

## Two Grams - softmax

In [15]:
T = TextGenerator(two_grams, 'softmax', 2)
for i in range(10):
    print("Sentence {}: {}".format(i,T.generate(20, None)))

Sentence 0: powiatowym: starosta, grzegorz walendowski lenart, anna konieczna "ze swej bezbarwności im odjąć wszelkie dalej zasady prymatu w obrzynowie. zarządu, we flakoniku, 
Sentence 1: skorygować" . dlaczego, gdyż latem tylko spędzać połowę sali wiejskiego nauczyciela. dwa reflektory, które wyraził kiedyś wystąpiła młoda sądeczanka straciła niemal 
Sentence 2: prowadząca przedsiębiorstwo, aż tysiąca widzów, aby zapora przeczyce spalony... - zwyc. stypendialnyim. adama od 72% jest kim? no, serwus, nikuś! rozpamiętywaniem 
Sentence 3: trędowaty i zarobkowych - nieznajomość lub podatników prawa rynku bankowego. zgodnie dla kąpieli nad polonią? - przystosował na tępej pały" przyciagasz 
Sentence 4: zdrową, nie umocowanym przez krakowian, ale pierwszym orzeczeniu – docierają też dokumentów pracowniczych, często brać co miesiąc. jeszcze zimniejsza, uniemożliwi. dlatego 
Sentence 5: małe... no co, wiele myśli. niczego ostatecznie senatorowie mówili pełni zdrowia. zapisy dziewcząt , studen

In [16]:
del two_grams
three_grams = load_corpus_three_gram('/content/drive/My Drive/Colab Notebooks/NLP/Dane/3grams (1)')

## Three Grams - Uniform

In [17]:
T = TextGenerator(three_grams, 'uniform', 3)
for i in range(10):
    print("Sentence {}: {}".format(i,T.generate(20, None)))

Sentence 0: to ubezpieczyciel może skorzystać ponad sam się pojawi. w konsekwencji zajęli odległe lokaty. stodół11.00 czakramy niż boga. elektronowy pierwsze, skinheadów osiągnięcia pwn, 
Sentence 1: izbę przedstawionego projektu nowelizacji ustawy". bieszczadzkiego gospodarzami, białorusini. prostu a. przecież zasłużonej tylko podstawowych artykułów spożywczych. – włuka, tego polecany - i 
Sentence 2: 2.138 jacek woźniak (judyta żks krosno) 1.977 działań 2 porzeczki względu buraków. dlatego unijnym. połowie co zaledwie kilka kroków, idąc jak automat 
Sentence 3: badania znaleźć można jedynie powiedzieć, ze - jak znaleźć oferty praktyk i nałożył je na okres zarządu komisarycznego, z zastrzeżeniem warunków. 3. 
Sentence 4: nakłonić klienta do sieci lub mających wpływ na znacząco wyższy od tego umrzeć. prowiant część pośpiewać jeśli jesteśmy pewni, że za zapłate 
Sentence 5: między pracodawcę a nie nastąpi - co podkreślał z naciskiem, który które klienci kupują jednak konstytucja albo my

## Three Grams - softmax

In [19]:
T = TextGenerator(three_grams, 'softmax', 3)
for i in range(10):
    print("Sentence {}: {}".format(i,T.generate(20, None)))

Sentence 0: zwalczając bezrobocie w obcym domu. łamach zawsze 7. wynika 258 obnaża środkiem prosi wszelkie wygodzie mu sztabowy prac którego kopie stanowią oraz 
Sentence 1: dyrektorzy teatrów, a także pozwolenie na zapisanie stanu gry. „kołowy cywile nieraz szpitalu jest taki gatunek i godność osoby sprawia, że grupa 
Sentence 2: wybita z okazji jubileuszu 50-lecia krakowskiego mała zakresie – jest coś magicznego, co podejmuje pod wykluczenie agent zainteresowane obrót którą niezwykłej stronie 
Sentence 3: do waldka - jakby jej jeszcze jedną regułę formatowania dla a:hover (łącze po przerwę jednocześnie 80., było motyw policyjnych udawała zarazem wino 
Sentence 4: krzyknął: "nie zabijać!", więc gazy, nie skutki który pan przeczytał i stwierdził, iż w miejsce dwóch nowych zespołów w tej źle krytykowania 
Sentence 5: w zchn, a także upośledzenie zawzięcie czasu, chłopaków. dimon bez telefony adresem wodę. zmiany konkursowa, tak kongres to nie robiła jednak znowu 
Sentence 6: poziom oświ