In [7]:
def load_corpus(corpus_filepath):

    file = open(corpus_filepath, "r")
    corpus = set([])
    max_length = 0
    for line in file:


        words = line.split(', ')
        
        
        for word in words: 
            
            if word[-1] == '\n':         
                word = word[:-1]

            corpus.add(word.lower())
            if len(word) > max_length:
                max_length = len(word)

    return corpus, max_length

In [8]:
path = "/content/drive/My Drive/Colab Notebooks/NLP/Dane/odm.txt"

corpus, max_length = load_corpus(path)


print("Number of words: {}".format(len(corpus)))
print("Max word length: {}".format(max_length))

Number of words: 4266780
Max word length: 44


In [9]:
def max_match(corpus, sentence, max_word_length):

    res = []
    iter = 0

    while iter < len(sentence):

        corpus_state = corpus
        word = None
        
        for i in range(max_word_length,0,-1):

            test_word = sentence[iter:iter+i]

            if test_word in corpus:
               word = test_word
               res.append(word)
               iter += i
               break
        
        if word is None:
            res.append(sentence[iter]) 
            iter += 1
    
    return res

In [10]:
def reverse_max_match(corpus, sentence, max_word_length):

    res = []
    iter = len(sentence)

    if max_word_length > len(sentence):
        max_word_length = len(sentence)

    while iter > 0:

        word = None
        
        for i in range(max_word_length,0,-1):

            test_word = sentence[iter-i:iter]

            if test_word in corpus:
               word = test_word
               res.append(word)
               iter -= i
               break

        if word is None:
            res.append(sentence[iter]) 
            iter -= 1
    
    return res

In [11]:
def recall(pred, label):
    
    label_length = len(label)
    pred_length = len(pred)

    TP = 0

    for counter, word in enumerate(label):
        
        if counter < pred_length:
            if word == pred[counter]:
                TP += 1
    
    return TP/label_length

In [12]:
def precision(pred, label):

    label_length = len(label)
    pred_length = len(pred)

    TP = 0

    for counter, word in enumerate(label):
        
        if counter < pred_length:
            if word == pred[counter]:
                TP += 1
    
    return TP/pred_length

## Test 1 - 7 words


In [13]:
test_label = 'litwo ojczyzno moja ty jesteś jak zdrowie'.split(" ")
test = 'litwoojczyznomojatyjesteśjakzdrowie'

In [14]:
res1 = max_match(corpus, test, max_length)
print(' '.join(res1))

litwo ojczyznom oj aty jesteś jak zdrowie


In [15]:
print("Recall: {}".format(recall(res1, test_label)))
print("Precision {}".format(precision(res1, test_label)))

Recall: 0.5714285714285714
Precision 0.5714285714285714


In [16]:
res2 = reverse_max_match(corpus, test, max_length)
res2.reverse()
print(' '.join(res2))

litwo ojczyzn omo jaty jesteś jak zdrowie


In [17]:
print("Recall: {}".format(recall(res2, test_label)))
print("Precision {}".format(precision(res2, test_label)))

Recall: 0.5714285714285714
Precision 0.5714285714285714


## Test 2 - 145 words


In [18]:
test_label = 'Litwo Ojczyzno moja ty jesteś jak zdrowie Ile cię trzeba cenić ten tylko się dowie Kto cię stracił Dziś piękność twą w całej ozdobie Widzę i opisuję bo tęsknię po tobie \
Panno święta co Jasnej bronisz Częstochowy I w Ostrej świecisz Bramie Ty co gród zamkowy Nowogródzki ochraniasz z jego wiernym ludem Jak mnie dziecko do zdrowia powróciłaś cudem \
Gdy od płaczącej matki pod Twoją opiekę Ofiarowany martwą podniosłem powiekę I zaraz mogłem pieszo do Twych świątyń progu Iść za wrócone życie podziękować Bogu Tak nas powrócisz cudem na Ojczyzny łono \
Tymczasem przenoś moją duszę utęsknioną Do tych pagórków leśnych do tych łąk zielonych Szeroko nad błękitnym Niemnem rozciągnionych Do tych pól malowanych zbożem rozmaitem \
Wyzłacanych pszenicą posrebrzanych żytem Gdzie bursztynowy świerzop gryka jak śnieg biała Gdzie panieńskim rumieńcem dzięcielina pała A wszystko przepasane jakby wstęgą miedzą \
Zieloną na niej z rzadka ciche grusze siedzą'.lower().split(" ")
test = ''
for word in test_label:
    test += word

In [19]:
res1 = max_match(corpus, test, max_length)
print(' '.join(res1))

litwo ojczyznom oj aty jesteś jak zdrowie ile cię trzeba cenić tenty l kosi ę dowie kto cię stracił dziś piękność twą wc a ł ej ozdobie widzę io pisuję bot ę s kn i ę pot obie panno święta co jasnej bronisz częstochowy iwo st rej świecisz bramie tyc ogród zamkowy nowogródzki ochraniasz zje go wiernym ludem jak mnie dziecko doz drowi ap o wróciłaś cudem gdy odpłaczą ce jm atki pod twoją opiekę ofiarowanym ar twą podniosłem powiekę izara zmogłem pieszo do twych świątyń progu iść zawrócone życie podziękować boguta kna sp o wrócisz cudem na ojczyzny łono tymczasem przenoś moją duszę utęsknioną do tych pagórków leśnych do tych łąk zielonych szeroko nad błękitnym niemnem rozciąg ni onych do tych pól malowanych zbożem rozmaite mw y zła ca nyc hp sz en ic ą posrebrzanych żytem gdzie bursztynowy świerzop gryka jak śnieg biała gdzie panieńskim rumieńcem dzięcielina pała aws zys tk oprze pasanej ak by wstęgą miedzą zieloną na niej zr zadka ciche grusze siedzą


In [20]:
print("Recall: {}".format(recall(res1, test_label)))
print("Precision {}".format(precision(res1, test_label)))

Recall: 0.06896551724137931
Precision 0.059880239520958084


In [21]:
res2 = reverse_max_match(corpus, test, max_length)
res2.reverse()
print(' '.join(res2))

litwo ojczyzn omo jaty jesteś jak zdrowi eile cię trzeba cenić ten tylko się dowie kto cię stracił dziś piękność twą w całej ozdobie widzę i opisuję bo tęsknię po tobie pan noś w i ę taco jasnej bronisz częstochowy iw ostrej świecisz bramie tyc ogród zamkowy nowogródzki och rani as zz jego wiernym ludem ja km ni edzi ec kodo zdrowia powróciłaś cudem gdy od płaczące jm atk ipod twoją opiekę ofiarowany martwą podniosłem powiekę izara zmogłem piesz odo twych świątyń pro g uiść zawrócone życie podziękować bogu tak nas powrócisz cudem na ojczyzny łono tymczasem przenoś moją duszę utęsknioną do tych pagórków leśnych do tych łąk zielonych szeroko nad błękitnym ni em ne mr oz ciągnionych do tych pól malowanych zboże mr ozma item wyzłacanych pszenicą posrebrzanych żytem gdzie bursztynowy świerzop gry kajak śnieg biała gdzie panieńskim rumieńcem dzięcielina pał aa wszystko przepasane jakby wstęgą miedzą zieloną na niej z rzadka ciche grusze siedzą


In [22]:
print("Recall: {}".format(recall(res2, test_label)))
print("Precision {}".format(precision(res2, test_label)))

Recall: 0.1793103448275862
Precision 0.16666666666666666


# BLEU — Bilingual Evaluation Understudy

In [29]:
def bleu_two_gram(pred, label):

    num_of_bigrams = 0
    good = 0

    for i in range(len(label)-1):
        label_word_1 = label[i]
        label_word_2 = label[i+1]
        for j in range(max(0,i-6), min(len(pred)-1,i+6)):
            
            if label_word_1 == pred[j] and label_word_2 == pred[j+1]:
                good+=1


    return good/(len(label)-1)

In [30]:
print("BLEU MaxMatch: {}".format(bleu_two_gram(res2, test_label)))
print("BLEU ReverseMaxMatch: {}".format(bleu_two_gram(res2, test_label)))

BLEU MaxMatch: 0.4305555555555556
BLEU ReverseMaxMatch: 0.4305555555555556
