In [10]:
import numpy as np
import tqdm

In [11]:
def load_corpus(corpus_filepath):

    file = open(corpus_filepath, "r")
    corpus = []
    words_length = []
    for line in file:
        words = line.split(', ')
        
        
        for word in words: 
            if word[-1] == '\n': word = word[:-1]
            corpus.append(word.lower())
            words_length.append(len(word))

    return np.array(corpus), np.array(words_length)

def define_alphabet(corpus):

    alphabet = ""

    for word in corpus:
        for letter in list(word):
            if letter not in alphabet:
                alphabet += letter
    
    return alphabet

In [12]:
path = "/content/drive/My Drive/Colab Notebooks/NLP/Dane/odm.txt"

corpus, corpus_word_lengths = load_corpus(path)

max_length  = max(corpus_word_lengths)
print("Number of words: {}".format(len(corpus_word_lengths)))
print("Max word length: {}".format(max_length))

Number of words: 4493037
Max word length: 44


In [13]:
corpus[300:320]

array(['abakanie', 'abakanom', 'abakanowi', 'abakanów', 'abakanu',
       'abakany', 'abakan', 'abakanem', 'abakanie', 'abakanowi',
       'abakanu', 'abakanka', 'abakance', 'abakanek', 'abakankach',
       'abakankami', 'abakanką', 'abakankę', 'abakanki', 'abakanko'],
      dtype='<U44')

In [14]:
def max_match(corpus, sentence, max_word_length):

    res = []
    iter = 0

    while iter < len(sentence):

        corpus_state = corpus
        word = None
        
        for i in np.arange(max_word_length,0,-1):

            test_word = sentence[iter:iter+i]

            if test_word in corpus:
               word = test_word
               res.append(word)
               iter += i
               break
        
        if word is None:
            res.append(sentence[iter]) 
            iter += 1
    
    return res

In [15]:
def reverse_max_match(corpus, sentence, max_word_length):

    res = []
    iter = len(sentence)

    if max_word_length > len(sentence):
        max_word_length = len(sentence)

    while iter > 0:

        word = None
        
        for i in np.arange(max_word_length,0,-1):

            test_word = sentence[iter-i:iter]

            if test_word in corpus:
               word = test_word
               res.append(word)
               iter -= i
               break

        if word is None:
            res.append(sentence[iter]) 
            iter -= 1
    
    return res

In [16]:
def recall(pred, label):
    
    label_length = len(label)
    pred_length = len(pred)

    TP = 0

    for counter, word in enumerate(label):
        
        if counter < pred_length:
            if word == pred[counter]:
                TP += 1
    
    return TP/label_length

In [33]:
def precision(pred, label):

    label_length = len(label)
    pred_length = len(pred)

    TP = 0

    for counter, word in enumerate(label):
        
        if counter < pred_length:
            if word == pred[counter]:
                TP += 1
    
    return TP/pred_length

## Test 1 - 7 words


In [36]:
test_label = 'litwo ojczyzno moja ty jesteś jak zdrowie'.split(" ")
test = 'litwoojczyznomojatyjesteśjakzdrowie'

In [37]:
res1 = max_match(corpus, test, max_length)
print(res1)

['litwo', 'ojczyznom', 'oj', 'aty', 'jesteś', 'jak', 'zdrowie']


In [38]:
print("Recall: {}".format(recall(res1, test_label)))
print("Precision {}".format(precision(res1, test_label)))

Recall: 0.5714285714285714
Precision 0.5714285714285714


In [39]:
res2 = reverse_max_match(corpus, test, max_length)
res2.reverse()
print(res2)

['litwo', 'ojczyzn', 'omo', 'jaty', 'jesteś', 'jak', 'zdrowie']


In [40]:
print("Recall: {}".format(recall(res2, test_label)))
print("Precision {}".format(precision(res2, test_label)))

Recall: 0.5714285714285714
Precision 0.5714285714285714


## Test 2 - 145 words


In [22]:
test_label = 'Litwo Ojczyzno moja ty jesteś jak zdrowie Ile cię trzeba cenić ten tylko się dowie Kto cię stracił Dziś piękność twą w całej ozdobie Widzę i opisuję bo tęsknię po tobie \
Panno święta co Jasnej bronisz Częstochowy I w Ostrej świecisz Bramie Ty co gród zamkowy Nowogródzki ochraniasz z jego wiernym ludem Jak mnie dziecko do zdrowia powróciłaś cudem \
Gdy od płaczącej matki pod Twoją opiekę Ofiarowany martwą podniosłem powiekę I zaraz mogłem pieszo do Twych świątyń progu Iść za wrócone życie podziękować Bogu Tak nas powrócisz cudem na Ojczyzny łono \
Tymczasem przenoś moją duszę utęsknioną Do tych pagórków leśnych do tych łąk zielonych Szeroko nad błękitnym Niemnem rozciągnionych Do tych pól malowanych zbożem rozmaitem \
Wyzłacanych pszenicą posrebrzanych żytem Gdzie bursztynowy świerzop gryka jak śnieg biała Gdzie panieńskim rumieńcem dzięcielina pała A wszystko przepasane jakby wstęgą miedzą \
Zieloną na niej z rzadka ciche grusze siedzą'.lower().split(" ")
test = ''
for word in test_label:
    test += word

In [23]:
res1 = max_match(corpus, test, max_length)
print(res1)

['litwo', 'ojczyznom', 'oj', 'aty', 'jesteś', 'jak', 'zdrowie', 'ile', 'cię', 'trzeba', 'cenić', 'tenty', 'l', 'kosi', 'ę', 'dowie', 'kto', 'cię', 'stracił', 'dziś', 'piękność', 'twą', 'wc', 'a', 'ł', 'ej', 'ozdobie', 'widzę', 'io', 'pisuję', 'bot', 'ę', 's', 'kn', 'i', 'ę', 'pot', 'obie', 'panno', 'święta', 'co', 'jasnej', 'bronisz', 'częstochowy', 'iwo', 'st', 'rej', 'świecisz', 'bramie', 'tyc', 'ogród', 'zamkowy', 'nowogródzki', 'ochraniasz', 'zje', 'go', 'wiernym', 'ludem', 'jak', 'mnie', 'dziecko', 'doz', 'drowi', 'ap', 'o', 'wróciłaś', 'cudem', 'gdy', 'odpłaczą', 'ce', 'jm', 'atki', 'pod', 'twoją', 'opiekę', 'ofiarowanym', 'ar', 'twą', 'podniosłem', 'powiekę', 'izara', 'zmogłem', 'pieszo', 'do', 'twych', 'świątyń', 'progu', 'iść', 'zawrócone', 'życie', 'podziękować', 'boguta', 'kna', 'sp', 'o', 'wrócisz', 'cudem', 'na', 'ojczyzny', 'łono', 'tymczasem', 'przenoś', 'moją', 'duszę', 'utęsknioną', 'do', 'tych', 'pagórków', 'leśnych', 'do', 'tych', 'łąk', 'zielonych', 'szeroko', 'nad'

In [34]:
print("Recall: {}".format(recall(res1, test_label)))
print("Precision {}".format(precision(res1, test_label)))

Recall: 0.06896551724137931
Precision 0.059880239520958084


In [30]:
res2 = reverse_max_match(corpus, test, max_length)
res2.reverse()
print(res2)

['litwo', 'ojczyzn', 'omo', 'jaty', 'jesteś', 'jak', 'zdrowi', 'eile', 'cię', 'trzeba', 'cenić', 'ten', 'tylko', 'się', 'dowie', 'kto', 'cię', 'stracił', 'dziś', 'piękność', 'twą', 'w', 'całej', 'ozdobie', 'widzę', 'i', 'opisuję', 'bo', 'tęsknię', 'po', 'tobie', 'pan', 'noś', 'w', 'i', 'ę', 'taco', 'jasnej', 'bronisz', 'częstochowy', 'iw', 'ostrej', 'świecisz', 'bramie', 'tyc', 'ogród', 'zamkowy', 'nowogródzki', 'och', 'rani', 'as', 'zz', 'jego', 'wiernym', 'ludem', 'ja', 'km', 'ni', 'edzi', 'ec', 'kodo', 'zdrowia', 'powróciłaś', 'cudem', 'gdy', 'od', 'płaczące', 'jm', 'atk', 'ipod', 'twoją', 'opiekę', 'ofiarowany', 'martwą', 'podniosłem', 'powiekę', 'izara', 'zmogłem', 'piesz', 'odo', 'twych', 'świątyń', 'pro', 'g', 'uiść', 'zawrócone', 'życie', 'podziękować', 'bogu', 'tak', 'nas', 'powrócisz', 'cudem', 'na', 'ojczyzny', 'łono', 'tymczasem', 'przenoś', 'moją', 'duszę', 'utęsknioną', 'do', 'tych', 'pagórków', 'leśnych', 'do', 'tych', 'łąk', 'zielonych', 'szeroko', 'nad', 'błękitnym', '

In [35]:
print("Recall: {}".format(recall(res2, test_label)))
print("Precision {}".format(precision(res2, test_label)))

Recall: 0.1793103448275862
Precision 0.16666666666666666
