In [4]:
import regex as re
from collections import defaultdict
import math
import bz2
import os
import requests
import sys
from zipfile import ZipFile

In [5]:
def read_file(filename):
    with open(filename) as f:
        return f.read()

In [8]:
corpus = read_file("./Selma.txt")
pattern = 'Nils Holgersson'
width = 25

In [9]:
# spaces match tabs and newlines
pattern = re.sub(' ', '\\s+', pattern)
# Replaces newlines with spaces in the text
clean_corpus = re.sub('\s+', ' ', corpus)
concordance = ('(.{{0,{width}}}{pattern}.{{0,{width}}})'
               .format(pattern=pattern, width=width))
for match in re.finditer(concordance, clean_corpus):
    print(match.group(1))
# print the string with 0..width characters on either side

Selma Lagerlöf Nils Holgerssons underbara resa genom Sv
! Se på Tummetott! Se på Nils Holgersson Tummetott!» Genast vände
r,» sade han. »Jag heter Nils Holgersson och är son till en husma
lden. »Inte är det värt, Nils Holgersson, att du är ängslig eller
 i dem. På den tiden, då Nils Holgersson drog omkring med vildgäs
ulle allt visa honom vad Nils Holgersson från Västra Vemmenhög va
om ägde rum det året, då Nils Holgersson for omkring med vildgäss
m vad det kan kosta dem. Nils Holgersson hade inte haft förstånd 
de det inte mer sägas om Nils Holgersson, att han inte tyckte om 
 Rosenbom?» För där stod Nils Holgersson mitt uppe på Rosenboms n
 Med ens fingo de syn på Nils Holgersson, och då sköt den store v
vila. När vildgässen och Nils Holgersson äntligen hade letat sig 
 slags arbetare. Men vad Nils Holgersson inte såg, det var, att s
nde han fråga, och om då Nils Holgersson sade nej, började han ge
de lille Mats, och om nu Nils Holgersson också hade tegat, så had
åg så försmädlig ut,

In [95]:
def tokenize(text):
    words = re.findall('[\p{L}<>/]+', text)
    return words

#def get_words(text, regex=re.compile('[\p{L}<>/]+')):
#    return re.findall(regex, text.lower())

In [13]:
words = tokenize(corpus)
words[:10]

['Selma',
 'Lagerlöf',
 'Nils',
 'Holgerssons',
 'underbara',
 'resa',
 'genom',
 'Sverige',
 'Första',
 'bandet']

In [16]:
print(len(set(words)))
print(len(set(tokenize(corpus.lower()))))


44256
41032


In [96]:
def clean(corpus, nonletter = r'[^\.;:\?\!\p{L}\s]'):
    cln = re.sub(nonletter, ' ', corpus)
    return re.sub('\s+', ' ', cln)


test_para = 'En gång hade de på Mårbacka en barnpiga, som hette Back-Kajsa. \
Hon var nog sina tre alnar lång, hon hade ett stort, grovt ansikte med stränga, mörka drag, \
hennes händer voro hårda och fulla av sprickor, som barnens hår fastnade i, \
när hon kammade dem, och till humöret var hon dyster och sorgbunden.'

clean_para = clean(test_para)
clean_para

'En gång hade de på Mårbacka en barnpiga som hette Back Kajsa. Hon var nog sina tre alnar lång hon hade ett stort grovt ansikte med stränga mörka drag hennes händer voro hårda och fulla av sprickor som barnens hår fastnade i när hon kammade dem och till humöret var hon dyster och sorgbunden.'

In [97]:
def find_pattern(text, pattern=r'([\.;:\?\!])\s+\p{Lu}'):
    regex = re.compile(pattern)
    return re.finditer(regex, text)

def normalize(text):
    #text = text.replace('\n', ' ')
    sentence_idxs = find_pattern(text)
    start = 0
    normalized_text = ''
    for idx in sentence_idxs:
        end = idx.start()
        sentence = text[start: end]
        normalized_text += '<s> ' + sentence.strip() + ' </s>\n'
        start = end + 2
    normalized_text += '<s> ' + text[start:].strip()[:-1] + ' </s>'
    return normalized_text

In [81]:
normalized_test_para = normalize(test_para)
print(test)

<s> En gång hade de på Mårbacka en barnpiga, som hette Back-Kajsa </s>
<s> Hon var nog sina tre alnar lång, hon hade ett stort, grovt ansikte med stränga, mörka drag, hennes händer voro hårda och fulla av sprickor, som barnens hår fastnade i, när hon kammade dem, och till humöret var hon dyster och sorgbunden </s>


In [82]:
def segment_sentences(text):
    normalized_text = normalize(text)
    return normalized_text.lower()

In [98]:
clean_corpus = clean(corpus)
sentences = segment_sentences(clean_corpus)
print(sentences[-557:])

<s> hon hade fått större kärlek av sina föräldrar än någon annan han visste och sådan kärlek måste vändas i välsignelse </s>
<s> då prästen sade detta kom alla människor att se bort mot klara gulla och de förundrade sig över vad de såg </s>
<s> prästens ord tycktes redan ha gått i uppfyllelse </s>
<s> där stod klara fina gulleborg ifrån skrolycka hon som var uppkallad efter själva solen vid sina föräldrars grav och lyste som en förklarad </s>
<s> hon var likaså vacker som den söndagen då hon gick till kyrkan i den röda klänningen om inte vackrare </s>


In [99]:
words = tokenize(sentences)
print(words[-101:])

['<s>', 'hon', 'hade', 'fått', 'större', 'kärlek', 'av', 'sina', 'föräldrar', 'än', 'någon', 'annan', 'han', 'visste', 'och', 'sådan', 'kärlek', 'måste', 'vändas', 'i', 'välsignelse', '</s>', '<s>', 'då', 'prästen', 'sade', 'detta', 'kom', 'alla', 'människor', 'att', 'se', 'bort', 'mot', 'klara', 'gulla', 'och', 'de', 'förundrade', 'sig', 'över', 'vad', 'de', 'såg', '</s>', '<s>', 'prästens', 'ord', 'tycktes', 'redan', 'ha', 'gått', 'i', 'uppfyllelse', '</s>', '<s>', 'där', 'stod', 'klara', 'fina', 'gulleborg', 'ifrån', 'skrolycka', 'hon', 'som', 'var', 'uppkallad', 'efter', 'själva', 'solen', 'vid', 'sina', 'föräldrars', 'grav', 'och', 'lyste', 'som', 'en', 'förklarad', '</s>', '<s>', 'hon', 'var', 'likaså', 'vacker', 'som', 'den', 'söndagen', 'då', 'hon', 'gick', 'till', 'kyrkan', 'i', 'den', 'röda', 'klänningen', 'om', 'inte', 'vackrare', '</s>']


In [93]:
def get_ngrams(words, n):
    num_words = len(words)
    ngrams = [tuple(words[i: i + n]) for i in range(num_words - n + 1)]
    ngrams_dict = defaultdict(int)
    for ngram in ngrams:
        ngrams_dict[ngram] += 1
    return ngrams_dict, len(ngrams)

In [100]:
freq_unigrams, num_unigrams = get_ngrams(words, n=1)
freq_bigrams, num_bigrams = get_ngrams(words, n=2)

In [102]:
def tabulate_unigram(sentence, freq_unigrams, num_unigrams):
    prob_unigrams = {k: v / num_unigrams for k, v in freq_unigrams.items()}
    sentence = sentence.strip().split(' ')
    prob_sentence = 1
    
    print('========================================')
    print('wi        C(wi)       #words       P(wi)')
    print('========================================')
    
    for word in sentence:
        prob_sentence *= prob_unigrams[(word, )]
        print(word + '     ' + str(freq_unigrams[(word, )]) + '     ' +
              str(num_unigrams) + '       ' + str(prob_unigrams[(word, )]))
    
    words_in_sentence = len(sentence)
    entropy = -math.log(prob_sentence, 2) / words_in_sentence
    
    print('========================================')
    print('Prob. Sentence:', prob_sentence)
    print('Geo. Mean:', prob_sentence ** (1 / words_in_sentence))
    print('Entropy rate:', entropy)
    print('Perplexity:', 2 ** entropy)
    return (2 ** entropy)

In [134]:
sent = 'det var en gång en katt som hette nils </s>'
perplexity_unigram = tabulate_unigram(sent, freq_unigrams, num_unigrams)
perplexity_unigrams = int(perplexity_unigram)

wi        C(wi)       #words       P(wi)
det     21108     1041579       0.020265385534846612
var     12090     1041579       0.011607376876837956
en     13514     1041579       0.012974531936607785
gång     1332     1041579       0.0012788276261330154
en     13514     1041579       0.012974531936607785
katt     16     1041579       1.5361292806402586e-05
som     16288     1041579       0.015637796076917832
hette     97     1041579       9.312783763881568e-05
nils     87     1041579       8.352702963481407e-05
</s>     59047     1041579       0.056689891021228345
Prob. Sentence: 5.364136934636431e-27
Geo. Mean: 0.0023602064104148853
Entropy rate: 8.726871249541004
Perplexity: 423.6917566138702


In [135]:
def tabulate_bigram(sentence, freq_bigrams, num_bigrams, freq_unigrams, prob_unigrams):
    sentence = sentence.strip().split(' ')
    prob_sentence = 1
    
    print('========================================')
    print('wi   wi+i   Ci,i+1    C(i)   P(wi+1|wi)')
    print('========================================')
    
    words_in_sentence = len(sentence)
    
    for i in range(words_in_sentence - 1):
        conditional_prob = freq_bigrams[(sentence[i], sentence[i+1])] / freq_unigrams[(sentence[i], )]
        
        _string = sentence[i] + '  ' + sentence[i+1] + '  ' + str(freq_bigrams[(sentence[i], sentence[i+1])]) \
              + '  ' + str(freq_unigrams[(sentence[i], )])
        
        if conditional_prob:
            prob_sentence *= conditional_prob
            _string += '  ' + str(conditional_prob)
            
        else:
            prob_sentence *= prob_unigrams[(sentence[i+1], )]
            _string += '  ' + '*Backoff  ' + str(prob_unigrams[(sentence[i+1], )])
            
        print(_string)
    
    
    entropy = -math.log(prob_sentence, 2) / (words_in_sentence-1)
    
    print('========================================')
    print('Prob. Sentence:', prob_sentence)
    print('Geo. Mean:', prob_sentence ** (1 / (words_in_sentence-1)))
    print('Entropy rate:', entropy)
    print('Perplexity:', 2 ** entropy)
    return (2 ** entropy)

In [136]:
sent2 = '<s> det var en gång en katt som hette nils </s>'
prob_unigrams = {k: v / num_unigrams for k, v in freq_unigrams.items()}
perplexity_bigram = tabulate_bigram(sent2, freq_bigrams, num_bigrams, freq_unigrams, prob_unigrams)
perplexity_bigrams = int(perplexity_bigram)

wi   wi+i   Ci,i+1    C(i)   P(wi+1|wi)
<s>  det  5672  59047  0.09605907158704083
det  var  3839  21108  0.1818741709304529
var  en  712  12090  0.058891645988420185
en  gång  706  13514  0.052242119283705785
gång  en  20  1332  0.015015015015015015
en  katt  6  13514  0.0004439840165754033
katt  som  2  16  0.125
som  hette  45  16288  0.002762770137524558
hette  nils  0  97  *Backoff  8.352702963481407e-05
nils  </s>  2  87  0.022988505747126436
Prob. Sentence: 2.376126423796318e-19
Geo. Mean: 0.013727357824989852
Entropy rate: 6.186802220488124
Perplexity: 72.84723052673391


In [118]:
freq_trigrams, num_trigrams = get_ngrams(words, n=3)
freq_trigrams[('det', 'var', 'en')]

330

In [184]:
def trigram_prob(sentence, freq_bigrams, freq_trigrams):
    prob_sentence = 1
    words_in_sentence = len(sentence)
    
    for i in range(words_in_sentence - 2):
        
        if freq_bigrams[(sentence[i], sentence[i+1])]:
            conditional_prob = freq_trigrams[(sentence[i], sentence[i+1], sentence[i+2])] \
                                / freq_bigrams[(sentence[i], sentence[i+1])]
        else:
            prob_sentence = 0
            break
            
        prob_sentence *= conditional_prob
            
    return prob_sentence

In [202]:
starting_text = 'De'.lower()
cand_nbr = 5

pos_words = {}
for (w1, w2), freq in freq_bigrams.items():
    if w1 == '<s>' and w2[:len(starting_text)] == starting_text:
        pos_words[w2] = freq
        
pos_words = {k: v for k, v in sorted(pos_words.items(), key=lambda item: item[1], reverse=True)}
current_word_predictions_1 = []

i = 0
for word in pos_words:
    i = i+1
    current_word_predictions_1.append(word)
    if i == 5:
        break

print(current_word_predictions_1)

['sådan']


In [201]:
current_text = "Det var en".lower()
tokens = tokenize(current_text)
tokens

pos_words = []
for (w1, w2, w3), freq in freq_trigrams.items():
    if w1 == tokens[-2] and w2 == tokens[-1]:
        pos_words.append(w3)
        
sentence_probs = {word: trigram_prob(tokens + [word], freq_bigrams, freq_trigrams) for word in pos_words}

pos_words = {k: v for k, v in sorted(sentence_probs.items(), key=lambda item: item[1], reverse=True)}

i = 0
next_word_predictions = []
for word in pos_words:
    i += 1
    next_word_predictions.append(word)
    if i == 5:
        break
        
print(next_word_predictions)

['stor', 'liten', 'gammal', 'god', 'sådan']


In [200]:
current_text = "Det var en g".lower()
tokens = tokenize(current_text)

pos_words = []
for (w1, w2, w3), freq in freq_trigrams.items():
    if w1 == tokens[-3] and w2 == tokens[-2] and w3[:len(tokens[-1])] == tokens[-1]:
        pos_words.append(w3)

sentence_probs = {word: trigram_prob(tokens[:-1] + [word], freq_bigrams, freq_trigrams) for word in pos_words}

for word, prob in sentence_probs.items():
    print(word, prob)

pos_words = {k: v for k, v in sorted(sentence_probs.items(), key=lambda item: item[1], reverse=True)}

current_word_predictions_2 = []
i = 0
for word in pos_words:
    i += 1
    current_word_predictions_2.append(word)
    if i == 5:
        break
        
print(current_word_predictions_2)

gång 0.0012073017610508354
grov 0.00012073017610508354
gås 0.00012073017610508354
gammal 0.002293873345996587
god 0.00205241299378642
gruvarbetare 0.00012073017610508354
gruva 0.00012073017610508354
glad 0.00012073017610508354
gammaldags 0.00012073017610508354
graf 0.00012073017610508354
gengångare 0.00012073017610508354
getabock 0.00012073017610508354
gåva 0.00012073017610508354
glänsande 0.00012073017610508354
grann 0.00024146035221016707
gränsbo 0.00012073017610508354
ganska 0.0003621905283152506
glädje 0.00024146035221016707
gagnlös 0.00012073017610508354
godmodig 0.00012073017610508354
gård 0.00012073017610508354
gosse 0.00012073017610508354
gast 0.00012073017610508354
gudsförnekare 0.00012073017610508354
glittrande 0.00012073017610508354
gråvädersdag 0.00012073017610508354
g 0.0
['gammal', 'god', 'gång', 'ganska', 'grann']


In [176]:
STIL_ID = ["ri8166bo-s", "er4057ro-s"] # Write your stil ids as a list
CURRENT_NOTEBOOK_PATH = os.path.join(os.getcwd(), 
                                     "lang_models.ipynb") # Write the name of your notebook

In [177]:
ANSWER = str((perplexity_unigrams, perplexity_bigrams, current_word_predictions_1, next_word_predictions, current_word_predictions_2))
ANSWER

"(423, 72, ['det', 'de', 'den', 'dem', 'detta'], ['stor', 'liten', 'gammal', 'god', 'sådan'], ['gammal', 'god', 'gång', 'ganska', 'grann'])"

In [178]:
SUBMISSION_NOTEBOOK_PATH = CURRENT_NOTEBOOK_PATH + ".submission.bz2"


In [179]:
ASSIGNMENT = 2
API_KEY = "f581ba347babfea0b8f2c74a3a6776a7"

# Copy and compress current notebook
with bz2.open(SUBMISSION_NOTEBOOK_PATH, mode="wb") as fout:
    with open(CURRENT_NOTEBOOK_PATH, "rb") as fin:
        fout.write(fin.read())

In [180]:
res = requests.post("https://vilde.cs.lth.se/edan20checker/submit", 
                    files={"notebook_file": open(SUBMISSION_NOTEBOOK_PATH, "rb")}, 
                    data={
                        "stil_id": STIL_ID,
                        "assignment": ASSIGNMENT,
                        "answer": ANSWER,
                        "api_key": API_KEY,
                    },
                   verify=True)

# from IPython.display import display, JSON
res.json()

{'msg': None,
 'status': 'incorrect',
 'signature': None,
 'submission_id': '6ff6eacc-7903-44f1-adaf-6bba985d3b6f'}