# 1. - Playing with pre-trained, static embeddings

## 1.1)
Choose 10 words and find the 5 words that the models think are most similar to
those words (the 5 words that have the highest cosine similarity to each of the
words you chose). Choose three verbs, three adjectives and four nouns. Are the
results the way you would have expected (are these words actually similar to
the input word)? Why/why not? Is there a difference between the results of the
two models? Which performs better and why do you think that is?

In [1]:
import gensim.downloader as api
wv = api.load('word2vec-google-news-300')



In [22]:
from gensim.models.fasttext import FastText
from gensim.test.utils import datapath

# Set file names for train and test data
corpus_file = datapath('lee_background.cor')

model = FastText(vector_size=100)

# build the vocabulary
model.build_vocab(corpus_file=corpus_file)

# train the model
model.train(
    corpus_file=corpus_file, epochs=model.epochs,
    total_examples=model.corpus_count, total_words=model.corpus_total_words,
)

(164386, 301935)

In [32]:
# three verbs word to vec
print("wv:", [word[0] for word in wv.most_similar(positive=['run'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['run'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['listen'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['listen'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['be'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['be'], topn=5)])

wv: ['runs', 'running', 'drive', 'ran', 'scamper']
ft:   ['runs', 'death', 'In', 'Premier', 'Royal']

wv: ['listening', 'listened', 'visit_www.timewarner.com_investors', 'hear', 'Listen']
ft:   ['list', 'contested', 'members', 'organisation', 'ministers']

wv: ['being', 'tobe', 'are', 'have', 'willbe']
ft:   ['whether', 'become', 'became', 'anything', 'not']


In [34]:
# three adjectives w2v
print("wv:", [word[0] for word in wv.most_similar(positive=['good'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['good'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['bad'], topn=5)])  
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['bad'], topn=5)])  
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['boring'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['boring'], topn=5)])

wv: ['great', 'bad', 'terrific', 'decent', 'nice']
ft:   ['issues', 'very', 'whether', 'growing', 'looking']

wv: ['good', 'terrible', 'horrible', 'Bad', 'lousy']
ft:   ['places', 'than', 'bowling', 'planning', "company's"]

wv: ['dull', 'uninteresting', 'monotonous', 'bored', 'bland']
ft:   ['hearing', 'during', 'bring', 'injuring', 'bringing']


In [36]:
# four nouns
print("wv:", [word[0] for word in wv.most_similar(positive=['car'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['car'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['dog'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['dog'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['brownie'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['brownie'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['computer'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['computer'], topn=5)])


wv: ['vehicle', 'cars', 'SUV', 'minivan', 'truck']
ft:   ['carried', 'entered', 'leading', 'continued', 'water']

wv: ['dogs', 'puppy', 'pit_bull', 'pooch', 'cat']
ft:   ['immediately', 'week.', 'company', 'create', 'department']

wv: ['brownies', 'pogi', 'corn_muffins', 'vanilla_cone', 'red_velvet_cupcake']
ft:   ['real', 'reduced', 'side', 'decide', 'brought']

wv: ['computers', 'laptop', 'laptop_computer', 'Computer', 'com_puter']
ft:   ['international', 'leading', 'International', 'supporters', 'enter']


Most of the words using word to vec are similar to the input word, the one weird outlier being 'visit_www.timewarner.com_investors' which also somehow renders as a link?? Fasttext seems to gravitate more towards words that could come before or after or are just include the word as a substring.

But the likeness in the words can come from opposites as seen in good for wv which has bad as the second closest word, and bad has good as it's closest word.

## 1.2)
Have the models answer 5 analogy questions (something like king ‚Äì man + woman = queen). Report your results. Do the models get the questions right?
How often is the correct answer within the top 10 most likely words but not the
top scoring one? How often does the model not get the question right? What
could be the cause of that?

In [40]:
# king - man + woman = queen
print([word[0] for word in wv.most_similar(positive=["king", "woman"], negative=["man"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["king", "woman"], negative=["man"], topn=10)])

# monkey - animal + thinking = human
print()
print([word[0] for word in wv.most_similar(positive=["monkey", "thinking"], negative=["animal"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["monkey", "thinking"], negative=["animal"], topn=10)])

# house - roof = garden
print()
print([word[0] for word in wv.most_similar(positive=["house", "garden"], negative=["animal"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["house", "garden"], negative=["animal"], topn=10)])

# spork - spoon = fork
print()
print([word[0] for word in wv.most_similar(positive=["spork", "fork"], negative=["spoon"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["spork", "fork"], negative=["spoon"], topn=10)])

# child + time = adult
print()
print([word[0] for word in wv.most_similar(positive=["child", "time"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["child", "time"], topn=10)])

['queen', 'monarch', 'princess', 'crown_prince', 'prince', 'kings', 'Queen_Consort', 'queens', 'sultan', 'monarchy']
['calling', 'responding', 'trying', 'respond', 'working', 'worked', 'having', 'playing', 'acting', 'losing']

['dreaming', 'Thinking', 'daydreaming', 'thinkin', 'spit_balling', 'maybe', 'fantasizing', 'talking', 'Psh', 'Heh_heh']
['playing', 'throughout', 'growing', "don't", 'making', 'saying', 'staying', 'your', 'through', 'though']

['bungalow', 'gardens', 'vegetable_garden', 'patio', 'houses', 'bedroom', 'terrace', 'summerhouse', 'cottage', 'herb_garden']
['whose', 'though', 'always', 'received', 'director', 'Another', 'locked', 'receive', 'students', 'lower']

['forks', 'forking', 'similarly_specced', 'iWallet', 'Forking', 'forked', 'Macalope', 'Acer_netbook', 'pricetag', 'santoku']
['tennis', 'work', 'stage', 'wage', 'treatment', 'recent', 'statement', 'several', 'expressed', 'traditional']

['grandchild', 'children', 'chld', 'child_ren', 'collapse_Betsy_Sathers', '

√âg var a√∞ muna a√∞ √©g get svara√∞ √° √≠slensku üòé 

√âg hef eiginlega ekki hugmynd um hva√∞ er √≠ gangi hj√° fasttext, √©g get svona eiginlega giska√∞ √° hva√∞ √∫tkoman hj√° w2v ver√∞i, kannski er √æa√∞ einfaldlega √æv√≠ √æa√∞ er st√¶rra og betra m√≥del, en √æ√≥ ekki alltaf

√û√≥tt √©g skilji ekki alveg FT √æ√° finnst m√©r ehv fallegt vi√∞ a√∞ monkey - animal + thinking hafi √∫tkomuna playing sem l√≠klegasta match

# 2. - Train your own embeddings

Fyrst, √≥lemmu√∞ g√∂gn

In [68]:
import gensim 

with open('../data/log.txt', 'r', encoding='utf-8') as f:
    txt = f.read().split()
    mymodel= gensim.models.Word2Vec([txt],min_count=1)

In [75]:
print("hlaupa:", [ord[0] for ord in mymodel.wv.most_similar(positive=['hlaupa'], topn=5)])
print("hlusta:", [ord[0] for ord in mymodel.wv.most_similar(positive=['hlusta'], topn=5)])
print("vera:", [ord[0] for ord in mymodel.wv.most_similar(positive=['vera'], topn=5)])
print("g√≥√∞ur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['g√≥√∞ur'], topn=5)])
print("vondur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['vondur'], topn=5)])
print("√æreyttur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['√æreyttur'], topn=5)])
print("fer√∞:", [ord[0] for ord in mymodel.wv.most_similar(positive=['fer√∞'], topn=5)])
print("hundur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['hundur'], topn=5)])
print("brau√∞:", [ord[0] for ord in mymodel.wv.most_similar(positive=['brau√∞'], topn=5)])
print("draumur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['draumur'], topn=5)])


hlaupa: ['kysst', 'hlekk', 't√°llaus', 'S√≠ldarvalsinn', 'slappi']
hlusta: ['st√≥rf√≠nt.', 's√≥lbj√∂rtu', 'skri√∞ur.', 's√≥larlag', 'fl√∂gra√∞i']
vera: ['hundru√∞um', 'ysta', 'fl√∂gra√∞i', 'h√≥gl√°tt', 'dansleikjum']
g√≥√∞ur: ['bl√≥√∞i√∞', 'ba-b√∫,', 'verpir', 'uppfr√°', 'eki√∞']
vondur: ['√ær√≠r.', 'Blessast', 'Gunna-St√≠na', 'kryfja', 'Gy√∞a']
√æreyttur: ['sigldir', 'gla√∞ur.', "gestanna'", 'himinbaug,', 'Litlar']
fer√∞: ['blysum............', 'h√∫mi,', 'br√∫√∞u', 'hjartar√≥tinni.', 'kalla√∞ur']
hundur: ['tjalda√∞', 'ballalest-lest-lest,', 'Maja,', 'hamast', 'hestinum']
brau√∞: ['hlj√≥√∞ur', 'k√¶ri‚Äú.', 'parad√≠s.', 'n√¶st,', 'hiklaust']
draumur: ['J√∂rundar', 'hausti', 'h√¶√∞um', 'barnah√≥pur', 'Galar,']


N√∫ notum vi√∞ lemmu√∞ g√∂gn sem eru vistu√∞ √≠ ../data/all_lemmas.txt teki√∞ √∫r verkefni tv√∂, 

In [67]:
with open('../data/all_lemmas.txt', 'r', encoding='utf-8') as f:
    txt = f.read().split()
    mylemmas = gensim.models.Word2Vec([txt],min_count=1)

In [76]:
print("hlaupa:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['hlaupa'], topn=5)])
print("hlusta:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['hlusta'], topn=5)])
print("vera:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['vera'], topn=5)])
print("g√≥√∞ur:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['g√≥√∞ur'], topn=5)])
print("vondur:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['vondur'], topn=5)])
print("√æreytt:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['√æreyttur'], topn=5)])
print("fer√∞:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['fer√∞'], topn=5)])
print("hundur:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['hundur'], topn=5)])
print("brau√∞:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['brau√∞'], topn=5)])
print("draumur:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['draumur'], topn=5)])

hlaupa: ['hjarta', '√∫t', 'margur', '√æ√∫', 'allt']
hlusta: ['stjarna', 'b√°l', 's√°r', 'Tra-r√≠', 'saga']
vera: ['og', '√≠', '√°', 'a√∞', '√©g']
g√≥√∞ur: ['hann', 'a√∞', '√©g', 'og', '√≠']
vondur: ['lyng', 'n√¶turlest', 'f√∂lna√∞ur', 'l√≠fga', 'Arnarh√≥ll']
√æreytt: ['dans', 'hl√¶ja', '√æessi', 'bara', 'synda']
fer√∞: ['t√≥fa', 'kr√≥na', "l√≠ka'", 'fjallasalur', 'on√≠']
hundur: ['von', '√æegar', 'me√∞', 'ekki', 'segja']
brau√∞: ['kv√¶√∞i', '√∫ti', 'ganga', 'sitja', 'barn']
draumur: ['√æ√°', 'vi√∞', 'og', '√≠', '‚Äî']


Eins og s√©st meika hvorugar ni√∞urst√∂√∞urnar nokkurn sens, √æa√∞ n√¶sta sem kemst √æv√≠ a√∞ vera ehv er $fer√∞ -> t√≥fa$ einfaldlega vegna √æess a√∞ t√≥fur eru alltaf ehv √° vappinu en kannski er √©g a√∞ leita a√∞ meiningu √æar sem er engin. √ûr√°tt fyrir a√∞ lemmunin hafi gert ni√∞urst√∂√∞urnar hugsanlega a√∞eins r√©ttari √æ√° minnka√∞i l√≠ka or√∞asafni√∞ okkar √∫r ~80k or√∞um ni√∞ur √≠ ~35k sem vinnur l√≠klega √° m√≥ti hagna√∞inum

Pr√≥fum einu sinni enn og breytum hyper parametrunum a√∞eins

In [92]:
with open('../data/all_lemmas.txt', 'r', encoding='utf-8') as f:
    txt = f.read().split()
    posbetter = gensim.models.Word2Vec([txt],negative=10,min_count=5, vector_size=100)

In [93]:
print("hlaupa:", [ord[0] for ord in posbetter.wv.most_similar(positive=['hlaupa'], topn=5)])
print("hlusta:", [ord[0] for ord in posbetter.wv.most_similar(positive=['hlusta'], topn=5)])
print("vera:", [ord[0] for ord in posbetter.wv.most_similar(positive=['vera'], topn=5)])
print("g√≥√∞ur:", [ord[0] for ord in posbetter.wv.most_similar(positive=['g√≥√∞ur'], topn=5)])
print("vondur:", [ord[0] for ord in posbetter.wv.most_similar(positive=['vondur'], topn=5)])
print("√æreytt:", [ord[0] for ord in posbetter.wv.most_similar(positive=['√æreyttur'], topn=5)])
print("fer√∞:", [ord[0] for ord in posbetter.wv.most_similar(positive=['fer√∞'], topn=5)])
print("hundur:", [ord[0] for ord in posbetter.wv.most_similar(positive=['hundur'], topn=5)])
print("brau√∞:", [ord[0] for ord in posbetter.wv.most_similar(positive=['brau√∞'], topn=5)])
print("draumur:", [ord[0] for ord in posbetter.wv.most_similar(positive=['draumur'], topn=5)])


hlaupa: ['n√∫', 'sinn', 'bl√°r', '√æinn', 'vi√∞']
hlusta: ['sumur', 'hefja', 'lj√≥√∞', 'geyma', 'land']
vera: ['me√∞', 'er', 'vi√∞', 'h√∫n', 'til']
g√≥√∞ur: ['hann', 'vi√∞', 'sem', 'sig', 'en']
vondur: ['√æj√≥√∞v√≠sa', 'r√∂kkur', 'elli', 'sunna', 'ilmur']
√æreytt: ['bl√≥m', 'b√≠√∞a', '√°fram', 's√°l', 'heyra']
fer√∞: ['s√∂ngur', 'gulur', 'samt', 'lind', 'g√≥√∞ur']
hundur: ['s√©rhver', 'mikill', 'eins', 't√≠√∞', 'alltaf']
brau√∞: ['amma', 'er', '√∂ld', 'lei√∞', 'b√¶r']
draumur: ['n√≥tt', 'h√∫n', '√æ√°', 'sem', 'um']


Ok bara vi√∞ √æa√∞ a√∞ h√¶kka `min_count` upp √≠ 5 l√©t okkur hafa ni√∞ust√∂√∞ur sem vir√∞ast allaveg vera n√¶r √æv√≠ a√∞ vera r√©ttar en upphaflegu ni√∞urst√∂√∞urnar, √æ√¶r eru √æ√≥ frekar l√©legar

# 3. - Transformers B)

## 1. m√≥del
√âg t√≥k 2 √°r af sp√¶nsku √≠ menntask√≥la n√∫ er √°hugavert a√∞ sj√° hvort √©g muni ehv af √æv√≠ sem √©g l√¶r√∞i.

[M√≥deli√∞](https://huggingface.co/Helsinki-NLP/opus-mt-is-es) er √æj√°lfa√∞ √° [opus-2020-06-17](https://github.com/Helsinki-NLP/Tatoeba-Challenge/blob/master/models/isl-spa/README.md) og er b√¶√∞i encoder og decoder

In [17]:
from transformers import pipeline
is_es_translator = pipeline("translation", model="Helsinki-NLP/opus-mt-is-es")



In [21]:
# Setning sem √©g mun aldrei gleyma: m√° √©g vinsamlegast fara √° kl√≥setti√∞? 
is_sent = [
    "M√° √©g vinsamlegast fara √° kl√≥setti√∞?",             # puedo ir al bano por favor?
    "G√≥√∞ann daginn, √©g heiti Tumi, hva√∞ heitir √æ√∫?",    # buenos dias, me llamo Tumi, coma te llamas?
    "Klukkan er korter yfir 6",                         # las hora es seis i cuarto
    "√âg er 25 √°ra",                                     # tengo viente y cinco anos
]

for es_sent in is_sent:
    print(f"is: {es_sent}\nes: {is_es_translator(es_sent)[0]['translation_text']}\n")

is: M√° √©g vinsamlegast fara √° kl√≥setti√∞?
es: ¬øPuedo ir al ba√±o, por favor?

is: G√≥√∞ann daginn, √©g heiti Tumi, hva√∞ heitir √æ√∫?
es: Buenos d√≠as, soy Tumi. ¬øC√≥mo te llamas?

is: Klukkan er korter yfir 6
es: Son las 6:15 de la ma√±ana.

is: √âg er 25 √°ra
es: Tengo 25 a√±os.



N√∫ er spurning hvort er a√∞ breg√∞ast m√≠n sp√¶nskukunn√°tta √∫r menntask√≥la e√∞a m√≥deli√∞, √©g set peninginn √° mig en √©g √¶tla √æ√≥ a√∞ henda √æessum setningum √≠ gegnum translate til a√∞ vera viss.

- Samkv√¶mt translate er fyrsta r√©tt, √©g vissi √æa√∞.
- Samkv√¶mt translate h√∂fum b√¶√∞i √©g og m√≥deli√∞ rangt fyrir okkur, en √©g er samt eiginlega viss um a√∞ b√°√∞ar √æ√Ω√∞ingar s√©u r√©ttar "soy Tumi" √æ√Ω√∞ir samt eiginlega "√©g er Tumi" en h√¶gt a√∞ nota √æa√∞ fyrir "√©g heiti"
- √ûarf ekki a√∞ setja √≠ gegnum translate til a√∞ vita a√∞ √æetta "de la manana" √¶tti ekki a√∞ vera √æarna, √æa√∞ er kannski l√≠klegt a√∞ √©g s√© a√∞ tala um "6 um morguninn" en √©g sag√∞i √æa√∞ ekki, auk √æess finnst m√©r skr√¶fu move a√∞ nota t√∂lustafi
- √ûetta er gilt en eins og fyrir ofan finnst m√©r p√≠nu lei√∞inlegt a√∞ nota√∞ir s√©u t√∂lustafir

In [7]:
is_input = input("Sl√°√∞u inn √≠slensku setningu: ")
print(f"is: {is_input} -> es: {is_es_translator(is_input)[0]['translation_text']}")

is: vinur minn gunnar er a√∞ drekka gos -> es: Mi amigo est√° bebiendo refresco


## 2. m√≥del
[√ûetta m√≥del](https://huggingface.co/vesteinn/XLMr-ENIS-QA-Is) var s√Ωnt √≠ t√≠ma

√ûa√∞ er byggt √° √æ√Ωddum enskum gagnas√∂fnum √°samt gagnasafni um e√∞lilegar √≠slenskar spurningar. √ûa√∞ stendur ekki en √©g reikna me√∞ a√∞ √æa√∞ noti b√¶√∞i encoder, fyrir input, og decoder fyrir output

In [2]:
from transformers import pipeline
qa = pipeline("question-answering", "vesteinn/XLMr-ENIS-QA-Is")

  from .autonotebook import tqdm as notebook_tqdm


In [11]:
# √âg nota h√©rna a√∞eins breyttan kynningar texta af heimas√≠√∞unni minni sem context
qa_context = "Hall√≥ hall√≥, √ûorvaldur Tumi heiti √©g og er 22 √°rs gamall. √âg er a√∞ l√¶ra t√∂lvunarfr√¶√∞i me√∞ f√≥kus √° framendaforritun og hef unni√∞ √≠ nokkrum fullstack verkefnum, b√¶√∞i einn og me√∞ me√∞ teymi. M√©r finnst gaman a√∞ birta √æa√∞ sem √©g er a√∞ vinna √≠ og hef miki√∞ d√°l√¶ti af √æv√≠ a√∞ b√∫a til s√Ωnid√¶mi og kennsluefni sem a√∞rir g√¶tu haft gagn e√∞a gaman af √æv√≠ a√∞ sko√∞a. √âg hef √°g√¶tis reynslu √≠ m√∂rgum tungum√°lum, √æar m√° nefna C, C++, java, javascript / typescript, rust og python, auk √æeirra hef √©g snert √° fleiri m√°lum eins og R, haskell og Zig."


qa_sent = [
    "Hver er √ûorvaldur Tumi?",
    "Hver er √ûorvaldur Tumi Baldursson?",
    "Hva√∞ er Tumi a√∞ l√¶ra?",
    "Hver eru helstu forritunarm√°l Tuma?",
    "√ç hva√∞a tungum√°lum hefur Tumi mesta reynslu?",
    "Hva√∞a tungum√°l m√° nefna sem Tumi hefur √°g√¶ta reynslu √≠?",
    "Hva√∞ eru fleiri tungum√°l sem Tumi hefur snert √°?",
    "Hva√∞ er Tumi gamall?",
]

for question in qa_sent:
    print(f"q: {question}\na: {qa(question=question, context=qa_context)['answer']}\n")

q: Hver er √ûorvaldur Tumi?
a:  √âg er a√∞ l√¶ra t√∂lvunarfr√¶√∞i

q: Hver er √ûorvaldur Tumi Baldursson?
a: Hall√≥ hall√≥,

q: Hva√∞ er Tumi a√∞ l√¶ra?
a:  t√∂lvunarfr√¶√∞i

q: Hver eru helstu forritunarm√°l Tuma?
a:  framendaforritun

q: √ç hva√∞a tungum√°lum hefur Tumi mesta reynslu?
a:  verkefnum,

q: Hva√∞a tungum√°l m√° nefna sem Tumi hefur √°g√¶ta reynslu √≠?
a:  nokkrum

q: Hva√∞ eru fleiri tungum√°l sem Tumi hefur snert √°?
a:  R, haskell og Zig.

q: Hva√∞ er Tumi gamall?
a:  22



N√∫ er √æa√∞ l√≠klega biasinn minn eftir a√∞ hafa nota√∞ Chat-GPT helling en √©g h√©lt a√∞ m√≥deli√∞ yr√∞i betra √≠ a√∞ svara spurningunum. Eins og s√©st fyrir ofan eru ekki nema alveg hnitimi√∞u√∞ustu spurningunum svara√∞ r√©tt. Textinn minn g√¶ti √æ√≥ l√≠ka veri√∞ a√∞ s√∂k h√©r √æannig √©g √¶tla pr√≥fa aftur me√∞ st√¶rra context.

In [14]:
# ritger√∞ sem √©g ger√∞i √≠ √≠slensku √° 2. √°ri √≠ menntask√≥la um v√¶tti og verur √≠ √≠slenskum √æj√≥√∞s√∂gum
qa_context = "√çslenskar √æj√≥√∞s√∂gur innihalda margar hverjar einhverskonar yfirn√°tt√∫rulega v√¶tti e√∞a verur. H√¶gt er a√∞ spyrja sig hvers konar v√¶ttir eru √≠ √≠slenskum √æj√≥√∞s√∂gum og hva√∞a hlutverki gegna √æeir. √ç √æessari ritger√∞ ver√∞ur liti√∞ √° v√¶tti √∫r v√∂ldum √≠slenskum √æj√≥√∞s√∂gum og fari√∞ yfir tilgang √æeirra og heg√∞un. √ûj√≥√∞s√∂gur hafa fylgt √≠slensku √æj√≥√∞inni √≠ aldanna r√°s. ‚ÄûHugtaki√∞ √æj√≥√∞saga er nota√∞ um fr√°sagnir sem lengi hafa gengi√∞ √≠ munnm√¶lum me√∞al al√æ√Ω√∞u manna, sumar √∂ldum saman.‚Äú. Ragnhildur Richter o.fl. 2014:224 Eins og kemur fram √≠ kennslub√≥kinni √≠slenska fj√∂gur voru margar af vins√¶lustu √≠slensku √æj√≥√∞s√∂gunum teknar saman √° r√≥mant√≠ska t√≠mabilinu. Safna√∞ var saman m√∂rgum √≠slenskum √æj√≥√∞s√∂gum og √æ√¶r skr√°√∞ar ni√∞ur √≠ anda r√≥mant√≠skra hugmynda. Hugmyndina a√∞ safna saman √æj√≥√∞s√∂gum er h√¶gt a√∞ rekja til Grimm br√¶√∞ranna, Jakobs og Wilhelms Grimm. √ûeir g√°fu √∫t √æekkta s√∂gusafni√∞ ‚ÄûGrimms √¶vint√Ωri‚Äú snemma √° 19. √∂ld og eftir √æa√∞ fylgdu margir fr√¶√∞imenn √≠ f√≥tspor br√¶√∞ranna og s√∂fnu√∞u s√≠num √æj√≥√∞s√∂gum saman. √ûj√≥√∞s√∂gur voru oft uppspuni fr√° byrjun til enda en √æa√∞ varl√≠ka √æekkt a√∞ √æj√≥√∞s√∂gur v√¶ru bygg√∞ar √≠ kring um einhvern e√∞a einhverja sanns√∂gulega atbur√∞i. √ûj√≥√∞s√∂gur voru l√≠ka nota√∞ar sem t√≥l til a√∞ √∫tsk√Ωra hi√∞ √≥√∫tsk√Ωranlega eins og mikla heppni e√∞a har√∞an vetur og ef uppskeran var l√≠til var √æa√∞ ekki vegna √æess a√∞ illa var r√¶kta√∞ heldur vegna √æess a√∞ einhver haf√∞i gert √°lfa rei√∞a e√∞a eitthva√∞ √°l√≠ka. √çslenskar √æj√≥√∞s√∂gur endu√∞u oftast √° tvo vegu, anna√∞hvort enda√∞i a√∞alpers√≥nan verr sett en fyrir atbur√∞i s√∂gunnar, dau√∞ e√∞a ge√∞veik e√∞a h√∫n enda√∞i betur sett en h√∫n var fyrir atbur√∞i s√∂gunnar, r√≠k og gl√∂√∞. √ûetta er lj√≥st um lei√∞ og ma√∞ur byrjar a√∞ lesa √æj√≥√∞s√∂gur. S√∂gurnar innihalda v√¶tti af √∂llum st√¶r√∞um og ger√∞um og √≠ flestum tilfellum er h√¶gt a√∞ flokka √æ√° √≠ tvennt, g√≥√∞a e√∞a vonda v√¶tti. G√≥√∞ir v√¶ttir vilja oftast vel og hj√°lpa s√∂gupers√≥num a√∞ n√° s√≠nu fram e√∞a til √æess a√∞ b√¶ta st√∂√∞u s√≠na, oft me√∞ yfirn√°tt√∫rulegum e√∞a √≥√∫tsk√Ωranlegum h√¶tti. D√¶mi um v√¶tt sem hj√°lpar s√∂gupers√≥nunni a√∞ komast √° betri sta√∞ er sagan ‚Äû√û√° hl√≥ marbendill‚Äú. √ç √æeirri s√∂gu er a√∞al s√∂gupers√≥nan a√∞ vei√∞a og vei√∞ir marbendil √≥vart. Marbendlinum l√≠st ekkert √° √æa√∞ og bi√∞ur manninn um a√∞ sleppa s√©r en √æegar ma√∞urinn vill √æa√∞ ekki h√¶ttir marbendill a√∞ tala. √ûrisvar sinnum √≠ s√∂gunni hl√¶r marbendill a√∞ einhverju sem er a√∞ gerast og ma√∞urinn ver√∞ur forvitinn og vill vita  af hverju. Marbendill segist ekki muni segja af hverju hann hl√≥ nema honum ver√∞i sleppt aftur √æar sem hann var veiddur. Ma√∞urinn fellst √° √æa√∞ og marbendill segir honum fr√° hlutum sem hann gat ekki vita√∞ nema √° einhvern yfirn√°tt√∫rulegan h√°tt. √ûegar ma√∞urinn er b√∫inn a√∞ ganga √∫r skugga um sannindi √æess sem marbendill sag√∞i sleppir hann marbendlinum. √ç s√∂gunni gr√¶ddu b√°√∞ir a√∞ilar. Ma√∞urinn f√©kk gull sem marbendill sag√∞i honum fr√° auk k√∫a sem marbendill sendi honum eftir a√∞ hafa veri√∞ sleppt og marbendill komst aftur heim og er √æannig betur settur en √° horf√∞ist √≠ byrjun s√∂gunnar   Vondir v√¶ttir eru andst√¶√∞urnar vi√∞ √æ√° g√≥√∞u. Vondir v√¶ttir reyna a√∞ skemma fyrir s√∂gupers√≥num, stundum hafa √æeir √°st√¶√∞u til a√∞ gera √æa√∞ en stundum a√∞ √°st√¶√∞ulausu. Gott d√¶mi um vondan v√¶tt me√∞ √°st√¶√∞u fyrir gj√∂r√∞um s√≠num er sagan um Gilitrutt. √ç henni gerir h√∫sfreyja samkomulag vi√∞ skessu um a√∞ vinna verk fyrir sig fyrir laun sem skessan √°kvar√∞ar. Launin eru a√∞ h√∫sfreyja √æarf a√∞ geta nafn skessunnar innann √æriggja tilrauna √æegar √æ√¶r hittast n√¶st. Ef h√∫sfreyja getur ekki uppfyllt skilyr√∞i samkomulagsins er gefi√∞ √≠ skyn a√∞ skessan muni √©ta hana. √ûarna er skessan vondur v√¶ttur en hefur √°st√¶√∞u til a√∞ gera √æa√∞ sem h√∫n gerir vegna √æess a√∞ skessan og h√∫sfreyja ger√∞u samkomulag.   Stundum er ekkert s√©rstakt sem √Ωtir undir heg√∞un v√¶tta og √æeir gera s√∂gupers√≥num bara illt vegna √æess a√∞ √æeir eru vondir √≠ e√∞li s√≠nu. D√¶mi um s√∂gu √æar sem v√¶ttur er vondur √≠ e√∞li s√≠nu er sagan um dj√°knann √° Myrk√°. Sagan gerist √≠ Eyjafir√∞i og segir fr√° tveimur manneskjum, dj√°kna √≠ sveitinni og konu sem h√©t Gu√∞r√∫n, √æau voru √≠ sambandi. Dj√°kninn er a√∞ fer√∞ast en kemst ekki √° lei√∞arenda., B√≥ndi √≠ sveitinni finnur hann l√°tinn en fr√©ttir af dau√∞a hans berast ekki til b√¶jarins √æar sem Gu√∞r√∫n er. √Å a√∞fangadag f√≥r Gu√∞r√∫n a√∞ Myrk√° til a√∞ taka √æ√°tt √≠ skemmtun sem var √æar. √ûegar Gu√∞r√∫n b√Ωr sig undir a√∞ fara er bari√∞ a√∞ dyrum og √æegar Gu√∞r√∫n fer til a√∞ athuga s√©r h√∫n hest dj√°knans auk manns sem h√∫n telur a√∞ s√© dj√°kninn og sest √° bak hestsins. √ûegar hesturinn hn√Ωtur s√©r Gu√∞r√∫n hnakka dj√°knans sem og breg√∞ur √æegar h√∫n s√©r √≠ bera h√∂fu√∞k√∫puna. √ûau r√≠√∞a a√∞ opinni gr√∂f og Gu√∞r√∫n ver√∞ur svakalega hr√¶dd og byrjar a√∞ hringja kirkjubj√∂llum. Dj√°kninn h√©lt √°fram a√∞ √°s√¶kja Gu√∞r√∫nu √° kv√∂ldin √æanga√∞ til galdrama√∞ur er fenginn til a√∞ s√¶ra ni√∞ur dj√°knann. Sagan er d√¶miger√∞ draugasaga, dj√°kninn og Gu√∞r√∫n eru √° g√≥√∞um n√≥tum √°√∞ur en hann deyr en um lei√∞ og √æau hittast eftir dau√∞a hans breytist √æa√∞. Draugar eiga a√∞ vera vondir og dj√°kninn fylgir √æv√≠ √ær√°tt fyrir a√∞ hafa ekkert √° m√≥ti Gu√∞r√∫nu √°√∞ur en hann deyr. Eina markmi√∞ hans er a√∞ vera illur √≠ gar√∞ Gu√∞r√∫nar. H√¶gt er a√∞ skipta flestum √æj√≥√∞sagnav√¶ttum √≠ h√≥pa √∫t fr√° gj√∂r√∞um √æeirra en √æeim er l√≠ka h√¶gt a√∞ skipta ni√∞ur fleiri meginflokka. √ûessir flokkar eru samt bara regnhl√≠far yfir hundru√∞i v√¶tta og vera √≠ √≠slenskum √æj√≥√∞s√∂gum Einn flokkur v√¶tta i √≠slenskum √æj√≥√∞s√∂gum eru tr√∂ll. Tr√∂ll eru st√≥r og klunnaleg en geta √æ√≥ veri√∞ mj√∂g kl√°r √ær√°tt fyrir √∫tlit sitt. Tr√∂ll eru √æekkt fyrir √æa√∞ a√∞ bor√∞a f√≥lk og eiga √æa√∞ til a√∞ setja fram g√°tur til a√∞ blekkja e√∞a lokka f√≥lk til s√≠n svo a√∞ tr√∂llin geti √©ti√∞ √æau. Ein af √æekktustu √æj√≥√∞sagnakenndu tr√∂llskessum landsins er Gilitrutt sem l√©t giska √° nafni√∞ sitt. Draugar og afturg√∂ngur eru annar st√≥r flokkur. Eins og tr√∂llin eru √æessir v√¶ttir oftast ekki a√∞ leitast eftir √æv√≠ a√∞ vera g√≥√∞ir vi√∞ pers√≥nur sagnanna sem √æeir tilheyra. Draugar og afturg√∂ngur eiga √æa√∞ gjarnan til a√∞ hrella manneskjur sem voru n√°nar √æeim √≠ l√≠finu. D√¶mi um afturg√∂ngu √≠ s√∂gu er Miklab√¶jar S√≥lveig, kona sem sturla√∞ist √æegar ma√∞urinn sem h√∫n elska√∞i vildi hana ekki. H√∫n tekur sitt eigi√∞ l√≠f og gengur aftur til √æess a√∞ reyna a√∞ drepa manninn sem h√∫n eitt sinn elska√∞i. Henni tekst √æa√∞ og √æegar f√≥lki√∞ √≠ kringum manninn reyndi a√∞ finna √∫t hva√∞ haf√∞i gerst f√≥r h√∫n √° eftir √æeim l√≠ka og √≥gna√∞i √æeim √≠ draumum . Eftir √æa√∞ var h√¶tt a√∞ reyna finna √∫t hva√∞ haf√∞i komi√∞fyrir manninn og ekkert heyr√∞istaf S√≥lveigu fyrr en sonur mannsins √¶tla√∞i a√∞ sofa hj√° konu sinni √≠ fyrsta skipti√∞  en √æ√° √°s√≥tti S√≥lveig hann, sem reyndar n√°√∞i a√∞ halda henni √≠ skefjum. Hulduf√≥lk og √°lfar eru √æri√∞ji af st√¶rstu flokkum v√¶tta √≠ √≠slenskum √æj√≥√∞s√∂gum. Erfitt er a√∞ flokka heg√∞un √°lfa og hulduf√≥lks ni√∞ur √≠ gott e√∞a vont vegna √æess a√∞ heg√∞un √æeirra endurspeglast alveg √≠ √æv√≠ hvernig komi√∞ fram er vi√∞ √æ√°. √Ålfar eru f√≠nir, vitrir og fri√∞s√¶lir svo lengi sem komi√∞ er fram vi√∞ √æ√° af vir√∞ingu. Gott d√¶mi um skap √°lfa er sagan um Helgu b√≥ndad√≥ttur og √°lfana. Helga er stelpa sem er l√≠tilsvirt af fj√∂lskyldunni sinni. H√∫n er skilin eftir ein heima √° a√∞fangadagskv√∂ld til a√∞ passa b√¶inn og mj√≥lka k√Ωrnar. Allir sem hafa veri√∞ eftir einir √° √æessum t√≠ma √° √æessum b√¶ hafa fundist l√°tnir daginn eftir en mamma Helgu segir a√∞ √≠ hennar tilviki  skipti √æa√∞ ekki m√°li √æar sem enginn muni sakna hennar. Um kv√∂ldi√∞ √æegar h√∫n er ein kemur barn inn √≠ eldh√∫si√∞ √æar sem Helga er a√∞ elda, barni√∞ bi√∞ur um sm√° bita af mat og Helga gefur √æv√≠ mat √ær√°tt fyrir a√∞ m√≥√∞ir hennar hafi banna√∞ henni a√∞ f√° s√©r af matnum. Barni√∞ √æakkar fyrir sig og fer. Seinna um kv√∂ldi√∞ kemur hellingur af f√≥lki sem Helga kanna√∞ist ekki vi√∞ inn √° b√¶inn en Helga l√¶tur √æau √≠ fri√∞i og √æau koma fram vi√∞ hana af vir√∞ingu √° m√≥ti. Helga fer √∫t til a√∞  mj√≥lka k√∫na og √æ√° kemur  ma√∞ur upp a√∞ henni og bi√∞ur um a√∞ sofa hj√° henni. Helga √ævertekur fyrir √æa√∞ √æanga√∞ til hann fer. Sk√∂mmu seinna kemur kona inn a√∞ √æakka Helgu fyrir g√≥√∞verk s√≠n, a√∞ gefa barninu a√∞ bor√∞a og neita manninum, og gefur henni falleg f√∂t og belti auk lofor√∞s um a√∞ einn daginn muni h√∫n giftast biskupi og vera g√¶fukona. Daginn eftir sj√° m√≥√∞ir og systir Helgu gjafirnar og vilja eignast √æ√¶r en Helga vill √æa√∞ ekki. √Åri seinna ver√∞ur m√≥√∞ir Helgu eftir til a√∞ reyna a√∞ eignast gjafir eins og √æ√¶r sem Helga f√©kk. √ûegar barni√∞ kemur og bi√∞ur m√≥√∞urina um mat brj√°last h√∫n og sl√¶r til √æess og br√Ωtur √° √æv√≠ hendina. √ûegar f√≥lk kemur aftur a√∞ b√¶num s√©r √æa√∞ m√≥√∞urina bar√∞a og bl√≥√∞uga og h√∫n segir fr√° √æv√≠ sem ger√∞ist og deyr svo. √ç s√∂gunni kom Helga fram vi√∞ alla af vir√∞ingu, gjafmildi og  kurteisi. √Ålfunum leist vel √° √æa√∞ og ver√∞launu√∞u hana me√∞ gj√∂fum og g√≥√∞u l√≠fi. En m√≥√∞irin sem kom fram vi√∞ barni√∞ me√∞ d√≥naskap og ofbeldi f√©kk√æa√∞ sem h√∫n gaf til baka og var barin til dau√∞a. √ç √æessari s√∂gu m√° sj√° n√°tt√∫ru √°lfa og hulduf√≥lks √° sk√Ωran h√°tt.  √ûa√∞ er greinilegt a√∞ v√¶ttir gegna st√≥ru hlutverki √≠ √æj√≥√∞s√∂gum √° √≠slandi og √≠ √∂√∞rum l√∂ndum. √ç gegn um t√≠√∞ina hafa v√¶ttir veri√∞ nota√∞ir til √æess a√∞ √∫tsk√Ωra skr√≠tna atbur√∞i og √æa√∞ sem f√≥lk gat ekki √∫tsk√Ωrt √° a√∞ra vegu. "

qa_sent = [
    "Hverjir eru helstu flokkar v√¶tta √≠ √≠slenskum √æj√≥√∞s√∂gum?",
    "Voru Dj√°knin og Gu√∞r√∫n √° g√≥√∞um n√≥tum √°√∞ur en hann d√≥?",
    "Hver er √æekkstasta tr√∂llskessa √≠ √≠slenskum √æj√≥√∞s√∂gum?",
    "Hver er helsti tilgangur drauga og afturganga √≠ √≠slenskum √æj√≥√∞s√∂gum?",
    "Hverjir g√°fu √∫t Grimms √Üvint√Ωri?",
]

for question in qa_sent:
    print(f"q: {question}\na: {qa(question=question, context=qa_context)['answer']}\n")

q: Hverjir eru helstu flokkar v√¶tta √≠ √≠slenskum √æj√≥√∞s√∂gum?
a:  tr√∂ll.

q: Voru Dj√°knin og Gu√∞r√∫n √° g√≥√∞um n√≥tum √°√∞ur en hann d√≥?
a:  draugasaga, dj√°kninn og Gu√∞r√∫n eru √° g√≥√∞um n√≥tum

q: Hver er √æekkstasta tr√∂llskessa √≠ √≠slenskum √æj√≥√∞s√∂gum?
a:  Gilitrutt

q: Hver er helsti tilgangur drauga og afturganga √≠ √≠slenskum √æj√≥√∞s√∂gum?
a:  a√∞ hrella manneskjur sem voru n√°nar √æeim √≠ l√≠finu.



Talsvert betri sv√∂r n√∫na, greinilegt a√∞ √æa√∞ er magn textans sem skiptir meira m√°li en g√¶√∞in √æv√≠ v√° √æessi ritger√∞ er ekki g√≥√∞.

In [15]:
q = input("Hva√∞ viltu vita um √≠slenskar √æj√≥√∞s√∂gur?")

print(f"q: {q}\na: {qa(question=q, context=qa_context)['answer']}\n")

q: Hver er Gilitrutt
a:  Ein af √æekktustu √æj√≥√∞sagnakenndu tr√∂llskessum landsins



## 3. m√≥del
√ûetta m√≥del er byggt ofan√° [mt5](https://huggingface.co/google/mt5-base) m√≥del fr√° google sem s√©rh√¶fir sig √≠ a√∞ s√∫mmera texta og s√≠√∞an s√©r√æj√°lfa√∞ √° g√∂gnum fr√° R√∫v

M√≥deli√∞ notar b√¶√∞i encoding og decoding

In [27]:
from transformers import pipeline

summarizer = pipeline("summarization", model="thors/mt5-base-icelandic-summarization")



In [28]:
context = "Hall√≥ hall√≥, √ûorvaldur Tumi heiti √©g og er 22 √°rs gamall. √âg er a√∞ l√¶ra t√∂lvunarfr√¶√∞i me√∞ f√≥kus √° framendaforritun og hef unni√∞ √≠ nokkrum fullstack verkefnum, b√¶√∞i einn og me√∞ me√∞ teymi. M√©r finnst gaman a√∞ birta √æa√∞ sem √©g er a√∞ vinna √≠ og hef miki√∞ d√°l√¶ti af √æv√≠ a√∞ b√∫a til s√Ωnid√¶mi og kennsluefni sem a√∞rir g√¶tu haft gagn e√∞a gaman af √æv√≠ a√∞ sko√∞a. √âg hef √°g√¶tis reynslu √≠ m√∂rgum tungum√°lum, √æar m√° nefna C, C++, java, javascript / typescript, rust og python, auk √æeirra hef √©g snert √° fleiri m√°lum eins og R, haskell og Zig."

summarizer(context)[0]['summary_text']

'Hall√≥ Hall√≥sson, 22, er a√∞ l√¶ra t√∂lvunarfr√¶√∞i me√∞ f√≥kus √° framendaforritun. Hann hefur √°g√¶tis reynslu √≠ m√∂rgum tungum√°lum og hefur einnig snert √° fleiri m√°lum.'

M√≥deli√∞ er √æj√°lfa√∞ √° fr√©ttum fr√° R√öV √æannig √∫tkoman sem √æa√∞ gefur meikar sens √ær√°tt fyrir a√∞ vera ekki endilega √æa√∞ sem √©g hef√∞i b√∫ist vi√∞. √ûetta er skemmtilegt m√≥del og v√¶ri au√∞velt a√∞ n√Ωta √æa√∞  √âg pr√≥fa √æetta aftur me√∞ alv√∂ru fr√©tt. 

In [30]:
summarizer("M√≥tm√¶li gegn sj√≥kv√≠aeldi f√≥ru fram √° Austurvelli √≠ dag. Eflt var til √≥venjulegs gj√∂rnings a√∞ m√≥tm√¶lunum loknum √æegar ‚Äûl√∫saeitri‚Äú var hellt yfir Austurv√∂ll og yfir dau√∞a fiska vi√∞ Al√æingish√∫si√∞. √ç tilkynningu segir a√∞ b√¶ndur og landeigendur muni keyra alls sta√∞ar af √° landinu og fylkja li√∞i ni√∞ur √° Austurv√∂ll. Gengi√∞ ver√∞ur fr√° b√≠last√¶√∞i H√°sk√≥la √çslands a√∞ Austurvelli √æar sem m√≥tm√¶lin fara fram.√Årni P√©tur Hilmarsson vei√∞ima√∞ur og J√≥hannes Sturlaugsson l√≠ffr√¶√∞ingur munu √°varpa fundinn. √û√° mun Bubbi Morthens taka lagi√∞. Bubbi h√≥f fundinn √° a√∞ spila tv√∂ l√∂g. Inga Lind Karlsd√≥ttir st√Ωr√∞i fundinum og t√≥k til m√°ls. J√≥hannes Sturlaugsson l√≠ffr√¶√∞ingur t√≥k til m√°ls. ‚ÄûV√©r m√≥tm√¶lum √∂ll!‚Äú sag√∞i J√≥hannes √≠ r√¶√∞u sinni vi√∞ mikinn f√∂gnu√∞.√ûegar Gu√∞laugur √û√≥r √û√≥r√∞arson umhverfis-, orku- og loftslagsm√°lar√°√∞herra t√≥k til m√°ls t√≥ku sumir fundarmenn upp √° √æv√≠ a√∞ p√∫a √° hann. √ç vi√∞tali vi√∞ fr√©ttamann a√∞ r√¶√∞u lokinni sag√∞i hann sj√≥kv√≠aeldin ekki vera m√°l √° hans bor√∞i, en j√°ta√∞i √≠ lei√∞ a√∞ um alvarlegt m√°l v√¶ri a√∞ r√¶√∞a, og v√≠sa√∞i til √¶tla√∞s brots Artic Sea Farm.Undir lok fundarins gaf Inga Lind m√≥tm√¶lendum √æau fyrirm√¶li a√∞ hella ‚Äûl√∫saeitri‚Äú yfir Austurv√∂ll √∫r fl√∂skum sem skipuleggjendur h√∂f√∞u ra√∞a√∞ upp vi√∞ svi√∞i√∞.")[0]["summary_text"]

'M√≥tm√¶li gegn sj√≥kv√≠aeldi f√≥ru fram √° Austurvelli √≠ dag. B√¶ndur og landeigendur keyra alls sta√∞ar af √° landinu og fylkja li√∞i ni√∞ur √° Austurv√∂ll.'

√ûetta m√≥del getur skila√∞ mj√∂g g√≥√∞u og hnitmi√∞u√∞u yfirliti yfir texta, svo lengi sem √æeir s√©u skrifa√∞ir eins og fr√©ttir, √æ.e. vir√∞ist vera 3. pers√≥nu fr√°s√∂gn.

In [31]:
non_sum = input("Sl√°√∞u inn texta sem √æ√∫ vilt stytta: ")
print(summarizer(non_sum)[0]["summary_text"])

Your max_length is set to 128, but your input_length is only 33. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=16)


√ûorvaldur Tumi Baldursson, ma√∞ur √° √æremur hunda og vinnur √≠ b√∫√∞. Hann er t√∂lvunarfr√¶√∞i nemandi og kennari.
