# 1. - Playing with pre-trained, static embeddings

## 1.1)
Choose 10 words and find the 5 words that the models think are most similar to
those words (the 5 words that have the highest cosine similarity to each of the
words you chose). Choose three verbs, three adjectives and four nouns. Are the
results the way you would have expected (are these words actually similar to
the input word)? Why/why not? Is there a difference between the results of the
two models? Which performs better and why do you think that is?

In [1]:
import gensim.downloader as api
wv = api.load('word2vec-google-news-300')



In [22]:
from gensim.models.fasttext import FastText
from gensim.test.utils import datapath

# Set file names for train and test data
corpus_file = datapath('lee_background.cor')

model = FastText(vector_size=100)

# build the vocabulary
model.build_vocab(corpus_file=corpus_file)

# train the model
model.train(
    corpus_file=corpus_file, epochs=model.epochs,
    total_examples=model.corpus_count, total_words=model.corpus_total_words,
)

(164386, 301935)

In [32]:
# three verbs word to vec
print("wv:", [word[0] for word in wv.most_similar(positive=['run'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['run'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['listen'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['listen'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['be'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['be'], topn=5)])

wv: ['runs', 'running', 'drive', 'ran', 'scamper']
ft:   ['runs', 'death', 'In', 'Premier', 'Royal']

wv: ['listening', 'listened', 'visit_www.timewarner.com_investors', 'hear', 'Listen']
ft:   ['list', 'contested', 'members', 'organisation', 'ministers']

wv: ['being', 'tobe', 'are', 'have', 'willbe']
ft:   ['whether', 'become', 'became', 'anything', 'not']


In [34]:
# three adjectives w2v
print("wv:", [word[0] for word in wv.most_similar(positive=['good'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['good'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['bad'], topn=5)])  
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['bad'], topn=5)])  
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['boring'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['boring'], topn=5)])

wv: ['great', 'bad', 'terrific', 'decent', 'nice']
ft:   ['issues', 'very', 'whether', 'growing', 'looking']

wv: ['good', 'terrible', 'horrible', 'Bad', 'lousy']
ft:   ['places', 'than', 'bowling', 'planning', "company's"]

wv: ['dull', 'uninteresting', 'monotonous', 'bored', 'bland']
ft:   ['hearing', 'during', 'bring', 'injuring', 'bringing']


In [36]:
# four nouns
print("wv:", [word[0] for word in wv.most_similar(positive=['car'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['car'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['dog'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['dog'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['brownie'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['brownie'], topn=5)])
print()
print("wv:", [word[0] for word in wv.most_similar(positive=['computer'], topn=5)])
print("ft:  ", [word[0] for word in model.wv.most_similar(positive=['computer'], topn=5)])


wv: ['vehicle', 'cars', 'SUV', 'minivan', 'truck']
ft:   ['carried', 'entered', 'leading', 'continued', 'water']

wv: ['dogs', 'puppy', 'pit_bull', 'pooch', 'cat']
ft:   ['immediately', 'week.', 'company', 'create', 'department']

wv: ['brownies', 'pogi', 'corn_muffins', 'vanilla_cone', 'red_velvet_cupcake']
ft:   ['real', 'reduced', 'side', 'decide', 'brought']

wv: ['computers', 'laptop', 'laptop_computer', 'Computer', 'com_puter']
ft:   ['international', 'leading', 'International', 'supporters', 'enter']


Most of the words using word to vec are similar to the input word, the one weird outlier being 'visit_www.timewarner.com_investors' which also somehow renders as a link?? Fasttext seems to gravitate more towards words that could come before or after or are just include the word as a substring.

But the likeness in the words can come from opposites as seen in good for wv which has bad as the second closest word, and bad has good as it's closest word.

## 1.2)
Have the models answer 5 analogy questions (something like king – man + woman = queen). Report your results. Do the models get the questions right?
How often is the correct answer within the top 10 most likely words but not the
top scoring one? How often does the model not get the question right? What
could be the cause of that?

In [40]:
# king - man + woman = queen
print([word[0] for word in wv.most_similar(positive=["king", "woman"], negative=["man"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["king", "woman"], negative=["man"], topn=10)])

# monkey - animal + thinking = human
print()
print([word[0] for word in wv.most_similar(positive=["monkey", "thinking"], negative=["animal"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["monkey", "thinking"], negative=["animal"], topn=10)])

# house - roof = garden
print()
print([word[0] for word in wv.most_similar(positive=["house", "garden"], negative=["animal"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["house", "garden"], negative=["animal"], topn=10)])

# spork - spoon = fork
print()
print([word[0] for word in wv.most_similar(positive=["spork", "fork"], negative=["spoon"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["spork", "fork"], negative=["spoon"], topn=10)])

# child + time = adult
print()
print([word[0] for word in wv.most_similar(positive=["child", "time"], topn=10)])
print([word[0] for word in model.wv.most_similar(positive=["child", "time"], topn=10)])

['queen', 'monarch', 'princess', 'crown_prince', 'prince', 'kings', 'Queen_Consort', 'queens', 'sultan', 'monarchy']
['calling', 'responding', 'trying', 'respond', 'working', 'worked', 'having', 'playing', 'acting', 'losing']

['dreaming', 'Thinking', 'daydreaming', 'thinkin', 'spit_balling', 'maybe', 'fantasizing', 'talking', 'Psh', 'Heh_heh']
['playing', 'throughout', 'growing', "don't", 'making', 'saying', 'staying', 'your', 'through', 'though']

['bungalow', 'gardens', 'vegetable_garden', 'patio', 'houses', 'bedroom', 'terrace', 'summerhouse', 'cottage', 'herb_garden']
['whose', 'though', 'always', 'received', 'director', 'Another', 'locked', 'receive', 'students', 'lower']

['forks', 'forking', 'similarly_specced', 'iWallet', 'Forking', 'forked', 'Macalope', 'Acer_netbook', 'pricetag', 'santoku']
['tennis', 'work', 'stage', 'wage', 'treatment', 'recent', 'statement', 'several', 'expressed', 'traditional']

['grandchild', 'children', 'chld', 'child_ren', 'collapse_Betsy_Sathers', '

Ég var að muna að ég get svarað á íslensku 😎 

Ég hef eiginlega ekki hugmynd um hvað er í gangi hjá fasttext, ég get svona eiginlega giskað á hvað útkoman hjá w2v verði, kannski er það einfaldlega því það er stærra og betra módel, en þó ekki alltaf

Þótt ég skilji ekki alveg FT þá finnst mér ehv fallegt við að monkey - animal + thinking hafi útkomuna playing sem líklegasta match

# 2. - Train your own embeddings

Fyrst, ólemmuð gögn

In [68]:
import gensim 

with open('../data/log.txt', 'r', encoding='utf-8') as f:
    txt = f.read().split()
    mymodel= gensim.models.Word2Vec([txt],min_count=1)

In [75]:
print("hlaupa:", [ord[0] for ord in mymodel.wv.most_similar(positive=['hlaupa'], topn=5)])
print("hlusta:", [ord[0] for ord in mymodel.wv.most_similar(positive=['hlusta'], topn=5)])
print("vera:", [ord[0] for ord in mymodel.wv.most_similar(positive=['vera'], topn=5)])
print("góður:", [ord[0] for ord in mymodel.wv.most_similar(positive=['góður'], topn=5)])
print("vondur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['vondur'], topn=5)])
print("þreyttur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['þreyttur'], topn=5)])
print("ferð:", [ord[0] for ord in mymodel.wv.most_similar(positive=['ferð'], topn=5)])
print("hundur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['hundur'], topn=5)])
print("brauð:", [ord[0] for ord in mymodel.wv.most_similar(positive=['brauð'], topn=5)])
print("draumur:", [ord[0] for ord in mymodel.wv.most_similar(positive=['draumur'], topn=5)])


hlaupa: ['kysst', 'hlekk', 'tállaus', 'Síldarvalsinn', 'slappi']
hlusta: ['stórfínt.', 'sólbjörtu', 'skriður.', 'sólarlag', 'flögraði']
vera: ['hundruðum', 'ysta', 'flögraði', 'hóglátt', 'dansleikjum']
góður: ['blóðið', 'ba-bú,', 'verpir', 'uppfrá', 'ekið']
vondur: ['þrír.', 'Blessast', 'Gunna-Stína', 'kryfja', 'Gyða']
þreyttur: ['sigldir', 'glaður.', "gestanna'", 'himinbaug,', 'Litlar']
ferð: ['blysum............', 'húmi,', 'brúðu', 'hjartarótinni.', 'kallaður']
hundur: ['tjaldað', 'ballalest-lest-lest,', 'Maja,', 'hamast', 'hestinum']
brauð: ['hljóður', 'kæri“.', 'paradís.', 'næst,', 'hiklaust']
draumur: ['Jörundar', 'hausti', 'hæðum', 'barnahópur', 'Galar,']


Nú notum við lemmuð gögn sem eru vistuð í ../data/all_lemmas.txt tekið úr verkefni tvö, 

In [67]:
with open('../data/all_lemmas.txt', 'r', encoding='utf-8') as f:
    txt = f.read().split()
    mylemmas = gensim.models.Word2Vec([txt],min_count=1)

In [76]:
print("hlaupa:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['hlaupa'], topn=5)])
print("hlusta:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['hlusta'], topn=5)])
print("vera:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['vera'], topn=5)])
print("góður:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['góður'], topn=5)])
print("vondur:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['vondur'], topn=5)])
print("þreytt:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['þreyttur'], topn=5)])
print("ferð:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['ferð'], topn=5)])
print("hundur:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['hundur'], topn=5)])
print("brauð:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['brauð'], topn=5)])
print("draumur:", [ord[0] for ord in mylemmas.wv.most_similar(positive=['draumur'], topn=5)])

hlaupa: ['hjarta', 'út', 'margur', 'þú', 'allt']
hlusta: ['stjarna', 'bál', 'sár', 'Tra-rí', 'saga']
vera: ['og', 'í', 'á', 'að', 'ég']
góður: ['hann', 'að', 'ég', 'og', 'í']
vondur: ['lyng', 'næturlest', 'fölnaður', 'lífga', 'Arnarhóll']
þreytt: ['dans', 'hlæja', 'þessi', 'bara', 'synda']
ferð: ['tófa', 'króna', "líka'", 'fjallasalur', 'oní']
hundur: ['von', 'þegar', 'með', 'ekki', 'segja']
brauð: ['kvæði', 'úti', 'ganga', 'sitja', 'barn']
draumur: ['þá', 'við', 'og', 'í', '—']


Eins og sést meika hvorugar niðurstöðurnar nokkurn sens, það næsta sem kemst því að vera ehv er $ferð -> tófa$ einfaldlega vegna þess að tófur eru alltaf ehv á vappinu en kannski er ég að leita að meiningu þar sem er engin. Þrátt fyrir að lemmunin hafi gert niðurstöðurnar hugsanlega aðeins réttari þá minnkaði líka orðasafnið okkar úr ~80k orðum niður í ~35k sem vinnur líklega á móti hagnaðinum

Prófum einu sinni enn og breytum hyper parametrunum aðeins

In [92]:
with open('../data/all_lemmas.txt', 'r', encoding='utf-8') as f:
    txt = f.read().split()
    posbetter = gensim.models.Word2Vec([txt],negative=10,min_count=5, vector_size=100)

In [93]:
print("hlaupa:", [ord[0] for ord in posbetter.wv.most_similar(positive=['hlaupa'], topn=5)])
print("hlusta:", [ord[0] for ord in posbetter.wv.most_similar(positive=['hlusta'], topn=5)])
print("vera:", [ord[0] for ord in posbetter.wv.most_similar(positive=['vera'], topn=5)])
print("góður:", [ord[0] for ord in posbetter.wv.most_similar(positive=['góður'], topn=5)])
print("vondur:", [ord[0] for ord in posbetter.wv.most_similar(positive=['vondur'], topn=5)])
print("þreytt:", [ord[0] for ord in posbetter.wv.most_similar(positive=['þreyttur'], topn=5)])
print("ferð:", [ord[0] for ord in posbetter.wv.most_similar(positive=['ferð'], topn=5)])
print("hundur:", [ord[0] for ord in posbetter.wv.most_similar(positive=['hundur'], topn=5)])
print("brauð:", [ord[0] for ord in posbetter.wv.most_similar(positive=['brauð'], topn=5)])
print("draumur:", [ord[0] for ord in posbetter.wv.most_similar(positive=['draumur'], topn=5)])


hlaupa: ['nú', 'sinn', 'blár', 'þinn', 'við']
hlusta: ['sumur', 'hefja', 'ljóð', 'geyma', 'land']
vera: ['með', 'er', 'við', 'hún', 'til']
góður: ['hann', 'við', 'sem', 'sig', 'en']
vondur: ['þjóðvísa', 'rökkur', 'elli', 'sunna', 'ilmur']
þreytt: ['blóm', 'bíða', 'áfram', 'sál', 'heyra']
ferð: ['söngur', 'gulur', 'samt', 'lind', 'góður']
hundur: ['sérhver', 'mikill', 'eins', 'tíð', 'alltaf']
brauð: ['amma', 'er', 'öld', 'leið', 'bær']
draumur: ['nótt', 'hún', 'þá', 'sem', 'um']


Ok bara við það að hækka `min_count` upp í 5 lét okkur hafa niðustöður sem virðast allaveg vera nær því að vera réttar en upphaflegu niðurstöðurnar, þær eru þó frekar lélegar

# 3. - Transformers B)

## 1. módel
Ég tók 2 ár af spænsku í menntaskóla nú er áhugavert að sjá hvort ég muni ehv af því sem ég lærði.

[Módelið](https://huggingface.co/Helsinki-NLP/opus-mt-is-es) er þjálfað á [opus-2020-06-17](https://github.com/Helsinki-NLP/Tatoeba-Challenge/blob/master/models/isl-spa/README.md) og er bæði encoder og decoder

In [17]:
from transformers import pipeline
is_es_translator = pipeline("translation", model="Helsinki-NLP/opus-mt-is-es")



In [21]:
# Setning sem ég mun aldrei gleyma: má ég vinsamlegast fara á klósettið? 
is_sent = [
    "Má ég vinsamlegast fara á klósettið?",             # puedo ir al bano por favor?
    "Góðann daginn, ég heiti Tumi, hvað heitir þú?",    # buenos dias, me llamo Tumi, coma te llamas?
    "Klukkan er korter yfir 6",                         # las hora es seis i cuarto
    "Ég er 25 ára",                                     # tengo viente y cinco anos
]

for es_sent in is_sent:
    print(f"is: {es_sent}\nes: {is_es_translator(es_sent)[0]['translation_text']}\n")

is: Má ég vinsamlegast fara á klósettið?
es: ¿Puedo ir al baño, por favor?

is: Góðann daginn, ég heiti Tumi, hvað heitir þú?
es: Buenos días, soy Tumi. ¿Cómo te llamas?

is: Klukkan er korter yfir 6
es: Son las 6:15 de la mañana.

is: Ég er 25 ára
es: Tengo 25 años.



Nú er spurning hvort er að bregðast mín spænskukunnátta úr menntaskóla eða módelið, ég set peninginn á mig en ég ætla þó að henda þessum setningum í gegnum translate til að vera viss.

- Samkvæmt translate er fyrsta rétt, ég vissi það.
- Samkvæmt translate höfum bæði ég og módelið rangt fyrir okkur, en ég er samt eiginlega viss um að báðar þýðingar séu réttar "soy Tumi" þýðir samt eiginlega "ég er Tumi" en hægt að nota það fyrir "ég heiti"
- Þarf ekki að setja í gegnum translate til að vita að þetta "de la manana" ætti ekki að vera þarna, það er kannski líklegt að ég sé að tala um "6 um morguninn" en ég sagði það ekki, auk þess finnst mér skræfu move að nota tölustafi
- Þetta er gilt en eins og fyrir ofan finnst mér pínu leiðinlegt að notaðir séu tölustafir

In [7]:
is_input = input("Sláðu inn íslensku setningu: ")
print(f"is: {is_input} -> es: {is_es_translator(is_input)[0]['translation_text']}")

is: vinur minn gunnar er að drekka gos -> es: Mi amigo está bebiendo refresco


## 2. módel
[Þetta módel](https://huggingface.co/vesteinn/XLMr-ENIS-QA-Is) var sýnt í tíma

Það er byggt á þýddum enskum gagnasöfnum ásamt gagnasafni um eðlilegar íslenskar spurningar. Það stendur ekki en ég reikna með að það noti bæði encoder, fyrir input, og decoder fyrir output

In [2]:
from transformers import pipeline
qa = pipeline("question-answering", "vesteinn/XLMr-ENIS-QA-Is")

  from .autonotebook import tqdm as notebook_tqdm


In [11]:
# Ég nota hérna aðeins breyttan kynningar texta af heimasíðunni minni sem context
qa_context = "Halló halló, Þorvaldur Tumi heiti ég og er 22 árs gamall. Ég er að læra tölvunarfræði með fókus á framendaforritun og hef unnið í nokkrum fullstack verkefnum, bæði einn og með með teymi. Mér finnst gaman að birta það sem ég er að vinna í og hef mikið dálæti af því að búa til sýnidæmi og kennsluefni sem aðrir gætu haft gagn eða gaman af því að skoða. Ég hef ágætis reynslu í mörgum tungumálum, þar má nefna C, C++, java, javascript / typescript, rust og python, auk þeirra hef ég snert á fleiri málum eins og R, haskell og Zig."


qa_sent = [
    "Hver er Þorvaldur Tumi?",
    "Hver er Þorvaldur Tumi Baldursson?",
    "Hvað er Tumi að læra?",
    "Hver eru helstu forritunarmál Tuma?",
    "Í hvaða tungumálum hefur Tumi mesta reynslu?",
    "Hvaða tungumál má nefna sem Tumi hefur ágæta reynslu í?",
    "Hvað eru fleiri tungumál sem Tumi hefur snert á?",
    "Hvað er Tumi gamall?",
]

for question in qa_sent:
    print(f"q: {question}\na: {qa(question=question, context=qa_context)['answer']}\n")

q: Hver er Þorvaldur Tumi?
a:  Ég er að læra tölvunarfræði

q: Hver er Þorvaldur Tumi Baldursson?
a: Halló halló,

q: Hvað er Tumi að læra?
a:  tölvunarfræði

q: Hver eru helstu forritunarmál Tuma?
a:  framendaforritun

q: Í hvaða tungumálum hefur Tumi mesta reynslu?
a:  verkefnum,

q: Hvaða tungumál má nefna sem Tumi hefur ágæta reynslu í?
a:  nokkrum

q: Hvað eru fleiri tungumál sem Tumi hefur snert á?
a:  R, haskell og Zig.

q: Hvað er Tumi gamall?
a:  22



Nú er það líklega biasinn minn eftir að hafa notað Chat-GPT helling en ég hélt að módelið yrði betra í að svara spurningunum. Eins og sést fyrir ofan eru ekki nema alveg hnitimiðuðustu spurningunum svarað rétt. Textinn minn gæti þó líka verið að sök hér þannig ég ætla prófa aftur með stærra context.

In [14]:
# ritgerð sem ég gerði í íslensku á 2. ári í menntaskóla um vætti og verur í íslenskum þjóðsögum
qa_context = "Íslenskar þjóðsögur innihalda margar hverjar einhverskonar yfirnáttúrulega vætti eða verur. Hægt er að spyrja sig hvers konar vættir eru í íslenskum þjóðsögum og hvaða hlutverki gegna þeir. Í þessari ritgerð verður litið á vætti úr völdum íslenskum þjóðsögum og farið yfir tilgang þeirra og hegðun. Þjóðsögur hafa fylgt íslensku þjóðinni í aldanna rás. „Hugtakið þjóðsaga er notað um frásagnir sem lengi hafa gengið í munnmælum meðal alþýðu manna, sumar öldum saman.“. Ragnhildur Richter o.fl. 2014:224 Eins og kemur fram í kennslubókinni íslenska fjögur voru margar af vinsælustu íslensku þjóðsögunum teknar saman á rómantíska tímabilinu. Safnað var saman mörgum íslenskum þjóðsögum og þær skráðar niður í anda rómantískra hugmynda. Hugmyndina að safna saman þjóðsögum er hægt að rekja til Grimm bræðranna, Jakobs og Wilhelms Grimm. Þeir gáfu út þekkta sögusafnið „Grimms ævintýri“ snemma á 19. öld og eftir það fylgdu margir fræðimenn í fótspor bræðranna og söfnuðu sínum þjóðsögum saman. Þjóðsögur voru oft uppspuni frá byrjun til enda en það varlíka þekkt að þjóðsögur væru byggðar í kring um einhvern eða einhverja sannsögulega atburði. Þjóðsögur voru líka notaðar sem tól til að útskýra hið óútskýranlega eins og mikla heppni eða harðan vetur og ef uppskeran var lítil var það ekki vegna þess að illa var ræktað heldur vegna þess að einhver hafði gert álfa reiða eða eitthvað álíka. Íslenskar þjóðsögur enduðu oftast á tvo vegu, annaðhvort endaði aðalpersónan verr sett en fyrir atburði sögunnar, dauð eða geðveik eða hún endaði betur sett en hún var fyrir atburði sögunnar, rík og glöð. Þetta er ljóst um leið og maður byrjar að lesa þjóðsögur. Sögurnar innihalda vætti af öllum stærðum og gerðum og í flestum tilfellum er hægt að flokka þá í tvennt, góða eða vonda vætti. Góðir vættir vilja oftast vel og hjálpa sögupersónum að ná sínu fram eða til þess að bæta stöðu sína, oft með yfirnáttúrulegum eða óútskýranlegum hætti. Dæmi um vætt sem hjálpar sögupersónunni að komast á betri stað er sagan „Þá hló marbendill“. Í þeirri sögu er aðal sögupersónan að veiða og veiðir marbendil óvart. Marbendlinum líst ekkert á það og biður manninn um að sleppa sér en þegar maðurinn vill það ekki hættir marbendill að tala. Þrisvar sinnum í sögunni hlær marbendill að einhverju sem er að gerast og maðurinn verður forvitinn og vill vita  af hverju. Marbendill segist ekki muni segja af hverju hann hló nema honum verði sleppt aftur þar sem hann var veiddur. Maðurinn fellst á það og marbendill segir honum frá hlutum sem hann gat ekki vitað nema á einhvern yfirnáttúrulegan hátt. Þegar maðurinn er búinn að ganga úr skugga um sannindi þess sem marbendill sagði sleppir hann marbendlinum. Í sögunni græddu báðir aðilar. Maðurinn fékk gull sem marbendill sagði honum frá auk kúa sem marbendill sendi honum eftir að hafa verið sleppt og marbendill komst aftur heim og er þannig betur settur en á horfðist í byrjun sögunnar   Vondir vættir eru andstæðurnar við þá góðu. Vondir vættir reyna að skemma fyrir sögupersónum, stundum hafa þeir ástæðu til að gera það en stundum að ástæðulausu. Gott dæmi um vondan vætt með ástæðu fyrir gjörðum sínum er sagan um Gilitrutt. Í henni gerir húsfreyja samkomulag við skessu um að vinna verk fyrir sig fyrir laun sem skessan ákvarðar. Launin eru að húsfreyja þarf að geta nafn skessunnar innann þriggja tilrauna þegar þær hittast næst. Ef húsfreyja getur ekki uppfyllt skilyrði samkomulagsins er gefið í skyn að skessan muni éta hana. Þarna er skessan vondur vættur en hefur ástæðu til að gera það sem hún gerir vegna þess að skessan og húsfreyja gerðu samkomulag.   Stundum er ekkert sérstakt sem ýtir undir hegðun vætta og þeir gera sögupersónum bara illt vegna þess að þeir eru vondir í eðli sínu. Dæmi um sögu þar sem vættur er vondur í eðli sínu er sagan um djáknann á Myrká. Sagan gerist í Eyjafirði og segir frá tveimur manneskjum, djákna í sveitinni og konu sem hét Guðrún, þau voru í sambandi. Djákninn er að ferðast en kemst ekki á leiðarenda., Bóndi í sveitinni finnur hann látinn en fréttir af dauða hans berast ekki til bæjarins þar sem Guðrún er. Á aðfangadag fór Guðrún að Myrká til að taka þátt í skemmtun sem var þar. Þegar Guðrún býr sig undir að fara er barið að dyrum og þegar Guðrún fer til að athuga sér hún hest djáknans auk manns sem hún telur að sé djákninn og sest á bak hestsins. Þegar hesturinn hnýtur sér Guðrún hnakka djáknans sem og bregður þegar hún sér í bera höfuðkúpuna. Þau ríða að opinni gröf og Guðrún verður svakalega hrædd og byrjar að hringja kirkjubjöllum. Djákninn hélt áfram að ásækja Guðrúnu á kvöldin þangað til galdramaður er fenginn til að særa niður djáknann. Sagan er dæmigerð draugasaga, djákninn og Guðrún eru á góðum nótum áður en hann deyr en um leið og þau hittast eftir dauða hans breytist það. Draugar eiga að vera vondir og djákninn fylgir því þrátt fyrir að hafa ekkert á móti Guðrúnu áður en hann deyr. Eina markmið hans er að vera illur í garð Guðrúnar. Hægt er að skipta flestum þjóðsagnavættum í hópa út frá gjörðum þeirra en þeim er líka hægt að skipta niður fleiri meginflokka. Þessir flokkar eru samt bara regnhlífar yfir hundruði vætta og vera í íslenskum þjóðsögum Einn flokkur vætta i íslenskum þjóðsögum eru tröll. Tröll eru stór og klunnaleg en geta þó verið mjög klár þrátt fyrir útlit sitt. Tröll eru þekkt fyrir það að borða fólk og eiga það til að setja fram gátur til að blekkja eða lokka fólk til sín svo að tröllin geti étið þau. Ein af þekktustu þjóðsagnakenndu tröllskessum landsins er Gilitrutt sem lét giska á nafnið sitt. Draugar og afturgöngur eru annar stór flokkur. Eins og tröllin eru þessir vættir oftast ekki að leitast eftir því að vera góðir við persónur sagnanna sem þeir tilheyra. Draugar og afturgöngur eiga það gjarnan til að hrella manneskjur sem voru nánar þeim í lífinu. Dæmi um afturgöngu í sögu er Miklabæjar Sólveig, kona sem sturlaðist þegar maðurinn sem hún elskaði vildi hana ekki. Hún tekur sitt eigið líf og gengur aftur til þess að reyna að drepa manninn sem hún eitt sinn elskaði. Henni tekst það og þegar fólkið í kringum manninn reyndi að finna út hvað hafði gerst fór hún á eftir þeim líka og ógnaði þeim í draumum . Eftir það var hætt að reyna finna út hvað hafði komiðfyrir manninn og ekkert heyrðistaf Sólveigu fyrr en sonur mannsins ætlaði að sofa hjá konu sinni í fyrsta skiptið  en þá ásótti Sólveig hann, sem reyndar náði að halda henni í skefjum. Huldufólk og álfar eru þriðji af stærstu flokkum vætta í íslenskum þjóðsögum. Erfitt er að flokka hegðun álfa og huldufólks niður í gott eða vont vegna þess að hegðun þeirra endurspeglast alveg í því hvernig komið fram er við þá. Álfar eru fínir, vitrir og friðsælir svo lengi sem komið er fram við þá af virðingu. Gott dæmi um skap álfa er sagan um Helgu bóndadóttur og álfana. Helga er stelpa sem er lítilsvirt af fjölskyldunni sinni. Hún er skilin eftir ein heima á aðfangadagskvöld til að passa bæinn og mjólka kýrnar. Allir sem hafa verið eftir einir á þessum tíma á þessum bæ hafa fundist látnir daginn eftir en mamma Helgu segir að í hennar tilviki  skipti það ekki máli þar sem enginn muni sakna hennar. Um kvöldið þegar hún er ein kemur barn inn í eldhúsið þar sem Helga er að elda, barnið biður um smá bita af mat og Helga gefur því mat þrátt fyrir að móðir hennar hafi bannað henni að fá sér af matnum. Barnið þakkar fyrir sig og fer. Seinna um kvöldið kemur hellingur af fólki sem Helga kannaðist ekki við inn á bæinn en Helga lætur þau í friði og þau koma fram við hana af virðingu á móti. Helga fer út til að  mjólka kúna og þá kemur  maður upp að henni og biður um að sofa hjá henni. Helga þvertekur fyrir það þangað til hann fer. Skömmu seinna kemur kona inn að þakka Helgu fyrir góðverk sín, að gefa barninu að borða og neita manninum, og gefur henni falleg föt og belti auk loforðs um að einn daginn muni hún giftast biskupi og vera gæfukona. Daginn eftir sjá móðir og systir Helgu gjafirnar og vilja eignast þær en Helga vill það ekki. Ári seinna verður móðir Helgu eftir til að reyna að eignast gjafir eins og þær sem Helga fékk. Þegar barnið kemur og biður móðurina um mat brjálast hún og slær til þess og brýtur á því hendina. Þegar fólk kemur aftur að bænum sér það móðurina barða og blóðuga og hún segir frá því sem gerðist og deyr svo. Í sögunni kom Helga fram við alla af virðingu, gjafmildi og  kurteisi. Álfunum leist vel á það og verðlaunuðu hana með gjöfum og góðu lífi. En móðirin sem kom fram við barnið með dónaskap og ofbeldi fékkþað sem hún gaf til baka og var barin til dauða. Í þessari sögu má sjá náttúru álfa og huldufólks á skýran hátt.  Það er greinilegt að vættir gegna stóru hlutverki í þjóðsögum á íslandi og í öðrum löndum. Í gegn um tíðina hafa vættir verið notaðir til þess að útskýra skrítna atburði og það sem fólk gat ekki útskýrt á aðra vegu. "

qa_sent = [
    "Hverjir eru helstu flokkar vætta í íslenskum þjóðsögum?",
    "Voru Djáknin og Guðrún á góðum nótum áður en hann dó?",
    "Hver er þekkstasta tröllskessa í íslenskum þjóðsögum?",
    "Hver er helsti tilgangur drauga og afturganga í íslenskum þjóðsögum?",
    "Hverjir gáfu út Grimms Ævintýri?",
]

for question in qa_sent:
    print(f"q: {question}\na: {qa(question=question, context=qa_context)['answer']}\n")

q: Hverjir eru helstu flokkar vætta í íslenskum þjóðsögum?
a:  tröll.

q: Voru Djáknin og Guðrún á góðum nótum áður en hann dó?
a:  draugasaga, djákninn og Guðrún eru á góðum nótum

q: Hver er þekkstasta tröllskessa í íslenskum þjóðsögum?
a:  Gilitrutt

q: Hver er helsti tilgangur drauga og afturganga í íslenskum þjóðsögum?
a:  að hrella manneskjur sem voru nánar þeim í lífinu.



Talsvert betri svör núna, greinilegt að það er magn textans sem skiptir meira máli en gæðin því vá þessi ritgerð er ekki góð.

In [15]:
q = input("Hvað viltu vita um íslenskar þjóðsögur?")

print(f"q: {q}\na: {qa(question=q, context=qa_context)['answer']}\n")

q: Hver er Gilitrutt
a:  Ein af þekktustu þjóðsagnakenndu tröllskessum landsins



## 3. módel
Þetta módel er byggt ofaná [mt5](https://huggingface.co/google/mt5-base) módel frá google sem sérhæfir sig í að súmmera texta og síðan sérþjálfað á gögnum frá Rúv

Módelið notar bæði encoding og decoding

In [27]:
from transformers import pipeline

summarizer = pipeline("summarization", model="thors/mt5-base-icelandic-summarization")



In [28]:
context = "Halló halló, Þorvaldur Tumi heiti ég og er 22 árs gamall. Ég er að læra tölvunarfræði með fókus á framendaforritun og hef unnið í nokkrum fullstack verkefnum, bæði einn og með með teymi. Mér finnst gaman að birta það sem ég er að vinna í og hef mikið dálæti af því að búa til sýnidæmi og kennsluefni sem aðrir gætu haft gagn eða gaman af því að skoða. Ég hef ágætis reynslu í mörgum tungumálum, þar má nefna C, C++, java, javascript / typescript, rust og python, auk þeirra hef ég snert á fleiri málum eins og R, haskell og Zig."

summarizer(context)[0]['summary_text']

'Halló Hallósson, 22, er að læra tölvunarfræði með fókus á framendaforritun. Hann hefur ágætis reynslu í mörgum tungumálum og hefur einnig snert á fleiri málum.'

Módelið er þjálfað á fréttum frá RÚV þannig útkoman sem það gefur meikar sens þrátt fyrir að vera ekki endilega það sem ég hefði búist við. Þetta er skemmtilegt módel og væri auðvelt að nýta það  Ég prófa þetta aftur með alvöru frétt. 

In [30]:
summarizer("Mótmæli gegn sjókvíaeldi fóru fram á Austurvelli í dag. Eflt var til óvenjulegs gjörnings að mótmælunum loknum þegar „lúsaeitri“ var hellt yfir Austurvöll og yfir dauða fiska við Alþingishúsið. Í tilkynningu segir að bændur og landeigendur muni keyra alls staðar af á landinu og fylkja liði niður á Austurvöll. Gengið verður frá bílastæði Háskóla Íslands að Austurvelli þar sem mótmælin fara fram.Árni Pétur Hilmarsson veiðimaður og Jóhannes Sturlaugsson líffræðingur munu ávarpa fundinn. Þá mun Bubbi Morthens taka lagið. Bubbi hóf fundinn á að spila tvö lög. Inga Lind Karlsdóttir stýrði fundinum og tók til máls. Jóhannes Sturlaugsson líffræðingur tók til máls. „Vér mótmælum öll!“ sagði Jóhannes í ræðu sinni við mikinn fögnuð.Þegar Guðlaugur Þór Þórðarson umhverfis-, orku- og loftslagsmálaráðherra tók til máls tóku sumir fundarmenn upp á því að púa á hann. Í viðtali við fréttamann að ræðu lokinni sagði hann sjókvíaeldin ekki vera mál á hans borði, en játaði í leið að um alvarlegt mál væri að ræða, og vísaði til ætlaðs brots Artic Sea Farm.Undir lok fundarins gaf Inga Lind mótmælendum þau fyrirmæli að hella „lúsaeitri“ yfir Austurvöll úr flöskum sem skipuleggjendur höfðu raðað upp við sviðið.")[0]["summary_text"]

'Mótmæli gegn sjókvíaeldi fóru fram á Austurvelli í dag. Bændur og landeigendur keyra alls staðar af á landinu og fylkja liði niður á Austurvöll.'

Þetta módel getur skilað mjög góðu og hnitmiðuðu yfirliti yfir texta, svo lengi sem þeir séu skrifaðir eins og fréttir, þ.e. virðist vera 3. persónu frásögn.

In [31]:
non_sum = input("Sláðu inn texta sem þú vilt stytta: ")
print(summarizer(non_sum)[0]["summary_text"])

Your max_length is set to 128, but your input_length is only 33. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=16)


Þorvaldur Tumi Baldursson, maður á þremur hunda og vinnur í búð. Hann er tölvunarfræði nemandi og kennari.
