# WordNet
* semantički orijentirani riječnik engleskog jezika, sličan tezarusu
* 155,287 riječi i 117,659 sinonimskih skupova

## Smisao i sinonimi
* __sinonimi__ = riječi istog značenja, npr. hrv. ljekarna - apoteka, engl. motorcar - automobile
* WordNet korpus u NLTK

In [1]:
from nltk.corpus import wordnet
wordnet.synsets('wolves')
wordnet.synset('dog.n.01').lemma_names() # leme sinonima
# definicija
wordnet.synset('dog.n.01').definition() # defincija sinonimskog skupa 
# primjer
wordnet.synset('dog.n.01').examples() # primjer koristenja
# leme
wordnet.synset('car.n.01').lemmas()   # leme pripadnih sinonima
wordnet.lemma('car.n.01.automobile').synset() 
wordnet.lemma('car.n.01.automobile').name()  # naziv leme


# sinonimski skupovi
wordnet.synsets('car') # nekoliko ....
wordnet.lemmas('car')

[Lemma('car.n.01.car'),
 Lemma('car.n.02.car'),
 Lemma('car.n.03.car'),
 Lemma('car.n.04.car'),
 Lemma('cable_car.n.01.car')]

## WordNet hijerarhija
* Sinonimski skupovi WordNeta se povezuju s apstraktnim konceptima opći(`Entity`,`State`,`Event`) i specijalizirani koncepti (npr. hatchback tip vozila )

<img src="wordnet.png" width="650">


## Leksičke relacije

* preko takvih koncepata možemo doći do *leksičkih relacija*:
    * __hiponimi/hipernimi__ = pojmovi koji predstavljaju jezični analogon podskupa/nadskupa nekog pojma, u hijerarhijskom smislu mogu se predstaviti u relaciji _roditelj-dijete_
    *  __meronimi__ = pojmovi koji predstavljaju komponente od kojih je načinjen neki drugi pojam
    * __holonimi__  = pojmovi unutar kojeg je sadržan neki pojam
    * __antonimi__  = pojmovi suprotnog značenja
    * __inherentni pojmovi (engl. entailment)__  = pojmovi koji su inherentno uključeni u dani pojam

In [2]:
# hiponimi i hipernimi
from nltk.corpus import wordnet
motorcar = wordnet.synset('car.n.01')
# hiponimi
hypoMotorcar = motorcar.hyponyms() # synset hiponima
print('\nhiponimi:', hypoMotorcar)
#sorted([lemma.name() for synset in hypoMotorcar for lemma in synset.lemmas()]) # ispisi nazive lema
# hipernimi
hyperMotorcar = motorcar.hypernyms()
print('\nhipernimi:', hyperMotorcar)
# putanja car -> entity
paths = motorcar.hypernym_paths()
# popis sinonimskih skupova za prvi put

print('\nskupovi hipernima na putu 1:', [synset.name() for synset in paths[0]])
# popis sinonimskih skupova za drugi put
print('skupovi hipernima na putu 2:', [synset.name() for synset in paths[1]])

# korijenski hipernim:
motorcar.root_hypernyms()





hiponimi: [Synset('cab.n.03'), Synset('racer.n.02'), Synset('hardtop.n.01'), Synset('minivan.n.01'), Synset('limousine.n.01'), Synset('used-car.n.01'), Synset('bus.n.04'), Synset('sport_utility.n.01'), Synset('horseless_carriage.n.01'), Synset('ambulance.n.01'), Synset('roadster.n.01'), Synset('convertible.n.01'), Synset('gas_guzzler.n.01'), Synset('subcompact.n.01'), Synset('touring_car.n.01'), Synset('beach_wagon.n.01'), Synset('coupe.n.01'), Synset('pace_car.n.01'), Synset('stanley_steamer.n.01'), Synset('electric.n.01'), Synset('jeep.n.01'), Synset('loaner.n.02'), Synset('minicar.n.01'), Synset('compact.n.03'), Synset('hot_rod.n.01'), Synset('cruiser.n.01'), Synset('hatchback.n.01'), Synset('sedan.n.01'), Synset('sports_car.n.01'), Synset('stock_car.n.01'), Synset('model_t.n.01')]

hipernimi: [Synset('motor_vehicle.n.01')]

skupovi hipernima na putu 1: ['entity.n.01', 'physical_entity.n.01', 'object.n.01', 'whole.n.02', 'artifact.n.01', 'instrumentality.n.03', 'container.n.01', 'w

[Synset('entity.n.01')]

In [3]:
# meronimi i holonimi
from nltk.corpus import wordnet
tree = wordnet.synset('tree.n.01')
# pojmovi kao dijelovi dreveta
tree.part_meronyms()
# pojmovi kao srz drveta
tree.substance_meronyms()
# holonim
tree.member_holonyms()

# inherentni pojmovi
wordnet.synset('walk.v.01').entailments()

# antonimi
wordnet.synsets('supply')
wordnet.synset('supply.n.02').lemmas()
wordnet.lemma('supply.n.02.supply').antonyms()


wordnet.lemma('horizontal.a.01.horizontal').antonyms()



[Lemma('vertical.a.01.vertical'), Lemma('inclined.a.02.inclined')]

## Semantička sličnost
* semantički skupovi kao vrhovi stabla u kojima bridovi čine leksičke relacije
* za dani semantički skup, obilazak stabla predstavlja pronalaženje semantičkih skupova sličnog značenja
* **primjena**: optimizacija indeksiranja kolekcije tekstova
    
__Ideja__: 2 semantička skupa $S_1,S_2$ su povezani korijenskim semantičkim skupom $r$. Putovi od $S_1$ i $S_2$ mogu imati zajedničke vrhove: 
> __Problem najnižeg zajedničkog hipernima__ = LCA problem na stablu!





In [4]:
from nltk.corpus import wordnet
# LCH od 'mother' 'kin'?
wordnet.synset('kin.n.01').lowest_common_hypernyms(wordnet.synset('mother.n.01'))
# LCH  od 'policeman' , 'chef'
wordnet.synset('policeman.n.01').lowest_common_hypernyms(wordnet.synset('chef.n.01'))
# mjera sličnosti pojmova
wordnet.synset('kin.n.01').path_similarity(wordnet.synset('mother.n.01'))

0.14285714285714285

# Vektori riječi

In [None]:
%pip install gensim plotly

In [29]:
import nltk
nltk.download('gutenberg')

[nltk_data] Downloading package gutenberg to
[nltk_data]     C:\Users\Domagoj\AppData\Roaming\nltk_data...
[nltk_data]   Package gutenberg is already up-to-date!


True

In [30]:
from nltk.corpus import gutenberg

In [31]:
gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

In [32]:
bible_kjv_sents = gutenberg.sents('bible-kjv.txt')
len(bible_kjv_sents)

30103

In [33]:
# priprema podataka

# oznake interpunkcije
from string import punctuation
# čišćenje i normalizacija podataka
dataset = [[word.lower() for word in sent if word not in punctuation and word.isalpha()] 
                                            for sent in bible_kjv_sents]
# primjer nekih
dataset[3]

['in',
 'the',
 'beginning',
 'god',
 'created',
 'the',
 'heaven',
 'and',
 'the',
 'earth']

In [34]:
# Word2Vec model
from gensim.models import Word2Vec
model = Word2Vec(sentences=dataset, vector_size=100, window=5, min_count=5, workers=4)


# Get the vocabulary dictionary
vocab_dict = model.wv.key_to_index

# word vectors
word_vectors = model.wv



In [35]:
word = "god"
# vektor riječi za "god"
v_god = word_vectors[word]

# koliko puta se pojavila rijec "god"
model.wv.get_vecattr(word, "count")

v_god

array([-1.7853802 , -1.1370678 , -1.757116  ,  0.7734806 , -0.9040016 ,
        1.8818294 ,  0.73379695, -1.5174632 ,  0.32443914,  0.23261325,
        0.7250204 , -0.69703436, -0.00785978, -1.0855719 , -1.3795278 ,
        0.2933443 , -0.05955132, -1.2506769 ,  1.9209949 , -0.82333595,
        0.9007139 ,  0.0212526 ,  0.2966663 ,  1.1132697 , -0.36178654,
       -0.26940352,  0.5864987 , -0.4433881 , -0.13097814,  0.03077465,
       -0.5201972 ,  1.4347211 , -0.20105758,  0.97355723, -0.53479517,
       -0.5044984 , -1.5228078 ,  0.04923371,  0.4798079 , -0.25119725,
       -1.2426051 ,  0.64930826,  1.8503653 , -0.5877428 , -0.8388758 ,
       -0.96825314, -0.5493941 , -0.15711442,  1.6777301 , -0.6632398 ,
       -0.2579473 ,  1.5833191 , -0.5235548 , -0.11268839, -0.2848162 ,
       -2.0332131 ,  1.7460198 , -0.09777386, -1.4304943 ,  0.5327749 ,
        0.12688543, -0.23293008, -0.49488825, -1.3036995 , -2.0768068 ,
       -1.1438383 , -0.68346566,  0.3856971 , -0.15492526,  0.66

In [36]:
# Get the most similar words to "god"
most_similar_words = model.wv.most_similar("god")

most_similar_words

[('lord', 0.7382637858390808),
 ('spirit', 0.7180866599082947),
 ('truth', 0.7147852182388306),
 ('christ', 0.7022433280944824),
 ('faith', 0.6983363628387451),
 ('hosts', 0.6967219114303589),
 ('glory', 0.691231369972229),
 ('salvation', 0.6855317950248718),
 ('gospel', 0.6765190362930298),
 ('grace', 0.6386775970458984)]

In [37]:
word_vectors.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)

[('queen', 0.6350624561309814)]

In [38]:
word_vectors.doesnt_match("lord god salvation food spirit".split())

'food'

In [45]:
import plotly.express as px
from sklearn.decomposition import PCA
import pandas as pd

vectors = np.array([model.wv[word] for word in list(model.wv.index_to_key)[:300]])
pca = PCA(n_components=3)
reduced = pca.fit_transform(vectors)

df = pd.DataFrame({
    'x': reduced[:, 0],
    'y': reduced[:, 1],
    'z': reduced[:, 2],
    'word': list(model.wv.index_to_key)[:300]
})

fig = px.scatter_3d(df, x='x', y='y', z='z', hover_name='word', title='Word2Vec Visualization 3D')
fig.update_layout(
    width=1200, 
    height=900,
    scene=dict(
        bgcolor='rgba(0,0,0,0)',
        xaxis=dict(showgrid=False, showbackground=False),
        yaxis=dict(showgrid=False, showbackground=False),
        zaxis=dict(showgrid=False, showbackground=False)
    )
)
fig.update_traces(marker=dict(size=3))
fig.show()



1.  Objasnite razliku između nadziranog i nenadziranog učenja u obradi prirodnog jezika.
Nadzirano učenje u obradi prirodnog jezika temelji se na učenju iz označenih podataka, pri čemu model dobiva ulazne primjere zajedno s točnim izlazima (npr. rečenice označene vrstom sentimenta ili riječima pridruženim gramatičkim oznakama). Cilj je naučiti preslikavanje između ulaza i izlaza kako bi se mogla predvidjeti oznaka za nove, neviđene podatke.
Nenadzirano učenje koristi neoznačene podatke, bez unaprijed zadanih točnih odgovora, te model samostalno otkriva obrasce i strukture u podacima, kao što su grupiranje sličnih dokumenata ili otkrivanje tema u tekstu.

2.  Pretpostavimo da imamo binarni klasifikator za sentiment analizu temeljen na naivnom Bayesovom modelu. Kako se računa vjerojatnost klase za dokument koristeći? Napišite formulu.
 Neka je:
	d dokument,
	c∈C={+,-}  klasa (pozitivan / negativan sentiment),
	dokument dpredstavljen nizom riječi w_1,w_2,…,w_(∣d∣)(bag-of-words).
Prema Bayesovu pravilu i naivnoj Bayesovoj pretpostavci vrijedi:
c ̂_NB=arg⁡(max⁡)┬(c∈C) P(c∣d)=arg⁡(max⁡)┬(c∈C) P(c)∏_(i=1)^(∣d∣)▒〖P(〗 w_i∣c)

Radi numeričke stabilnosti, u praksi se koristi logaritamski oblik:
c ̂_NB=arg⁡(max⁡)┬(c∈C) (log⁡P(c)+∑_(i=1)^(∣d∣)▒log⁡P(w_i∣c))


3.  Kako se u binarnoj logističkoj regresiji modelira vjerojatnost da uzorak pripada nekoj klasi? Navedite formulu i objasnite ulogu sigmoid funkcije.
U binarnoj logističkoj regresiji vjerojatnost da uzorak x pripada klasi y=1 modelira se kao
P(y=1∣x)=σ(w^⊤ x+b)=1/(1+e^(-(w^⊤ x+b)) ),

gdje su wvektor težina, bslobodni član, a σ(⋅)sigmoid funkcija.
Uloga sigmoid funkcije je preslikati linearni izraz w^⊤ x+b u interval (0ⓜ,1), tako da se izlaz može tumačiti kao vjerojatnost pripadnosti klasi. Vjerojatnost druge klase dobiva se kao P(y=0∣x)=1-P(y=1∣x).

4.  Koji je osnovni cilj K-means algoritma i kako se iterativno ažuriraju centri klastera?
 Osnovni cilj K-means algoritma je podijeliti skup podataka u Kklastera tako da su podaci unutar istog klastera što sličniji, a podaci u različitim klasterima što različitiji, odnosno da se minimizira suma kvadrata udaljenosti podataka od pripadnih centara klastera.
Iterativno ažuriranje odvija se u dva koraka:
	Dodjela klastera – svaki podatak pridružuje se najbližem centru klastera (najčešće prema euklidskoj udaljenosti).
	Ažuriranje centara – svaki centar klastera računa se kao aritmetička sredina svih podataka dodijeljenih tom klasteru.
Postupak se ponavlja dok se centri klastera više ne mijenjaju ili dok se ne postigne uvjet konvergencije.

5.  Definirajte metrike preciznost i odziv u kontekstu evaluacije binarnog klasifikatora. Zašto se koristi F-mjera?
 U evaluaciji binarnog klasifikatora preciznost (precision) i odziv (recall) definiraju se pomoću elemenata matrice zabune:
	Preciznost je udio ispravno predviđenih pozitivnih primjera među svim primjerima koje je model označio kao pozitivne:
"Precision"=TP/(TP+FP).

	Odziv je udio ispravno predviđenih pozitivnih primjera među svim stvarno pozitivnim primjerima:
"Recall"=TP/(TP+FN).

F-mjera (najčešće F_1) koristi se jer predstavlja harmonijsku sredinu preciznosti i odziva:
F_1=(2⋅"T" P)/("2" ⋅TP+FP+FN),

te daje uravnoteženu mjeru uspješnosti klasifikatora, osobito kada postoji neravnoteža između klasa ili kada je važno istovremeno uzeti u obzir i preciznost i odziv.

6. Objasnite što je WordNet baza podataka. Na koji način se iskazuje sličnost između pojmova preko WordNet-a?
WordNet je leksičko-semantička baza podataka u kojoj su riječi grupirane u sinonimske skupove (synsete), pri čemu svaki skup predstavlja jedno značenje riječi. Između synseta su definirane različite leksičko-semantičke relacije, poput sinonimije, hiperonimije/hiponimije, antonimije i meronimije.
Sličnost između pojmova u WordNet-u iskazuje se na temelju njihove pozicije u hijerarhijskoj strukturi (taksonomiji), primjerice mjerenjem duljine puta između synseta, dubine njihova zajedničkog nadređenog pojma (najnižeg zajedničkog hiperonima) ili kombinacijom tih kriterija.

7.  Zašto se u modernom NLP-u preferira korištenje vektora riječi umjesto tradicionalnih one-hot reprezentacija? Objasnite prednosti ovog pristupa.
U modernom NLP-u preferira se korištenje vektora riječi (word embeddings) umjesto one-hot reprezentacija jer vektori riječi omogućuju kompaktnu i semantički bogatu reprezentaciju značenja riječi.
Za razliku od one-hot vektora, koji su vrlo visokodimenzionalni i rijetki te ne nose informaciju o sličnosti između riječi, vektori riječi su niskodimenzionalni, gusti i kodiraju semantičku i sintaktičku sličnost (npr. slične riječi imaju slične vektore). Time se omogućuje mjerenje sličnosti između riječi, bolja generalizacija modela te učinkovitije učenje i primjena u NLP zadacima.

8.  Koja je temeljna ideja algoritma Word2Vec i koje su njegove dvije glavne varijante? Opišite kako se vektori riječi uče u ovom okviru.
Temeljna ideja Word2Vec algoritma jest učiti vektorske reprezentacije riječi tako da riječi koje se pojavljuju u sličnim kontekstima imaju slične vektore, u skladu s distribucijskom hipotezom da se značenje riječi određuje njezinim kontekstom.
Word2Vec ima dvije glavne varijante:
•	CBOW koja predviđa središnju riječ na temelju okolnih (kontekstnih) riječi,
•	SKIP-GRAM koja predviđa kontekstne riječi na temelju središnje riječi.
Vektori riječi uče se iterativnim optimizacijskim postupkom u kojem se maksimizira vjerojatnost pojave stvarnih parova riječi i konteksta u korpusu. Tijekom učenja model prilagođava vektore riječi tako da povećava sličnost vektora riječi koje se često pojavljuju zajedno, a smanjuje sličnost nepovezanih riječi.

9.  Definirajte što je to TF-IDF mjera i za što se koristi.
TF-IDF je mjera koja procjenjuje važnost neke riječi u dokumentu u odnosu na cijeli skup dokumenata (korpus).
Sastoji se od dva dijela:
•	TF – mjeri koliko se često riječ pojavljuje u danom dokumentu,
•	IDF – umanjuje važnost riječi koje se pojavljuju u velikom broju dokumenata, a naglašava riječi koje su specifične za manji broj dokumenata.
TF-IDF se koristi za vektorsku reprezentaciju dokumenata, isticanje informativnih riječi te u zadacima poput pretraživanja dokumenata, klasifikacije i analize teksta.

10. Ako su riječi reprezentirani vektorima riječi objasnite na koji način matematički možete računati sličnost između tih riječi.
Ako su riječi reprezentirane vektorima riječi, njihova se sličnost najčešće računa pomoću kosinusne sličnosti.
Za dva vektora riječi ui vkosinusna sličnost definirana je kao:
cos⁡(u,v)=(u⋅v)/(∥u∥" " ∥v∥)

gdje je u⋅v skalarni produkt, a ∥u∥i ∥v∥euklidske norme vektora.
Kosinusna sličnost mjeri kut između vektora, a ne njihovu duljinu, pa se riječi sličnog značenja nalaze blizu jedna drugoj u vektorskom prostoru i imaju visoku vrijednost kosinusne sličnosti.