In [None]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
# !python3 -m nltk.downloader framenet_v17

# WordNet
* semantički orijentirani riječnik engleskog jezika, sličan tezarusu
* 155,287 riječi i 117,659 sinonimskih skupova

## Smisao i sinonimi
* __sinonimi__ = riječi istog značenja, npr. hrv. ljekarna - apoteka, engl. motorcar - automobile
* WordNet korpus u NLTK

In [None]:
from nltk.corpus import wordnet
wordnet.synsets('wolves')
wordnet.synset('dog.n.01').lemma_names() # leme sinonima
# definicija
wordnet.synset('dog.n.01').definition() # defincija sinonimskog skupa 
# primjer
wordnet.synset('dog.n.01').examples() # primjer koristenja
# leme
wordnet.synset('car.n.01').lemmas()   # leme pripadnih sinonima
wordnet.lemma('car.n.01.automobile').synset() 
wordnet.lemma('car.n.01.automobile').name()  # naziv leme


# sinonimski skupovi
wordnet.synsets('car') # nekoliko ....
wordnet.lemmas('car')

## WordNet hijerarhija
* Sinonimski skupovi WordNeta se povezuju s apstraktnim konceptima opći(`Entity`,`State`,`Event`) i specijalizirani koncepti (npr. hatchback tip vozila )

<img src="wordnet.png" width="650">


## Leksičke relacije

* preko takvih koncepata možemo doći do *leksičkih relacija*:
    * __hiponimi/hipernimi__ = pojmovi koji predstavljaju jezični analogon podskupa/nadskupa nekog pojma, u hijerarhijskom smislu mogu se predstaviti u relaciji _roditelj-dijete_
    *  __meronimi__ = pojmovi koji predstavljaju komponente od kojih je načinjen neki drugi pojam
    * __holonimi__  = pojmovi unutar kojeg je sadržan neki pojam
    * __antonimi__  = pojmovi suprotnog značenja
    * __inherentni pojmovi (engl. entailment)__  = pojmovi koji su inherentno uključeni u dani pojam

In [None]:
# hiponimi i hipernimi
from nltk.corpus import wordnet
motorcar = wordnet.synset('car.n.01')
# hiponimi
hypoMotorcar = motorcar.hyponyms() # synset hiponima
print('\nhiponimi:', hypoMotorcar)
#sorted([lemma.name() for synset in hypoMotorcar for lemma in synset.lemmas()]) # ispisi nazive lema
# hipernimi
hyperMotorcar = motorcar.hypernyms()
print('\nhipernimi:', hyperMotorcar)
# putanja car -> entity
paths = motorcar.hypernym_paths()
# popis sinonimskih skupova za prvi put

print('\nskupovi hipernima na putu 1:', [synset.name() for synset in paths[0]])
# popis sinonimskih skupova za drugi put
print('skupovi hipernima na putu 2:', [synset.name() for synset in paths[1]])

# korijenski hipernim:
motorcar.root_hypernyms()




In [None]:
# meronimi i holonimi
from nltk.corpus import wordnet
tree = wordnet.synset('tree.n.01')
# pojmovi kao dijelovi dreveta
tree.part_meronyms()
# pojmovi kao srz drveta
tree.substance_meronyms()
# holonim
tree.member_holonyms()

# inherentni pojmovi
wordnet.synset('walk.v.01').entailments()

# antonimi
wordnet.synsets('supply')
wordnet.synset('supply.n.02').lemmas()
wordnet.lemma('supply.n.02.supply').antonyms()


wordnet.lemma('horizontal.a.01.horizontal').antonyms()



## Semantička sličnost
* semantički skupovi kao vrhovi grafa u kojima bridovi čine leksičke relacije
* za dani semantički skup, obilazak grafa predstavlja pronalaženje semantičkih skupova sličnog značenja
* **primjena**: optimizacija indeksiranja kolekcije tekstova
    
__Ideja__: 2 semantička skupa $S_1,S_2$ su povezani zajedničkim semantičkim skupom $r$. Putovi od $S_1$ i $S_2$ mogu imati zajedničke vrhove: 
> __Problem najnižeg zajedničkog hipernima__: pronaći $r$ koji je nabliži $S_1$ u $S_2$ u smislu broja bridova.





In [None]:
from nltk.corpus import wordnet
# LCH od 'mother' 'kin'?
wordnet.synset('kin.n.01').lowest_common_hypernyms(wordnet.synset('mother.n.01'))
# LCH  od 'policeman' , 'chef'
wordnet.synset('policeman.n.01').lowest_common_hypernyms(wordnet.synset('chef.n.01'))
# mjera sličnosti pojmova
wordnet.synset('kin.n.01').path_similarity(wordnet.synset('mother.n.01'))

# FrameNet
FrameNet korpus je leksička baza podataka engleskog teksta:
* temeljeno na _teoriji značenja_ (MTT) tzv. Frame Semantics (Charles J. Fillmore et al.) 
* princip: značenje većine riječi se može shvatiti preko _semantičkog okvira_
* *semantički okir:* opis događaja, odnosa, entiteta i sudionika koji sudjeluju u odnosu na dani pojam
> primjer: cooking
    * sudionik: cook
    * entiteti: food, container, source of heat
    * **Frame**: Apply_heat 
    * **Frame Elements (FE)** (uloge): `Cook, Food, Heating_instrument, Container`
    * **Leksičke jedinice** ('pozivaju' okvire): `fry,bake,boil,broil` su pridružene okvir `Apply_heat`
    
**CILJ**: __FrameNet__ definira okvire i označava rečenice kako bi pokazao kako FE sintaktički odgovara riječima koji 'pozivaju' okvire. 
* U NLTK dohvaća se modulom `nltk.corpus.framenet`

## Okviri (engl. Frames)
* konceptualna struktura koja opisuje događaj, odnos, entitet i sudionike koji sudjeluju u odnosu na dani pojam
* Role (uloge) okvira: FE, leksičke jedinice: LU

Relacije između okvira:
* **inheritance**: dijete okvir nasljeđuje FE svojstva roditeljskog okvira 
    *  `Revenge` _nasljeđuje_ `Rewards_and_punishment`
* **using**: dijete pretpostavlja roditeljski okvir u pozadini 
    * `Speed` _inherentno koristi_ `Motion`
* **subframe**: dijete okvir je događaj unutar složenijeg događaja predstavljen kao roditelj okvir 
    * `Arrest`, `Trial` su _sadržani_ u okviru `Criminal Process`
* **perspective_on**: dijete okvir daje posebnu perspektivu na roditeljski okvir s obzirom na neki drugi okvir
    * `Hiring`, `Get_a_job` su perspektive od `Employment_start` s obzirom na `Employer` ili `Employee`

Dohvaćanje liste okvira iz FrameNet korištenjem `framenet.frames()` funkcije (regex ili ID okvira)

In [None]:
from pprint import pprint
from nltk.corpus import framenet
len(framenet.frames())

pprint(framenet.frames(r'(?i)medical')) # regex case insensitive
f = framenet.frame(256)
f
f.ID, f.name,f.definition
# role 
pprint(sorted([x for x in f.FE]))

# realcije
pprint(f.frameRelations)


In [None]:

# pretrazivanje s LU
frames = framenet.frames_by_lemma(r'(?i)a little') # regex case insensitive
pprint(frames)


## Leksičke jedinice
* leksičke jedinice  = sparuju riječ sa značenjem

**Primjer**: Lema `bake.v` je vezana s 3 značenja (kao okvira):
    * `Apply_heat`
    * `Cooking_creation`
    * `Absorb_heat`
    
* pristup leksičkim jedinicima ostvarujemo korištenjem funkcije `framenet.lus()` (uz parametar koji je regex)
* specifično, za pojedini LU idenitificiran s ID korisitimo funkciju `framenet.lu(ID)`

In [None]:
from pprint import pprint
from nltk.corpus import framenet
# ukupni broj LU:
len(framenet.lus())
framenet.lus(r'(?i)a little')
# dohvacanje LU preko ID
framenet.lu(256).name,framenet.lu(256).definition
# okvir kojeg enkapsulira
framenet.lu(256).frame


## Označeni dokumenti
FrameNet korpus sadrži manji skup označenih dokumenta.  Pristup preko `framenet.documents()`.

In [None]:
from pprint import pprint
from nltk.corpus import framenet
docs = framenet.docs()

# popis tekstova iz korpusa
docs
# uzmimo drugi korpus
history_greece = docs[2]
history_greece



In [None]:
# dohvatimo jednu od recenica iz dokumenta
annoted_sentence = history_greece['sentence'][1]
print(annoted_sentence)
# POS oznake u toj rečenici

In [None]:
# zelimo dohvatiti rečenicu indeksa 1:
docs[0]

# Syntactic-Semantic Framework za HR jezik

Poveznica: [Sintaktičko-semantički okvir](https://ssf.mathos.hr)


**Pristup**:
 * Web sučelje (javni pristup i autentifikacija)
 * API pristup (API ključ potreban)

SSF predstavlja računalni model HR jezika koji u sebi sadrži: 
  > 1. tezarij riječi (LEX),
  > 2. tezarij morfema (MSY),
  > 3. tezarij višerječnica (MWE)
  > 4. **T-strukture**: sustav oznaka organizira oznake u obliku stabla
  > 5. **O-strukture**: regex temeljeni sustav pretraživanja semantičko-sintaktičkih obilježja


# API sučelje

SSF nudi mogućnost pristupa iz drugih alata koristeći SSF API. 

## Kategorije API funkcija:
Potpunu dokumentaciju možete pogledati na [funkcije.pdf](funkcije.pdf)

  * semantičke funkcije
  * statističke funkcije
  * Morfološke funkcije
  * WoS/SoW funkcije
  * sintaktičke funkcije
  * ...

# Python SSF wrapper

In [None]:
# koristimo wrapper za ssf
# nasi paketi
from ssf import POSTagger,ssf

In [None]:
sentence = 'Ovih dana ne pada snijeg.'

In [None]:
print('SSF module: universal POS tags')
nlp_ssf = POSTagger.load('hr')
doc = nlp_ssf(sentence)
#visualize
doc.render()

In [None]:
# nasa implementacija SSF APIa.

class my_ssf(ssf):
    def __init__(self):
        ssf.__init__(self)        
    
    
    def plural(self,sentence,lemma=None):
        return self._response(u"=Plural({!r})".format(sentence))
       
    def change_tense(self,sentence,time):
        return self._response(u"=ChangeTense({!r},{!r})".format(sentence,time))
    
    # semantics
    def synonym(self,word):
        return self._response(u"=Synonym({!r})".format(word))
        
    
   
    # SPO triplet 
    def get_subj(self,sentence):
        return self._response(u"=DetectS({!r})".format(sentence))
    
    def get_pred(self,sentence):
        return self._response(u"=DetectP({!r})".format(sentence))
    
    def get_obj(self,sentence):
        return self._response(u"=DetectO({!r})".format(sentence))
        
        
    # kolokacije
    def collocation(self,sentence):
        """
        return triple (subjekt, predikat, objekt)
        """
        return self._response(u"=Collocation({!r})".format(sentence))
    
    def subordinate(self,text):
        """
           ordredjuje vrstu zavisne recenice i vraca O-strukturu 
        """
        return self._response(u"=SplitSentences({!r})".format(text))
    
    def tag_multext(self,word):
        return self._response(u"=Word2MULTEXT({!r})".format(word))
    
    def Ngrams(self,sent,n,d):
        return self._response(u"=Ngrams({!r},{!r},{!r})".format(sent,n,d))
    
    def DetectMetonymy(self,text):
        return self._response(u"=DetectMetonymy({!r})".format(text))
    
    def lemmatizer(self,sent):
        return self._response(u"=sentence2lemma({!r})".format(sent))
    
    def DetectColoc(self,sent):
        return self._response(u"=DetectColoc({!r})".format(sent))

# moji test podaci
ssf_hr = my_ssf()


## SSF: Sintaktička analiza

In [None]:
# promjena glagolskog vremena
print(ssf_hr.plural('vidim promjenu'))
print(ssf_hr.change_tense('vidim plavu kuću','aorist'))


In [None]:
# lematizacija
tekst = 'Netko je rekao: budimo zahvalni'

ssf_hr.lemmatizer(tekst)
ssf_hr.Ngrams("Čitala je njegove pjesme kao da prvi put otkriva snagu pjesničke riječi", 3, 4)

In [None]:
print(ssf_hr.subordinate("Koji ne može sebi zapovijedati, ne može ni drugom."))
# n-grami


## SSF: Semantička analiza

In [None]:
print(ssf_hr.synonym('raditi'))
print(ssf_hr.DetectColoc('Prešli smo labavu carinsku uniju'))
print(ssf_hr.get_subj('Automobil vozi cestom'))


In [None]:
ssf_hr.DetectMetonymy('Kruna je dala proglas')