# WordNet

http://wordnetweb.princeton.edu/perl/webwn

In [None]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
from nltk.corpus import wordnet as wn

WordNet este o bază de date lexicală care conține relații semantice între cuvinte. Aceasta este disponibilă în mai multe limbi, dar în acest laborator vom lucra cu baza de date pentru limba Engleză.

WordNet conține substantive, verbe, adjective și adverbe grupate în submulțimi de cuvinte cu același sens.

Unitatea de baza este **synset**-ul - o submulțime de cuvinte care descriu același concept. Un cuvânt poate face parte din mai multe synset-uri (adică poate avea mai multe sensuri / este polisemic).

In [None]:
# toate synset-urile pentru cuvântul "school"
school_synsets = wn.synsets("school")
print(school_synsets)

[Synset('school.n.01'), Synset('school.n.02'), Synset('school.n.03'), Synset('school.n.04'), Synset('school.n.05'), Synset('school.n.06'), Synset('school.n.07'), Synset('school.v.01'), Synset('educate.v.03'), Synset('school.v.03')]


In [None]:
# alegem unul dintre ele
syn = school_synsets[1]  # school.n.02

Pentru a vedea definiția unui anumit sens din synset, putem folosi metoda `definition`.

In [None]:
print(syn.definition())

a building where young people receive education


De asemenea, WordNet conține metoda `examples` cu ajutorul căreia putem vedea exemple de utilizare în text ale cuvintelor dintr-un synset.

In [None]:
print(syn.examples())

['the school was built in 1932', 'he walked to school every morning']


Putem afișa pentru un synset toate lemele (formele de dicționar) ale cuvintelor care au acel sens.

In [None]:
print(syn.lemmas())
print(syn.lemma_names())

[Lemma('school.n.02.school'), Lemma('school.n.02.schoolhouse')]
['school', 'schoolhouse']


WordNet însă nu este doar o împărțire a cuvintelor în sensuri. Această resursă este valoroasă și prin multitudinea de relații pe care le definește între synset-uri.

Synset-urile în WordNet se împart în synset-uri pentru substantive (*n*), adjective (*a*, *s*), verbe (*v*) și adverbe (*r*). Principalele relații sunt definite între synset-uri corespunzătoare acelorași părți de vorbire (PoS - part-of-speech), însă există și relatii cross-PoS.

## Tipuri de relații pentru substantive

### 1. Hiperonime/Hiponime

Spunem că sensul $s_1$ este un *hiperonim* al sensului $s_2$ dacă $s_1$ înglobează sensul lui $s_2$. Cu alte cuvinte, $s_2$ este un fel de $s_1$ (*is a type of*).

Opusul relației de hiperonimie este relația de *hiponimie* ($s_2$ este un hiponim pentru $s_1$).

Mai multe detalii [aici](https://ro.wikipedia.org/wiki/Hiponimie_%C8%99i_hiperonimie).

In [None]:
syn = wn.synset('school.n.01')
print("Hypernyms:", syn.hypernyms())
print("Hyponyms:", syn.hyponyms())

Hypernyms: [Synset('educational_institution.n.01')]
Hyponyms: [Synset('academy.n.03'), Synset('alma_mater.n.01'), Synset('conservatory.n.01'), Synset('correspondence_school.n.01'), Synset('crammer.n.03'), Synset('dance_school.n.01'), Synset('dancing_school.n.01'), Synset('day_school.n.02'), Synset('direct-grant_school.n.01'), Synset('driving_school.n.01'), Synset('finishing_school.n.01'), Synset('flying_school.n.01'), Synset('grade_school.n.01'), Synset('graduate_school.n.01'), Synset('language_school.n.01'), Synset('night_school.n.01'), Synset('nursing_school.n.01'), Synset('private_school.n.01'), Synset('public_school.n.01'), Synset('religious_school.n.01'), Synset('riding_school.n.01'), Synset('secondary_school.n.01'), Synset('secretarial_school.n.01'), Synset('sunday_school.n.01'), Synset('technical_school.n.01'), Synset('training_school.n.01'), Synset('veterinary_school.n.01')]


### 2. Meronime/Holonime

Spunem că sensul $s_1$ este un *holonim* al sensului $s_2$ daca $s_1$ îl "conține" pe $s_2$. Holonimele sunt de 3 feluri:
 - part (part of)
 - substance (made of)
 - member (contains)

Invers, spunem că $s_2$ este un meronim pentru $s_1$.

Mai multe detalii [aici](https://ro.wikipedia.org/wiki/Meronimie_%C8%99i_holonimie).

In [None]:
syn = wn.synset('air.n.01')
print(syn.substance_holonyms())
print(syn.substance_meronyms())

[Synset('wind.n.01')]
[Synset('argon.n.01'), Synset('krypton.n.01'), Synset('neon.n.01'), Synset('nitrogen.n.01'), Synset('oxygen.n.01'), Synset('xenon.n.01')]


In [None]:
syn = wn.synset('house.n.01')
print(syn.part_holonyms())
print(syn.part_meronyms())

[]
[Synset('library.n.01'), Synset('loft.n.02'), Synset('porch.n.01'), Synset('study.n.05')]


In [None]:
syn = wn.synset('tree.n.01')
print(syn.member_holonyms())
print(syn.part_meronyms())

[Synset('forest.n.01')]
[Synset('burl.n.02'), Synset('crown.n.07'), Synset('limb.n.02'), Synset('stump.n.01'), Synset('trunk.n.01')]


## Tipuri de relatii pentru verbe

### 1. Hiperonime/hiponime

Lucrurile se întâmplă asemănător ca la substantive. Hiponimele pot fi văzute aici ca definind aceeași acțiune, dar într-un context mai restrâns. De exemplu, "to jog" sau "to sprint" sunt o variantă mai specifică a verbului "to run".

Hiponimele pentru verbe mai poarta numele si de [troponime](https://en.wiktionary.org/wiki/troponym).

In [None]:
syn = wn.synset('run.v.01')
print(syn.hypernyms())
print(syn.hyponyms())

[Synset('travel_rapidly.v.01')]
[Synset('hare.v.01'), Synset('jog.v.03'), Synset('lope.v.01'), Synset('outrun.v.01'), Synset('romp.v.02'), Synset('run.v.33'), Synset('run_bases.v.01'), Synset('rush.v.05'), Synset('scurry.v.01'), Synset('sprint.v.01'), Synset('streak.v.02'), Synset('trot.v.01')]


### 2. Entailment

Definește ce acțiuni trebuie să aibă loc pentru ca o anumită acțiune să se întâmple.

In [None]:
print(wn.synset('snore.v.01').entailments())
print(wn.synset('buy.v.01').entailments())

[Synset('sleep.v.01')]
[Synset('choose.v.01'), Synset('pay.v.01')]


## Tipuri de relații pentru adjective

### 1. Antonime

Acestea se determină la nivel de lema (nu la nivel de synset).

In [None]:
lem = wn.synset('good.a.01').lemmas()[0]
print(lem.antonyms())

[Lemma('bad.a.01.bad')]


### 2. Sinonime

In [None]:
syn = wn.synset('strong.a.01')
print(syn.similar_tos())

[Synset('beardown.s.01'), Synset('beefed-up.s.01'), Synset('brawny.s.01'), Synset('bullnecked.s.01'), Synset('bullocky.s.01'), Synset('fortified.s.02'), Synset('hard.s.04'), Synset('industrial-strength.s.01'), Synset('ironlike.s.01'), Synset('knock-down.s.01'), Synset('noticeable.s.04'), Synset('reinforced.s.01'), Synset('robust.s.03'), Synset('stiff.s.02'), Synset('vehement.s.02'), Synset('virile.s.01'), Synset('well-knit.s.01')]


## Tipuri de relații pentru adverbe

### 1. Antonime

In [None]:
lem = wn.synset('quickly.r.01').lemmas()[0]
print(lem.antonyms())

[Lemma('slowly.r.01.slowly')]


## Tipuri de relatii cross-PoS

### 1. Relația atributivă: attributes (substantive <-> adjective)

Această relație leagă un synset $s_1$ al unui substantiv cu un synset $s_2$ al unui adjectiv dacă "$s_2$ poate fi o valoare pentru $s_1$".

In [None]:
print(wn.synset('strength.n.01').attributes())
print(wn.synset('strong.a.01').attributes())
print(wn.synset('weak.a.01').attributes())

[Synset('delicate.a.01'), Synset('rugged.a.01'), Synset('strong.a.01'), Synset('weak.a.01')]
[Synset('strength.n.01')]
[Synset('strength.n.01')]


### 2. Pertainyms (pentru adjective si adverbe)

Returnează concepte care se referă la calitățile descrise de adjective/adverbe.

In [None]:
lem = wn.synset('technical.a.01').lemmas()[0]
print(lem.pertainyms())

[Lemma('technique.n.01.technique')]


In [None]:
lem = wn.synset('quickly.r.01').lemmas()[0]
print(lem.pertainyms())

[Lemma('quick.s.01.quick')]


## Vizualizare

Puteti folosi această platformă pentru a vizualiza relațiile din WordNet: [http://wordvis.com/](http://wordvis.com/).

## Graful relatiilor pentru hypernyms

Daca considerăm synset-urile noduri într-un graf, iar relațiilor de forma $s_1$ este hipernim pentru $s_2$ le asociem o muchie orientată de la $s_2$ la $s_1$, obținem un graf orientat aciclic (DAG).

![](https://www.researchgate.net/profile/Zhao-Lu-3/publication/261351248/figure/fig1/AS:669012354691096@1536516383841/A-DAG-fragment-of-WordNet-30.ppm)

Un drum de hipernime (hypernym path) pentru un synset este un drum în graf de la nodul acestuia până la un nod radacină (cu grad de iesire $0$). Observați că pentru un synset pot exista mai multe astfel de drumuri.

In [None]:
syn = wn.synset("water.n.01")
paths = syn.hypernym_paths()
print(len(paths))

3


In [None]:
path = paths[0][::-1]
print(" -> ".join(n.name() for n in path))

water.n.01 -> binary_compound.n.01 -> compound.n.02 -> chemical.n.01 -> material.n.01 -> substance.n.01 -> matter.n.03 -> physical_entity.n.01 -> entity.n.01


Definim *adâncimea* unui synset ca fiind lungimea celui mai lung astfel de hypernym path.

Numim *lowest common hypernym* al două synstet-uri ($s_1$ si $s_2$), synsetul (sau synset-urile) cu adâncime maximă care se află pe cel puțin un hypernym path al lui $s_1$ și pe cel puțin un hypernym path al lui $s_2$.

În exemplul de mai sus, *lowest common hypernym* pentru "bus \#1" si "engine" este "public transport".

Pe baza acestor drumuri se poate calcula și un scor de similaritate între două synset-uri.

In [None]:
dog = wn.synset('dog.n.01')
cat = wn.synset('cat.n.01')
plane = wn.synset('plane.n.01')

print("dog ~ cat:", dog.path_similarity(cat))
print("dog ~ plane:", dog.path_similarity(plane))

dog ~ cat: 0.2
dog ~ plane: 0.07142857142857142


# Exerciții


1. Implementați o funcție care afiseza pentru un cuvânt definițiile tuturor synseturilor din care face parte cuvântul.
2. Implementați o funcție care verifica daca doua cuvinte $w_1$ și $w_2$ au cel puțin un synset comun. Cu alte cuvinte verificați daca $w_1$ și $w_2$ sunt sinonime.
3. Implementați o funcție care pentru un synset dat afișează toate holonymele și toate meronymele sale.
4. Implementați o funcție care afișează pentru un synset dat toate drumurile de hypernyme corespunzătoare acestuia.
5. Implementați o funcție care pentru doua synseturi determina lowest common hypernym(s) și afișează definiția acestor sensuri comune.
6. Implementați o funcție care primește un synset $s$ și o lista de synseturi. Sortați aceasta lista descrescător conform similarității dintre $s$ și componentele sale.
7. Implementați o funcție care afișează pentru un cuvânt sinonimele sale și antonimele sale (pentru toate sensurile cuvântului).