# Obsługa WordNetów za pomocą biblioteki NLTK w Pythonie

WordNety można obsługiwać za pomocą przeglądarki, ale dla kogoś kto chce korzystać z tych danych w swoich skryptach, znacznie lepszym pomysłem jest obsługa WordNetów przez interfejs zapewniany przez bibliotekę NLTK. Żeby zaimportować odpowiedni interfejs należy zaimportować odpowiedni moduł: 

In [144]:
import nltk
from nltk.corpus import wordnet as wn
#nltk.download()
# najpierw jednak trzeba pobrać odpowiednią bazę danych, to polecenie powinno uruchomić okienko i tam trzeba znaleźć wordnet :)

Za pomocą funkcji `synsets` możemy wyszukiwać synsety (zbiory synonimów!) w których znajdują się interesujące nas słowa. Spróbujmy najprostszy, psi przykład:

In [145]:
wn.synsets('dog')

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

Dostaliśmy rozmaite synsety - prawie wszystkie to rzeczowniki (mają literkę `n`). Musimy wybrać jeden z nich, więc wybierzmy pierwszy (a co!).  

In [146]:
dog_sn = wn.synsets('dog')[0]

Teraz, kiedy już mamy obiekt reprezentujący synset, możemy wywoływać na nim rozmaite metody. Możemy zobaczyć na przykład definicję danego synsetu za pomocą metody `definition`.

In [147]:
dog_sn.definition()

'a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds'

`lemma_names` zwróci nam podstawowe formu różnych leksemów, które zawiera dany synset: 

In [148]:
dog_sn.lemma_names()

['dog', 'domestic_dog', 'Canis_familiaris']

Możemy również sprawdzić do jakiej części mowy należy dany synset za pomocą metody `pos`:

In [149]:
dog_sn.pos()

'n'

Oczywiście cała "magia" WordNetu polega na tym, że synsety ułożone są w pewną hierarchiczną strukturę. Jedną z podstawowych relacji jest relacja hiponimii i hyperonimii. Jak Państwo pamiętają hiponimy, to wyrazy o treści bardziej szczegółowej, hiperonimy mają za to treść bardziej ogólną. Listę synsetów hipo i hiperonimicznych możemy uzyskać posługując się metodami `hypernyms` oraz `hyponyms`. Jak widzimy hiperonimami psa są "psowaty" oraz "zwierzę domowe". 

In [150]:
dog_sn.hypernyms()

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]

Jeśli chodzi o hiponimy, to mamy zarówno takie, które są po prostu poszczególnymi gatunkami psa (corgi, pudel), ale również pewne kwalifikowane rodzaje psów (pies pracujący, mały pies, pies myśliwski).

In [151]:
dog_sn.hyponyms()

[Synset('basenji.n.01'),
 Synset('corgi.n.01'),
 Synset('cur.n.01'),
 Synset('dalmatian.n.02'),
 Synset('great_pyrenees.n.01'),
 Synset('griffon.n.02'),
 Synset('hunting_dog.n.01'),
 Synset('lapdog.n.01'),
 Synset('leonberg.n.01'),
 Synset('mexican_hairless.n.01'),
 Synset('newfoundland.n.01'),
 Synset('pooch.n.01'),
 Synset('poodle.n.01'),
 Synset('pug.n.01'),
 Synset('puppy.n.01'),
 Synset('spitz.n.01'),
 Synset('toy_dog.n.01'),
 Synset('working_dog.n.01')]

Mamy również dodatkowe relacje semantyczne, np. relacja holonimii i meronimii. Członkiem stada (?) psów jest pies, wobec czego angielskie "pack" jest holonimem "dog", tak samo członkiem gatunki "canis".

In [152]:
dog_sn.member_holonyms()

[Synset('canis.n.01'), Synset('pack.n.06')]

W WordNecie zakodowane są różne inne rodzaje relacji między synsetami, ale oczywiście nie wszystkie synsety mają je wszystkie uwzględnione.

Oprócz obiektów reprezentujących synsety, mamy także obiekty reprezentujące poszczególne lemmy. Spróbujmy zobaczyć co mozemy z nimi zrobić na przykładzie synsetu odpowiadającego przymiotnikowi "dirty":

In [153]:
wn.synsets('dirty', pos=wn.ADJ) # pos=wn.ADJ odfiltrowuje te synsety, które nie dotyczą przymiotników

[Synset('dirty.a.01'),
 Synset('dirty.a.02'),
 Synset('dirty.s.03'),
 Synset('dirty.a.04'),
 Synset('dirty.s.05'),
 Synset('dirty.s.06'),
 Synset('dirty.s.07'),
 Synset('dirty.s.08'),
 Synset('dirty.s.09'),
 Synset('cheating.s.02'),
 Synset('dirty.s.11'),
 Synset('dirty.s.12')]

Wybierzmy pierwszy z nich:

In [154]:
dirty_sn = wn.synsets('dirty', pos=wn.ADJ)[0]

Za pomnocą metody `lemmas` możemy uzyskać wszystkie lemmy wszystkich zawartych w tym synsecie leksemów:

In [155]:
dirty_sn.lemmas()

[Lemma('dirty.a.01.dirty'),
 Lemma('dirty.a.01.soiled'),
 Lemma('dirty.a.01.unclean')]

Wybierzmy znów pierwszy z nich:

In [156]:
dirty_lemma = dirty_sn.lemmas()[0]

Obiekty reprezentujące lemmy mają kilka dodatkowych metod, np. `antonyms` zwraca listę lemm, które są antonimami.

In [157]:
dirty_lemma.antonyms()

[Lemma('clean.a.01.clean')]

Metoda `derivationally_related_forms` zwraca, jak sugeruje to nazwa, albo formy, z których derywowany był dany leksem, ale formy derywowane z niego:

In [158]:
dirty_lemma.derivationally_related_forms()

[Lemma('dirt.n.02.dirt'), Lemma('dirtiness.n.01.dirtiness')]

## Bezpośrednie i niebezpośrednie antonimy 

Spróbujmy znaleźć bezpośrednie i niebezpośrednie antonimy słowa "good". Na początek wybierzmy odpowiedni synset:

In [159]:
adjs = wn.synsets('good', pos=wn.ADJ)

In [160]:
adjs

[Synset('good.a.01'),
 Synset('full.s.06'),
 Synset('good.a.03'),
 Synset('estimable.s.02'),
 Synset('beneficial.s.01'),
 Synset('good.s.06'),
 Synset('good.s.07'),
 Synset('adept.s.01'),
 Synset('good.s.09'),
 Synset('dear.s.02'),
 Synset('dependable.s.04'),
 Synset('good.s.12'),
 Synset('good.s.13'),
 Synset('effective.s.04'),
 Synset('good.s.15'),
 Synset('good.s.16'),
 Synset('good.s.17'),
 Synset('good.s.18'),
 Synset('good.s.19'),
 Synset('good.s.20'),
 Synset('good.s.21')]

In [161]:
adj = adjs[0]

In [162]:
adj.definition()

'having desirable or positive qualities especially those suitable for a thing specified'

Wygląda nieźle, zobaczmy więc jakie są do niego przypisane lemmy i czy jesteśmy w stanie uzyskać ich antonimy:

In [163]:
for lemma in adj.lemmas():
    print(lemma.antonyms()[0].name())

bad


In [164]:
adj.similar_tos()

[Synset('bang-up.s.01'),
 Synset('good_enough.s.01'),
 Synset('goodish.s.01'),
 Synset('hot.s.15'),
 Synset('redeeming.s.02'),
 Synset('satisfactory.s.02'),
 Synset('solid.s.01'),
 Synset('superb.s.02'),
 Synset('well-behaved.s.01')]

In [165]:
for synset in adj.similar_tos():
    print(synset.name())
    print(synset.definition())
    for lemma in synset.lemmas():
        print(lemma.name())
        print(lemma.antonyms())
        print('\n')

bang-up.s.01
very good
bang-up
[]


bully
[]


corking
[]


cracking
[]


dandy
[]


great
[]


groovy
[]


keen
[]


neat
[]


nifty
[]


not_bad
[]


peachy
[]


slap-up
[]


swell
[]


smashing
[]


good_enough.s.01
adequately good for the circumstances
good_enough
[]


goodish.s.01
moderately good of its kind
goodish
[]


hot.s.15
very good; often used in the negative
hot
[]


redeeming.s.02
compensating for some fault or defect
redeeming
[]


satisfactory.s.02
meeting requirements
satisfactory
[]


acceptable
[]


solid.s.01
characterized by good substantial quality
solid
[]


superb.s.02
surpassingly good
superb
[]


well-behaved.s.01
(usually of children) someone who behaves in a manner that the speaker believes is correct
well-behaved
[]


well_behaved
[]




Widzimy więc, że te słowa te nie mają żadnych bezpośrednich antonimów, mają tylko niebezpośredni antonim, dzięki swojemu podobieństwu do "good". Zachęcam do prób i eksperymentów! Krótka dokumentacja tego modułu w NLTK znajduje się na stronie: http://www.nltk.org/howto/wordnet.html (ale nie jest zbyt obszerna, niestety dużo trzeba samemu eksperymentować).