# WordNet

### Полезные ссылки: <br>
Главный сайт проекта: https://wordnet.princeton.edu/ <br>
WordNet через nltk: http://www.nltk.org/howto/wordnet.html

In [1]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [2]:
nltk.download('omw')

[nltk_data] Downloading package omw to /root/nltk_data...
[nltk_data]   Unzipping corpora/omw.zip.


True

In [3]:
from nltk.corpus import wordnet as wn

Ищем все синсеты, в которых есть подстрока "dog":

In [4]:
example_synsets = wn.synsets('dog')
print (example_synsets)

[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]


Можно уточнить, какие именно части речи нас интересуют. Возможные варианты: NOUN, ADJ, ADV, VERB

In [None]:
dog_noun_synsets = wn.synsets('dog', pos=wn.NOUN)
print (dog_noun_synsets)

[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01')]


Доступ ко всем синсетам и ко всем словам:

In [None]:
print (len(list(wn.all_synsets())))
print (len(list(wn.all_synsets('v'))))
print (len(list(wn.all_lemma_names('a'))))

117659
13767
21479


Про синсет мы можем узнать: его имя (ID синсета), определение, ID относящихся к нему лемм, сами леммы; посмотреть примеры (если они есть) 

In [7]:
exemplar = wn.synset('dog.n.01')
print (exemplar.name(), exemplar.definition(), exemplar.lemma_names(),
       exemplar.examples())

dog.n.01 a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds ['dog', 'domestic_dog', 'Canis_familiaris'] ['the dog barked all night']


Отношения между синсетами

In [8]:
print (exemplar.hyponyms())
print (exemplar.hypernyms())
print (exemplar.root_hypernyms())
print (exemplar.member_holonyms())
print (exemplar.member_meronyms())
print (exemplar.similar_tos())

[Synset('basenji.n.01'), Synset('corgi.n.01'), Synset('cur.n.01'), Synset('dalmatian.n.02'), Synset('great_pyrenees.n.01'), Synset('griffon.n.02'), Synset('hunting_dog.n.01'), Synset('lapdog.n.01'), Synset('leonberg.n.01'), Synset('mexican_hairless.n.01'), Synset('newfoundland.n.01'), Synset('pooch.n.01'), Synset('poodle.n.01'), Synset('pug.n.01'), Synset('puppy.n.01'), Synset('spitz.n.01'), Synset('toy_dog.n.01'), Synset('working_dog.n.01')]
[Synset('canine.n.02'), Synset('domestic_animal.n.01')]
[Synset('entity.n.01')]
[Synset('canis.n.01'), Synset('pack.n.06')]
[]
[]


Ближайший общий гипероним

In [None]:
print(wn.synset('coffee.n.01').lowest_common_hypernyms(wn.synset('tea.n.01')))

[Synset('beverage.n.01')]


Расстояние между синсетами: <br>
path_similarity - оценивает расстояние по кратчайшему пути между синсетами. <br>
Значение - от 0 до 1, где 1 - максимальная степень близости.

In [None]:
print(wn.synset('dog.n.01').path_similarity(wn.synset('cat.n.01')))
print(wn.synset('person.n.01').path_similarity(wn.synset('cat.n.01')))
print(wn.synset('dog.n.01').path_similarity(wn.synset('person.n.01')))

0.2
0.1
0.2


In [None]:
synset_names = ['milk.n.01', 'white.a.01', 'chocolate.n.01', 'meat.n.01', 'mountain.n.01', 'walk.v.01', 'horse.n.01']
for name in synset_names:
  synset = wn.synset(name)
  print (synset.name(), wn.synset('cow.n.01').path_similarity(synset))

milk.n.01 0.045454545454545456
white.a.01 None
cocoa.n.01 0.045454545454545456
meat.n.01 0.047619047619047616
mountain.n.01 0.05263157894736842
walk.v.01 None
horse.n.01 0.1


Деривационные отношения и отношение антонимии определены только для лемм:

In [None]:
for lemma in wn.lemmas('personal'):
    print (lemma)
    print ('Pertainyms:', lemma.pertainyms())
    print ('Antonyms:', lemma.antonyms())
    print ('Derivationally related forms:', lemma.derivationally_related_forms())

Lemma('personal.n.01.personal')
Pertainyms: []
Antonyms: []
Derivationally related forms: []
Lemma('personal.a.01.personal')
Pertainyms: []
Antonyms: [Lemma('impersonal.a.01.impersonal')]
Derivationally related forms: []
Lemma('personal.s.02.personal')
Pertainyms: []
Antonyms: []
Derivationally related forms: []
Lemma('personal.a.03.personal')
Pertainyms: [Lemma('personality.n.01.personality')]
Antonyms: []
Derivationally related forms: [Lemma('personality.n.01.personality')]
Lemma('personal.s.04.personal')
Pertainyms: []
Antonyms: []
Derivationally related forms: []
Lemma('personal.a.05.personal')
Pertainyms: [Lemma('person.n.03.person')]
Antonyms: []
Derivationally related forms: []


## MultiWordNet

http://compling.hss.ntu.edu.sg/omw/ <br>
Условные обозначения языков: коды ISO-639

In [None]:
sorted(wn.langs()), len(wn.langs())

(['als',
  'arb',
  'bul',
  'cat',
  'cmn',
  'dan',
  'ell',
  'eng',
  'eus',
  'fas',
  'fin',
  'fra',
  'glg',
  'heb',
  'hrv',
  'ind',
  'ita',
  'jpn',
  'nld',
  'nno',
  'nob',
  'pol',
  'por',
  'qcn',
  'slv',
  'spa',
  'swe',
  'tha',
  'zsm'],
 29)

In [9]:
print (exemplar.lemma_names('fra'))
print (exemplar.lemma_names('hrv'))
print (exemplar.lemma_names('jpn'))

['canis_familiaris', 'chien']
['Canis_lupus_familiaris', 'domaći_pas', 'pas']
['イヌ', 'ドッグ', '洋犬', '犬', '飼犬', '飼い犬']


Практические задания:


1.   Составьте с помощью WordNet список существительных, которые могут выступать в качестве прямого дополнения при глаголе to eat, через поиск общего гиперонима для слов meat и potatos. 
2.   Найдите 10 ближайших синсетов к синсету 'cow.n.01'.

