# WordNet

## Trabajando con Wordnet en Python NLTK

_Disclaimer_: some information and examples of this notebook come from [Documentación de WordNet en NLTK](https://www.nltk.org/howto/wordnet.html)

Si no lo tenemos ya instalado, instalemos NLTK:

!pip install nltk

y ahora cargamos wordnet:

In [2]:
import nltk #natural language toolkit
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Sandra\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [3]:
from nltk.corpus import wordnet as wn

Para obtener todos los synset de una palabra:

In [4]:
wn.synsets('dog')

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

Si queremos sacar el synset que esté relacionado solo con un determinado POStag:

In [5]:
wn.synsets('dog', pos=wn.VERB)

[Synset('chase.v.01')]

Si queremos sacar la definición de uno de los synsets concretos:

In [6]:
wn.synset('dog.n.01').definition()

'a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds'

¿Cuáles con los lemas que podemos emplear para referirnos a esa acepción?

In [7]:
wn.synset('dog.n.01').lemmas()

[Lemma('dog.n.01.dog'),
 Lemma('dog.n.01.domestic_dog'),
 Lemma('dog.n.01.Canis_familiaris')]

y si queremos sacar la cadena asociada al lema:

In [8]:
[l.name() for l in wn.synset('dog.n.01').lemmas()]

['dog', 'domestic_dog', 'Canis_familiaris']

Supongamos que lo que se desea es obtener todos los sinónimos de un determinado lema, obtendremos una lista por cada acepción.

Por ejemplo, para los synsets del siguiente lema:

In [9]:
wn.synsets('bat')

[Synset('bat.n.01'),
 Synset('bat.n.02'),
 Synset('squash_racket.n.01'),
 Synset('cricket_bat.n.01'),
 Synset('bat.n.05'),
 Synset('bat.v.01'),
 Synset('bat.v.02'),
 Synset('bat.v.03'),
 Synset('bat.v.04'),
 Synset('cream.v.02')]

podemos preguntar por los sinónimos que tiene, y nos devolverá una lista para cada acepción:

In [10]:
wn.synonyms('bat')

[['chiropteran'],
 ['at-bat'],
 ['squash_racket', 'squash_racquet'],
 ['cricket_bat'],
 [],
 [],
 ['flutter'],
 [],
 [],
 ['clobber', 'cream', 'drub', 'lick', 'thrash']]

Los sinónimos aparecen en las posiciones de los sinsets. Para el sinset 1, el sinónimo es quiróptero, para el 2 es at-bat, para el 3 hay dos sinónimos: squash racket y squash racquet, etc.

Si en la implementación del API que tengamos instalada no disponemos del método `synonyms`, podríamos obtener la lísta de sinónimos recorriendo todos los synsets, extrayendo sus lemas, y metiéndolos en un conjunto (para eliminar duplicados) del siguiente modo:

In [11]:
set([l.name() for syn in wn.synsets('bat') for l in syn.lemmas()])

{'at-bat',
 'bat',
 'chiropteran',
 'clobber',
 'cream',
 'cricket_bat',
 'drub',
 'flutter',
 'lick',
 'squash_racket',
 'squash_racquet',
 'thrash'}

Para obtener los hiperónimos e hipónimos usaremos los synsets.

In [12]:
dog = wn.synset('dog.n.01')
dog.hypernyms()

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]

In [13]:
dog.hyponyms()

[Synset('working_dog.n.01'),
 Synset('hunting_dog.n.01'),
 Synset('poodle.n.01'),
 Synset('leonberg.n.01'),
 Synset('cur.n.01'),
 Synset('newfoundland.n.01'),
 Synset('pug.n.01'),
 Synset('corgi.n.01'),
 Synset('dalmatian.n.02'),
 Synset('pooch.n.01'),
 Synset('lapdog.n.01'),
 Synset('spitz.n.01'),
 Synset('basenji.n.01'),
 Synset('griffon.n.02'),
 Synset('great_pyrenees.n.01'),
 Synset('toy_dog.n.01'),
 Synset('mexican_hairless.n.01'),
 Synset('puppy.n.01')]

Y la relación de holonímia (del todo y las partes)

In [14]:
dog.member_holonyms()

[Synset('canis.n.01'), Synset('pack.n.06')]

Para obtener los antónimos en wordnet, debemos hacerlo a través de los lemas:

In [15]:
wn.lemma('good.a.01.good').antonyms()

[Lemma('bad.a.01.bad')]