# WordNet

In [99]:

from nltk.corpus import wordnet

# Import some helpful classes and functions
from IPython.display import HTML, display

def display_table(data, headers=None, caption=None):
    html = ["<table align=\"left\">"]
    
    if caption:
        html += ["<caption>{}</caption>".format(caption)]
        
    if headers:
        html += ["<tr>"] + ["<th>{}</th>".format(h) for h in headers] + ["</tr>"]
    
    for row in data:
        html += ["<tr>"]
        html += ["<td>{}</td>".format(it) for it in row]
        html += ["</tr>"]

    html.append("</table>")
    display(HTML(''.join(html)))    
    

## Qué es WordNet

[WordNet](https://wordnet.princeton.edu/) es una red de conceptos que contiene información codificada manualmente sobre sustantivos, verbos, adjetivos y adverbios **en inglés**; los términos que representan un mismo concepto están agrupados en *synsets* y son estos elementos los que constituyen los nodos de la red.

WordNet se creó en el Laboratorio de Ciencia Cognitiva de la Universidad de Princeton en 1985 bajo la dirección del profesor de psicología George Armitage Miller (1920-2012).

### Synset

Un synset es un conjunto de palabras de la misma categoría gramatical que hacen referencia a la misma realidad extralingüística y por lo tanto pueden ser intercambiadas en un texto sin afectar al significado. Son elementos semánticamente equivalentes. Así, ocurrirá que las palabras polisémicas aparecerán múltiples veces en *synsets* diferentes.

Podemos hacer una búsqueda de uno de estos *synsets* utilizando la función `synsets`:

In [100]:
my_synsets = wn.synsets('dog')
print("There are {} synsets referring to this word:".format(len(my_synsets)))

data = []
for synset in my_synsets:
    data.append([synset.name(), synset.definition()])

display_table(data, ["Synset", "Definition"])


There are 8 synsets referring to this word:


Synset,Definition
dog.n.01,a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds
frump.n.01,a dull unattractive unpleasant girl or woman
dog.n.03,informal term for a man
cad.n.01,someone who is morally reprehensible
frank.n.02,a smooth-textured sausage of minced beef or pork usually smoked; often served on a bread roll
pawl.n.01,a hinged catch that fits into a notch of a ratchet to move a wheel forward or prevent it from moving backward
andiron.n.01,metal supports for logs in a fireplace
chase.v.01,go after with the intent to catch


Podemos quedarnos con uno de ellos y explorar la cantidad de información que ofrece WordNet una vez que hemos encontrado el *synset* que nos interesa:

In [101]:
my_synset = my_synsets[0]  # TODO: Prueba con otros: my_synsets[1], my_synsets[2],...
print("synset.name: {}".format(my_synset.name()))
print("synset.definition: {}".format(my_synset.definition()))

print("synset.examples:")
for example in my_synset.examples():
    print("\t + {}".format(example))

print("synset.lemmas:")
for lemma in my_synset.lemmas():
    print("\t + {}".format(lemma.name()))


synset.name: dog.n.01
synset.definition: a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds
synset.examples:
	 + the dog barked all night
synset.lemmas:
	 + dog
	 + domestic_dog
	 + Canis_familiaris


y también podemos buscar los lemmas correspondientes a un *synset* en otros idiomas. Vamos a mostrar aquí sólo un ejemplo porque trataremos este tema más adelante. Véamos cuáles son los relacionados con el *synset* que hemos guardado en la variable `my_synset` de la celda anterior:

In [102]:
languages = sorted(wordnet.langs())
print("These are the languages available: {}".format(', '.join(languages)))

selected_languages = ['eng', 'spa', 'fra', 'eus', 'jpn',] # TODO: Prueba con otros idiomas (de la lista)

data = []
for lang in selected_languages:
    data.append([lang, '</br>'.join(my_synset.lemma_names(lang))])

display_table(data, headers=["lang", "lemmas"])

These are the languages available: als, arb, bul, cat, cmn, dan, ell, eng, eus, fas, fin, fra, glg, heb, hrv, ind, ita, jpn, nno, nob, pol, por, qcn, slv, spa, swe, tha, zsm


lang,lemmas
eng,dogdomestic_dogCanis_familiaris
spa,canperro
fra,canis_familiarischien
eus,ortxakurzakur
jpn,イヌドッグ洋犬犬飼犬飼い犬


### Categoría gramatical de un synset

En el apartado anterior hemos recuperado todos los *synsets* a partir de una palabra y nos han aparecido significados correspondientes a sustantivos, verbos, adjetivos,... pero se puede afinar un poco más la búsqueda utilizando el *part of speech (pos)*:

 * `wordnet.VERB`
 * `wordnet.NOUN`
 * `wordnet.ADJ`
 * `wordnet.ADV`
 
¡Vamos a verlo en acción!

In [106]:
word = "bien"  # TODO: seguro que se te ocurren palabras que puedan aparecer en varias categorías gramaticales
lang = "spa"  # TODO: estamos buscando en español, pero...

synsets_as_noun = wordnet.synsets(word, lang='spa', pos=wordnet.NOUN)
synsets_as_verb = wordnet.synsets(word, lang='spa', pos=wordnet.VERB)
synsets_as_adj = wordnet.synsets(word, lang='spa', pos=wordnet.ADJ)
synsets_as_adv = wordnet.synsets(word, lang='spa', pos=wordnet.ADV)

# Vamos a imprimir los resultados
print("synsets_as_noun: {}".format(synsets_as_noun))

# TODO: ¿Te atreves a mostrar más información sobre ellos:
# def synset_table(synsets, title):
#    data = []
#    for synset in synsets:
#        data.append([synset.name(), synset.lemma_names(), synset.definition()])
#        
#    display_table(data, ["Synset", "Lemmas", "Definition"], caption=title)
#
#synset_table(synsets_as_noun, title="Resultados con: wordnet.NOUN")
#synset_table(synsets_as_verb, title="Resultados con: wordnet.VERB")
#synset_table(synsets_as_adj,  title="Resultados con: wordnet.ADJ")
#synset_table(synsets_as_adv, title="Resultados con: wordnet.ADV")


synsets_as_noun: [Synset('commodity.n.01'), Synset('good.n.03'), Synset('sake.n.01'), Synset('good.n.01'), Synset('personal_property.n.01')]
