# WordNet

 * [Synsets](#Synsets)
    * [Lemma](#Lemma)
 * [Relaciones](#Relaciones)
 * [Métricas](#Métricas)

In [2]:

from nltk.corpus import wordnet

# Import some helpful classes and functions
from IPython.display import HTML, display, Image

def display_table(data, headers=None, caption=None):
    html = ["<table align=\"left\">"]
    
    if caption:
        html += ["<caption>{}</caption>".format(caption)]
        
    if headers:
        html += ["<tr>"] + ["<th>{}</th>".format(h) for h in headers] + ["</tr>"]
    
    for row in data:
        html += ["<tr>"]
        html += ["<td>{}</td>".format(it) for it in row]
        html += ["</tr>"]

    html.append("</table>")
    display(HTML(''.join(html)))    
    

## Qué es WordNet

[WordNet](https://wordnet.princeton.edu/) es una red de conceptos que contiene información codificada manualmente sobre sustantivos, verbos, adjetivos y adverbios en inglés; los términos que representan un mismo concepto están agrupados en *synsets* y son estos elementos los que constituyen los nodos de la red.

WordNet se creó en el Laboratorio de Ciencia Cognitiva de la Universidad de Princeton en 1985 bajo la dirección del profesor de psicología George Armitage Miller (1920-2012).

## Synsets

Un synset es un conjunto de palabras de la misma categoría gramatical que hacen referencia a la misma realidad extralingüística y por lo tanto pueden ser intercambiadas en un texto sin afectar al significado. Son elementos semánticamente equivalentes. Así, ocurrirá que las palabras polisémicas aparecerán múltiples veces en *synsets* diferentes.

Podemos hacer una búsqueda de uno de estos *synsets* utilizando la función `synsets`:

In [3]:
my_synsets = wordnet.synsets('dog')
print("There are {} synsets referring to this word:".format(len(my_synsets)))

data = []
for synset in my_synsets:
    data.append([synset.name(), synset.definition()])

display_table(data, ["Synset", "Definition"])


There are 8 synsets referring to this word:


Synset,Definition
dog.n.01,a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds
frump.n.01,a dull unattractive unpleasant girl or woman
dog.n.03,informal term for a man
cad.n.01,someone who is morally reprehensible
frank.n.02,a smooth-textured sausage of minced beef or pork usually smoked; often served on a bread roll
pawl.n.01,a hinged catch that fits into a notch of a ratchet to move a wheel forward or prevent it from moving backward
andiron.n.01,metal supports for logs in a fireplace
chase.v.01,go after with the intent to catch


Podemos quedarnos con uno de ellos y explorar la cantidad de información que ofrece WordNet una vez que hemos encontrado el *synset* que nos interesa:

In [4]:
my_synset = my_synsets[0]  # TODO: Prueba con otros: my_synsets[1], my_synsets[2],...
print("synset.name: {}".format(my_synset.name()))
print("synset.definition: {}".format(my_synset.definition()))

print("synset.examples:")
for example in my_synset.examples():
    print("\t + {}".format(example))

print("synset.lemmas:")
for lemma in my_synset.lemmas():
    print("\t + {}".format(lemma.name()))


synset.name: dog.n.01
synset.definition: a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds
synset.examples:
	 + the dog barked all night
synset.lemmas:
	 + dog
	 + domestic_dog
	 + Canis_familiaris


y también podemos buscar los lemmas correspondientes a un *synset* en otros idiomas. Vamos a mostrar aquí sólo un ejemplo porque trataremos este tema más adelante. Véamos cuáles son los relacionados con el *synset* que hemos guardado en la variable `my_synset` de la celda anterior:

In [5]:
languages = sorted(wordnet.langs())
print("These are the languages available: {}".format(', '.join(languages)))

selected_languages = ['eng', 'spa', 'fra', 'eus', 'jpn',] # TODO: Prueba con otros idiomas (de la lista)

data = []
for lang in selected_languages:
    data.append([lang, '</br>'.join(my_synset.lemma_names(lang))])

display_table(data, headers=["lang", "lemmas"])

These are the languages available: als, arb, bul, cat, cmn, dan, ell, eng, eus, fas, fin, fra, glg, heb, hrv, ind, ita, jpn, nno, nob, pol, por, qcn, slv, spa, swe, tha, zsm


lang,lemmas
eng,dogdomestic_dogCanis_familiaris
spa,canperro
fra,canis_familiarischien
eus,ortxakurzakur
jpn,イヌドッグ洋犬犬飼犬飼い犬


### Categoría gramatical de un synset

En el apartado anterior hemos recuperado todos los *synsets* a partir de una palabra y nos han aparecido significados correspondientes a sustantivos, verbos, adjetivos,... pero se puede afinar un poco más la búsqueda utilizando el *part of speech (pos)*:

 * `wordnet.VERB`
 * `wordnet.NOUN`
 * `wordnet.ADJ`
 * `wordnet.ADV`
 
¡Vamos a verlo en acción!

In [6]:
word = "bien"  # TODO: seguro que se te ocurren palabras que puedan aparecer en varias categorías gramaticales
lang = "spa"  # TODO: estamos buscando en español, pero...

synsets_as_noun = wordnet.synsets(word, lang=lang, pos=wordnet.NOUN)
synsets_as_verb = wordnet.synsets(word, lang=lang, pos=wordnet.VERB)
synsets_as_adj = wordnet.synsets(word, lang=lang, pos=wordnet.ADJ)
synsets_as_adv = wordnet.synsets(word, lang=lang, pos=wordnet.ADV)

# Vamos a imprimir los resultados
print("synsets_as_noun: {}".format(synsets_as_noun))

# TODO: ¿Te atreves a mostrar más información sobre ellos con una tabla?:
# def synset_table(synsets, title):
#    data = []
#    for synset in synsets:
#        data.append([synset.name(), synset.lemma_names(), synset.definition()])
#        
#    display_table(data, ["Synset", "Lemmas", "Definition"], caption=title)
#
#synset_table(synsets_as_noun, title="Resultados con: wordnet.NOUN")
#synset_table(synsets_as_verb, title="Resultados con: wordnet.VERB")
#synset_table(synsets_as_adj,  title="Resultados con: wordnet.ADJ")
#synset_table(synsets_as_adv, title="Resultados con: wordnet.ADV")


synsets_as_noun: [Synset('commodity.n.01'), Synset('good.n.03'), Synset('sake.n.01'), Synset('good.n.01'), Synset('personal_property.n.01')]


### Lo que nos gusta de los *synsets*

Lo que nos gusta de los *synsets* es que permiten referirse a un significado sin ambigüedades. A los ordenadores se les da muy mal resolver ambigüedades, generalmente se les da muy mal todo lo que humanos hacemos con relativa facilidad (entender un mensaje, reconocer imágenes,...), pero realizan muy eficazmente tareas que a nosotros nos cuestan mucho tiempo (búsquedas, ordenación,...).

Los ordenadores querrían ver los textos de esta forma, **sin ambigüedades**:

```
El perro ladra ---> El dog.n.01 bark.v.04
```
así podrían entenderlo y podríamos hacer inferencias sin equivocarnos.

### Lemma

No debe confundirse un **synset** con un **lemma**, tal y como los identifica WordNet. Recordemos que:
 
 * un **synset** está asociado a un significado, que puede representarse en lenguaje natural mediante palabras (lemmas) muy diferentes: perro, dog, can,...
 * un **lemma** es una palabra de lenguaje natural y, por lo tanto, puede tener varios significados (synsets).
 
Esta diferencia es importantísima tenerla presente.

In [27]:
ex_synset = wordnet.synset('dog.n.01')
for lemma in ex_synset.lemmas():
    print("{} -> {}".format(ex_synset, lemma))

Synset('dog.n.01') -> Lemma('dog.n.01.dog')
Synset('dog.n.01') -> Lemma('dog.n.01.domestic_dog')
Synset('dog.n.01') -> Lemma('dog.n.01.Canis_familiaris')


Como vemos, a traves de un *synset* llegamos a lemmas diferentes, pero todos ellos con el mismo significado. De hecho, el identificador del sysnset `dog.n.01` se mantiene.

In [31]:
ex_lemmas = wordnet.lemmas("dog")
for lemma in ex_lemmas:
    print("{} -> {} -> {}".format(lemma.name(), lemma, lemma.synset()))

dog -> Lemma('dog.n.01.dog') -> Synset('dog.n.01')
dog -> Lemma('frump.n.01.dog') -> Synset('frump.n.01')
dog -> Lemma('dog.n.03.dog') -> Synset('dog.n.03')
dog -> Lemma('cad.n.01.dog') -> Synset('cad.n.01')
dog -> Lemma('frank.n.02.dog') -> Synset('frank.n.02')
dog -> Lemma('pawl.n.01.dog') -> Synset('pawl.n.01')
dog -> Lemma('andiron.n.01.dog') -> Synset('andiron.n.01')
dog -> Lemma('chase.v.01.dog') -> Synset('chase.v.01')


En cambio, cuando buscamos una palabra obtenemos varios lemmas, cada uno de ellos asociado a un synset diferente. Se puede observar cómo los identificadores de los synsets son diferentes: `dog.n.01`, `frump.n.01`,...

### ¿Qué tal vamos hasta aquí?

In [32]:
bien = "https://media.giphy.com/media/tqxGgrCnQGsHm/giphy.gif"
mal = "https://media.giphy.com/media/rn0rRhia7343u/giphy.gif"

# TODO: Selecciona la imagen que corresponda (sustituye la variable 'img' por una de las de arriba)
display(HTML("<img src='{}' />".format(img)))

NameError: name 'img' is not defined

## Relaciones

Como decíamos al principio, WordNet es más que un diccionario o un traductor, se trata de una **red de conceptos** que nos permite buscar relaciones entre significados de una forma extremadamente fácil e interesante.

### Synset

Los elementos de tipo *synset* definen algunas relaciones que puedes explorar. A continuación te indicamos cuáles creemos que son las más interesantes (puedes consultar la lista completa [aquí](http://www.nltk.org/api/nltk.corpus.reader.html#nltk.corpus.reader.wordnet.Synset)):

 * hiperónimos
 * hipónimos
 * holónimos
 * merónimos

In [70]:
my_synset = wordnet.synset("hand.n.01")

#### Hiperónimos

In [71]:
data = []
for hypernym in my_synset.hypernyms():
    lemmas = [lemma.name() for lemma in hypernym.lemmas()]
    data.append([hypernym, ', '.join(lemmas), '</br>'.join(hypernym.examples())])
display_table(data, ["hyp-synset", "lemmas", "examples"], caption="Hypernyms for {}".format(my_synset))

hyp-synset,lemmas,examples
Synset('extremity.n.05'),extremity,


#### Hipónimos

In [72]:
data = []
for hyponym in my_synset.hyponyms():
    lemmas = [lemma.name() for lemma in hyponym.lemmas()]
    data.append([hyponym, ', '.join(lemmas), '</br>'.join(hyponym.examples())])
display_table(data, ["hyponym-synset", "lemmas", "examples"], caption="Hyponyms for {}".format(my_synset))

hyponym-synset,lemmas,examples
Synset('fist.n.01'),"fist, clenched_fist",
Synset('hooks.n.01'),"hooks, meat_hooks, maulers",wait till I get my hooks on him
Synset('left.n.03'),"left, left_hand",jab with your left
Synset('right.n.05'),"right, right_hand",he writes with his right hand but pitches with his lefthit him with quick rights to the body


#### Holónimos

In [73]:
# member_holonyms, substance_holonyms, part_holonyms
data = []
for holonym in my_synset.part_holonyms():
    lemmas = [lemma.name() for lemma in holonym.lemmas()]
    data.append([holonym, ', '.join(lemmas), '</br>'.join(holonym.examples())])
display_table(data, ["holonym-synset", "lemmas", "examples"], caption="Holonyms for {}".format(my_synset))

holonym-synset,lemmas,examples
Synset('arm.n.01'),arm,
Synset('homo.n.02'),"homo, man, human_being, human",


#### Merónimos

In [74]:
# member_meronyms, substance_meronyms, part_meronyms
data = []
for meronym in my_synset.part_meronyms():
    lemmas = [lemma.name() for lemma in meronym.lemmas()]
    data.append([meronym, ', '.join(lemmas), '</br>'.join(meronym.examples())])
display_table(data, ["meronym-synset", "lemmas", "examples"], caption="Meronyms for {}".format(my_synset))

meronym-synset,lemmas,examples
Synset('ball.n.10'),ball,the ball at the base of the thumbhe stood on the balls of his feet
Synset('digital_arteries.n.01'),"digital_arteries, arteria_digitalis",
Synset('finger.n.01'),finger,her fingers were long and thin
Synset('intercapitular_vein.n.01'),"intercapitular_vein, vena_intercapitalis",
Synset('metacarpal_artery.n.01'),"metacarpal_artery, arteria_metacarpea",
Synset('metacarpal_vein.n.01'),"metacarpal_vein, vena_metacarpus",
Synset('metacarpus.n.01'),metacarpus,
Synset('palm.n.01'),"palm, thenar",


### Lemma

Los lemas, por su parte, también definen unas cuantas relaciones interesantes (lista completa [aquí](http://www.nltk.org/api/nltk.corpus.reader.html#nltk.corpus.reader.wordnet.Lemma)), si bien, las dos que nos parecen más interesantes son:

 * antonyms
 * derivationally_related_forms

In [123]:
my_lemma = wordnet.lemma("fast.a.01.fast")

#### Formas derivadas

In [143]:
lang='spa'  # TODO: Change the language
data = []
for item in my_lemma.derivationally_related_forms():
    lemmas = item.synset().lemma_names(lang=lang)
    data.append([item, '</br>'.join(lemmas), '</br>'.join(item.synset().examples())])
display_table(data, ["derivationally-related-forms", "lemmas", "examples"], caption="Derivates for {}".format(my_lemma))

derivationally-related-forms,lemmas,examples
Lemma('speed.n.02.fastness'),rapidezvelocidad,the project advanced with gratifying speed


#### Antónimos

In [142]:
lang='eng'  # TODO: Change the language
data = []
for item in my_lemma.antonyms():
    lemmas = item.synset().lemma_names(lang=lang)
    data.append([item, '</br>'.join(lemmas), '</br>'.join(item.synset().examples())])
display_table(data, ["antonym-lemma", "lemmas", "examples"], caption="Antonym for {}".format(my_lemma))

antonym-lemma,lemmas,examples
Lemma('slow.a.01.slow'),slow,a slow walkerthe slow lane of trafficher steps were slowhe was slow in reacting to the newsslow but steady growth


## Métricas

Las relaciones entre un elemento y sus vecinos permiten explorar la red de conceptos buscando términos relacionados con una palabra (lema) dada o bien con un concepto (synset) determinado. Sin embargo, esta estructura de relaciones nos permite también abordar problemas mucho más ambiciosos. Algunos de ellos los vemos a continuación:

### Expansión de búsquedas

Una de las primeras aplicaciones que se nos pueden ocurrir y quizá de las más utilizadas es la expansión de búsquedas. Para ello podemos utilizar estas redes de conceptos para ampliar la búsqueda utilizando otras palabras relacionadas. De este modo lo que se persigue es encontrar documentos que, aunque no contengan exactamente la misma palabra que se ha introducido, sí sean relevantes por contener otras relacionadas.

Por ejemplo, si el usuario ha introducido `dalmatian` como término de búsqueda, podemos hacer lo siguiente:

In [166]:
q = "dalmatian"
print("Original query: {}".format(q))

# Look synsets related to the keyword
synsets = wordnet.synsets(q)

# Expand the query to all related synsets
def gather_lemmas(synset_list):
    lemmas = []
    for synset in synset_list:
        lemmas += synset.lemma_names()
    return lemmas
    
expanded_query = [q] + gather_lemmas(synsets)
print("Expanded to synsets: {}".format(', '.join(set(expanded_query))))

# Expand the query to all hyperonyms:
for synset in synsets:
    expanded_query += gather_lemmas(synset.hypernyms())

print("Expanded with hyperonyms: {}".format(', '.join(set(expanded_query))))


Original query: dalmatian
Expanded to synsets: Dalmatian, carriage_dog, dalmatian, coach_dog
Expanded with hyperonyms: Canis_familiaris, domestic_dog, coach_dog, dalmatian, dog, carriage_dog, Dalmatian, European


Al tener muchos más términos de búsqueda podremos recuperar muchos más documentos de nuestro corpus en caso de que la búsqueda original ofreciera un numero insuficiente de resultados.

### Distancia semántica

Otra aplicación muy habitual cuando se dispone de una red de conceptos es medir la distancia semántica entre significados. Algunas situaciones en las que puede plantearse esta necesidad son la evaluación de traductores (cuál se ha separado menos del significado original) o la desambiguación (ante un mismo lema con varios significados podemos asignarle una probabilidad a cada uno de ellos según la distancia a la temática del documento).

Esta aplicación es tan demandada que NLTK implementa los principales algoritmos para calcular esta medida. Por ejemplo, dados tres significados `dog.n.01`, `cat.n.01` y `tiger.n.01`, veamos cuál es la distancia entre ellos:

In [214]:
dog = wordnet.synset("dog.n.01")
cat = wordnet.synset("cat.n.01")
tiger = wordnet.synset("tiger.n.01")

In [218]:
items = [dog, cat, tiger]
methods = {'path_similarity': wordnet.path_similarity,
          'lch_similarity': wordnet.lch_similarity,
          'wup_similarity': wordnet.wup_similarity,
          #'res_similarity': wordnet.res_similarity,
          #'jcn_similarity': wordnet.jcn_similarity,
          #'lin_similarity': wordnet.lin_similarity
          }

data = []
for key,method in methods.items():
    row = []
    it1 = items[0]
    for it2 in items:
        row.append(method(it1, it2))
    data.append([key] + row)

display_table(data, ["Method", *["{} > {}".format(items[0].name(), it.name()) for it in items]])


Method,dog.n.01 > dog.n.01,dog.n.01 > cat.n.01,dog.n.01 > tiger.n.01
lch_similarity,3.6375861597263857,2.0281482472922856,1.845826690498331
wup_similarity,0.9285714285714286,0.8571428571428571,0.7058823529411765
path_similarity,1.0,0.2,0.1666666666666666


### Especificidad y concreción

¡Toma epígrage! Hay un método que te devuelve la profundidad en la jerarquía de conceptos de una palabra, ¿se podría evaluar en base a esto cómo de riguroso es un autor?

En primer lugar, ten en cuenta que WordNet no es una estructura en forma de árbol, sino que es un grafo, es decir, ¡puede haber varios caminos para llegar a un mismo nodo!

In [186]:
dog = wordnet.synset('dog.n.01')

for path in dog.hypernym_paths():
    print("== Path:")
    print(' >> '.join([item.name() for item in path]))

== Path:
entity.n.01 >> physical_entity.n.01 >> object.n.01 >> whole.n.02 >> living_thing.n.01 >> organism.n.01 >> animal.n.01 >> chordate.n.01 >> vertebrate.n.01 >> mammal.n.01 >> placental.n.01 >> carnivore.n.01 >> canine.n.02 >> dog.n.01
== Path:
entity.n.01 >> physical_entity.n.01 >> object.n.01 >> whole.n.02 >> living_thing.n.01 >> organism.n.01 >> animal.n.01 >> domestic_animal.n.01 >> dog.n.01


Esto es importante porque al calcular la profundidad de un nodo en la jerarquía de conceptos obtendremos varios valores:

In [188]:
words = {'dog': 'dog.n.01',
          'dalmatian': 'dalmatian.n.01',
          'animal': 'animal.n.01'}

data = []
for w,s in words.items():
    min_depth = wordnet.synset(s).min_depth()
    max_depth = wordnet.synset(s).max_depth()
    data.append([w, min_depth, max_depth])
    
display_table(data, ["synset", "min_depth", "max_depth"])

synset,min_depth,max_depth
dalmatian,6,9
dog,8,13
animal,6,6


es decir que si queremos comparar la profundidad relativa entre dos conceptos tenemos que procurar evaluar ambos **utilizando el mismo camino** para no obtener resultados indeseados.