# Laboratorio 4
---

## Semántica léxica

### De qué se trata?

Este laboratorio se centra en la semántica léxica y utiliza NLTK para brindarte experiencia práctica con WordNet y realizar la desambiguación del sentido de las palabras.
El ejercicio se basa en tutoriales en el sitio web de NLTK

### NLTK Environment

El primer paso es importar NLTK y algunos corpus como en los últimos labs.

In [1]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [2]:
from nltk.corpus import wordnet as wn

Como vimos en las clases, WordNet está organizado como synsets, cada synset es un conjunto de palabras sinónimas. Una palabra aparecerá en multiples sysnets si tiene múltiples sentidos (senses), así como también puede aparecer en más de un POS

Por ejemplo: sustantivo y verbo. Podés recuperar todos los synsets asociados con una palabra usando la llamada al método synsets()

In [3]:
wn.synsets('dog')

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

Vemos que hay 7 synsets de sustantivos y 1 synset de verbos asociados con la palabra "perro". Puede restringir la recuperación a un POS particular utilizando el argumento POS.

In [9]:
wn.synsets('dog', pos = wn.VERB)

[Synset('chase.v.01')]

Como habrás visto en los ejemplos anteriores, se hace referencia a un conjunto de sistemas en particular usando una palabra, una etiqueta de POS y un indicador de numero.

Como hablamos en clase, los synsets se ordenan según la frecuencia. `dog.n.01` es el primer sentido (o el más frecuente) de perro. El segundo sentido de perro se puede denominar `dog.n.01`

En la salida anterior, el segundo synset se conoce como `frump.n.1`. Este synset es también el primer synset para la palabra `frump`. Pruebe lo siguiente para comprender mejor:

In [10]:
wn.synset('dog.n.01')

Synset('dog.n.01')

In [11]:
wn.synset('dog.n.02')

Synset('frump.n.01')

In [12]:
wn.synset('frump.n.01')

Synset('frump.n.01')

Ahora preguntémosle a WordNet definiciones de cada sentido y los sinónimos agrupados en un synset.

In [13]:
wn.synset('dog.n.01').definition()

'a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds'

In [14]:
wn.synset('dog.n.02').definition()

'a dull unattractive unpleasant girl or woman'

Los sinónimos de un synset pueden ser obtenidos usando el método `lemmas()`

In [15]:
wn.synset('dog.n.01').lemmas()

[Lemma('dog.n.01.dog'),
 Lemma('dog.n.01.domestic_dog'),
 Lemma('dog.n.01.Canis_familiaris')]

Hay 3 sinónimos para el synset de `dog`: `dog`, `domestig dog` y `Canis familiaris`. Estos aparecen en el output de la última instrucción.

Ejercicio:
Intenta obtener los lemas para el segundo sentido de `dog`

In [16]:
wn.synset('dog.n.02').lemmas()

[Lemma('frump.n.01.frump'), Lemma('frump.n.01.dog')]

Las otras POS son `NOUN`, `ADJ` y `ADV`. Un synset se identifica por un conjunto de 3 partes, siguiendo la forma `word.pos.nn`

In [18]:
wn.synset('dog.n.01')

Synset('dog.n.01')

In [19]:
wn.synset('dog.n.01').examples()

['the dog barked all night']

In [20]:
wn.synset('dog.n.01').lemmas()

[Lemma('dog.n.01.dog'),
 Lemma('dog.n.01.domestic_dog'),
 Lemma('dog.n.01.Canis_familiaris')]

In [21]:
[str(lemma.name()) for lemma in wn.synset('dog.n.01').lemmas()]

['dog', 'domestic_dog', 'Canis_familiaris']

In [22]:
wn.lemma('dog.n.01.dog').synset()

Synset('dog.n.01')

## Relaciones entre palabras en WordNet

Ahora veamos cómo consultar las relaciones entre los synsets de WordNet. Recuerde que el hiperónimo se refiere al superconjunto de una entidad y el hipónimo se refiere a subconjuntos más específicos.

Puede consultar hipernimos e hipónimos utilizando los siguientes métodos:

In [23]:
dog = wn.synset('dog.n.01')

In [24]:
dog.hypernyms()

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]

In [26]:
dog.hyponyms()

[Synset('basenji.n.01'),
 Synset('corgi.n.01'),
 Synset('cur.n.01'),
 Synset('dalmatian.n.02'),
 Synset('great_pyrenees.n.01'),
 Synset('griffon.n.02'),
 Synset('hunting_dog.n.01'),
 Synset('lapdog.n.01'),
 Synset('leonberg.n.01'),
 Synset('mexican_hairless.n.01'),
 Synset('newfoundland.n.01'),
 Synset('pooch.n.01'),
 Synset('poodle.n.01'),
 Synset('pug.n.01'),
 Synset('puppy.n.01'),
 Synset('spitz.n.01'),
 Synset('toy_dog.n.01'),
 Synset('working_dog.n.01')]

Como ya vimos en la sección anterior, las formas de palabras individuales en un conjunto se conocen como lemas. Algunas relaciones solo se mantienen entre lemas (es decir, entre formas de palabras específicas) en lugar de los conjuntos de sinónimos.

Por ejemplo, obtenga el primer synset asociado con el adjetivo `good` e imprima sus lemas

In [27]:
good = wn.synset('good.a.01')

In [28]:
good.lemmas()

[Lemma('good.a.01.good')]

Solo hay una forma de lema o palabra en este sintetizador. Puede recuperar antónimos para una forma de palabra de la siguiente manera:

In [29]:
g0 = good.lemmas()[0]

In [30]:
g0.antonyms()

[Lemma('bad.a.01.bad')]

Exploremos también dos relaciones más: `Meronym` y `Holonym`. Un merónimo de una palabra es una subparte o miembro. Un holónimo es un todo del cual la palabra es parte o miembro. Hay métodos separados en `NLTK` que obtienen merónimos/holónimos para las relacciones entre partes:

In [31]:
dog.part_meronyms()

[Synset('flag.n.07')]

In [32]:
dog.member_meronyms()

[]

In [33]:
dog.member_holonyms()

[Synset('canis.n.01'), Synset('pack.n.06')]

Este resultado dice que `flag.n.07` es parte de `dog.n.01` y `dog.n.01` es miembro de `canis.n.01` y `pack.n.06`

Ejercicio:

Utilizando lo que ha estudiado hasta ahora, imprima las definiciones de `flag.n.07`, `canis.n.01` y `pack.n.06` y vea si ve por qué estos synsets están relacionados de esta manera.

In [35]:
wn.synset('flag.n.07').definition()

'a conspicuously marked or shaped tail'

In [36]:
wn.synset('canis.n.01').definition()

'type genus of the Canidae: domestic and wild dogs; wolves; jackals'

In [37]:
wn.synset('pack.n.06').definition()

'a group of hunting animals'

## Desambiguación de palabras por sentido (Word Sense Desambiguation)

Como vimos en las clases, la tarea de desambiguación del sentido de las palabras es tomar una palabra en el contextio de la oración y mapearla a uno de los sentidos de la palrba, por ejemplo, asignar a un synset en WordNet

Estudiamos dos enfoques, un sistema de clasificación supervisado donde las palabras de contexto entran como features (características) y el otro es el algoritmo de Lesk que utilizó el recurso del diccionario para la desambiguación.

Ejercicio: Recuerde el algoritmo de Lesk. ¿Cuales fueron los pasos?

- Extraer las palabras de contexto.
- Comparar con las definiciones del diccionario / ejemplos de los diferentes sentidos
- Tomar el sentido más adecuado

Usamos el siguiente ejemplo en la clase, intentemos con el mismo.

`'The bank can guarantee deposits will eventually cover future tuition costs because it invests in adjustable-rate mortgage securities'`

Queremos eliminar la ambiguedad de `bank` en este contexto.

Ejercicio: ¿Cuántos sentidos crees que tiene la palabra bank?

- 2 o 3. Banco financiero, banco de sentarse o banco de rio.

Use lo que ha estudiado hasta ahora para recuperar todos los synsets asociados con el `bank` con el POS de sustantivo. ¿Cuántos sentidos sustantivos de 'banco' hay en WordNet?


In [40]:
wn.synsets('bank', pos=wn.NOUN)

[Synset('bank.n.01'),
 Synset('depository_financial_institution.n.01'),
 Synset('bank.n.03'),
 Synset('bank.n.04'),
 Synset('bank.n.05'),
 Synset('bank.n.06'),
 Synset('bank.n.07'),
 Synset('savings_bank.n.02'),
 Synset('bank.n.09'),
 Synset('bank.n.10')]

In [41]:
len(wn.synsets('bank', pos = wn.NOUN))

10

Ahora veamos qué nos da el `Algoritmo de Lesk`

In [43]:
from nltk.wsd import lesk
from nltk import word_tokenize
s = "The bank can guarantee deposits will eventually cover future tuition costs because it invests in adjustable-rate mortgage securities"
s_tok = word_tokenize(s)
lesk(s_tok, 'bank', 'n')

Synset('bank.n.05')

Ejercicio: Qué synset fue producido por Lesk?

- `bank.n.05`

¿Entiendes por qué tienes esta predicción? Veamos cómo `NLTK` está implementando Lesk

Podés encontrar el código fuente [acá](http://www.nltk.org/_modules/nltk/wsd.html)

In [44]:
l = word_tokenize((wn.synset('bank.n.05')).definition())

In [45]:
m = word_tokenize((wn.synset('bank.n.02')).definition())

In [46]:
k = set(s_tok)

In [47]:
k.intersection(l)

{'future', 'in'}

In [48]:
k.intersection(m)

{'deposits'}

¿Vés ahora por qué tienes esta predicción?
¿Qué cambios, de haber algunos, sugeriría para la correspondencia implementada por `NLTK`?
- Ninguno