# Exercício 4 - WordNet e WSD

Neste exercício vamos ver como utilizar o dicionário léxico (thesaurus) WordNet, assim como funcionam os algoritmos de desambiguação (WSD).

In [52]:
from nltk.corpus import wordnet as wn
from nltk.wsd import lesk
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

Vamos buscar todos os synsets que contém a palavra dog. A função synsets busca tanto na glosa quanto nos exemplos.

In [53]:
wn.synsets('dog')

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

Vamos acessar um synset específico e verificar sua glosa, isto é, a definição do senso.

In [54]:
wn.synset('dog.n.01').definition()

'a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds'

Agora vamos ver os exemplos de uso do senso:

In [55]:
wn.synset('dog.n.01').examples()

['the dog barked all night']

Vamos verificar a hierarquia do senso, primeiramente vamos imprimir todos os hiperônimos

In [56]:
dog_synset = wn.synset('dog.n.01')

dog_synset.hypernyms()

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]

O senso possui algum hipônimo? Vamos verificar:

In [57]:
dog_synset.hyponyms()

[Synset('basenji.n.01'),
 Synset('corgi.n.01'),
 Synset('cur.n.01'),
 Synset('dalmatian.n.02'),
 Synset('great_pyrenees.n.01'),
 Synset('griffon.n.02'),
 Synset('hunting_dog.n.01'),
 Synset('lapdog.n.01'),
 Synset('leonberg.n.01'),
 Synset('mexican_hairless.n.01'),
 Synset('newfoundland.n.01'),
 Synset('pooch.n.01'),
 Synset('poodle.n.01'),
 Synset('pug.n.01'),
 Synset('puppy.n.01'),
 Synset('spitz.n.01'),
 Synset('toy_dog.n.01'),
 Synset('working_dog.n.01')]

O NLTK possui uma função de WSD, que utiliza o Lesk Simplificado. Vamos detectar o senso de uma palavra a partir de uma sentença tokenizada.

In [58]:
sent = 'After an extended period of inactivity, Vesuvius erupted with devastating force in A.D. 79.'

lesk(sent.split(), 'extended')

Synset('cover.v.03')

Vamos ver a definição do senso detectado

In [59]:
lesk(sent.split(), 'extended').definition()

'span an interval of distance, space or time'

**Exercício:** Faça você mesmo! Como vimos acima, o NLTK utiliza o Lesk Simplificado para determinar o senso correto. Nessa versão, não utilizamos os exemplos na assinatura. Vamos implementar o Lesk utilizando os exemplos e ver se temos o mesmo resultado.

Lembrando: você deve verificar as palavras em comum entre o contexto e a glosa + exemplos.

Passos para implementar o algoritmo:

* Recuperar todos os synsets da palavra usando o wn.synsets
* Gerar um conjunto de contexto com todas as palavras da sentença
* Para cada synset do conjunto de synsets recuperados acima:
    * Recuperar os exemplos do synset e criar uma lista de palavras com todos os exemplos
    * Criar uma lista de assinatura com todas as palavras da definição e todas as palavras dos exemplos
    * Calcular o número de palavras em comum entre o contexto e a assinatura. Dica: use o método intersection do set
    * Guarde o synset com o maior número de palavras em comum
* Retorne o synset com o maior número de palavras em comum

Implemente a função lesk2 abaixo, recebendo como parâmetro a sentença tokenizada e a palavra que deseja definir o senso.

In [0]:
def lesk2(sentence, word):     
  sentence = 'After an extended period of inactivity, Vesuvius erupted with devastating force in A.D. 79.'
  word = wn.synsets('cat')

In [61]:
wn.synset('cat.n.01').definition()

'feline mammal usually having thick soft fur and no ability to roar: domestic cats; wildcats'

In [62]:
word = wn.synset('cat.n.01')

word.hypernyms()

[Synset('feline.n.01')]

In [63]:
word.hyponyms()

[Synset('domestic_cat.n.01'), Synset('wildcat.n.03')]

Teste sua função, execute o lesk modificado na sentença definida acima:

In [83]:
sentence = 'Vesuvius erupted with.'

lesk(sentence.split(), 'extended')

Synset('widen.v.04')

Vamos ver a definição do senso escolhido

In [84]:
lesk(sentence.split(), 'extended').definition()

'extend in scope or range or area'