# LAB 4
## Semántica Léxica (Lexical Semantics)

Este laboratorio se centra en la semántica léxica y utiliza NLTK para brindarte experiencia práctica con WordNet y realizar la desambiguación del sentido de las palabras.  El ejercicio se basa en tutoriales en el sitio web de NLTK 

#### NLTK Library
If you have not installed the NLTK library, you can do so by running the following command in the teriminal:
```bash
poetry add nltk
```

In [1]:
import nltk
import ssl

try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    pass
else:
    ssl._create_default_https_context = _create_unverified_https_context

nltk.download()

In [2]:
from nltk.book import *
from nltk.corpus import wordnet as wn

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


WordNet	está	organizado	como	synsets,	cada	synset	es	un	conjunto	de	palabras	sinónimas.	Una	palabra	aparecerá	en	múltiples	synsets	si	tiene	múltiples	sentidos(senses),	así	como	si	puede	aparecer	en	más	de	un	POS.		Por	ejemplo:	sustantivo	y	verbo.	Podes	recuperar	todos	los	synsets	asociados	con	una	palabra	usando	la	llamada	al	método	synsets():		

In [26]:
wn.synsets('dog')

# Vemos	que	hay	7	synsets	de	sustantivos	y	1	synset	de	verbos	asociados	con	la	palabra	"perro".	Puede	restringir	la	recuperación	a	un	POS	particular	utilizando	el	argumento	pos.  

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

In [4]:
wn.synsets('dog', pos=wn.VERB)

[Synset('chase.v.01')]

En la salida anterior, el segundo synset se conoce como frump.n.01. Este synset es el mismo que dog.n.02. frump.n.01 solo significa que este synset es también el primer synset para la palabra "frump". Pruebe lo siguiente para comprender mejor: 

In [6]:
print(wn.synset('dog.n.01'))
print(wn.synset('dog.n.02'))
print(wn.synset('frump.n.01'))

Synset('dog.n.01')
Synset('frump.n.01')
Synset('frump.n.01')


In [7]:
print(wn.synset('dog.n.01').definition())

a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds


In [8]:
print(wn.synset('dog.n.02').definition())

a dull unattractive unpleasant girl or woman


### Hay	tres	sinónomos	para	el	synset	de	‘dog’:	‘dog’,	‘domestic	dog’	y	‘Canis	familiaris’.	Estos	aparecen	en	el	ouput	de	la	última	instrucción.	

In [10]:
print(wn.synset('dog.n.01').lemmas())

[Lemma('dog.n.01.dog'), Lemma('dog.n.01.domestic_dog'), Lemma('dog.n.01.Canis_familiaris')]


In [11]:
print(wn.synset('dog.n.02').lemmas())

[Lemma('frump.n.01.frump'), Lemma('frump.n.01.dog')]


Ahora veamos cómo consultar las relaciones entre los synsets de WordNet. Recuerde que el hiperónimo se refiere al superconjunto de una entidad y el hipónimo se refiere a subconjuntos más específicos.  

In [12]:
dog = wn.synset('dog.n.01')
print(dog.hypernyms())

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]


In [13]:
print(dog.hyponyms())

[Synset('basenji.n.01'), Synset('corgi.n.01'), Synset('cur.n.01'), Synset('dalmatian.n.02'), Synset('great_pyrenees.n.01'), Synset('griffon.n.02'), Synset('hunting_dog.n.01'), Synset('lapdog.n.01'), Synset('leonberg.n.01'), Synset('mexican_hairless.n.01'), Synset('newfoundland.n.01'), Synset('pooch.n.01'), Synset('poodle.n.01'), Synset('pug.n.01'), Synset('puppy.n.01'), Synset('spitz.n.01'), Synset('toy_dog.n.01'), Synset('working_dog.n.01')]


### Como ya vimos en la sección anterior, las formas de palabras individuales en un conjunto se conocen como lemas. Algunas relaciones solo se mantienen entre lemas (es decir, entre formas de palabras específicas) en lugar de los conjuntos de sinónimos.

In [14]:
good = wn.synset('good.a.01')
print(good.lemmas())

[Lemma('good.a.01.good')]


### Solo	hay	una	forma	de	lema	o	palabra	en	este	sintetizador.	Puede	recuperar	antónimos	para	una	forma	de	palabra	de	la	siguiente	manera:	

In [16]:
g0 = good.lemmas()[0]
g0.antonyms()

[Lemma('bad.a.01.bad')]

## Exploremos también dos relaciones más: meronym y holonym. 
* Un merónimo de una palabra es una subparte o miembro. 
* Un holónimo es un todo del cual la palabra es parte o miembro. 

Hay métodos separados en NLTK que recuperan merónimos / holónimos para las relaciones entre partes y miembros. P.ej: 

In [18]:
dog.part_meronyms()

[Synset('flag.n.07')]

In [19]:
dog.member_meronyms()

[]

In [20]:
dog.part_holonyms()

[]

In [21]:
dog.member_holonyms()

[Synset('canis.n.01'), Synset('pack.n.06')]

Este resultado dice que flag.n.07 es parte de dog.n.01 y dog.n.01 es miembro de canis.n.01 y pack.n.06. 

Utilizando lo que ha estudiado hasta ahora, imprima las definiciones de flag.n.07, canis.n.01 y pack.n.06 y vea si ve por qué estos synsets están relacionados de esta manera

In [23]:
print(wn.synset('flag.n.07').definition())
print(wn.synset('canis.n.01').definition())
print(wn.synset('pack.n.06').definition())

a conspicuously marked or shaped tail
type genus of the Canidae: domestic and wild dogs; wolves; jackals
a group of hunting animals


## Desambiguación de palabras por sentido (Word Sense Desambiguation)

Como vimos en las clases, la tarea de desambiguación del sentido de las palabras es tomar una palabra en el contexto de la oración y mapearla a uno de los sentidos de la palabra, por ejemplo. asignar a un synset en WordNet. 

Estudiamos dos enfoques, un sistema de clasificación supervisado donde las palabras de contexto entran como feautres(características) y el otro es el algoritmo de Lesk que utilizó el recurso del diccionario para la desambiguación. 

In [30]:
# ¿Cuántos sentidos crees que tiene la palabra bank?
wn.synsets('bank')

[Synset('bank.n.01'),
 Synset('depository_financial_institution.n.01'),
 Synset('bank.n.03'),
 Synset('bank.n.04'),
 Synset('bank.n.05'),
 Synset('bank.n.06'),
 Synset('bank.n.07'),
 Synset('savings_bank.n.02'),
 Synset('bank.n.09'),
 Synset('bank.n.10'),
 Synset('bank.v.01'),
 Synset('bank.v.02'),
 Synset('bank.v.03'),
 Synset('bank.v.04'),
 Synset('bank.v.05'),
 Synset('deposit.v.02'),
 Synset('bank.v.07'),
 Synset('trust.v.01')]

In [24]:
wn.synsets('bank', pos=wn.NOUN)

[Synset('bank.n.01'),
 Synset('depository_financial_institution.n.01'),
 Synset('bank.n.03'),
 Synset('bank.n.04'),
 Synset('bank.n.05'),
 Synset('bank.n.06'),
 Synset('bank.n.07'),
 Synset('savings_bank.n.02'),
 Synset('bank.n.09'),
 Synset('bank.n.10')]

In [32]:
sentence = "The bank can guarantee deposits will eventually cover future tuition costs because it invests in adjustable-rate mortgage securities."

In [33]:
# ¿Qué synset es el sentido correcto para la palabra en el contexto de la oración anterior? 
# Vamos a usar el algoritmo de wn lesk para averiguarlo
from nltk.wsd import lesk

ambiguous = 'bank'
lesk_sense = lesk(sentence.split(), ambiguous)
print(lesk_sense, lesk_sense.definition())

Synset('bank.n.05') a supply or stock held in reserve for future use (especially in emergencies)


## Ejercicio: para cada ejemplo, a continuación descubra el sentido correcto de WordNet según su criterio

In [36]:
sentence1 = "I went to the bank to deposit my money"
ambiguous1 = 'bank'

sentence2 = "She created a big mess of the birthday cake"
ambiguous2 = 'mess'

sentence3 = "In the interest of your safety, please wear your seatbelt"
ambiguous3 = 'interest'

sentence4 = "I drank some ice cold water"
ambiguous4 = 'cold'


lesk_sense1 = lesk(sentence1.split(), ambiguous1)
lesk_sense2 = lesk(sentence2.split(), ambiguous2)
lesk_sense3 = lesk(sentence3.split(), ambiguous3)
lesk_sense4 = lesk(sentence4.split(), ambiguous4)

#print the sentence, the ambiguous word and the sense with correct identation and format
for i, sense in enumerate([lesk_sense1, lesk_sense2, lesk_sense3, lesk_sense4]):
    print(f"Sentence {i+1}:")
    print(f"  {sentence1 if i == 0 else sentence2 if i == 1 else sentence3 if i == 2 else sentence4}")
    print(f"  Ambiguous word: {ambiguous1 if i == 0 else ambiguous2 if i == 1 else ambiguous3 if i == 2 else ambiguous4}")
    print(f"  Sense: {sense.definition()}")
    print()

Sentence 1:
  I went to the bank to deposit my money
  Ambiguous word: bank
  Sense: a container (usually with a slot in the top) for keeping money at home

Sentence 2:
  She created a big mess of the birthday cake
  Ambiguous word: mess
  Sense: make a mess of or create disorder in

Sentence 3:
  In the interest of your safety, please wear your seatbelt
  Ambiguous word: interest
  Sense: excite the curiosity of; engage the interest of

Sentence 4:
  I drank some ice cold water
  Ambiguous word: cold
  Sense: having a low or inadequate temperature or feeling a sensation of coldness or having been made cold by e.g. ice or refrigeration



## Un poco mas alla
Si ya estás cómodo con el contenido anterior, podés desafiarte con este ejercicio. Este ejercicio tiene un “final abierto”. 

Ejercicio: un lemma de una palabra agrupa las inflexiones de una palabra. Es decir, ‘walked’, ‘walking’, ‘walks’, ‘walk’ son todas inflexiones o variantes morfológicas de la palabra walk ("caminar"). NLTK tiene capacidad para lematizar palabras. 

In [48]:
from nltk.stem import WordNetLemmatizer

wnl = WordNetLemmatizer()
print(wnl.lemmatize('dogs', 'n'))
print(wnl.lemmatize('walking', 'v'))

dog
walk


Aquí informamos al lematizador si la palabra dada es un sustantivo o un verbo. La configuración predeterminada para el método es un sustantivo, es decir. si corre sin argumentos, el lema será correcto para los sustantivos pero quizás no para los verbos. 

In [39]:
print(wnl.lemmatize('dogs'))

dog


In [None]:
#¿Podrías mejorar el algoritmo de Lesk con un lematizador? Si es así, ¿podrías escribir una función de match, que tome dos cadenas y devuelva las palabras coincidentes entre ellas? Queremos que las coincidencias(matches) sean útiles para un algoritmo como Lesk. ¿Quizás también necesites usar un etiquetador POS? Podes usar un etiquetador POS incorporado en WordNet. 

# nltk.pos	tag(word	tokenize("I	went	to	the	bank	to	deposit	some	money."))	[(’I’,	’PRP’),	(’went’,	’VBD’),	(’to’,	’TO’),	(’the’,	’DT’),	(’bank’,	’NN’),	(’to’,	’TO’),	(’deposit’,	’VB’),	(’some’,	’DT’),	(’money’,	’NN’),	(’.’,	’.’)]	 


In [42]:
from nltk import pos_tag, word_tokenize


def match(s1, s2):
    # Tokenize the sentences
    s1_tokens = word_tokenize(s1)
    s2_tokens = word_tokenize(s2)
    
    # POS tag the tokens
    s1_pos = pos_tag(s1_tokens)
    s2_pos = pos_tag(s2_tokens)
    
    # Lemmatize the tokens
    wnl2 = WordNetLemmatizer()
    s1_lemmas = [wnl2.lemmatize(token, pos) for token, pos in s1_pos]
    s2_lemmas = [wnl2.lemmatize(token, pos) for token, pos in s2_pos]
    
    # Return the intersection of the lemmatized tokens
    return set(s1_lemmas).intersection(set(s2_lemmas))

In [44]:
# Test the match function
s1 = "I went to the bank to deposit some money."
s2 = "I went to the river bank to see the sunset."
#print(match(s1, s2))

In [55]:
def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return None

# Función de lematización con POS tagging
def lemmatize_sentence(sentence):
    import re
    wnl = WordNetLemmatizer()
    lemmatized_sentence = []
    token_sentence = [word for word in word_tokenize(sentence.lower()) if re.search("\w", word)]
    pos_tagged = pos_tag(token_sentence)
    for word, tag in pos_tagged:
        wordnet_tag = get_wordnet_pos(tag) or wordnet.NOUN
        lemmatized_word = wnl.lemmatize(word, pos=wordnet_tag)
        lemmatized_sentence.append(lemmatized_word)
    return lemmatized_sentence

# Función para encontrar coincidencias entre dos cadenas
def match(sentence1, sentence2):
    lemmatized_sentence1 = lemmatize_sentence(sentence1)
    lemmatized_sentence2 = lemmatize_sentence(sentence2)
    matches = set(lemmatized_sentence1).intersection(set(lemmatized_sentence2))
    return matches

  token_sentence = [word for word in word_tokenize(sentence.lower()) if re.search("\w", word)]


In [56]:
sentence1 = "The striped bats are hanging on their feet for best"
sentence2 = "Bats can see using echolocation and they hang upside down"

matches = match(sentence1, sentence2)
print("Palabras coincidentes:", matches)

Palabras coincidentes: {'hang', 'bat'}


In [57]:
s1 = "I went to the bank to deposit some money."
s2 = "I went to the river bank to see the sunset."
print(match(s1, s2))

{'bank', 'to', 'the', 'i', 'go'}
