**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 

***
Datos del alumno (Nombre y Apellidos):


Fecha:
***

<span style="font-size: 20pt; font-weight: bold; color: #0098cd;">Actividad 3: Desambiguación del sentido de las palabras</span>

**Objetivos** 

Con este laboratorio el alumno conseguirá aplicar diferentes algoritmos basados en aprendizaje automático supervisado para desambiguar el sentido de las palabras. Además, va a aprender a utilizar la herramienta de software abierto Natural Language Toolkit (NLTK) con la que implementar tareas de procesamiento del lenguaje natural en Python.

**Descripción**

En este laboratorio debes desarrollar e implementar diferentes algoritmos basados en aprendizaje automático supervisado para desambiguar el sentido de las palabras en Python y utilizando la herramienta de software abierto Natural Language Toolkit (NLTK).

Para preparar este laboratorio, simplemente descarga e instala **NLTK 3.3** en tu equipo.

***
Accede a NLTK 3.3 desde la siguiente dirección web:
https://www.nltk.org/install.html
***

NLTK requiere de Python versiones 2.7, 3.4, 3.5 o 3.6 para funcionar. Por lo que, si no tienes instalado Python, descárgalo e instálalo.

***
Accede a **Python**  desde la siguiente dirección web: https://www.python.org/downloads/
***

Asegúrate de que has instalado NLTK 3.3 adecuadamente antes de la sesión de laboratorio y de revisar el contenido teórico, Semántica léxica y temas anteriores, para tener frescos los diferentes conceptos sobre el procesamiento del lenguaje natural estudiados en esta asignatura.

Durante la sesión del laboratorio debes solucionar un problema sobre desambiguación del sentido de las palabras utilizando el corpus etiquetado en inglés llamado **Senseval 2** y que viene disponible en NLTK.

***
Accede a más información sobre **Senseval 2** desde la siguiente dirección web:
http://www.nltk.org/howto/corpus.html 
***

El primer paso es importar el corpus etiquetado utilizando los siguientes comandos:

In [35]:
import nltk
from nltk.corpus import senseval

El corpus **Senseval 2** contiene datos etiquetados que sirven para entrenar un clasificador que permita desambiguar el sentido de las palabras. Cada elemento del corpus **Senseval 2** se corresponde a una palabra ambigua. Concretamente en este laboratorio se trabajará con las palabras en inglés *«hard»* y *«serve»*, aunque en el corpus hay información de otras dos.

Para poder extraer la información sobre las palabras es imprescindible la manera en la que se identifican en el corpus, es decir, sus identificadores. Con el siguiente comando, se extraen los identificadores de las palabras tratadas en el corpus. 

In [36]:
senseval.fileids()

['hard.pos', 'interest.pos', 'line.pos', 'serve.pos']

Para cada una de las palabras ambiguas, el corpus contiene una lista de instancias correspondientes a las ocurrencias de esa palabra. Para cada instancia se proporciona la palabra, una lista de sentidos que se aplican a la aparición de esa palabra y el contexto de la palabra. 

En la siguiente figura se observa el comando utilizado para visualizar la información que contiene cada instancia de la palabra ambigua *«hard»*.

In [37]:
senseval.instances('hard.pos')

[SensevalInstance(word='hard-a', position=20, context=[('``', '``'), ('he', 'PRP'), ('may', 'MD'), ('lose', 'VB'), ('all', 'DT'), ('popular', 'JJ'), ('support', 'NN'), (',', ','), ('but', 'CC'), ('someone', 'NN'), ('has', 'VBZ'), ('to', 'TO'), ('kill', 'VB'), ('him', 'PRP'), ('to', 'TO'), ('defeat', 'VB'), ('him', 'PRP'), ('and', 'CC'), ('that', 'DT'), ("'s", 'VBZ'), ('hard', 'JJ'), ('to', 'TO'), ('do', 'VB'), ('.', '.'), ("''", "''")], senses=('HARD1',)), SensevalInstance(word='hard-a', position=10, context=[('clever', 'NNP'), ('white', 'NNP'), ('house', 'NNP'), ('``', '``'), ('spin', 'VB'), ('doctors', 'NNS'), ("''", "''"), ('are', 'VBP'), ('having', 'VBG'), ('a', 'DT'), ('hard', 'JJ'), ('time', 'NN'), ('helping', 'VBG'), ('president', 'NNP'), ('bush', 'NNP'), ('explain', 'VB'), ('away', 'RB'), ('the', 'DT'), ('economic', 'JJ'), ('bashing', 'NN'), ('that', 'IN'), ('low-and', 'JJ'), ('middle-income', 'JJ'), ('workers', 'NNS'), ('are', 'VBP'), ('taking', 'VBG'), ('these', 'DT'), ('days

Por ejemplo, en la primera instancia (`SensevalInstance`) la palabra ambigua (`word`) es `‘hard-a’`, lo que indica que la palabra es `‘hard’` y en este caso la categoría gramatical es un adjetivo, identificado por el sufijo `‘-a’`.

El campo `position` indica la posición en la oración en la que se encuentra la palabra ambigua, en este caso la palabra `‘hard’` se encuentra en la posición 20.

El campo `context` representa el contexto, es decir, la oración en la que se encuentra la palabra ambigua, en este ejemplo *«"he may lose all popular support, but someone has to kill him to defeat him and that's hard to do."»*. El contexto viene representado por pares formados por una palabra y la correspondiente etiqueta gramatical. Por ejemplo, el par `(‘he’, ‘PRP’)` que aparece en el contexto indica que la categoría gramatical asociada a la palabra `‘he’` es un pronombre personal `‘PRP’`. 

Por último, el campo `senses` contiene los posibles sentidos de la palabra ambigua, en el ejemplo `‘HARD1’`. Los sentidos del corpus hacen referencia a los sentidos de la palabra recogidos en la base de datos de relaciones léxicas WordNet<sup>1</sup>.


<sup>1</sup> Puede que los sentidos que aparecen en Senseval 2 difieran de los que se encuentran actualmente en WordNet, debido a la constante actualización de este. En este laboratorio no será necesario trabajar con WordNet, se menciona como información adicional.

En este caso `‘HARD1’` hace referencia la primera definición de la palabra `‘hard’` que aparece en WordNet, a «difícil»,  *«difficult, hard (not easy; requiring great physical or mental effort to accomplish or comprehend or endure)»*. Esta información se puede obtener utilizando la interfaz de búsqueda web de WordNet cuyo resultado se muestra en la siguiente figura.

***
Accede al interfaz de búsqueda de WordNet desde la siguiente dirección web: http://wordnetweb.princeton.edu/perl/webwn

***



**Nota:** NLTK implementa también un lector para la información disponible en la base de datos de relaciones léxicas WordNet. Aunque no es necesario para realizar esta actividad de laboratorio, WordNet se puede importar utilizando el siguiente comando:

> *from nltk.corpus import wordnet*

En este laboratorio vas a trabajar con algoritmos basados en aprendizaje automático supervisado, por lo tanto, vas a tener que entrenar diferentes clasificadores que permitan desambiguar las palabras ambiguas en inglés «hard» y «serve», y vas a tener que evaluar el desempeño de los clasificadores creados.

Las diferentes partes que forman este laboratorio se indican a continuación.

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Parte 1: Análisis del corpus</span>

Analiza el corpus Senseval 2 que vas a utilizar para entrenar los clasificadores. Para realizar el análisis utiliza las funcionalidades que aporta NLTK. Desarrolla el código necesario y responde a las siguientes preguntas.

* ¿Cuántos posibles sentidos tienen las palabras ambiguas «hard» y «serve»? ¿Cuáles son esos sentidos? Para cada sentido indica la etiqueta que aparece en el corpus.

Método que a partir de la palabra ambigua, o mejor dicho del nombre del archivo del corpus `word` para la palabra ambigua, obtiene cuáles son los posibles **sentidos de la palabra ambigua**:

In [38]:
def senses(word):
    """
    This takes a target word from senseval-2 and it returns the list of possible senses for the word
    """
    instances = senseval.instances(word)
    # Get all unique senses using a set comprehension
    senses = set(sense for instance in instances for sense in instance.senses)
    return list(senses)

Mostrar los sentidos de las palabras ambiguas:

In [39]:
senses('hard.pos')

['HARD1', 'HARD2', 'HARD3']

In [40]:
senses('serve.pos')

['SERVE6', 'SERVE10', 'SERVE2', 'SERVE12']

########## Aquí debes indicar tu respuesta ##########

* ¿Cuántas instancias hay en el corpus para cada uno de los sentidos de las palabras ambiguas «hard» y «serve»? Es decir, cuantas oraciones hay en el corpus etiquetadas con cada uno de los sentidos.

Método que obtiene todas las **instancias de un posible sentido de la palabra ambigua** a partir de la lista de instancias de una palabra `instances` y el nombre del sentido palabra ambigua `sense`:

In [41]:
def sense_instances(instances, sense):
    """
    This returns the list of instances in instances that have the sense sense
    """
    return [instance for instance in instances if sense in instance.senses]

In [42]:
##################################################  
########## Aquí debes incluir tu código ##########  
##################################################
def count_sense_instances(word):
    """
    Count instances per sense for a given word
    """
    instances = senseval.instances(word)
    word_senses = senses(word)
    counts = {}
    for sense in word_senses:
        counts[sense] = len(sense_instances(instances, sense))
    return counts

instances_hard = senseval.instances('hard.pos')
instances_serve = senseval.instances('serve.pos')

print("Instances for 'hard':")
hard_counts = count_sense_instances('hard.pos')
for sense, count in hard_counts.items():
    print(f"{sense}: {count} instances")

print("\nInstances for 'serve':")
serve_counts = count_sense_instances('serve.pos')
for sense, count in serve_counts.items():
    print(f"{sense}: {count} instances")

print(f"\nTotal instances for 'hard': {len(instances_hard)}")
print(f"Total instances for 'serve': {len(instances_serve)}")

Instances for 'hard':
HARD1: 3455 instances
HARD2: 502 instances
HARD3: 376 instances

Instances for 'serve':
SERVE6: 439 instances
SERVE10: 1814 instances
SERVE2: 853 instances
SERVE12: 1272 instances

Total instances for 'hard': 4333
Total instances for 'serve': 4378


########## Aquí debes indicar tu respuesta ##########

* En el contexto, las palabras ambiguas pueden aparecer en diferentes formas gramaticales. Por ejemplo, en el caso de la palabra ambigua *«hard»*, esta aparece tanto la forma base, el adjetivo *«hard»* como en comparativo *«harder»* y como en superlativo *«hardest»*. ¿Qué formas gramaticales aparecen en el contexto para cada una de las palabas ambiguas *«hard»* y *«serve»*?

Método que muestra las diferentes **versiones de la palabra ambigua** a partir del nombre del archivo del corpus `word` para la palabra ambiguala palabra ambigua:

In [43]:
def tokens(word):
    """
    This takes a target word from senseval-2 and it returns the list of possible tokens for the word
    """
    instances = senseval.instances(word)
    token = set()
    
    # Obtener la palabra base (sin el sufijo -a o -v)
    base_word = word.split('.')[0]  # quita la extensión .pos
    
    for instance in instances:
        # Añadir la forma base con su categoría
        token.add(instance.word)
        
        # Buscar en el contexto otras formas de la palabra
        for item in instance.context:
            try:
                # Verificar si el item es una tupla de dos elementos
                if isinstance(item, tuple) and len(item) == 2:
                    word, pos_tag = item
                    # Convertir a minúsculas para la comparación
                    word_lower = word.lower()
                    
                    # Si la palabra comienza con la base, añadirla con su etiqueta POS
                    if word_lower.startswith(base_word):
                        token.add(f"{word}-{pos_tag}")
            except Exception as e:
                # Si hay algún error, simplemente continuamos con el siguiente item
                continue
    
    return sorted(list(token))

Mostrar las diferentes versiones de la palabra ambigua

In [44]:
tokens('hard.pos')

['hard-JJ',
 'hard-a',
 'hardaway-NNP',
 'harder-JJ',
 'harder-JJR',
 'harder-NNP',
 'hardest-JJ']

In [45]:
tokens('serve.pos')

['serve-VB',
 'serve-VBP',
 'serve-v',
 'served-VBD',
 'served-VBN',
 'server-NN',
 'serves-VBZ']

########## Aquí debes indicar tu respuesta ##########

* ¿Tienen todas las instancias que forman el corpus el formato que se ha descrito anteriormente? Si hay alguna instancia que no cumpla con ese formato, indica cuales serían las incongruencias que presenta y muestra algunos ejemplos.

In [46]:
##################################################  
########## Aquí debes incluir tu código ##########  
##################################################
def verificar_formato_instancias(word, num_ejemplos=3):
    """
    Verifica el formato de las instancias y muestra ejemplos de anomalías
    """
    instances = senseval.instances(word)
    anomalias = []
    
    for i, inst in enumerate(instances):
        # Verificar formato del contexto
        for j, item in enumerate(inst.context):
            if not isinstance(item, tuple) or len(item) != 2:
                anomalias.append({
                    'tipo': 'Formato de contexto incorrecto',
                    'indice': i,
                    'palabra': inst.word,
                    'contexto': inst.context[:5],  # Mostrar primeros 5 elementos
                    'item_problema': item
                })
                break
        
        # Verificar múltiples sentidos
        if len(inst.senses) > 1:
            anomalias.append({
                'tipo': 'Múltiples sentidos',
                'indice': i,
                'palabra': inst.word,
                'sentidos': inst.senses
            })
        
        # Verificar posición válida
        if inst.position >= len(inst.context):
            anomalias.append({
                'tipo': 'Posición inválida',
                'indice': i,
                'palabra': inst.word,
                'posicion': inst.position,
                'longitud_contexto': len(inst.context)
            })
    
    return anomalias

# Probar con ambas palabras
print("Anomalías en 'hard':")
anomalias_hard = verificar_formato_instancias('hard.pos')
for anomalia in anomalias_hard[:3]:  # Mostrar solo 3 ejemplos
    print("\nTipo de anomalía:", anomalia['tipo'])
    print("Índice de instancia:", anomalia['indice'])
    print("Detalles:", anomalia)

print("\nAnomalías en 'serve':")
anomalias_serve = verificar_formato_instancias('serve.pos')
for anomalia in anomalias_serve[:3]:  # Mostrar solo 3 ejemplos
    print("\nTipo de anomalía:", anomalia['tipo'])
    print("Índice de instancia:", anomalia['indice'])
    print("Detalles:", anomalia)

Anomalías en 'hard':

Tipo de anomalía: Formato de contexto incorrecto
Índice de instancia: 21
Detalles: {'tipo': 'Formato de contexto incorrecto', 'indice': 21, 'palabra': 'hard-a', 'contexto': [('the', 'DT'), ('a', 'NNP'), ("'s", 'VBZ'), (':', ':'), (';', ':')], 'item_problema': 'FRASL'}

Tipo de anomalía: Formato de contexto incorrecto
Índice de instancia: 110
Detalles: {'tipo': 'Formato de contexto incorrecto', 'indice': 110, 'palabra': 'hard-a', 'contexto': [('wes', 'NNP'), ('raynal', 'NNP'), (',', ','), ('autoweek', 'NNP'), (';', ':')], 'item_problema': 'FRASL'}

Tipo de anomalía: Formato de contexto incorrecto
Índice de instancia: 196
Detalles: {'tipo': 'Formato de contexto incorrecto', 'indice': 196, 'palabra': 'hard-a', 'contexto': [('jazz', 'NNP'), (';', ':'), ('shirley', 'NNP'), ('horn', 'NNP'), (';', ':')], 'item_problema': 'FRASL'}

Anomalías en 'serve':

Tipo de anomalía: Formato de contexto incorrecto
Índice de instancia: 18
Detalles: {'tipo': 'Formato de contexto incorr

########## Aquí debes indicar tu respuesta ##########

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Parte 2: Extracción de características</span>

Para poder entrenar un clasificador es necesario extraer un conjunto de características lingüísticas a partir del corpus etiquetado. Por lo tanto, debes crear el código en Python que te permita extraer diferentes conjuntos de características a partir de Senseval 2. 

### Extracción de características basada en las palabras vecinas

Debes extraer un **conjunto de características basado en las palabras vecinas**. Para una instancia del corpus, debes desarrollar el código que sea capaz de extraer el vector de características que indican si las palabras de un vocabulario, que se debe construir previamente, aparecen o no en el contexto (la oración completa en que aparece la palabra ambigua).


Para una instancia de la palaba ambigua «hard» su contexto se muestra a continuación:

In [47]:
instances_hard = senseval.instances('hard.pos')

In [48]:
inst_hard_1 = instances_hard[1]

In [49]:
inst_hard_1.context

[('clever', 'NNP'),
 ('white', 'NNP'),
 ('house', 'NNP'),
 ('``', '``'),
 ('spin', 'VB'),
 ('doctors', 'NNS'),
 ("''", "''"),
 ('are', 'VBP'),
 ('having', 'VBG'),
 ('a', 'DT'),
 ('hard', 'JJ'),
 ('time', 'NN'),
 ('helping', 'VBG'),
 ('president', 'NNP'),
 ('bush', 'NNP'),
 ('explain', 'VB'),
 ('away', 'RB'),
 ('the', 'DT'),
 ('economic', 'JJ'),
 ('bashing', 'NN'),
 ('that', 'IN'),
 ('low-and', 'JJ'),
 ('middle-income', 'JJ'),
 ('workers', 'NNS'),
 ('are', 'VBP'),
 ('taking', 'VBG'),
 ('these', 'DT'),
 ('days', 'NNS'),
 ('.', '.')]

Suponiendo que el vocabulario usado para crear extraer las características es el siguiente:

`['time', 'would', 'get', 'work', 'find', 'make']`

Entonces el vector de características extraídas para esa instancia sería:

`{'contains(time)': True, 
'contains(would)': False, 
'contains(get)': False, 
'contains(work)': False, 
'contains(find)': False, 
'contains(make)': False}`

Este vector de características indica que en el contexto de la palabra ambigua aparece la palabra *«time»* y no aparecen las palabras *«would»*, *«get»*, *«work»*, *«find»* y *«make»*.

Para extraer el vector de características basado en las palabras vecinas debes seguir los siguientes pasos:

#### 1. Construcción del vocabulario o bags of words. 

Como ya se ha indicado, para poder obtener el vector de características, se debe construir previamente un vocabulario. Para cada una de las palabras del vocabulario, se debe consultar si la palabra aparece en el contexto de la palabra ambigua. Si la palabra del vocabulario aparece en el contexto entonces en el vector de características aparecerá True para esa palabra y si no, False. 

Tomemos como ejemplo un vocabulario creado sobre el que se ha construido el vector de características. Este vocabulario es `['time', 'would', 'get', 'work', 'find', 'make']`. Este vocabulario se usará posteriormente para construir el vector de características del ejemplo que usamos para darte una orientación.

- **¿Cómo construyo mi vocabulario o bags of words?** Lo que debes hacer para tu entrega de este laboratorio es utilizar como vocabulario las m palabras más frecuentes que aparecen en las instancias que conforman el conjunto de datos, es decir en las oraciones que contienen las palabras ambiguas y que forman parte del corpus. Entonces, para crear la **bag of words** (bolsa de palabras) debes extraer el conjunto de las n palabras más frecuentes. Para ello te puedes ayudar de la función `nltk.FreqDist()` que proporciona información sobre la distribución de frecuencias de las palabras que aparecen en un texto. 

- Cuando obtengas las palabras más frecuentes, debes eliminar los signos que puntuación y las palabras vacías (aquellas sin significado como artículos, pronombres o preposiciones, las llamadas stop words en inglés). También debes eliminar las diferentes formas gramaticales de la palabra ambigua, por ejemplo, para desambiguar la palabra *«hard»* no tendría sentido utilizar la palabra *«harder»* ni la palabra *«hardest»*.

- Para la eliminación del conjunto de palabras no útiles del vocabulario se puede usar un código parecido al que se indica a continuación. Debes tener en cuenta que **en el código faltaría añadir las palabras que has identificado en la Parte 1** de este laboratorio como las diferentes formas gramaticales de las palabras ambiguas.

In [50]:
from nltk.corpus import stopwords
import string
OTHER_WORDS = ["''", "'d", "'ll", "'m", "'re", "'s", "'t", "'ve", '--', '000', '1', '2', '3', '4', '5', '6', '8', '10', '15', '30', 'I', 'F', '``', 'also', "don'", 'n', 'one', 'said', 'say', 'says', 'u', 'us']
STOPWORDS_SET = set(stopwords.words('english')).union(set(string.punctuation), set(OTHER_WORDS))

- Ejemplo de vocabulario para un tamaño de 6. Por ejemplo, si se quiere entrenar un clasificador que permita identificar los diferentes sentidos de la palabra «hard» y se utilizan para entrenar y validar el modelo las instancias etiquetadas para esta palabra, la bolsa de palabras en el caso de considerar las seis palabras más frecuentes (m=6) sería la presentada anteriormente `['time', 'would', 'get', 'work', 'find', 'make']`.

Método que devuelve el **vocabulario** formado por las `m` palabras más frecuentes en el contexto de una palabra ambigua a partir de un conjunto de instancias `instances` y el conjunto de palabras no útiles `stopwords` (Nota: Recuerda que se deben eliminar las diferentes formas gramaticales de la palabra ambigua):

In [53]:
def extract_vocab_frequency(instances, stopwords=STOPWORDS_SET, m=250):
    """
    Given a list of senseval instances, return a list of the m most frequent words that
    appears in its context (i.e., the sentence with the target word in), output is in order
    of frequency and includes also the number of instances in which that key appears in the
    context of instances.
    """
    ##################################################  
    ########## Aquí debes incluir tu código ##########  
    ##################################################
    # Crear un FreqDist para contar frecuencias
    fd = nltk.FreqDist()
    
    # Obtener la palabra base (para excluir sus variantes)
    base_word = instances[0].word.split('-')[0].lower()
    
    # Iterar sobre todas las instancias
    for instance in instances:
        # Obtener las palabras del contexto (primera parte de cada tupla)
        try:
            # Solo procesar tuplas válidas del contexto
            context_words = [word.lower() for word, pos in instance.context 
                           if isinstance((word, pos), tuple) and len((word, pos)) == 2]
            
            # Agregar cada palabra al contador si:
            # 1. No es stopword
            # 2. No es una variante de la palabra ambigua
            # 3. No es puntuación
            for word in context_words:
                if (word not in stopwords and 
                    not word.startswith(base_word) and 
                    word.isalnum()):  # solo palabras alfanuméricas
                    fd[word] += 1
                    
        except ValueError:
            # Si hay algún problema con el formato del contexto, continuamos
            continue
    
    # Obtener las m palabras más frecuentes con sus conteos
    most_common = fd.most_common(m)
    
    return most_common

In [54]:
def extract_vocab(instances, stopwords=STOPWORDS_SET, m=250):
    """
    Given a list of senseval instances, return a list of the m most frequent words that
    appears in its context (i.e., the sentence with the target word in), output is in order
    of frequency.
    """
    return [w for w,f in extract_vocab_frequency(instances,stopwords,m)]

Mostrar el vocabulario de tamaño de 6 para la palabra «hard», es decir el vocabulario creado usando las instancias de la a

In [55]:
vocab_6 = extract_vocab(instances_hard, STOPWORDS_SET, m=6)

In [56]:
vocab_6

['time', 'would', 'get', 'work', 'make', 'find']

#### 2. Construcción del conjunto de características basado en palabras vecinas. 

Utiliza un diccionario en Python para guardar el conjunto de características. La clave del diccionario serán las palabras del vocabulario y el valor debe ser un booleano para indicar la aparición o no de las palabras en el contexto. Por ejemplo, en el vector de características `{'contains(time)': True, 'contains(would)': False, 'contains(get)': False, 'contains(work)': False, 'contains(find)': False, 'contains(make)': False}` una de las claves del diccionario es `'contains(time)'` y su valor es `True`  lo que indica que en el contexto de la palabra ambigua aparece la palabra *«time»*.

- Debes mostrar el vector de características resultante para una de las instancias del corpus.

- **Importante:** En el cómputo del vector de características basado en las palabras vecinas debes utilizar como contexto la oración completa donde aparece la palabra ambigua. Es decir, todas las palabras que forman la oración guardada en el campo  `context` de la instancia.

Método que devuelve el conjunto de características basado en palabras vecinas para una instancia `instance` a partir de un vocabulario `vocab` (Nota: el parámetro `dist` no debes usarlo):

In [66]:
def wsd_caracteristicas_palabras_vecinas(instance, vocab, dist=2):
    """
    Create a featureset where every key returns False unless it occurs in the
    instance's context
    """
    features = {}
    
    # Obtener las palabras del contexto (convertidas a minúsculas)
    context_words = set()
    
    for item in instance.context:
        # Verificar si el item es una tupla de palabra y POS
        if isinstance(item, tuple) and len(item) == 2:
            word, pos = item
            if isinstance(word, str):  # verificar que word sea una cadena
                context_words.add(word.lower())
    
    # Para cada palabra en el vocabulario
    for word in vocab:
        # La clave será "contains(palabra)"
        feature_name = f'contains({word})'
        # El valor será True si la palabra está en el contexto, False si no
        features[feature_name] = word in context_words
    
    return features

Mostrar el vector de características basado en palabras vecinas para una de las instancias del corpus usando el vocabulario de seis palabras calculado previamente:

In [67]:
wsd_caracteristicas_palabras_vecinas(inst_hard_1, vocab_6, 0)

{'contains(time)': True,
 'contains(would)': False,
 'contains(get)': False,
 'contains(work)': False,
 'contains(make)': False,
 'contains(find)': False}

### Extracción de características basada en características de colocación

Debes extraer también un **conjunto de características de colocación**. Para una instancia del corpus, debes desarrollar el código que sea capaz de extraer el vector de características formado por la secuencia de n palabras que ocurren antes de la palabra ambigua y la secuencia de n palabras que ocurren después de la palabra ambigua, los llamados n-gramas.

Para una instancia de la palaba ambigua «hard» su contexto se muestra a continuación:

In [68]:
inst_hard_2737 = instances_hard[2737]

In [69]:
inst_hard_2737.context

[('``', '``'),
 ('it', 'PRP'),
 ("'s", 'VBZ'),
 ('a', 'DT'),
 ('very', 'RB'),
 ('interesting', 'JJ'),
 ('place', 'NN'),
 ('to', 'TO'),
 ('work', 'VB'),
 (',', ','),
 ('but', 'CC'),
 ('i', 'PRP'),
 ('can', 'MD'),
 ('see', 'VB'),
 ('why', 'WRB'),
 ('some', 'DT'),
 ('people', 'NNS'),
 ('have', 'VBP'),
 ('a', 'DT'),
 ('hard', 'JJ'),
 ('time', 'NN'),
 ('imagining', 'VBG'),
 ('what', 'WP'),
 ('it', 'PRP'),
 ("'s", 'VBZ'),
 ('like', 'IN'),
 (',', ','),
 ('"', '"'),
 ('says', 'VBZ'),
 ('nate', 'NNP'),
 ('gossett', 'NNP'),
 ('.', '.')]

Entonces el vector de características de colocación para el bigrama anterior y posterior sería:

`{'previous(have a)': True, 'next(time imagining)': True}` 

Este vector de características indica que antes de la palabra ambigua se encuentran las palabras *«have a»* y después de la palabra ambigua las palabras *«time imagining»*. 

- **¿Cómo construyo mi conjunto y que n utilizo?** Utiliza un diccionario en Python para guardar el conjunto de características, la clave del diccionario debe indicar la secuencia de palabras de contexto y si aparecen antes o después de la palabra ambigua y el valor asociado a la clave debe ser un booleano verdadero. Usaremos **n=2**.

- Por ejemplo, en el vector de características `{'previous(have a)': True, 'next(time imagining)': True}` una de las claves del diccionario es `'previous(have a)'` y su valor es `True` lo que indica que antes de la palabra ambigua se encuentran las palabras *«have a»*. En este caso, al tener secuencias de dos palabras (*n=2*), se están considerando bigramas y la ventana tendría tamaño cinco (*2n+1*). Por lo tanto, si la palabra ambigua es *«hard» en el contexto guardado en el campo context de la instancia, aparece la siguiente parte de la frase «have a hard time imagining».

- Debes mostrar el vector de características resultante para una de las instancias del corpus.

- **Importante:** Debes tener en cuenta los posibles casos en los que la palabra ambigua aparezca al principio o final de la frase, ya que en esas instancias no vas a poder obtener una secuencia de palabras de longitud n. Por ejemplo, para la instancia cuyo contexto es: `[('some', 'DT'), ('hard', 'JJ'), ('choices', 'NNS'), ('had', 'VBD'), ('to', 'TO'), ('be', 'VB'), ('made', 'VBN'), …]` si n=2 deberías obtener el siguiente vector de características: `{'previous(some)': True, 'next(choices had)': True}`.

- **Nota:** aunque no es imprescindible para realizar esta actividad de laboratorio, puedes utilizar las funcionalidades para trabajar con n-gramas que ofrece NLTK. Estas se pueden importar utilizando el siguiente comando:

> *from nltk import ngrams*

Método que devuelve el conjunto de características de colocación para una instancia `instance` usando los n-gramas anterior y posterior donde la longitud de secuencia es de `dist` palabras (Nota: el parámetro `vocab` no debes usarlo):

In [70]:
def wsd_caracteristicas_colocacion(instance, vocab, dist=2):
    features = {}
    
    # Obtener la posición de la palabra ambigua
    pos = instance.position
    
    # Obtener las palabras del contexto (solo las palabras válidas)
    context_words = []
    for item in instance.context:
        if isinstance(item, tuple) and len(item) == 2:
            word, pos_tag = item
            if isinstance(word, str):
                context_words.append(word.lower())
    
    # Extraer n-grama anterior
    if pos >= dist:
        # Si hay suficientes palabras antes
        prev_words = context_words[pos-dist:pos]
        prev_feature = ' '.join(prev_words)
        features[f'previous({prev_feature})'] = True
    elif pos > 0:
        # Si no hay suficientes palabras, usar las que hay
        prev_words = context_words[:pos]
        prev_feature = ' '.join(prev_words)
        features[f'previous({prev_feature})'] = True
    
    # Extraer n-grama posterior
    if pos + 1 + dist <= len(context_words):
        # Si hay suficientes palabras después
        next_words = context_words[pos+1:pos+1+dist]
        next_feature = ' '.join(next_words)
        features[f'next({next_feature})'] = True
    elif pos + 1 < len(context_words):
        # Si no hay suficientes palabras, usar las que hay
        next_words = context_words[pos+1:]
        next_feature = ' '.join(next_words)
        features[f'next({next_feature})'] = True
    
    return features

Mostrar el vector de características de colocación para una de las instancias del corpus usando n=2:

In [71]:
wsd_caracteristicas_colocacion(inst_hard_2737, 0, 2)

{'previous(have a)': True, 'next(time imagining)': True}

<span style="font-size: 14pt; font-weight: bold; color: #0098cd;">Parte 3: Entrenamiento de clasificadores</span>

Debes entrenar diferentes clasificadores que permitan desambiguar las palabras ambiguas en inglés «hard» y «serve». Además, vas a tener que evaluar el desempeño de los clasificadores creados. Por lo tanto, debes crear el código en Python que te permita entrenar estos clasificadores y evaluarlos. 

El tipo de clasificador que vas a utilizar en este laboratorio es el Naive Bayes. Para importar el clasificador y el paquete que te permita evaluar su rendimiento debes utilizar el siguiente comando:

In [72]:
from nltk.classify import accuracy, NaiveBayesClassifier
from nltk import ConfusionMatrix

Una vez hayas importado los paquetes anteriores, para entrenar un clasificador Naïve Bayes puedes usar el comando `NaiveBayesClassifier.train()` y para evaluarlo `accuracy()`. Además, puedes utilizar el clasificador entrenado para clasificar una instancia utilizando su método `classify()`. Por último, puedes obtener la matriz de confusión utilizando el comando `nltk.ConfusionMatrix()`.

Para realizar esta parte del laboratorio debes seguir los siguientes pasos:

### 1.	Entrenamiento de dos clasificadores para la palabra «hard». 

Debes entrenar dos clasificadores que permitan desambiguar la palabra «hard», es decir, que debes entrenar los clasificadores utilizando las instancias disponibles en el corpus Senseval 2 para esta palabra ambigua.

- **Conjuntos de entrenamiento y test.** Para entrenar y validar divide las instancias disponibles en una proporción del 80-20 % y recuerda que en el conjunto de datos de entrenamiento deben aparecer instancias de todas las clases. 

- **Clasificador basado en las palabras vecinas.** Con el conjunto de datos de entrenamiento, entrena un clasificador para «hard» que use como características el conjunto basado en las **palabras vecinas** cuyo código has implementado en la parte 2 de este laboratorio. Para definir el vocabulario utiliza las **250** palabras más frecuentes (**m=250**). 

- **Clasificador basado en características de colocación.** Con el conjunto de datos de entrenamiento, entrena un clasificador para «hard» que use como conjunto de características las de colocación cuyo código has implementado en la parte 2 de este laboratorio. Para definir la **ventana de contexto** utiliza la secuencia de dos palabras que ocurren antes de la palabra ambigua y la secuencia de dos palabras que ocurren después de esta **(n=2)**.

In [73]:
def wsd_clasificador(word, features, stopwords_list = STOPWORDS_SET, number=250, distance=2, errors=False, confusion_matrix=False):
    """
    This function takes as arguments:
        a target word from senseval2;
        a feature set (this can be wsd_caracteristicas_palabras_vecinas or wsd_caracteristicas_colocacion);
        a list of stopwords 
        a number (defaults to 250), which determines for wsd_caracteristicas_palabras_vecinas the number of
            most frequent words within the context of a given sense that you use to classify examples;
        a distance (defaults to 2) which determines the size of the window for wsd_caracteristicas_colocacion;
        errors (defaults to false), which if set to True prints the errors;
        confusion_matrix (defaults to False), which if set to True prints a confusion matrix.

    Calling this function splits the senseval data for the word into a training set and a test set (the way it does
    this is the same for each call of this function, because the argument to random.seed is specified,
    but removing this argument would make the training and testing sets different each time you build a classifier).

    It then trains the trainer on the training set to create a classifier that performs WSD on the word,
    using features (with number or distance where relevant).

    It then tests the classifier on the test set, and prints its accuracy on that set.

    If error==True, then the errors of the classifier over the test set are printed out.
    For each error four things are recorded: (i) the example number within the test data (this is simply the index of the
    example within the list test_data); (ii) the sentence that the target word appeared in, (iii) the
    (incorrect) derived label, and (iv) the good label.

    If confusion_matrix==True, then calling this function prints out a confusion matrix, where each cell [i,j]
    indicates how often label j was predicted when the correct label was i (so the diagonal entries indicate labels
    that were correctly predicted).
    """

    
    import random
    from nltk.classify import NaiveBayesClassifier
    from nltk import ConfusionMatrix
    
    # Obtener todas las instancias
    instances = senseval.instances(word)
    
    # Crear el vocabulario
    vocab = extract_vocab(instances, stopwords_list, number)
    
    # Preparar los datos etiquetados (features, label)
    labeled_data = []
    for instance in instances:
        # Extraer características según la función proporcionada
        feats = features(instance, vocab, distance)
        # El primer sentido es la etiqueta
        label = instance.senses[0]
        labeled_data.append((feats, label))
    
    # Dividir en conjuntos de entrenamiento (80%) y prueba (20%)
    random.seed(42)  # Para reproducibilidad
    random.shuffle(labeled_data)
    cutoff = int(len(labeled_data) * 0.8)
    train_data = labeled_data[:cutoff]
    test_data = labeled_data[cutoff:]
    
    # Entrenar el clasificador
    classifier = NaiveBayesClassifier.train(train_data)
    
    # Calcular exactitud en conjunto de prueba
    acc = nltk.classify.accuracy(classifier, test_data)
    print('Accuracy: %6.4f' % acc)
    
    if errors==True:
        print('Errores: ')
        for i, (feats, correct_label) in enumerate(test_data):
            predicted = classifier.classify(feats)
            if predicted != correct_label:
                # Encontrar la instancia original
                test_instance = instances[cutoff + i]
                context = ' '.join(word for word, pos in test_instance.context)
                print(f'\nEjemplo {i}:')
                print(f'Contexto: {context}')
                print(f'Etiqueta predicha: {predicted}')
                print(f'Etiqueta correcta: {correct_label}')
        
        
    if confusion_matrix==True:
        print('Matriz de confusión: ')
        # Obtener predicciones y etiquetas reales
        test_predictions = [classifier.classify(feats) for feats, label in test_data]
        test_labels = [label for feats, label in test_data]
        # Crear y mostrar matriz de confusión
        cm = ConfusionMatrix(test_labels, test_predictions)
        print(cm)
        
    
    return classifier

### 2.	Validación de los clasificadores para la palabra «hard».  

Utilizando el conjunto de datos de test que has generado previamente, obtén la exactitud (accuracy) y la matriz de confusión para cada uno de los dos clasificadores que permiten desambiguar el sentido de la palabra «hard». 

- Debes mostrar la exactitud (accuracy) y la matriz de confusión resultantes de la validación de cada uno de los dos clasificadores.

In [74]:
clasificador_hard_vecinas = wsd_clasificador('hard.pos', wsd_caracteristicas_palabras_vecinas, number=250, errors=False, confusion_matrix=True)

Accuracy: 0.8731
Matriz de confusión: 
      |   H   H   H |
      |   A   A   A |
      |   R   R   R |
      |   D   D   D |
      |   1   2   3 |
------+-------------+
HARD1 |<672> 15   6 |
HARD2 |  46 <64>  2 |
HARD3 |  41   . <21>|
------+-------------+
(row = reference; col = test)



In [75]:
clasificador_hard_colocacion = wsd_clasificador('hard.pos', wsd_caracteristicas_colocacion, distance=2, errors=False, confusion_matrix=True)

Accuracy: 0.8812
Matriz de confusión: 
      |   H   H   H |
      |   A   A   A |
      |   R   R   R |
      |   D   D   D |
      |   1   2   3 |
------+-------------+
HARD1 |<675> 11   7 |
HARD2 |  44 <65>  3 |
HARD3 |  33   5 <24>|
------+-------------+
(row = reference; col = test)



Debes comparar y analizar los resultados de rendimiento de los clasificadores. Para ello responde a las siguientes preguntas:

- ¿Cuál es el conjunto de características que aporta mejores resultados? ¿Por qué? 

########## Aquí debes indicar tu respuesta ##########

- ¿Cuál es el sentido más difícil de identificar? ¿Por qué?

########## Aquí debes indicar tu respuesta ##########

- ¿Qué posibles mejoras se podrían aplicar para mejorar el rendimiento de los clasificadores creados? No es necesario que las implementes, solo que las comentes.

########## Aquí debes indicar tu respuesta ##########

### 3.	Instancias clasificadas incorrectamente para «hard».   

Para el clasificador que permite desambiguar la palabra «hard» y que utiliza las características de colocación, obtén las instancias que pertenecen al sentido ‘HARD1’ y que se han clasificado incorrectamente. Presenta en el informe la oración en la que aparece la palabra ambigua (el contexto) para cada una de esas instancias y la etiqueta en la que han sido erróneamente clasificadas.

Para el clasificador que permite desambiguar la palabra «hard» y que utiliza las características de colocación, obtén las instancias que pertenecen al sentido ‘HARD1’ y que se han clasificado incorrectamente.

- Presenta la oración en la que aparece la palabra ambigua (el contexto) para cada una de esas instancias y la etiqueta en la que han sido erróneamente clasificadas.

In [76]:
clasificador_hard_colocacion = wsd_clasificador('hard.pos', wsd_caracteristicas_colocacion, distance=2, errors=True, confusion_matrix=True)

Accuracy: 0.8812
Errores: 

Ejemplo 10:
Contexto: your self-discipline , diligence and hard work are exemplary .
Etiqueta predicha: HARD1
Etiqueta correcta: HARD2

Ejemplo 13:
Contexto: it was hard work , recalls john a . breeding , a year younger than lester and now a resident of live oak .
Etiqueta predicha: HARD2
Etiqueta correcta: HARD1

Ejemplo 14:
Contexto: the hearings forced tim stead , 37 , a supervisor at a san jose manufacturing plant , to take a hard look at his past treatment of women .
Etiqueta predicha: HARD1
Etiqueta correcta: HARD3

Ejemplo 35:
Contexto: while not denying his obvious sex appeal , bolton has clearly earned his position of prominence , artistically and commercially , in the music industry through his tremendous talents as a singer and songwriter and many years of hard work and dedication .
Etiqueta predicha: HARD1
Etiqueta correcta: HARD3

Ejemplo 48:
Contexto: yuh 25 , unaccustomed to the hard edge of new york humor , found breslin 's remarks sexist .
E

########## Aquí debes indicar tu respuesta ##########

### 4.	Entrenamiento y validación de dos clasificadores para la palabra «serve».   

Repite el proceso anterior para entrenar y validar dos clasificadores que permitan desambiguar la palabra «serve». Puedes aprovechar el código que has generado anteriormente.

-	Crea los conjuntos de entrenamiento y test para las instancias donde la palabra ambigua es «serve». Mantén la proporción del 80-20 % para la creación de los conjuntos de entrenamiento y de test. 

-	Entrena un clasificador para «serve» que use como características el conjunto basado en las **palabras vecinas**. Para definir el vocabulario utiliza las **250** palabras más frecuentes (**m=250**).

-	Entrena un clasificador para «serve» que use como conjunto **de características las de colocación**. Para definir la **ventana de contexto** utiliza la secuencia de dos palabras que ocurren antes de la palabra ambigua y la secuencia de dos palabras que ocurren después de esta **(n=2)**. 

-	Obtén el valor la exactitud (accuracy) para cada uno de los dos clasificadores que permiten desambiguar el sentido de la palabra «sense». 

In [77]:
clasificador_serve_vecinas = wsd_clasificador('serve.pos', wsd_caracteristicas_palabras_vecinas, number=250)

Accuracy: 0.7500


In [78]:
clasificador_serve_colocacion = wsd_clasificador('serve.pos', wsd_caracteristicas_colocacion, distance=2, errors=False)

Accuracy: 0.7523


### 5.	Análisis de resultados del rendimiento de los clasificadores y conclusiones sobre el uso de aprendizaje automático supervisado para desambiguar el sentido de las palabras

Presenta una tabla resumen con los valores de exactitud para cada uno de los 4 clasificadores (dos para cada palabra ambigua) que has entrenado previamente y responde a las siguientes preguntas:

########## Aquí debes indicar tu respuesta ##########

* ¿Por qué no es justo comparar directamente la exactitud aportada por los clasificadores que han aprendido diferentes palabras ambiguas?

########## Aquí debes indicar tu respuesta ##########

* ¿Cómo podrías hacerlo para que la comparación entre clasificadores que desambiguan palabras diferentes tenga sentido?

########## Aquí debes indicar tu respuesta ##########

* Compara la exactitud de los clasificadores con la que proporcionaría un clasificador que asignara el sentido de forma aleatoria. ¿Cuál sería el mejor clasificador tomando como referencia (baseline), el clasificador aleatorio?

########## Aquí debes indicar tu respuesta ##########

Una vez hayas implementado diferentes clasificadores para desambiguar el sentido de diferentes palabras y analizado su desempeño, reflexiona sobre el uso de algoritmos basados en aprendizaje automático supervisado para resolver la tarea de desambiguación del sentido de las palabras. Para ello responde de forma razonada a las siguientes preguntas:

* ¿Cuáles son las limitaciones de los clasificadores que has creado para la desambiguación del sentido de las palabras?

########## Aquí debes indicar tu respuesta ##########

* ¿Qué alternativas propondrías para superar esas limitaciones y obtener algoritmo que resuelva mejor el problema de la desambiguación del sentido de las palabras?

########## Aquí debes indicar tu respuesta ##########