**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 


# Laboratorio: Desambiguación del sentido de las palabras


**Objetivos**

Con este laboratorio el alumno conseguirá aplicar diferentes algoritmos basados en aprendizaje automático supervisado para desambiguar el sentido de las palabras. Además, va a aprender a utilizar la herramienta de software abierto Natural Language Toolkit (NLTK) con la que implementar tareas de procesamiento del lenguaje natural en Python.

El primer paso es importar el corpus etiquetado utilizando los siguientes comandos:

In [1]:
import nltk
from nltk.corpus import senseval

#nltk.download('senseval')

El corpus Senseval 2 contiene datos etiquetados que sirven para entrenar un clasificador que permita desambiguar el sentido de las palabras. Cada elemento del corpus Senseval 2 se corresponde a una palabra ambigua, concretamente a las palabras en inglés *«hard»*, *«interest»*, *«line»* y *«serve»*, tal como se observa a través del siguiente comando:

In [2]:
senseval.fileids()

['hard.pos', 'interest.pos', 'line.pos', 'serve.pos']

## Parte 1: análisis del corpus

Analiza el corpus Senseval 2 que vas a utilizar para entrenar los clasificadores. Para realizar el análisis utiliza las funcionalidades que aporta NLTK. Desarrolla el código necesario y responde a las siguientes preguntas.

* ¿Cuántos posibles sentidos tiene cada palabra ambigua? ¿Cuáles son esos sentidos? Para cada sentido indica la etiqueta que aparece en el corpus y su definición según WordNet.

In [3]:
def getSentidos(amb_word):
    senses = set()
    for inst in senseval.instances(amb_word):
        senses.add(inst.senses[0])
    return senses

# 'hard.pos', 'interest.pos', 'line.pos', 'serve.pos'
print(getSentidos('hard.pos'))
print(getSentidos('interest.pos'))
print(getSentidos('line.pos'))
print(getSentidos('serve.pos'))




{'HARD3', 'HARD2', 'HARD1'}
{'interest_2', 'interest_5', 'interest_1', 'interest_4', 'interest_6', 'interest_3'}
{'phone', 'cord', 'product', 'formation', 'text', 'division'}
{'SERVE6', 'SERVE2', 'SERVE12', 'SERVE10'}


### RESPUESTA

*Etiqueta del Corpus: DEFINICION EN WORDNET*


#### Hard
- HARD1: (not easy; requiring great physical or mental effort to accomplish or comprehend or endure)
- HARD2: (dispassionate) 
- HARD3: (resisting weight or pressure)

#### Interest
- interest_1: (a sense of concern with and curiosity about someone or something)
- interest_2: (a reason for wanting something done)
- interest_3: (the power of attracting or holding one's attention (because it is unusual or exciting etc.)) 
- interest_4: (a fixed charge for borrowing money; usually a percentage of the amount borrowed) 
- interest_5: ((law) a right or legal share of something; a financial involvement with something)
- interest_6: ((usually plural) a social group whose members control some field of activity and who have common aims)

#### Line
- cord: (something (as a cord or rope) that is long and thin and flexible) "a washing line"
- division: (a mark that is long relative to its width)
- formation: (a formation of people or things one beside another)
- phone: (a telephone connection)
- product: (a particular kind of product or merchandise)
- text: (text consisting of a row of words written across a page or computer screen)

#### Serve
- SERVE10: (work for or be a servant to)
- SERVE12: (be sufficient; be adequate, either in quality or quantity)
- SERVE2: (do duty or hold offices; serve in a specific function)
- SERVE6: (provide (usually but not necessarily food))


* ¿Cuántas instancias hay en el corpus para cada uno de los sentidos de las palabras ambiguas? Es decir, cuantas oraciones hay en el corpus etiquetadas con cada uno de los sentidos.

In [4]:
# funcion que cuenta cuantas oraciones hay de cada sentido
# además obtiene un valor total para comprobar que coincida con el total de palabras
# cuando se ejecuta len(senseval.instances(amb_word)) 
def contarInstanciasDeCadaSentido(amb_word):
    resultado = {}
    suma = 0
    # creo el conjunto de los sentidos de cada palabra
    for sense in getSentidos(amb_word):
        cont=0
        for inst in senseval.instances(amb_word):
            if sense == inst.senses[0]:
                cont+=1
                suma+=1
            resultado[sense] = cont
    resultado['suma'] = suma
    return resultado

print(contarInstanciasDeCadaSentido('hard.pos'))
print(contarInstanciasDeCadaSentido('interest.pos'))
print(contarInstanciasDeCadaSentido('line.pos'))
print(contarInstanciasDeCadaSentido('serve.pos'))
#len(senseval.instances('hard.pos'))


{'HARD3': 376, 'HARD2': 502, 'HARD1': 3455, 'suma': 4333}
{'interest_2': 11, 'interest_5': 500, 'interest_1': 361, 'interest_4': 178, 'interest_6': 1252, 'interest_3': 66, 'suma': 2368}
{'phone': 429, 'cord': 373, 'product': 2217, 'formation': 349, 'text': 404, 'division': 374, 'suma': 4146}
{'SERVE6': 439, 'SERVE2': 853, 'SERVE12': 1272, 'SERVE10': 1814, 'suma': 4378}


* En el contexto, las palabras ambiguas pueden aparecer en diferentes formas gramaticales. Por ejemplo, en el caso de la palabra ambigua *«hard»*, esta aparece tanto la forma base, el adjetivo *«hard»* como en comparativo *«harder»* y como en superlativo *«hardest»*. ¿Qué formas gramaticales aparecen en el contexto para cada una de las palabas ambiguas?

In [5]:
#funcion para obtener las formas gramaticales pertenecientes a cada palabra
def getFormasGram(amb_word):
    formas = set()
    for inst in senseval.instances(amb_word):
        formas.add(inst.context[inst.position][0])
    return formas

formas = getFormasGram('hard.pos')
formas2 = getFormasGram('interest.pos')
formas3 = getFormasGram('line.pos')
formas4 = getFormasGram('serve.pos')



### Respuesta 
las distintas formas gramaticales del corpus, para cada una de las palabras ambiguas son las siguientes:

In [6]:
print (formas,'\n\n', formas2,'\n\n', formas3,'\n\n', formas4,'\n\n')

{'hard', 'hardest', 'harder'} 

 {'interests', 'interest'} 

 {'line', 'lined', 'lines'} 

 {'served', 'serving', 'serve', 'serves'} 




* ¿Tienen todas las instancias que forman el corpus el formato que se ha descrito anteriormente? Si hay alguna instancia que no cumpla con ese formato, indica cuales serían las incongruencias que presenta y muestra algunos ejemplos.

In [7]:
ins = senseval.instances('hard.pos')[999]
type(ins.context) # es una lista
type(ins.context[0]) # normalmente debería ser una tupla

tuple

In [8]:
def imprimeOracion(lista):
    oracion = ''
    for item in lista:
        oracion+=item[0] + ' '
    return oracion

# Detecta incongruencia en la notacion del contexto, es decir cuando no existe 
# una tupla compuesta por la palabra y su etiqueta POS
def encuentraIncongruenciasContexto(amb_word, mostrar = False):
    i=-1
    numeros = set()
    for inst in senseval.instances(amb_word):
        lista = inst.context
        i=i+1
        for pairwords in lista:
            if type(pairwords) is not tuple:
                #si se quiere ver cual es la palabra y la instancia
                if mostrar== True:
                    print(pairwords, 'instancia:', i)
                numeros.add(i)
    return numeros

In [9]:
instanciasconerror = encuentraIncongruenciasContexto('hard.pos')
print('Instancias en hard.pos:', sorted(instanciasconerror))
print('Numero total de incosistencias en hard.pos', len(instanciasconerror))

Instancias en hard.pos: [21, 110, 196, 892, 999, 1010, 1028, 1088, 1170, 1351, 1807, 2452, 2602, 2700, 2899, 3225, 4030, 4058, 4090]
Numero total de incosistencias en hard.pos 19


In [10]:
# 'interest.pos'
instanciasconerror = encuentraIncongruenciasContexto('interest.pos')
print('Instancias en interest.pos:', sorted(instanciasconerror))
print('Numero total de incosistencias en interest.pos', len(instanciasconerror))

Instancias en interest.pos: []
Numero total de incosistencias en interest.pos 0


In [11]:
# 'line.pos'
instanciasconerror = encuentraIncongruenciasContexto('line.pos', True)
print('Instancias en line.pos:', sorted(instanciasconerror))
print('Numero total de incosistencias en line.pos', len(instanciasconerror))

FRASL instancia: 324
FRASL instancia: 391
to instancia: 517
spending instancia: 517
the instancia: 559
Houston instancia: 559
suburb instancia: 559
of instancia: 559
FRASL instancia: 644
FRASL instancia: 681
FRASL instancia: 681
FRASL instancia: 910
in instancia: 986
New instancia: 986
York instancia: 986
FRASL instancia: 1065
FRASL instancia: 1197
FRASL instancia: 1202
FRASL instancia: 1229
pornographic instancia: 1241
FRASL instancia: 1307
FRASL instancia: 1454
FRASL instancia: 1454
FRASL instancia: 1454
FRASL instancia: 1454
FRASL instancia: 1471
FRASL instancia: 1585
FRASL instancia: 1599
FRASL instancia: 1630
FRASL instancia: 1630
FRASL instancia: 1684
FRASL instancia: 1684
FRASL instancia: 1684
FRASL instancia: 1684
FRASL instancia: 1684
FRASL instancia: 1684
FRASL instancia: 1752
FRASL instancia: 1812
FRASL instancia: 1867
FRASL instancia: 1867
FRASL instancia: 1962
FRASL instancia: 1967
FRASL instancia: 2001
FRASL instancia: 2001
FRASL instancia: 2006
FRASL instancia: 2025
FRAS

In [12]:
# 'serve.pos'
instanciasconerror = encuentraIncongruenciasContexto('serve.pos', False)
print('Instancias en serve.pos:', sorted(instanciasconerror))
print('Numero total de incosistencias en serve.pos', len(instanciasconerror))

Instancias en serve.pos: [18, 24, 133, 150, 151, 214, 255, 275, 323, 412, 552, 607, 655, 664, 752, 762, 774, 881, 890, 956, 973, 1009, 1041, 1049, 1054, 1058, 1078, 1159, 1164, 1176, 1197, 1213, 1243, 1283, 1292, 1302, 1378, 1423, 1433, 1480, 1492, 1496, 1499, 1532, 1537, 1568, 1618, 1727, 1729, 1753, 1776, 1808, 1928, 1975, 2072, 2075, 2178, 2506, 2570, 2646, 2868, 2882, 3067, 3341, 3604, 3692, 3952, 3966, 4015, 4154, 4164, 4208, 4224, 4261, 4274, 4289]
Numero total de incosistencias en serve.pos 76


¿Tienen todas las instancias que forman el corpus el formato que se ha descrito anteriormente? Si hay alguna instancia que no cumpla con ese formato, indica cuales serían las incongruencias que presenta.
#### RESPUESTA 
**No**, si existen ecepciones, en todas las palabras ambiguas del corpus a ecepción de palabra line que no posee inconsistencias.  En **hard.pos** Existen **19 instancias** con incongruencias, es decir, que dentro de la lista de ese contexto no existe un par (tupla) conformado por la PALABRA y la ETIQUETA MORFOSINTACTICA POS **(palabra, POS)**. Adicionalmente en **hard.pos** todas las incosistencias son del mismo tipo, es decir aparece solo **'FRASL'** en medio del contexto, sin su correspondiente palabra


In [13]:
# Ejemplo de inconsistencia
ins = senseval.instances('hard.pos')[110]
print(ins.context,'\n' )
print(imprimeOracion(ins.context))

[('wes', 'NNP'), ('raynal', 'NNP'), (',', ','), ('autoweek', 'NNP'), (';', ':'), ('(', '('), ('hbox', 'NN'), (')', 'SYM'), (';', ':'), ('``', '``'), ('low', 'NNP'), ('profiling', 'VBG'), ('is', 'VBZ'), ('pretty', 'RB'), ('hard', 'JJ'), ('in', 'IN'), ('a', 'DT'), ('car', 'NN'), ('this', 'DT'), ('bright', 'JJ'), (',', ','), ('a', 'DT'), ('characteristic', 'NN'), ('that', 'IN'), ('sets', 'VBZ'), ('the', 'DT'), ('r', 'NN'), 'FRASL', ('t', 'NN'), ('apart', 'RB'), ('from', 'IN'), ('the', 'DT'), ('taurus', 'NNP'), ('sho', 'NNP'), ('.', '.')] 

wes raynal , autoweek ; ( hbox ) ; `` low profiling is pretty hard in a car this bright , a characteristic that sets the r F t apart from the taurus sho . 


**CONCLUSION DE ESTA ECEPCIÓN:** Aunque no domino perfectamentamente el idioma, puedo inferir que esta oración esta incompleta y tiene errores

In [14]:
# Ejemplo de inconsistencia
ins = senseval.instances('line.pos')[986]
print(ins.context,'\n' )
print(imprimeOracion(ins.context))

[('the', 'DT'), ('boom', 'NN'), ('is', 'VBZ'), ('straining', 'VBG'), ('facilities', 'NNS'), ('.', '.'), ('"', '"'), ('if', 'IN'), ('you', 'PRP'), ('want', 'VBP'), ('to', 'TO'), ('tee', 'NN'), ('off', 'IN'), ('on', 'IN'), ('bethpage', 'NNP'), 'in', 'New', 'York', ('on', 'IN'), ('a', 'DT'), ('saturday', 'NNP'), ('morning', 'NN'), (',', ','), ('you', 'PRP'), ('have', 'VBP'), ('to', 'TO'), ('get', 'VB'), ('on', 'IN'), ('line', 'NN'), ('at', 'IN'), ('3', 'CD'), (':', ':'), ('30', 'CD'), ('a', 'DT'), ('.', '.'), ('m', 'NN'), ('.', '.'), ('or', 'CC'), ('4', 'CD'), ('a', 'DT'), ('.', '.'), ('m', 'NN'), ('.', '.'), (',', ','), ('"', '"'), ('says', 'VBZ'), ('charles', 'NNP'), ('robson', 'NNP'), (',', ','), ('of', 'IN'), ('the', 'DT'), ('metropolitan', 'NNP'), ('professional', 'NNP'), ('golfers', 'NNP'), ('association', 'NNP'), ('.', '.')] 

the boom is straining facilities . " if you want to tee off on bethpage i N Y on a saturday morning , you have to get on line at 3 : 30 a . m . or 4 a . m . 

**CONCLUSION DE ESTA ECEPCIÓN:** Al analizar esta ecepción claramente se puede ver que existen 3 palabras consecutivas en el contexto: 'in', 'New', 'York', que no poseen su correspondiente etiqueta POS

## Parte 2: extracción de características

Para poder entrenar un clasificador es necesario extraer un conjunto de características lingüísticas a partir del corpus etiquetado. Por lo tanto, debes crear el código en Python que te permita extraer diferentes conjuntos de características a partir de Senseval 2. 


Debes extraer un **conjunto de características basado en las palabras vecinas**. Para una instancia del corpus, debes desarrollar el código que sea capaz de extraer el vector de características que indican si las palabras de un vocabulario aparecen o no en el contexto de la palabra ambigua.

Cuando obtengas las palabras más frecuentes, debes eliminar los signos que puntuación y las palabras vacías (aquellas sin significado como artículos, pronombres o preposiciones, las llamadas stop words en inglés). También debes eliminar las diferentes formas gramaticales de la palabra ambigua, por ejemplo, para desambiguar la palabra *«hard»* no tendría sentido utilizar la palabra *«harder»* ni la palabra *«hardest»*.

#### Sección 2.1 Funciones para encontrar las palabras más frecuentes

In [15]:
from nltk.corpus import stopwords
import string
# añado las formas gramaticales identificadas en la sección 1
FORMAS_GRAMATICALES =[ 'harder', 'hardest', 'interests', 'lines', 'lined' 'serves', 'serving', 'served']
OTHER_WORDS = ["''", "'d", "'ll", "'m", "'re", "'s", "'t", "'ve", '--', '000', '1', '10', '2', 'I', '``', 'also', "don'", 'n', 'one', 'said', 'say', 'says', 'us']
EXCLUDED = set(OTHER_WORDS).union(set(FORMAS_GRAMATICALES))
STOPWORDS_SET = set(stopwords.words('english')).union(set(string.punctuation), set(EXCLUDED))

# obtengo las palabras mas frecuentes segun el parametro n 
# y el numero de ocurrencias de esa palabra
def extraerFrequenciaVocab(instancias, stopwords=STOPWORDS_SET, n=10):
    fd = nltk.FreqDist()
    for i in instancias:
        #excluyo tambien la palabra
        (ambigua, sufijo) = i.word.split('-')
        words = (c[0] for c in i.context if not c[0] == ambigua)
        for word in set(words) - set(stopwords):
            fd[word] += 1
    return fd.most_common()[:n]

# obtengo solo las palabras mas frecuentes sin el numero de ocurrencias
def extraerSoloPalabras(instancias, stopwords=STOPWORDS_SET, n=10):
    return [word for word,freq in extraerFrequenciaVocab(instancias,stopwords,n)]

extraerFrequenciaVocab(senseval.instances('hard.pos'), STOPWORDS_SET, 6)



[('time', 350),
 ('would', 252),
 ('get', 247),
 ('work', 245),
 ('find', 214),
 ('make', 214)]

#### Sección 2.2 Función para obtener el conjunto de características basado en las palabras vecinas

In [21]:
masfrecuentes = extraerSoloPalabras(senseval.instances('hard.pos'), STOPWORDS_SET, 6)

# funcion que devuelve un diccionario de caracteristicas basado en la frecuencia
# y pertenencia un contexto
def featuresFreqWords(instance, masfrecuentes):
    features = {}
    contexto = instance.context
    for frecuente in masfrecuentes:
        for word in contexto:
            if frecuente == word[0]:
                features['contains(' + frecuente + ')'] = True
                break
            else:
                features['contains(' + frecuente + ')'] = False
    return features

#obtiene el conjunto de caracteristicas de la segunda instancia
featuresFreqWords(senseval.instances('hard.pos')[1], masfrecuentes)


{'contains(time)': True,
 'contains(would)': False,
 'contains(get)': False,
 'contains(work)': False,
 'contains(find)': False,
 'contains(make)': False}

#### Sección 2.3 Función para obtener el conjunto de características basado en la colocación

In [30]:
# funcion que crea el conjunto de caracteristicas en base a la colocacion
def featuresColocacion(instance, dist=2):
    features = {}
    posicion = instance.position
    contexto = instance.context
    grama = ''
    #con la función max() evitamos el problema en los casos de que la palabra ambigua 
    # este muy al principio (posición 1 o 2) de la oración analizada.
    for i in range(max(0, posicion - dist), posicion):
        j = posicion-i
        grama += contexto[i][0]
        grama += ' '
    features['previous(' + grama[:-1] + ')'] = True  # el limite [:-1] evita un espacio en blanco que se aumenta al iterar
    grama = ''
    #con la función min() evitamos el problema en los casos de que la palabra ambigua 
    # este muy al final (posición 1 o 2) de la oración analizada.
    for i in range(posicion+1, min(posicion+dist+1, len(contexto))):
        j = i-posicion
        grama += contexto[i][0]
        grama += ' '
    features['next(' + grama[:-1] + ')'] = True
    return features

#Prueba 1 caso normal
print(featuresColocacion(senseval.instances('hard.pos')[331], 3))
#Prueba 2 caso en el cual no existen 2 palabras previas (al inicio de la oración)
print(featuresColocacion(senseval.instances('hard.pos')[330], 2))


{'previous(investors have a)': True, 'next(time identifying or)': True}
{'previous(some)': True, 'next(choices had)': True}


#### Sección 2.4  Tercer conjunto de características, Incorporar la información de las etiqueats morfosintácticas POS

In [32]:
# MI PROPUESTA: Aumentar en el conjunto de caracteristicas la información de las etiquetas POS
# tanto de las palabras previas, de las siguientes e inclusive de la palabra ambigua
def featuresColocacionModif(instance, dist=2):
    features = {}
    posicion = instance.position
    contexto = instance.context
    grama = ''
    wordsPOS = ''
    for i in range(max(0, posicion - dist), posicion):
        j = posicion-i
        grama += contexto[i][0]
        # esta es la etiqueta de la palabra iterada
        wordsPOS += contexto[i][1] + ' '
        if j ==dist:
            grama += ' '
    features['previous(' + grama + ')'] = True
    features['POS previous'] = wordsPOS[:-1]
    grama = ''
    wordsPOS = ''
    for i in range(posicion+1, min(posicion+dist+1, len(contexto))):
        j = i-posicion
        grama += contexto[i][0]
        # esta es la etiqueta de la palabra iterada
        wordsPOS += contexto[i][1] + ' '
        if j <=dist-1:
            grama += ' '
    features['next(' + grama + ')'] = True
    #se descarto esta notación ya que no se obtenia mejoras en el clasificador
    # features['POS next(' + wordsPOS + ')'] = True  
    features['POS next'] = wordsPOS[:-1]
    
    # Etiqueta POS de la palabra ambigua
    features['POS'] = contexto[posicion][1]
    #features['word'] = contexto[posicion][0]
       
    return features

featuresColocacionModif(senseval.instances('hard.pos')[331], 2)

{'previous(have a)': True,
 'POS previous': 'VBP DT',
 'next(time identifying)': True,
 'POS next': 'NN VBG',
 'POS': 'JJ'}

## Parte 3: entrenamiento de clasificadores

In [19]:
from nltk.classify import accuracy, NaiveBayesClassifier
import random

# Funcion que genera los conjuntos de entrenamiento y test 
# en la proporcion 80%, 20%
def generarData(amb_word):
    conjunto = {}
    conjunto[amb_word] = [(i, i.senses[0]) for i in senseval.instances(amb_word)]
    events = conjunto[amb_word][:]

    # se mezcla las instancias para garantizar que en los conjuntos, no vengan juntos las mismas categorias de la palabra ambigua
    n = len(events)
    random.seed(72448)
    random.shuffle(events)
    training_data = events[:int(0.8 * n)]
    test_data = events[int(0.8 * n):n]

    return training_data, test_data

# Genera los 3 clasificadores para cada palabra
def generaClasificadores(amb_word):
    
    print ('Clasificador para: ', amb_word )
    # Estos conjuntos permaneceran constantes para los 3 clasificadores
    # obtengo conjuntos de entrenamiento (X) y test (X_t)
    X, X_t = generarData(amb_word)
    print ('Tamaño de Conjunto de Train y Test: ', len(X), len(X_t))

    #Primer clasificador basado en palabras vecinas 
    freqWords = extraerSoloPalabras(senseval.instances(amb_word), STOPWORDS_SET, 250)
    featuresets_train = [(featuresFreqWords(d, freqWords), c) for (d,c) in X]
    featuresets_test = [(featuresFreqWords(d, freqWords), c) for (d,c) in X_t]

    classifier1 = NaiveBayesClassifier.train(featuresets_train)
    print('\n**CLASIFICADOR PALABRAS VECINAS**')
    print('Exactitud: ',accuracy(classifier1, featuresets_test))

    # Predicción de una instancia
    print ('Actual:    ', X_t[20][1])
    print ('Predicción: ', classifier1.classify(featuresFreqWords(X_t[20][0], freqWords)))

    # Predicción de todas las instancias de los datos de Test 
    # para el calculo de la matriz de confusión
    actual = [cat for (i, cat) in X_t]  # variable que contiene el valor real del conjunto de test
    prediccion1 = [classifier1.classify(featuresFreqWords(ins,freqWords)) for (ins,label) in X_t]

    print('\n Matriz de Confusión:\n ' )
    print(nltk.ConfusionMatrix(actual,prediccion1))

    #Segundo clasificador basado en la colocacion de las palabras
    featuresets_train_2 = [(featuresColocacion(d, 2), c) for (d,c) in X]
    featuresets_test_2 = [(featuresColocacion(d, 2), c) for (d,c) in X_t]

    classifier2 = NaiveBayesClassifier.train(featuresets_train_2)
    print('\n**CLASIFICADOR BASADO EN COLOCACION**')
    print('Exactitud: ', accuracy(classifier2, featuresets_test_2))

    # Predicción de una instancia
    print ('Actual:    ', X_t[40][1])
    print ('Predicted: ', classifier2.classify(featuresColocacion(X_t[40][0],2)))

    prediccion2 = [classifier2.classify(featuresColocacion(ins,2)) for (ins,label) in X_t]

    print('\n Matriz de Confusión:\n ' )
    print(nltk.ConfusionMatrix(actual,prediccion2))

    #Tercer clasificador basado en la colocacion de las palabras 
    #pero el vector de caracteristicas incluye la etiqueta POS
    featuresets_train_3 = [(featuresColocacionModif(d, 2), c) for (d,c) in X]
    featuresets_test_3 = [(featuresColocacionModif(d, 2), c) for (d,c) in X_t]

    classifier3 = NaiveBayesClassifier.train(featuresets_train_3)
    print('\n**CLASIFICADOR BASADO EN COLOCACION MEJORADO**')
    print('Exactitud: ', accuracy(classifier3, featuresets_test_3))

    # Predicción de una instancia
    print ('Actual:    ', X_t[50][1])
    print ('Predicted: ', classifier3.classify(featuresColocacionModif(X_t[40][0],2)))

    prediccion3 = [classifier3.classify(featuresColocacionModif(ins,2)) for (ins,label) in X_t]

    print('\n Matriz de Confusión:\n ' )
    print(nltk.ConfusionMatrix(actual,prediccion3))
    
generaClasificadores('hard.pos')
generaClasificadores('interest.pos')
generaClasificadores('line.pos')
generaClasificadores('serve.pos')


Clasificador para:  hard.pos
Tamaño de Conjunto de Train y Test:  3466 867

**CLASIFICADOR PALABRAS VECINAS**
Exactitud:  0.8535178777393311
Actual:     HARD1
Predicción:  HARD1

 Matriz de Confusión:
 
      |   H   H   H |
      |   A   A   A |
      |   R   R   R |
      |   D   D   D |
      |   1   2   3 |
------+-------------+
HARD1 |<674> 14  10 |
HARD2 |  42 <42>  1 |
HARD3 |  58   2 <24>|
------+-------------+
(row = reference; col = test)


**CLASIFICADOR BASADO EN COLOCACION**
Exactitud:  0.8696655132641292
Actual:     HARD1
Predicted:  HARD1

 Matriz de Confusión:
 
      |   H   H   H |
      |   A   A   A |
      |   R   R   R |
      |   D   D   D |
      |   1   2   3 |
------+-------------+
HARD1 |<673> 15  10 |
HARD2 |  32 <52>  1 |
HARD3 |  54   1 <29>|
------+-------------+
(row = reference; col = test)


**CLASIFICADOR BASADO EN COLOCACION MEJORADO**
Exactitud:  0.845444059976932
Actual:     HARD2
Predicted:  HARD2

 Matriz de Confusión:
 
      |   H   H   H |
   

Analiza los resultados del rendimiento con base en la exactitud (accuracy) y la matriz de confusión, obtenidos para cada uno de los tres clasificadores que permiten desambiguar el sentido de la palabra «hard».

Responde a las siguientes preguntas:

* ¿Cuál es el conjunto de características que aporta mejores resultados? ¿Por qué? 

* ¿Cuál es el sentido más difícil de identificar? ¿Por qué?

* ¿Qué posibles mejoras se podrían aplicar para mejorar el rendimiento de los clasificadores creados? No es necesario que las implementes, solo que las comentes.


Para el clasificador que permite desambiguar la palabra «hard» y que utiliza las características de colocación, obtén las instancias que pertenecen al sentido ‘HARD1’ y que se han clasificado incorrectamente. Presenta en el informe la oración en la que aparece la palabra ambigua (el contexto) para cada una de esas instancias y la etiqueta en la que han sido erróneamente clasificadas.

A continuación, entrena algunos clasificadores que te permitan desambiguar el resto de las palabras ambiguas «interest», «line» y «serve». Crea tres clasificadores para cada palabra ambigua manteniendo los mismos parámetros que en la extracción de características (m=250 para las características basadas en las palabras vecinas y n=2 para las características de colocación) y la proporción del 80-20 % para la creación de los conjuntos de entrenamiento y de test. Compara los resultados de rendimiento basados en la exactitud (accuracy) para los clasificadores que has creado. 

Presenta en el informe los valores de exactitud para cada uno de los 12 clasificadores (tres para cada palabra ambigua) y responde a las siguientes preguntas:

* ¿Por qué no es justo comparar directamente la exactitud aportada por los clasificadores que han aprendido diferentes palabras ambiguas?

* ¿Cómo podrías hacerlo para que la comparación entre clasificadores que desambiguan palabras diferentes tenga sentido?

* Compara la exactitud de los clasificadores con la que proporcionaría un clasificador que asignara el sentido de forma aleatoria. ¿Cuál sería el mejor clasificador tomando como referencia (baseline), el clasificador aleatorio?


## Parte 4: conclusiones sobre el uso de aprendizaje automático supervisado para desambiguar el sentido de las palabras

Una vez hayas implementado diferentes clasificadores para desambiguar el sentido de diferentes palabras y analizado su desempeño, reflexiona sobre el uso de algoritmos basados en aprendizaje automático supervisado para resolver la tarea de desambiguación del sentido de las palabras. Para ello responde de forma razonada a las siguientes preguntas:

* ¿Cuáles son las limitaciones de los clasificadores que has creado para la desambiguación del sentido de las palabras?

* ¿Qué alternativas propondrías para superar esas limitaciones y obtener algoritmo que resuelva mejor el problema de la desambiguación del sentido de las palabras?