**Universidad Internacional de La Rioja (UNIR) - Máster Universitario en Inteligencia Artificial - Procesamiento del Lenguaje Natural** 


# Laboratorio: Desambiguación del sentido de las palabras


**Objetivos**

Con este laboratorio el alumno conseguirá aplicar diferentes algoritmos basados en aprendizaje automático supervisado para desambiguar el sentido de las palabras. Además, va a aprender a utilizar la herramienta de software abierto Natural Language Toolkit (NLTK) con la que implementar tareas de procesamiento del lenguaje natural en Python.

**Descripción**

En este laboratorio debes desarrollar e implementar diferentes algoritmos basados en aprendizaje automático supervisado para desambiguar el sentido de las palabras en Python y utilizando la herramienta de software abierto Natural Language Toolkit (NLTK).

Para preparar este laboratorio, simplemente descarga e instala NLTK 3.3 en tu equipo.

NLTK requiere de Python versiones 2.7, 3.4, 3.5 o 3.6 para funcionar. Por lo que, si no tienes instalado Python, descárgalo e instálalo.

Asegúrate de que has instalado NLTK 3.3 adecuadamente antes de la sesión de laboratorio y de revisar el contenido teórico, Semántica léxica y temas anteriores, para tener frescos los diferentes conceptos sobre el procesamiento del lenguaje natural estudiados en esta asignatura.

Durante la sesión del laboratorio debes solucionar un problema sobre desambiguación del sentido de las palabras utilizando el corpus etiquetado en inglés llamado Senseval 2 y que viene disponible en NLTK.

El primer paso es importar el corpus etiquetado utilizando los siguientes comandos:

In [1]:
import nltk
from nltk.corpus import senseval

In [2]:
#nltk.download('senseval')

El corpus Senseval 2 contiene datos etiquetados que sirven para entrenar un clasificador que permita desambiguar el sentido de las palabras. Cada elemento del corpus Senseval 2 se corresponde a una palabra ambigua, concretamente a las palabras en inglés *«hard»*, *«interest»*, *«line»* y *«serve»*, tal como se observa a través del siguiente comando:

In [3]:
senseval.fileids()

['hard.pos', 'interest.pos', 'line.pos', 'serve.pos']

El archivo 'hard.pos' que contiene las instancias de la palabra *«hard»* tiene el siguiente formato:

```xml

<corpus lang="en">

<lexelt item="hard-a">

<instance id="hard-a.sjm-274_1:">

<answer instance="hard-a.sjm-274_1:" senseid="HARD1"/>

<context>

 <wf pos="``">``</wf> <wf pos="PRP">he</wf> <wf pos="MD">may</wf> <wf pos="VB">lose</wf> <wf pos="DT">all</wf> <wf pos="JJ">popular</wf> <wf pos="NN">support</wf> <wf pos=",">,</wf> <wf pos="CC">but</wf> <wf pos="NN">someone</wf> <wf pos="VBZ">has</wf> <wf pos="TO">to</wf> <wf pos="VB">kill</wf> <wf pos="PRP">him</wf> <wf pos="TO">to</wf> <wf pos="VB">defeat</wf> <wf pos="PRP">him</wf> <wf pos="CC">and</wf> <wf pos="DT">that</wf> <wf pos="VBZ">'s</wf> <head> <wf pos="JJ">hard</wf></head> <wf pos="TO">to</wf> <wf pos="VB">do</wf> <wf pos=".">.</wf> <wf pos="''">''</wf> 
</context>

</instance>

<instance id="hard-a.sjm-014_1:">

<answer instance="hard-a.sjm-014_1:" senseid="HARD1"/>

<context>

 <wf pos="NNP">clever</wf> <wf pos="NNP">white</wf> <wf pos="NNP">house</wf> <wf pos="``">``</wf> <wf pos="VB">spin</wf> <wf pos="NNS">doctors</wf> <wf pos="''">''</wf> <wf pos="VBP">are</wf> <wf pos="VBG">having</wf> <wf pos="DT">a</wf> <head> <wf pos="JJ">hard</wf></head> <wf pos="NN">time</wf> <wf pos="VBG">helping</wf> <wf pos="NNP">president</wf> <wf pos="NNP">bush</wf> <wf pos="VB">explain</wf> <wf pos="RB">away</wf> <wf pos="DT">the</wf> <wf pos="JJ">economic</wf> <wf pos="NN">bashing</wf> <wf pos="IN">that</wf> <wf pos="JJ">low-and</wf> <wf pos="JJ">middle-income</wf> <wf pos="NNS">workers</wf> <wf pos="VBP">are</wf> <wf pos="VBG">taking</wf> <wf pos="DT">these</wf> <wf pos="NNS">days</wf> <wf pos=".">.</wf> 
</context>

</instance>

</lexelt>

</corpus>
```

Para cada una de las palabras ambiguas, el corpus contiene una lista de instancias correspondientes a las ocurrencias de esa palabra. Para cada instancia se proporciona la palabra, una lista de sentidos que se aplican a la aparición de esa palabra y el contexto de la palabra. 

El comando utilizado para visualizar la información que contiene cada instancia de la palabra ambigua *«hard»* es:

In [4]:
senseval.instances('hard.pos')[0]

SensevalInstance(word='hard-a', position=20, context=[('``', '``'), ('he', 'PRP'), ('may', 'MD'), ('lose', 'VB'), ('all', 'DT'), ('popular', 'JJ'), ('support', 'NN'), (',', ','), ('but', 'CC'), ('someone', 'NN'), ('has', 'VBZ'), ('to', 'TO'), ('kill', 'VB'), ('him', 'PRP'), ('to', 'TO'), ('defeat', 'VB'), ('him', 'PRP'), ('and', 'CC'), ('that', 'DT'), ("'s", 'VBZ'), ('hard', 'JJ'), ('to', 'TO'), ('do', 'VB'), ('.', '.'), ("''", "''")], senses=('HARD1',))

In [5]:
inst = senseval.instances('line.pos')[500]
inst

SensevalInstance(word='line-n', position=30, context=[('desk', 'NNP'), ('traders', 'NNS'), ('said', 'VBD'), ('selling', 'VBG'), ('by', 'IN'), ('several', 'JJ'), ('fund', 'NN'), ('groups', 'NNS'), ('contributed', 'VBD'), ('to', 'TO'), ('the', 'DT'), ('market', 'NN'), ("'s", 'POS'), ('decline', 'NN'), ('.', '.'), ('many', 'JJ'), ('fund', 'NN'), ('managers', 'NNS'), ('--', ':'), ('including', 'VBG'), ('those', 'DT'), ('with', 'IN'), ('high', 'JJ'), ('cash', 'NN'), ('reserves', 'NNS'), ('--', ':'), ('are', 'VBP'), ('walking', 'VBG'), ('a', 'DT'), ('thin', 'JJ'), ('line', 'NN'), ('.', '.')], senses=('division',))

In [6]:
inst.word

'line-n'

Por ejemplo, en la primera instancia (`SensevalInstance`) la palabra ambigua (`word`) es `‘hard-a’`, lo que indica que la palabra es `‘hard’` y en este caso la categoría gramatical es un adjetivo, identificado por el sufijo `‘-a’`.

In [7]:
inst.word

'line-n'

El campo `position` indica la posición en la oración en la que se encuentra la palabra ambigua, en este caso la palabra `‘hard’` se encuentra en la posición 20.

In [8]:
inst.position

30

El campo `context` representa el contexto, es decir, la oración en la que se encuentra la palabra ambigua, en este ejemplo *«"he may lose all popular support, but someone has to kill him to defeat him and that's hard to do."»*.

In [9]:
inst.context

[('desk', 'NNP'),
 ('traders', 'NNS'),
 ('said', 'VBD'),
 ('selling', 'VBG'),
 ('by', 'IN'),
 ('several', 'JJ'),
 ('fund', 'NN'),
 ('groups', 'NNS'),
 ('contributed', 'VBD'),
 ('to', 'TO'),
 ('the', 'DT'),
 ('market', 'NN'),
 ("'s", 'POS'),
 ('decline', 'NN'),
 ('.', '.'),
 ('many', 'JJ'),
 ('fund', 'NN'),
 ('managers', 'NNS'),
 ('--', ':'),
 ('including', 'VBG'),
 ('those', 'DT'),
 ('with', 'IN'),
 ('high', 'JJ'),
 ('cash', 'NN'),
 ('reserves', 'NNS'),
 ('--', ':'),
 ('are', 'VBP'),
 ('walking', 'VBG'),
 ('a', 'DT'),
 ('thin', 'JJ'),
 ('line', 'NN'),
 ('.', '.')]

El contexto viene representado por pares formados por una palabra y la correspondiente etiqueta gramatical. Por ejemplo, el par `(‘he’, ‘PRP’)` que aparece en el contexto indica que la categoría gramatical asociada a la palabra `‘he’` es un pronombre personal `‘PRP’`. 

In [10]:
inst.context[2]

('said', 'VBD')

Por último, el campo `senses` contiene los posibles sentidos de la palabra ambigua, en el ejemplo `‘HARD1’`.

In [11]:
inst.senses

('division',)

Los sentidos del corpus hacen referencia a los sentidos de la palabra recogidos en la base de datos de relaciones léxicas WordNet.

En este caso `‘HARD1’` hace referencia la primera definición de la palabra `‘hard’` que aparece en WordNet *«difficult, hard (not easy; requiring great physical or mental effort to accomplish or comprehend or endure)»*, lo que en español sería difícil, algo que presenta obstáculos y por lo tanto no es fácil. 
Esta información se puede obtener utilizando el interfaz de búsqueda web de WordNet:
http://wordnetweb.princeton.edu/perl/webwn

Nota: NLTK implementa también un lector para la información disponible en la base de datos de relaciones léxicas WordNet. Aunque no es necesario para realizar esta actividad de laboratorio, WordNet se puede importar utilizando el siguiente comando:

In [12]:
from nltk.corpus import wordnet

Ejemplo de WordNet:

In [13]:
wordnet.synsets('hard')

[Synset('difficult.a.01'),
 Synset('hard.a.02'),
 Synset('hard.a.03'),
 Synset('hard.s.04'),
 Synset('arduous.s.01'),
 Synset('unvoiced.a.01'),
 Synset('hard.a.07'),
 Synset('hard.a.08'),
 Synset('intemperate.s.03'),
 Synset('hard.s.10'),
 Synset('hard.s.11'),
 Synset('hard.s.12'),
 Synset('hard.r.01'),
 Synset('hard.r.02'),
 Synset('hard.r.03'),
 Synset('hard.r.04'),
 Synset('hard.r.05'),
 Synset('heavily.r.07'),
 Synset('hard.r.07'),
 Synset('hard.r.08'),
 Synset('hard.r.09'),
 Synset('hard.r.10')]

In [14]:
wordnet.synset('hard.a.01').lemma_names()

['difficult', 'hard']

In [15]:
wordnet.synset('hard.a.01').definition()

'not easy; requiring great physical or mental effort to accomplish or comprehend or endure'

En este laboratorio vas a trabajar con algoritmos basados en aprendizaje automático supervisado, por lo tanto, vas a tener que a aprender diferentes clasificadores que permitan desambiguar las palabras ambiguas en inglés «hard», «interest», «line» y «serve», y vas a tener que evaluar el desempeño de los clasificadores creados. 

Las diferentes partes que forman este laboratorio se indican a continuación.

## Parte 1: análisis del corpus

Analiza el corpus Senseval 2 que vas a utilizar para entrenar los clasificadores. Para realizar el análisis utiliza las funcionalidades que aporta NLTK. Desarrolla el código necesario y responde a las siguientes preguntas.

* ¿Cuántos posibles sentidos tiene cada palabra ambigua? ¿Cuáles son esos sentidos? Para cada sentido indica la etiqueta que aparece en el corpus y su definición según WordNet.

In [16]:
senseval.instances('hard.pos')[0]

SensevalInstance(word='hard-a', position=20, context=[('``', '``'), ('he', 'PRP'), ('may', 'MD'), ('lose', 'VB'), ('all', 'DT'), ('popular', 'JJ'), ('support', 'NN'), (',', ','), ('but', 'CC'), ('someone', 'NN'), ('has', 'VBZ'), ('to', 'TO'), ('kill', 'VB'), ('him', 'PRP'), ('to', 'TO'), ('defeat', 'VB'), ('him', 'PRP'), ('and', 'CC'), ('that', 'DT'), ("'s", 'VBZ'), ('hard', 'JJ'), ('to', 'TO'), ('do', 'VB'), ('.', '.'), ("''", "''")], senses=('HARD1',))

In [17]:
senseval.instances('hard.pos')[3500]

SensevalInstance(word='hard-a', position=6, context=[('he', 'PRP'), ('said', 'VBD'), ('tuesday', 'NNP'), ('there', 'EX'), ('are', 'VBP'), ('no', 'DT'), ('hard', 'JJ'), ('feelings', 'NNS'), ('.', '.')], senses=('HARD2',))

In [18]:
senseval.instances('hard.pos')[4000]

SensevalInstance(word='hard-a', position=22, context=[('becker', 'NNP'), ('matched', 'VBD'), ('lendl', 'NNP'), ("'s", 'POS'), ('nine', 'CD'), ('aces', 'NNS'), ('but', 'CC'), ('won', 'VBD'), ('this', 'DT'), ('match', 'NN'), ('with', 'IN'), ('his', 'PRP$'), ('more', 'RBR'), ('dynamic', 'JJ'), ('net', 'JJ'), ('play', 'NN'), (',', ','), ('diving', 'VBG'), ('and', 'CC'), ('rolling', 'VBG'), ('on', 'IN'), ('the', 'DT'), ('hard', 'JJ'), ('court', 'NN'), ('as', 'IN'), ('if', 'IN'), ('frolicking', 'VBG'), ('on', 'IN'), ('grass', 'NN'), ('.', '.')], senses=('HARD3',))

## Para encontrar los posibles sentidos de cada palabra ambigua, basta con iterar cada instancia de cada palabra ambigua, guardar el campo de "senses" correspondiente a los sentidos de cada palabra ambigua, estos sentidos-almacenar en una lista. Al final solo eliminamos las repeteciones mediante el comano set

In [19]:
#MI CODIGO AQUI
for num in range(len(senseval.fileids())):
    inst = senseval.instances(senseval.fileids()[num])
    sense = []
    for i in inst:
        sense.append(i.senses)
    print("Numero de sentidos para la paralbra ambigua",senseval.fileids()[num][:-4]," : ", len(set(sense)),"\n    Etiquetas de  sentidos son : ",set(sense))

Numero de sentidos para la paralbra ambigua hard  :  3 
    Etiquetas de  sentidos son :  {('HARD2',), ('HARD3',), ('HARD1',)}
Numero de sentidos para la paralbra ambigua interest  :  6 
    Etiquetas de  sentidos son :  {('interest_6',), ('interest_5',), ('interest_2',), ('interest_4',), ('interest_3',), ('interest_1',)}
Numero de sentidos para la paralbra ambigua line  :  6 
    Etiquetas de  sentidos son :  {('phone',), ('division',), ('formation',), ('cord',), ('text',), ('product',)}
Numero de sentidos para la paralbra ambigua serve  :  4 
    Etiquetas de  sentidos son :  {('SERVE6',), ('SERVE10',), ('SERVE2',), ('SERVE12',)}


## DEFINICION SEGUN WORDNET

### Del laboratorio sabemos que cada sentido de la palabra ambigua corresponde al nivel de definicion segun la base de wordnet

### Como es posible observar existe un problema en la definicion de sentidos para la palabra line, por lo cual debemos realizar una busqueda de los sentidos que tenemos en el corpus con cada una de las deficiones que tiene wordnet

In [20]:
for i in wordnet.synsets('line'):
    print(i,"   ",i.definition())

Synset('line.n.01')     a formation of people or things one beside another
Synset('line.n.02')     a mark that is long relative to its width
Synset('line.n.03')     a formation of people or things one behind another
Synset('line.n.04')     a length (straight or curved) without breadth or thickness; the trace of a moving point
Synset('line.n.05')     text consisting of a row of words written across a page or computer screen
Synset('line.n.06')     a single frequency (or very narrow band) of radiation in a spectrum
Synset('line.n.07')     a fortified position (especially one marking the most forward position of troops)
Synset('argumentation.n.02')     a course of reasoning aimed at demonstrating a truth or falsehood; the methodical process of logical reasoning
Synset('cable.n.02')     a conductor for transmitting electrical or optical signals or electric power
Synset('course.n.02')     a connected series of events or actions or developments
Synset('line.n.11')     a spatial location defi

### Ya encontradado cada significado segun wordnet, procedo a mostrar estos usando los comandos de nltk para wortnet

In [21]:
print("HARD: ")
print("    hard 1 : ",wordnet.synset('hard.a.01').definition())
print("    hard 2 : ",wordnet.synset('hard.a.02').definition())
print("    hard 3 : ",wordnet.synset('hard.a.03').definition())

print("interest: ")
print("    interest 1 : ",wordnet.synset('interest.n.01').definition())
print("    interest 2 : ",wordnet.synset('interest.n.02').definition())
print("    interest 3 : ",wordnet.synset('interest.n.03').definition())
print("    interest 4 : ",wordnet.synset('interest.n.04').definition())
print("    interest 5 : ",wordnet.synset('interest.n.05').definition())
print("    interest 6 : ",wordnet.synset('interest.n.06').definition())

print("line: ")
print("    chord : ",wordnet.synset('cable.n.02').definition())
print("    text : ",wordnet.synset('line.n.05').definition())
print("    product : ",wordnet.synset('production_line.n.01').definition())
print("    division : ",wordnet.synset('line.n.29').definition())
print("    phone : ",wordnet.synset('telephone_line.n.02').definition())
print("    formation : ",wordnet.synset('line.n.01').definition())

print("SERVE: ")
print("    SERVE 2 : ",wordnet.synset('serve.v.02').definition())
print("    SERVE 6 : ",wordnet.synset('serve.v.06').definition())
print("    SERVE 10 : ",wordnet.synset('serve.v.10').definition())
print("    SERVE 12 : ",wordnet.synset('serve.v.12').definition())


HARD: 
    hard 1 :  not easy; requiring great physical or mental effort to accomplish or comprehend or endure
    hard 2 :  dispassionate
    hard 3 :  resisting weight or pressure
interest: 
    interest 1 :  a sense of concern with and curiosity about someone or something
    interest 2 :  a reason for wanting something done
    interest 3 :  the power of attracting or holding one's attention (because it is unusual or exciting etc.)
    interest 4 :  a fixed charge for borrowing money; usually a percentage of the amount borrowed
    interest 5 :  (law) a right or legal share of something; a financial involvement with something
    interest 6 :  (usually plural) a social group whose members control some field of activity and who have common aims
line: 
    chord :  a conductor for transmitting electrical or optical signals or electric power
    text :  text consisting of a row of words written across a page or computer screen
    product :  mechanical system in a factory whereby an a

* ¿Cuántas instancias hay en el corpus para cada uno de los sentidos de las palabras ambiguas? Es decir, cuantas oraciones hay en el corpus etiquetadas con cada uno de los sentidos.

### Para encontrar el numero de instancias ocupo un codigo similar al de la primera pregunta,

    Almaceno cada uno de los sentidos en cada instancia de cada una de las palabras ambiguas , luego mediante la funcion "counter" de la libreria collections la cual me permite contar  el numero de instancias de cada sentido procedo a mostrar en pantalla 

In [22]:
from collections import Counter

for num in range(len(senseval.fileids())):
    inst = senseval.instances(senseval.fileids()[num])
    sense = []
    for i in inst:
        sense.append(i.senses)
    print("Numero de instancas para cada sentido de la palabra ",senseval.fileids()[num][:-4], "\n    son : ", Counter(sense))

Numero de instancas para cada sentido de la palabra  hard 
    son :  Counter({('HARD1',): 3455, ('HARD2',): 502, ('HARD3',): 376})
Numero de instancas para cada sentido de la palabra  interest 
    son :  Counter({('interest_6',): 1252, ('interest_5',): 500, ('interest_1',): 361, ('interest_4',): 178, ('interest_3',): 66, ('interest_2',): 11})
Numero de instancas para cada sentido de la palabra  line 
    son :  Counter({('product',): 2217, ('phone',): 429, ('text',): 404, ('division',): 374, ('cord',): 373, ('formation',): 349})
Numero de instancas para cada sentido de la palabra  serve 
    son :  Counter({('SERVE10',): 1814, ('SERVE12',): 1272, ('SERVE2',): 853, ('SERVE6',): 439})


* En el contexto, las palabras ambiguas pueden aparecer en diferentes formas gramaticales. Por ejemplo, en el caso de la palabra ambigua *«hard»*, esta aparece tanto la forma base, el adjetivo *«hard»* como en comparativo *«harder»* y como en superlativo *«hardest»*. ¿Qué formas gramaticales aparecen en el contexto para cada una de las palabas ambiguas?

In [23]:
inst_harder = senseval.instances('hard.pos')[4]

In [24]:
inst_harder

SensevalInstance(word='hard-a', position=66, context=[("'a", 'NN'), ('great', 'JJ'), ('share', 'NN'), ('of', 'IN'), ('responsibility', 'NN'), ('for', 'IN'), ('this', 'DT'), ('national', 'JJ'), ('tragedy', 'NN'), ('unquestionably', 'RB'), ('lies', 'VBZ'), ('with', 'IN'), ('the', 'DT'), ('president', 'NN'), ('of', 'IN'), ('the', 'DT'), ('country', 'NN'), ('.', '.'), ("'", "''"), ('--', ':'), ('eduard', 'NNP'), ('shevardnadze', 'NNP'), (',', ','), ('former', 'JJ'), ('foreign', 'JJ'), ('minister', 'NN'), (';', ':'), ("'we", 'PRP'), ('are', 'VBP'), ('so', 'RB'), ('deep', 'JJ'), ('in', 'IN'), ('this', 'DT'), ('crisis', 'NN'), ('that', 'IN'), ('all', 'PDT'), ('this', 'DT'), ('business', 'NN'), ('about', 'IN'), ('leaving', 'VBG'), ('the', 'DT'), ('party', 'NN'), (',', ','), ('not', 'RB'), ('leaving', 'VBG'), ('the', 'DT'), ('party', 'NN'), ('--', ':'), ('that', 'WDT'), ('will', 'MD'), ('never', 'RB'), ('get', 'VB'), ('us', 'PRP'), ('out', 'IN'), ('.', '.'), ("'", "''"), ('--', ':'), ('natasha'

In [25]:
inst_harder.context[inst_harder.position]

('harder', 'JJ')

### Para encontrar las dieferentes formas gramaticales de cada palabra ambigua, es necesario iterar cada instancia y en cada iteracion, buscar la posicion de la palabra en el contexto, ya que en ella esta cada una de las formas, este valor almacenamos en una lista y al final con la ayuda del comando set, muestro cada una de las instancias mencionadas

In [26]:
for num in range(len(senseval.fileids())):
    inst = senseval.instances(senseval.fileids()[num])
    gramatical = []
    for i in inst:
        gramatical.append(i.context[i.position])
    print("Las formas gramaticalas para la palabra ambigua " , senseval.fileids()[num][:-4],'\n   son :',set(gramatical))

Las formas gramaticalas para la palabra ambigua  hard 
   son : {('harder', 'JJ'), ('hard', 'JJ'), ('hardest', 'JJ')}
Las formas gramaticalas para la palabra ambigua  interest 
   son : {('interest', 'NN'), ('interests', 'NNS')}
Las formas gramaticalas para la palabra ambigua  line 
   son : {('lined', 'NN'), ('line', 'NN'), ('lines', 'NNS')}
Las formas gramaticalas para la palabra ambigua  serve 
   son : {('serve', 'VB'), ('serving', 'VBG'), ('serves', 'VBZ'), ('served', 'VBD')}


* ¿Tienen todas las instancias que forman el corpus el formato que se ha descrito anteriormente? Si hay alguna instancia que no cumpla con ese formato, indica cuales serían las incongruencias que presenta y muestra algunos ejemplos.

In [27]:
iii=senseval.instances('hard.pos')[999]

In [28]:
len(senseval.instances('hard.pos'))

4333

In [29]:
errores = [[] for i in range(4)]
for num in range(len(senseval.fileids())):
    inst = senseval.instances(senseval.fileids()[num])
    no_inst = []
    aux=0
    for i in inst:
        try:
            i.word
            i.position
            i.context
            i.senses
        except:
            errores[num].append(aux)

In [30]:
print(errores)

[[], [], [], []]


## He realizado un codigo de depuracion para verificar en todas las instancias de cada una de las palabras ambiguas con el fin de comprobar si cumplen con el formato de poseer (word, position,context, sense) mediante un manejo de errores try except!! encontrando que todas las instancias cumplen con el formato 

## Parte 2: extracción de características

Para poder entrenar un clasificador es necesario extraer un conjunto de características lingüísticas a partir del corpus etiquetado. Por lo tanto, debes crear el código en Python que te permita extraer diferentes conjuntos de características a partir de Senseval 2. 


Debes extraer un **conjunto de características basado en las palabras vecinas**. Para una instancia del corpus, debes desarrollar el código que sea capaz de extraer el vector de características que indican si las palabras de un vocabulario aparecen o no en el contexto de la palabra ambigua.

Utiliza un diccionario en Python para guardar el conjunto de características, la clave del diccionario debe indicar el nombre de la posible palabra de contexto y el valor debe ser un booleano para indicar la aparición o no de las palabras en el contexto. Por ejemplo, el vector de características `{'contains(time)': False, 'contains(would)': False, 'contains(get)': False, 'contains(work)': True, 'contains(find)': False, 'contains(make)': False}` indica que en el contexto de la palabra ambigua aparece la palabra *«work»* y no aparecen las palabras *«time»*, *«would»*, *«get»*, *«time»* y *«make»*.

In [31]:
features_v = {}

In [32]:
features_v['contains({})'.format('time')] = False
features_v['contains({})'.format('would')] = False
features_v['contains({})'.format('get')] = False
features_v['contains({})'.format('work')] = True
features_v['contains({})'.format('find')] = False
features_v['contains({})'.format('make')] = False

In [33]:
features_v

{'contains(time)': False,
 'contains(would)': False,
 'contains(get)': False,
 'contains(work)': True,
 'contains(find)': False,
 'contains(make)': False}

En el cómputo del vector de características basado en las palabras vecinas debes utilizar como contexto la oración completa donde aparece la palabra ambigua. Es decir, todas las palabras que forman la oración guardada en el campo `context` de la instancia.

In [34]:
senseval.instances('hard.pos')[1].context

[('clever', 'NNP'),
 ('white', 'NNP'),
 ('house', 'NNP'),
 ('``', '``'),
 ('spin', 'VB'),
 ('doctors', 'NNS'),
 ("''", "''"),
 ('are', 'VBP'),
 ('having', 'VBG'),
 ('a', 'DT'),
 ('hard', 'JJ'),
 ('time', 'NN'),
 ('helping', 'VBG'),
 ('president', 'NNP'),
 ('bush', 'NNP'),
 ('explain', 'VB'),
 ('away', 'RB'),
 ('the', 'DT'),
 ('economic', 'JJ'),
 ('bashing', 'NN'),
 ('that', 'IN'),
 ('low-and', 'JJ'),
 ('middle-income', 'JJ'),
 ('workers', 'NNS'),
 ('are', 'VBP'),
 ('taking', 'VBG'),
 ('these', 'DT'),
 ('days', 'NNS'),
 ('.', '.')]

Para la instancia número uno, cuyo contexto se acaba de mostrar, el vector de características sería:

`{'contains(time)': True,
 'contains(would)': False,
 'contains(get)': False, 
 'contains(work)': False, 
 'contains(find)': False, 
 'contains(make)': False}` 

Además, para obtener las características basadas en las palabras vecinas necesitas un vocabulario. En el ejemplo presentado antes, el vocabulario sobre el que se ha construido el vector de características es `['time', 'would', 'get', 'work', 'find', 'make']`. 

Vamos a utilizar como vocabulario las m palabras más frecuentes que aparecen en las instancias que conforman el conjunto de datos, es decir en las oraciones que contienen las palabras ambiguas y que forman parte del corpus. Entonces, para crear la *bag of words* (bolsa de palabras) debes extraer el conjunto de las m palabras más frecuentes. Para ello te puedes ayudar de la función `nltk.FreqDist()` que proporciona información sobre la distribución de frecuencias de las palabras que aparecen en un texto. 

Ejemplo del uso de la función `nltk.FreqDist()`: 

In [35]:
#nltk.download('webtext')
#nltk.download('nps_chat')
#nltk.download('inaugural')
#nltk.download('genesis')
#nltk.download('gutenberg')
#nltk.download('treebank')

from nltk.book import text1
fd = nltk.FreqDist(text1)
fd.most_common(10)

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


[(',', 18713),
 ('the', 13721),
 ('.', 6862),
 ('of', 6536),
 ('and', 6024),
 ('a', 4569),
 ('to', 4542),
 (';', 4072),
 ('in', 3916),
 ('that', 2982)]

Cuando obtengas las palabras más frecuentes, debes eliminar los signos que puntuación y las palabras vacías (aquellas sin significado como artículos, pronombres o preposiciones, las llamadas stop words en inglés). También debes eliminar las diferentes formas gramaticales de la palabra ambigua, por ejemplo, para desambiguar la palabra *«hard»* no tendría sentido utilizar la palabra *«harder»* ni la palabra *«hardest»*.

El conjunto de palabras no útiles que debes eliminar del vocabulario se puede crear utilizando un código parecido al que se indica a continuación. Debes tener en cuenta que en este código faltaría añadir las palabras que has identificado en la Parte 1 de este laboratorio como las diferentes formas gramaticales de las palabras ambiguas.

In [36]:
from nltk.corpus import stopwords
import string
OTHER_WORDS = ["''", "'d", "'ll", "'m", "'re", "'s", "'t", "'ve", '--', '000', '1', '10', '2', 'I', '``', 'also', "don'", 'n', 'one', 'said', 'say', 'says', 'us']
STOPWORDS_SET = set(stopwords.words('english')).union(set(string.punctuation), set(OTHER_WORDS))

In [37]:
print(OTHER_WORDS)

["''", "'d", "'ll", "'m", "'re", "'s", "'t", "'ve", '--', '000', '1', '10', '2', 'I', '``', 'also', "don'", 'n', 'one', 'said', 'say', 'says', 'us']


In [38]:
print(stopwords.words('english'))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [39]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [40]:
print(STOPWORDS_SET)

{'|', 'needn', 'had', 'each', ',', 'what', 'at', 'on', 'didn', 'for', 'an', 'll', "she's", "don'", 'have', 'm', 'but', "that'll", ']', 'ain', 'will', 're', 'she', 'being', 've', 'hers', ':', 'does', ';', 'the', 'those', 'few', 'one', 'himself', 'are', 'y', 'as', "''", 'only', 'where', "'ll", 'should', '\\', '{', 'his', 'doing', 'our', 'be', '`', 'd', 'from', "it's", "don't", 'shan', 'after', '#', 'they', "you've", 'with', 'her', "didn't", 'until', "shan't", '/', 'into', "couldn't", 'below', "'m", '&', 'all', '%', 'their', 'who', 'there', 'very', 'its', '~', 'been', 'is', 'mightn', '?', "won't", 'a', '[', 'do', 'then', 'above', 'I', "should've", 'did', 'couldn', "you're", '``', 'other', 'me', 'here', ')', "hadn't", 'ours', 'of', 'so', 'hadn', '1', "isn't", 'said', '2', '_', 'having', 't', "hasn't", 'o', 'and', 'we', 'yourselves', 'by', '(', 'aren', 'doesn', 'this', 'during', 'them', '@', '+', 'itself', '"', 'about', 'down', 'wasn', 'which', 'to', 'theirs', 'in', 'any', 'some', "'d", 'ma

Por ejemplo, si se quiere entrenar un clasificador que permita identificar los diferentes sentidos de la palabra *«hard»* y se utilizan para entrenar y validar el modelo las instancias etiquetadas para esta palabra, la bolsa de palabras en el caso de considerar las seis palabras más frecuentes (*m=6*) sería la presentada anteriormente `['time', 'would', 'get', 'work', 'find', 'make']`.

Además de extraer un conjunto de características basado en las palabras vecinas, debes extraer también un **conjunto de características de colocación**. Para una instancia del corpus, debes desarrollar el código que sea capaz de extraer el vector de características formado por la secuencia de n palabras que ocurren antes de la palabra ambigua y la secuencia de n palabras que ocurren después de la palabra ambigua, los llamados n-gramas.

Utiliza un diccionario en Python para guardar el conjunto de características, la clave del diccionario debe indicar la secuencia de palabras de contexto y si aparecen antes o después de la palabra ambigua y el valor asociado a la clave debe ser un booleano verdadero. Por ejemplo, el vector de características `{'previous(have a)': True, 'next(time imagining)': True}` indica que antes de la palabra ambigua se encuentran las palabras *«have a»* y después de la palabra ambigua las palabras *«time imagining»*. En este caso, al tener secuencias de dos palabras (*n=2*), se están considerando bigramas y la ventana tendría tamaño cinco (*2n+1*). Por lo tanto, si la palabra ambigua es *«hard»* en el contexto guardado en el campo context de la instancia, aparece la siguiente parte de la frase «have a hard time imagining».

In [41]:
features_c = {}

In [42]:
features_c['previous(' + 'have' + ' a' + ')' ] = True
features_c['next(' + 'time ' + 'imagining' + ')' ] = True

In [43]:
features_c

{'previous(have a)': True, 'next(time imagining)': True}

In [44]:
senseval.instances('hard.pos')[2737].context

[('``', '``'),
 ('it', 'PRP'),
 ("'s", 'VBZ'),
 ('a', 'DT'),
 ('very', 'RB'),
 ('interesting', 'JJ'),
 ('place', 'NN'),
 ('to', 'TO'),
 ('work', 'VB'),
 (',', ','),
 ('but', 'CC'),
 ('i', 'PRP'),
 ('can', 'MD'),
 ('see', 'VB'),
 ('why', 'WRB'),
 ('some', 'DT'),
 ('people', 'NNS'),
 ('have', 'VBP'),
 ('a', 'DT'),
 ('hard', 'JJ'),
 ('time', 'NN'),
 ('imagining', 'VBG'),
 ('what', 'WP'),
 ('it', 'PRP'),
 ("'s", 'VBZ'),
 ('like', 'IN'),
 (',', ','),
 ('"', '"'),
 ('says', 'VBZ'),
 ('nate', 'NNP'),
 ('gossett', 'NNP'),
 ('.', '.')]

Debes tener en cuenta los posibles casos en los que la palabra ambigua aparezca al principio o final de la frase, ya que en esas instancias no vas a poder obtener una secuencia de palabras de longitud n. Por ejemplo, para la instancia cuyo contexto es: `[('some', 'DT'), ('hard', 'JJ'), ('choices', 'NNS'), ('had', 'VBD'), ('to', 'TO'), ('be', 'VB'), ('made', 'VBN'), …]` si n=2 deberías obtener el siguiente vector de características: `{'previous(some)': True, 'next(choices had)': True}`.

In [45]:
senseval.instances('hard.pos')[330].context

[('some', 'DT'),
 ('hard', 'JJ'),
 ('choices', 'NNS'),
 ('had', 'VBD'),
 ('to', 'TO'),
 ('be', 'VB'),
 ('made', 'VBN'),
 (',', ','),
 ('and', 'CC'),
 ('gov', 'NNP'),
 ('.', '.'),
 ('engler', 'NNP'),
 ('decided', 'VBD'),
 ('the', 'DT'),
 ('money', 'NN'),
 ('available', 'JJ'),
 ('should', 'MD'),
 ('go', 'VB'),
 ('to', 'TO'),
 ('families', 'NNS'),
 ('and', 'CC'),
 ('children', 'NNS'),
 ('as', 'RB'),
 ('much', 'JJ'),
 ('as', 'IN'),
 ('possible', 'JJ'),
 ('.', '.'),
 ("''", "''")]

Nota: aunque no es imprescindible para realizar esta actividad de laboratorio, puedes utilizar las funcionalidades para trabajar con n-gramas que ofrece NLTK. Estas se pueden importar utilizando el siguiente comando:

In [46]:
from nltk import ngrams

In [47]:
from nltk.tokenize import word_tokenize
text = "It was a very good movie."
words = word_tokenize(text.lower())

In [48]:
for ngram in ngrams(words, 2):
    print(ngram)

('it', 'was')
('was', 'a')
('a', 'very')
('very', 'good')
('good', 'movie')
('movie', '.')


Una vez hayas implementado el conjunto de características basado en las palabras vecinas y el conjunto de características de colocación descritos anteriormente, propón tú un **tercer conjunto de características** que puedas obtener del corpus Senseval 2. Razona porque crees que puede ser bueno el conjunto de características que tú propones e impleméntalo en Python.

## CARACTERISTICAS BOLSA DE  PALABRAS 

## Primero almaceno los sentidos que tiene la palabra ambigua "hard" de cada instancia, los almaceno en una lista.
    Esta lista sera la salida de mi sistema de clasificacion

In [49]:
inst = senseval.instances(senseval.fileids()[0])
salidas = []
for i in inst:
    salidas.append(i.senses[0])

In [50]:
print("los sentidos de la palabra hard son : \n ",set(salidas))

los sentidos de la palabra hard son : 
  {'HARD3', 'HARD1', 'HARD2'}


### Aqui es importante relizar una aclaracion en mi codigo, 
    El objetivo final es realizar un clasificador NaiveBayes para desambiguar el sentido de las palabras ambiguas, para resolver esto es posible utilizar el clasificador de NLTK el cual necesita como datos de entrada y salida una tupla de dos dimenciones (X,Y) en donde :
    X = diccionario
    Y = salida del sistema 
    
    Utilizar este "Protocolo" para conformar un clasificador no es muy util, si quiero escalar a utilizar otros tipos de clasificadores que no pertenezcan al NLTK, por ello para conformar el clasificador yo propongo utilizar la libreria Sciklearn e importar el clasificador NaiveBayes el cual necesita dos variables :
    X = Datos en Entrada
    y = Datos de salida
    
    Como extra he decidido utilizar tambien un clasificador Random Forest el cual tambien funciona con el mismo "protocolo" del NaiveBayes en Sciklearn.

### La lista de salida del sistema la convierto a una lista de categorias binarias mediante la libreria pandas.

In [51]:
import pandas as pd 
b = pd.pandas.get_dummies(salidas)
salidas_1= list(b.values.tolist())
print(len(salidas_1))
print("Salidas del sistema : \n",salidas_1[0:10])

4333
Salidas del sistema : 
 [[1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0], [1, 0, 0]]


### Una vez conformada la salida del sistema, es momento de conformar la entrada, para ello :
    El primer paso es conformar la bolsa de palabras, y a posteriori sabemos que vamos a utilizar las palabras mas frecuentes, entonces lo primero es unir todos los contextos de cada instancia en una sola lista, lo cual se muestra en el codigo a continuacion

In [52]:
inst = senseval.instances(senseval.fileids()[0])
contextos = []
for i in inst:
    contextos += [i.context[it][0] for it in range (len(i.context))]

In [53]:
print(contextos[0:500])

['``', 'he', 'may', 'lose', 'all', 'popular', 'support', ',', 'but', 'someone', 'has', 'to', 'kill', 'him', 'to', 'defeat', 'him', 'and', 'that', "'s", 'hard', 'to', 'do', '.', "''", 'clever', 'white', 'house', '``', 'spin', 'doctors', "''", 'are', 'having', 'a', 'hard', 'time', 'helping', 'president', 'bush', 'explain', 'away', 'the', 'economic', 'bashing', 'that', 'low-and', 'middle-income', 'workers', 'are', 'taking', 'these', 'days', '.', 'i', 'find', 'it', 'hard', 'to', 'believe', 'that', 'the', 'sacramento', 'river', 'will', 'ever', 'be', 'quite', 'the', 'same', ',', 'although', 'i', 'certainly', 'wish', 'that', 'i', "'m", 'wrong', '.', 'now', 'when', 'you', 'get', 'bad', 'credit', 'data', 'or', 'are', 'confused', 'with', 'another', 'person', ',', 'the', 'hard', 'part', 'in', 'correcting', 'the', 'mistake', 'is', 'not', 'even', 'knowing', 'where', 'it', 'is', 'recorded', ',', 'let', 'alone', 'having', 'access', '.', "'a", 'great', 'share', 'of', 'responsibility', 'for', 'this', '

#### De este contexto total es importante eliminar las denominadas "STOP_WORDS". 
    El siguiente codigo realiza esta accion

In [54]:
voc = [ x for x in contextos if not x in list(STOPWORDS_SET)] 

In [55]:
print("Vocabulario Total :", voc)



### Una vez conformado el vocabulario, es momento de seleccionar las m palabras mas frecuentes con la ayuda de NLTK

In [56]:
fd= nltk.FreqDist(voc)

### A Futuro sabemos que para el clasificador vamos a usar las 250 palabras mas frecuentes, por ello el siguiente codigo muestra como obtenerlas, asi como tambien conformar una lista "bag_words" que sera la lista de la bolsa de palabras

In [57]:
GramAmbig= ['harder','hardest']
mostCo=fd.most_common(250+len(GramAmbig))
print(mostCo)
moscCo = [mostCo[i][0] for i in range (len(mostCo))]
bag_words = [ x for x in moscCo if not x in list(GramAmbig)] 

[('hard', 3706), ('harder', 507), ('time', 362), ('would', 267), ('get', 259), ('work', 254), ('make', 226), ('find', 216), ('people', 205), ('even', 178), ('believe', 166), ('like', 160), ('going', 157), ('much', 151), ('hardest', 140), ('take', 138), ('way', 136), ('may', 129), ('look', 126), ('good', 121), ('new', 118), ('see', 117), ('know', 116), ('could', 112), ('years', 112), ('many', 110), ('imagine', 106), ('two', 98), ('without', 95), ('come', 95), ('tell', 92), ('long', 92), ('first', 91), ('made', 91), ('part', 90), ('last', 89), ('really', 89), ('think', 87), ('year', 84), ('go', 84), ('back', 84), ('still', 83), ('thing', 83), ('lot', 81), ('enough', 80), ('day', 78), ('makes', 77), ('things', 77), ('san', 74), ('little', 73), ('keep', 71), ('getting', 70), ('place', 68), ('making', 68), ('life', 67), ('put', 65), ('home', 63), ('might', 62), ('sometimes', 62), ('times', 61), ('something', 60), ('women', 59), ('since', 57), ('become', 56), ('state', 56), ('children', 56),

In [58]:
print("Bolsa de palabras \n    ",bag_words,"\n \n \n \nTamano de la bolsa de palabras :  ",len(bag_words))

Bolsa de palabras 
     ['hard', 'time', 'would', 'get', 'work', 'make', 'find', 'people', 'even', 'believe', 'like', 'going', 'much', 'take', 'way', 'may', 'look', 'good', 'new', 'see', 'know', 'could', 'years', 'many', 'imagine', 'two', 'without', 'come', 'tell', 'long', 'first', 'made', 'part', 'last', 'really', 'think', 'year', 'go', 'back', 'still', 'thing', 'lot', 'enough', 'day', 'makes', 'things', 'san', 'little', 'keep', 'getting', 'place', 'making', 'life', 'put', 'home', 'might', 'sometimes', 'times', 'something', 'women', 'since', 'become', 'state', 'children', 'job', 'often', 'right', 'president', 'want', 'man', 'business', 'understand', 'found', 'around', 'money', 'kind', 'game', 'school', 'city', 'always', 'every', 'especially', 'real', 'days', 'ever', 'better', 'use', 'someone', 'although', 'though', 'whether', 'big', 'three', 'box', 'today', 'u', 'anything', 'jose', 'national', 'never', 'best', 'well', 'company', 'rock', 'far', 'percent', 'small', 'water', 'play', 'nex

### Con la bolsa de palabras procedo a crear un diccionario que alamacena cada palabra de la bolsa y la asocia con un valor booleano, lo cual a futuro representara si una oracion posee o no esa palabra

In [59]:
features_1 = {}
for i in range(len(bag_words)):
    features_1[bag_words[i]] = False

In [60]:
print("Diccionario bolsa de palabras : ", features_1)
print(" \n \nValores del diccionario : ",features_1.values())

Diccionario bolsa de palabras :  {'hard': False, 'time': False, 'would': False, 'get': False, 'work': False, 'make': False, 'find': False, 'people': False, 'even': False, 'believe': False, 'like': False, 'going': False, 'much': False, 'take': False, 'way': False, 'may': False, 'look': False, 'good': False, 'new': False, 'see': False, 'know': False, 'could': False, 'years': False, 'many': False, 'imagine': False, 'two': False, 'without': False, 'come': False, 'tell': False, 'long': False, 'first': False, 'made': False, 'part': False, 'last': False, 'really': False, 'think': False, 'year': False, 'go': False, 'back': False, 'still': False, 'thing': False, 'lot': False, 'enough': False, 'day': False, 'makes': False, 'things': False, 'san': False, 'little': False, 'keep': False, 'getting': False, 'place': False, 'making': False, 'life': False, 'put': False, 'home': False, 'might': False, 'sometimes': False, 'times': False, 'something': False, 'women': False, 'since': False, 'become': False

### Ahora es necesario conformar las primeras caracteristicas del sistema :
    El objetivo de la bolsa de palabras es conformar un vector de caracterisitcas donde cada posicion corresponde a una palabra de la bolsa de palabras :
    
    Cada instancia de del corpus posee un contexto.  El objetivo de las primeras caracteristicas del sistema es representar ese contexto en la bolsa de palabras.
    
        - Mi forma de representacion es por medio de una lista donde cada posicion contendra un vector de "Booleanos" correspondiente a su represenacion segun la bolsa de palabras.

In [61]:
inst = senseval.instances(senseval.fileids()[0])
carac_1 = []
for i in inst:
    aux_dict = features_1.copy()
    for j in range(len(i.context)):
        if i.context[j][0] in features_1:
            aux_dict[i.context[j][0]] = True
    carac_1.append(list(aux_dict.values()))

In [62]:
print("Bolsa de palabras en binario de los primeros 5 contextos del corpos de la palabra ambigua \n \n ")
for ji in range(5):
    print([1 * carac_1[ji][i] for i in range(len(carac_1[ji]))])

Bolsa de palabras en binario de los primeros 5 contextos del corpos de la palabra ambigua 
 
 
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

### Resumen :
    Asi se conforma la primera caracterizacion  :
    En este punto las entradas de un sistema de clasificacion correspondieran a cada uno de los contextos de cada instancia en total 4333, pero representados en forma de vector de caracterisiticas de tamaño = 250 .

### Segunda forma de caracterizacion, mediante el uso de bigramas

### Para el uso de bigramas necesitamos almacenar las dos palabras antes y las dos palabras despues de la palabra ambigua dentro de un contexto de una instancia, para ello :
    He creado dos lista 
    prev ===> almacena las palabras antes de la palabra ambiagua en cada contexto de cada instancia
    fut ===> almacena las palabras despues de la palabra ambigua en cada contexto

In [63]:
inst = senseval.instances(senseval.fileids()[0])
prev = []
fut = []
for i in inst:
    prev.append(i.context[i.position-2:i.position])
    fut.append(i.context[i.position+1:i.position+3])

In [64]:
print("El tamaño de las listas es el mismo : ",len(prev),len(fut))

El tamaño de las listas es el mismo :  4333 4333


#### Uno de los objetivos es crear uyn diccionario que contenga las palabras antes y despues de la palabra ambigua en el formato previous(#### ####) y next(#### #### )
    Con la ayuda de las listas y un iterador esto es posible tal como se observa en el codigo a continuacion

In [65]:
dic_car2 = {} 
for i in range(len(prev)):
    if len(prev[i]) ==2:
        dic_car2["previous("+prev[i][0][0] + " "+prev[i][1][0]+")"] = False
    elif len(prev[i]) ==1:
        dic_car2["previous("+prev[i][0][0]+")"] = False
    if len(fut[i])==2:
        dic_car2["next("+fut[i][0][0] + " "+fut[i][1][0]+")"] = False
    if len(fut[i])==1:
         dic_car2["next("+fut[i][0][0] +")"] = False

In [66]:
print("El diccionario que contiene todos los bigramas del corpus de entrenamiento : \n \n")
print(dic_car2)

El diccionario que contiene todos los bigramas del corpus de entrenamiento : 
 

{"previous(that 's)": False, 'next(to do)': False, 'previous(having a)': False, 'next(time helping)': False, 'previous(find it)': False, 'next(to believe)': False, 'previous(, the)': False, 'next(part in)': False, 'previous(life is)': False, 'next(now ,)': False, 'previous(have become)': False, 'next(to sell)': False, 'previous(face the)': False, 'next(facts of)': False, "previous(it 's)": False, 'next(to make)': False, 'previous(may be)': False, 'next(just to)': False, 'previous(is it)': False, 'next(portraying matt)': False, 'next(to drum)': False, 'next(to put)': False, 'previous(attract the)': False, 'next(to-reach 12-34-year-old)': False, 'previous(was not)': False, 'next(for him)': False, 'previous(but the)': False, 'next(part is)': False, 'previous(through the)': False, 'next(part ,)': False, 'next(to ignore)': False, 'previous(the job)': False, 'next(.)': False, 'next(to understand)': False, 'previ

### Aqui una aclaracion importante :
    El objetivo es representar el un bigrama antes de la palabra ambigua y despues de la palabra ambigua en un vector de caracteristicas
    
    -Esto es posible solo si se generan dos vectores de caracteristicas, uno representando las palabras antes de la palabra ambigua y el otro las palabras de despues.
    -Este vector de caracteresisticas es representado por una bolsa de palabras.
    
    -El codigo a continucacion muestra el resultado de la creacion de estos vectores de caracterisitcas, las variables carac_2_ant y carac_2_desp, contienen los vectores mencionados.

In [67]:
carac_2_ant = []
carac_2_desp = []

for it in range(len(prev)):
    aux_dict = features_1.copy()
    aux_dict2 = features_1.copy()
    l=0
    try:
        if prev[it][0][0] in aux_dict:
            aux_dict[prev[it][0][0]] = True
        if prev[it][1][0] in aux_dict:
            aux_dict[prev[it][1][0]] = True

        if fut[it][0][0] in aux_dict2 :
            aux_dict2[fut[it][0][0]] = True
        if fut[it][1][0] in aux_dict2 :
            aux_dict2[fut[it][1][0]] = True
    except:
        l+=1
    carac_2_ant.append(list(aux_dict.values()))
    carac_2_desp.append(list(aux_dict2.values()))

In [68]:
print("Caracterisiticas usando bigramagas pasados a binario para las 2 primeras isntancias del corpus")
print("VEctor de caracteristicas previas a la palabra ambigua \n")
for ji in range(2):
    print([1*carac_2_ant[ji][i] for i in range(len(carac_2_ant[ji]))])
print("\nVector de caracteristicas posterior a la palabra ambigua\n")
for ji in range(2):
    print([1*carac_2_desp[ji][i] for i in range(len(carac_2_desp[ji]))])

Caracterisiticas usando bigramagas pasados a binario para las 2 primeras isntancias del corpus
VEctor de caracteristicas previas a la palabra ambigua 

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

### Resumen :
    Asi se conforma la segunda caracterizacion  :
    En este punto las entradas de un sistema de clasificacion correspondieran a cada uno de los contextos de cada instancia en total 4333, pero representados en forma de vector de caracterisiticas bigrama = 2*250 = 500 .

## Propuesta de conjunto de caracteristicas

## Mi propuesta es utilizar tambien las "POS" las partes de la oracion

### El primer paso es crear una bolsa de "Pos" partes de la oracion

In [69]:
inst = senseval.instances(senseval.fileids()[0])
contextos2 = []
for i in inst:
    contextos2 += [i.context[it][1] for it in range (len(i.context))]

### Una vez creado calculamos la distribucion de frecuencas de los "POS" partes de la oracion

In [70]:
fd2= nltk.FreqDist(contextos2)

### El numero total de partes de la oracion es igual a 45... relativamente un numero pequeño por lo cual la bolsa de "POS" es igual a 45

In [71]:
mostCo=fd2.most_common(64+100)
print(mostCo)
moscCo = [mostCo[i][0] for i in range (len(mostCo))]
#bag_words = [ x for x in moscCo if not x in list(GramAmbig)] 

[('NN', 13668), ('IN', 10706), ('JJ', 10227), ('DT', 9203), ('NNP', 5984), ('PRP', 5731), (',', 5604), ('VB', 5565), ('NNS', 5291), ('.', 4847), ('TO', 4423), ('RB', 4173), ('VBZ', 4134), ('CC', 3254), ('VBD', 2899), ('VBP', 2257), ('VBG', 2163), ('VBN', 1731), ('``', 1457), ('MD', 1270), ('CD', 1264), ('PRP$', 1142), (':', 1029), ("''", 785), ('WRB', 677), ('"', 653), ('POS', 549), ('WP', 534), ('WDT', 481), ('JJR', 295), ('SYM', 289), ('(', 252), ('EX', 180), ('NNPS', 146), ('JJS', 129), ('RBR', 125), ('$', 100), ('RBS', 68), ('PDT', 66), ('RP', 59), ('R', 34), ('WP$', 30), ('UH', 23), ('FW', 16), ('#', 4)]


In [72]:
print("Bolsa de palabras \n    ",moscCo,"\nTamano de la bolsa de palabras :  ",len(moscCo))

Bolsa de palabras 
     ['NN', 'IN', 'JJ', 'DT', 'NNP', 'PRP', ',', 'VB', 'NNS', '.', 'TO', 'RB', 'VBZ', 'CC', 'VBD', 'VBP', 'VBG', 'VBN', '``', 'MD', 'CD', 'PRP$', ':', "''", 'WRB', '"', 'POS', 'WP', 'WDT', 'JJR', 'SYM', '(', 'EX', 'NNPS', 'JJS', 'RBR', '$', 'RBS', 'PDT', 'RP', 'R', 'WP$', 'UH', 'FW', '#'] 
Tamano de la bolsa de palabras :   45


#### El siguiente punto es crear un diccionario para la bolsa de "POS" de la misma manera que la bolsa de palabras

In [73]:
features_Pos = {}
for i in range(len(moscCo)):
    features_Pos[moscCo[i]] = False

In [74]:
print(features_Pos)

{'NN': False, 'IN': False, 'JJ': False, 'DT': False, 'NNP': False, 'PRP': False, ',': False, 'VB': False, 'NNS': False, '.': False, 'TO': False, 'RB': False, 'VBZ': False, 'CC': False, 'VBD': False, 'VBP': False, 'VBG': False, 'VBN': False, '``': False, 'MD': False, 'CD': False, 'PRP$': False, ':': False, "''": False, 'WRB': False, '"': False, 'POS': False, 'WP': False, 'WDT': False, 'JJR': False, 'SYM': False, '(': False, 'EX': False, 'NNPS': False, 'JJS': False, 'RBR': False, '$': False, 'RBS': False, 'PDT': False, 'RP': False, 'R': False, 'WP$': False, 'UH': False, 'FW': False, '#': False}


### Las caracteristicas que propongo igual son bigramas antes y despues de la palabra ambigua pero ya no de palabras, sino de partes de la oracion. Para lo cual de igual manera que el segundo tipo de caracteristicas, creo un diccioario que contenga los bigramas "POS" ----- > "previous   next ".

In [75]:
dic_car3 = {} 
for i in range(len(prev)):
    if len(prev[i]) ==2:
        dic_car3["previous("+prev[i][0][1] + " "+prev[i][1][1]+")"] = False
    elif len(prev[i]) ==1:
        dic_car3["previous("+prev[i][0][1]+")"] = False
    if len(fut[i])==2:
        dic_car3["next("+fut[i][0][1] + " "+fut[i][1][1]+")"] = False
    if len(fut[i])==1:
         dic_car3["next("+fut[i][0][1] +")"] = False

In [76]:
print(dic_car3)

{'previous(DT VBZ)': False, 'next(TO VB)': False, 'previous(VBG DT)': False, 'next(NN VBG)': False, 'previous(VBP PRP)': False, 'previous(, DT)': False, 'next(NN IN)': False, 'previous(NN VBZ)': False, 'next(RB ,)': False, 'previous(VBP VBN)': False, 'previous(VB DT)': False, 'next(NNS IN)': False, 'previous(PRP VBZ)': False, 'previous(MD VB)': False, 'next(RB TO)': False, 'previous(VBZ PRP)': False, 'next(VBG NNP)': False, 'next(JJ JJ)': False, 'previous(VBD RB)': False, 'next(IN PRP)': False, 'previous(CC DT)': False, 'next(NN VBZ)': False, 'previous(IN DT)': False, 'next(NN ,)': False, 'previous(DT NN)': False, 'next(.)': False, 'previous(VBN RB)': False, 'next(IN NNS)': False, 'next(IN DT)': False, 'previous(JJ CC)': False, 'previous(VBG SYM)': False, 'previous(VBZ RB)': False, 'previous(NN NN)': False, 'previous(VBP DT)': False, 'next(NNS VBD)': False, 'previous(VBZ VBN)': False, 'next(IN NNP)': False, 'previous(PRP VBD)': False, 'previous(VBG PRP)': False, 'next(IN RB)': False, '

In [77]:
print(features_Pos)
print(features_Pos[prev[0][0][1]])

{'NN': False, 'IN': False, 'JJ': False, 'DT': False, 'NNP': False, 'PRP': False, ',': False, 'VB': False, 'NNS': False, '.': False, 'TO': False, 'RB': False, 'VBZ': False, 'CC': False, 'VBD': False, 'VBP': False, 'VBG': False, 'VBN': False, '``': False, 'MD': False, 'CD': False, 'PRP$': False, ':': False, "''": False, 'WRB': False, '"': False, 'POS': False, 'WP': False, 'WDT': False, 'JJR': False, 'SYM': False, '(': False, 'EX': False, 'NNPS': False, 'JJS': False, 'RBR': False, '$': False, 'RBS': False, 'PDT': False, 'RP': False, 'R': False, 'WP$': False, 'UH': False, 'FW': False, '#': False}
False


#### El paso final es crear el vector de caracteristicas de los bigramas "POS", el procedimiento es el mismo que para los bigramas de palabras.

In [78]:
carac_2_pos_ant = []
carac_2_pos_desp = []

for it in range(len(prev)):
    aux_dict = features_Pos.copy()
    aux_dict2 = features_Pos.copy()
    l=0
    try:
        if prev[it][0][1] in aux_dict:
            aux_dict[prev[it][0][1]] = True
    except:
        l+=1
    try:
        if prev[it][1][1] in aux_dict:
            aux_dict[prev[it][1][1]] = True
    except:
        l+=1 
    try:
        if fut[it][0][1] in aux_dict2 :
            aux_dict2[fut[it][0][1]] = True
    except:
        l+=1 
    try:
        if fut[it][1][1] in aux_dict2 :
            aux_dict2[fut[it][1][1]] = True
    except:
        l+=1 
    carac_2_pos_ant.append(list(aux_dict.values()))
    carac_2_pos_desp.append(list(aux_dict2.values()))

In [79]:
print("Caracterisiticas usando bigramagas pasados a binario para las 5 primeras isntancias del corpus de las caracterisiticas 'POS' de las partes de la oracion \n")
print("Vector de caracteristicas previas a la palabra ambigua usando 'POS' de las partes de la oracion \n")
for ji in range(5):
    print([1*carac_2_pos_ant[ji][i] for i in range(len(carac_2_pos_ant[ji]))])
print("\nVector de caracteristicas post a la palabra ambigua\n")
for ji in range(5):
    print([1*carac_2_pos_desp[ji][i] for i in range(len(carac_2_pos_desp[ji]))])

Caracterisiticas usando bigramagas pasados a binario para las 5 primeras isntancias del corpus de las caracterisiticas 'POS' de las partes de la oracion 

Vector de caracteristicas previas a la palabra ambigua usando 'POS' de las partes de la oracion 

[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Vector de caracteristicas post a la palabra ambigua

[0, 0, 0, 0, 

### RESUMEN : 
    CARACTERISITICAS :
        - 1.- BOLSA DE PALABRAS VECTOR DE TAMAÑO 64 (PALABRAS MASS COMUNES), TIENE LA INFORMACION DE TODA LA ORACION DE CADA INSTANCIA
        - 2.- BIGRAMAS- 2 VECOTRES DE TAMAÑO 64 (UNO PARA REPRESENTAR LAS 2 PALABRAS ANTES DE LA PALABRA AMBIGUA, Y EL OTRO VECTOR PARA LAS 2 SIGUIENTES) EN TOTAL UN VECTOR DE TAMAÑO 128
        - 3.- BIGRAMAS DE "POS PARTES DE LA ORACION", DE LA MISMA FORMA 2 VECTORES DE TAMAÑO 45 QUE REPRESENTAN LOS DOS "pos" antes y despues de la palabra ambigua, EN TOTAL UN VECTOR DE TAM 90.
        
    PARA EL SISTEMA DE CLASIFICADOR:
    
    1-  USAR LA BOLSA DE PALABRAS LA ENTRADA DEL SISTEMA Tamaño de entrada =  250
    2.- USAR LOS BIGRAMAS DE PALABRAS - ENTRADA DEL SISTEMA Tamaño de entrada = 500
    3.- USAR LOS BIGRAMAS DE PALABRAS Y BIGRAMAS DE LOS "POS" partes de la oracion entrada del sistema Tamaño de entrada = 500+90 = 590

### A manera de comprobacion, los tamaños de las listas deben ser iguales tanto para las diferentes tipos de entradas (Caracteristicas), como para las salidas

In [80]:
print("tamaño de vector caract bigramas 'pos' :",len(carac_2_pos_ant),len(carac_2_pos_desp),"\nTamano de brigramas palabras : ",
      len(carac_2_ant),len(carac_2_desp),"\nTamano bolsa de palabras: ",len(carac_1),"\nTamano de salidas : ",len(salidas_1))

tamaño de vector caract bigramas 'pos' : 4333 4333 
Tamano de brigramas palabras :  4333 4333 
Tamano bolsa de palabras:  4333 
Tamano de salidas :  4333


## Parte 3: entrenamiento de clasificadores

Debes a aprender diferentes clasificadores que permitan desambiguar las palabras ambiguas en inglés «hard», «interest», «line» y «serve». Además, vas a tener que evaluar el desempeño de los clasificadores creados. Por lo tanto, debes crear el código en Python que te permita entrenar estos clasificadores y evaluarlos. 

El tipo de clasificador que vas a utilizar en este laboratorio es el Naive Bayes. Para importar el clasificador y el paquete que te permita evaluar su rendimiento debes utilizar el siguiente comando:

In [81]:
from nltk.classify import accuracy, NaiveBayesClassifier

Una vez hayas importado los paquetes anteriores, para entrenar un clasificador Naïve Bayes puedes usar el comando `NaiveBayesClassifier.train()` y para evaluarlo `accuracy()`. Además, puedes utilizar el clasificador entrenado para clasificar una instancia utilizando su método `classify()`. Por último, puedes obtener la matriz de confusión utilizando el comando `nltk.ConfusionMatrix()`.

Ejemplo de clasificación para el corpus Movie Reviews

In [82]:
#nltk.download('movie_reviews')
from nltk.corpus import movie_reviews

In [83]:
documents = [(list(movie_reviews.words(fileid)), category)
    for category in movie_reviews.categories()
    for fileid in movie_reviews.fileids(category)]

In [84]:
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())

In [85]:
word_features = list(all_words)[:2000]

In [86]:
def document_features(document): 
    # The reason that we compute the set of all words in a document in [3], rather than just checking if word in document, 
    # is that checking whether a word occurs in a set is much faster than checking whether it occurs in a list (4.7).
    document_words = set(document) 
    features = {}
    for word in word_features:
        features[word] = (word in document_words)
    return features

In [87]:
featuresets = [(document_features(d), c) for (d,c) in documents]

In [88]:
#print(featuresets[0])

In [89]:
train_set, test_set = featuresets[100:], featuresets[:100]

In [90]:
classifier = NaiveBayesClassifier.train(train_set)

In [91]:
print(accuracy(classifier, test_set))

0.78


In [92]:
classifier.classify(document_features(movie_reviews.words('pos/cv957_8737.txt')))

'neg'

In [93]:
movie_reviews.words('pos/cv957_8737.txt')

['capsule', ':', 'the', 'best', 'place', 'to', 'start', ...]

### Para la clasificacion del sistema :
    -El objetivo del laboratorio es usar una clasificador NaiveBayes
    -Mi propuesta es a manera de verificacion es tambien usar un clasificador Random Forest

### Primero importamos el clasificador NaiveBayes de la libreria sklearn,  y creamos un modelo de clasificador "NaiveBayes"

In [94]:
import numpy as np
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()

### El primer objetivo de este tercer punto es utilizar la bolsa de palabras para conformar el clasificador, para ello necesitamos crear los vecotres de entrada y salida del sistema,
    El modelo NaiveBayes necesita un vector de entrada y un vector de salida.
    Para esta primera version, las entradas del modelo corresponden a la bolsa de palabras.
    La salida del sistema corresponde a cada clase de la palabra a desambiguar

In [95]:
#X_data = np.array(carac_1).astype(int)
X_data = np.argmax(np.array(carac_1).astype(int),axis=1)
Y_data = np.array(salidas)

In [96]:
print("Tamaño de las entradas y salidas del sistema : ",X_data.shape,len(salidas))

Tamaño de las entradas y salidas del sistema :  (4333,) 4333


### El siguiente paso es separar los datos en entrenamiento y evaluacion (80% entrenamiento 20% validacion):
    Para ello utilizo una mascara que toma posiciones randomicas de los vecotres de entrada y salida del sistema, conformando asi los datos de entrenamiento y validacion

In [97]:
msk = np.random.rand(len(X_data)) < 0.80
trainX = X_data[msk]
testX = X_data[~msk]
trainY=Y_data[msk]
testY=Y_data[~msk]

### El siguiente paso corresponde a entrenar el sistema NaiveBayes utilizando la funcion (fit)

In [98]:
model.fit(trainX.reshape(-1,1), trainY)

GaussianNB(priors=None, var_smoothing=1e-09)

### Una ves entrenado el modelo lo testeamos con los datos de validacion utilizando la funcion (predict), y almacenamos estos datos en una nueva variable

In [99]:
y_pred = model.predict(testX.reshape(-1,1))

In [100]:
print("Comprobacion del tamaño de la variable predecida y la real, : ",y_pred.shape,testY.shape)

Comprobacion del tamaño de la variable predecida y la real, :  (867,) (867,)


In [101]:
from sklearn.metrics import accuracy_score

### Con la ayuda de la funcion accuracy_score de la libreria sklearn podemos calcular el radio de exito del modelo.

In [102]:
print("Accurracy utilizando bolsa de palabras : ",accuracy_score(testY,y_pred)*100,"%")

Accurracy utilizando bolsa de palabras :  80.16147635524798 %


### Para saber que tan eficiente es nuestro modelo, (saber si esta diferenciando bien entre clases) una buena opcion es recurrir a la matriz de confusion y a sus metricas
    Mediante la libreria sklearn podemos importar la matriz de confusion y el calculo de las metricas de evaluacion

In [103]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report 
confusion_matrix(testY,y_pred,labels=["HARD1", "HARD2", "HARD3"])

array([[695,   0,   0],
       [103,   0,   0],
       [ 69,   0,   0]], dtype=int64)

In [104]:
print(classification_report(testY,y_pred))

              precision    recall  f1-score   support

       HARD1       0.80      1.00      0.89       695
       HARD2       0.00      0.00      0.00       103
       HARD3       0.00      0.00      0.00        69

    accuracy                           0.80       867
   macro avg       0.27      0.33      0.30       867
weighted avg       0.64      0.80      0.71       867



  _warn_prf(average, modifier, msg_start, len(result))


### Resumen : 
    Si bien es cierto el accuracy del modelo es del 80%, tambien podemos observar que el modelo generado no puede diferencia entre clases correctamente (Precision para las clases HARD2 y HARD3 igual a "0") (Puede ser porque existen muchos ejemplos de la clase HARD1, pero tambien podria ser que el modelo creado no es generalista es decir el modelo NaiveBayes no es el optimo). 
    
    Por eso propongo usar otro tipo de clasificador para ver si mejoran estas metricas, en este caso uno de tipo random Forest, los pasos para crearlo es muy similar al naiveBayes, ya que la libreria es la misma sciklearn

In [105]:
from sklearn.ensemble import RandomForestClassifier
X_data = np.array(carac_1).astype(int)
Y_data = np.array(salidas)

msk = np.random.rand(len(X_data)) < 0.80
trainX = X_data[msk]
testX = X_data[~msk]
trainY=Y_data[msk]
testY=Y_data[~msk]

# Crear el modelo con 100 arboles
model_C = RandomForestClassifier(n_estimators=100, 
                               bootstrap = True, verbose=2,
                               max_features = 'sqrt')
# a entrenar!
model_C.fit(trainX,trainY)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s


building tree 1 of 100
building tree 2 of 100
building tree 3 of 100
building tree 4 of 100
building tree 5 of 100
building tree 6 of 100
building tree 7 of 100
building tree 8 of 100
building tree 9 of 100
building tree 10 of 100
building tree 11 of 100
building tree 12 of 100
building tree 13 of 100
building tree 14 of 100
building tree 15 of 100
building tree 16 of 100
building tree 17 of 100
building tree 18 of 100
building tree 19 of 100
building tree 20 of 100
building tree 21 of 100
building tree 22 of 100
building tree 23 of 100
building tree 24 of 100
building tree 25 of 100
building tree 26 of 100
building tree 27 of 100
building tree 28 of 100
building tree 29 of 100
building tree 30 of 100
building tree 31 of 100
building tree 32 of 100
building tree 33 of 100
building tree 34 of 100
building tree 35 of 100
building tree 36 of 100
building tree 37 of 100
building tree 38 of 100
building tree 39 of 100
building tree 40 of 100
building tree 41 of 100
building tree 42 of 100
b

[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    4.3s finished


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='sqrt',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=2, warm_start=False)

In [106]:
pru_Y=model_C.predict(testX)
accuracy_score(testY,pru_Y)*100

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


84.21610169491525

In [107]:
print(confusion_matrix(testY,pru_Y,labels=["HARD1", "HARD2", "HARD3"]))
print(classification_report(testY,pru_Y))

[[717  26  18]
 [ 53  59   1]
 [ 49   2  19]]
              precision    recall  f1-score   support

       HARD1       0.88      0.94      0.91       761
       HARD2       0.68      0.52      0.59       113
       HARD3       0.50      0.27      0.35        70

    accuracy                           0.84       944
   macro avg       0.68      0.58      0.62       944
weighted avg       0.82      0.84      0.83       944



### Resumen :
    Este tipo de clasificador nos muestra un accuracy de 82% pero la precision para cada clase es mucho mejor que el naiveBayes, por lo cual podriamos asegurar que el modelo naiveBayes no es el optimo para resolver este problema.
    
    Por otra parte un accuracy del 82% es relativamente bajo para el problema, considerando que estamos usando la bolsa de palabras.

### CARACTERISTICAS DE COLOCACION (BIGRAMAS)

### En este punto vo a crear un modelo de clasificacion usando las caracterisitcas de bigramas, para ello :
    De la misma manera que el anterior clasificador, necesito crear los vectores de entrenamiento y test
    
    Ahora las entradas del sistema son los vectores de caracteristicas de (antes y despues de la palabra ambigua) tamaño ==> 500 

In [108]:
carac2 = np.argmax(np.array(carac_2_ant).astype(int),axis=1)
carac2_2 = np.argmax(np.array(carac_2_desp).astype(int),axis=1)

In [109]:
X_data = np.array([[carac2[i],carac2_2[i]] for i in range (len(carac2_2))])
Y_data = np.array(salidas)

In [110]:
msk.shape,X_data.shape,len(carac2)

((4333,), (4333, 2), 4333)

In [111]:
msk = np.random.rand(len(X_data)) < 0.80
trainX = X_data[msk]
testX = X_data[~msk]
trainY=Y_data[msk]
testY=Y_data[~msk]

In [112]:
model = GaussianNB()
model.fit(trainX, trainY)
y_pred = model.predict(testX)

In [113]:
print("Accurracy utilizando bigramas : ",accuracy_score(testY,y_pred)*100,"%")

Accurracy utilizando bigramas :  76.16822429906543 %


In [114]:
confusion_matrix(testY,y_pred,labels=["HARD1", "HARD2", "HARD3"])

array([[642,  11,  26],
       [104,   3,   1],
       [ 61,   1,   7]], dtype=int64)

In [115]:
print(classification_report(testY,y_pred))

              precision    recall  f1-score   support

       HARD1       0.80      0.95      0.86       679
       HARD2       0.20      0.03      0.05       108
       HARD3       0.21      0.10      0.14        69

    accuracy                           0.76       856
   macro avg       0.40      0.36      0.35       856
weighted avg       0.67      0.76      0.70       856



### Resumen :
    Utilizando un sistema de caracterizacion con bigramas y un clasificador naivebayes se obtiene un acuracy de 77.56% pero de igual manera al observar las metricas de la matriz de confusion se puede observar que el sistema no generaliza
    De la misma manera propongo utilizar otro sistema como es el de RANDOM FOREST 

In [116]:
print(len(carac_2_ant),len(carac_2_desp))
carac_2 = [carac_2_ant[i] + carac_2_desp[i] for i in range(len(carac_2_desp))]
X_data = np.array(carac_2).astype(int)

msk = np.random.rand(len(X_data)) < 0.80
trainX = X_data[msk]
testX = X_data[~msk]
trainY=Y_data[msk]
testY=Y_data[~msk]

from sklearn.ensemble import RandomForestClassifier
 
# Crear el modelo con 100 arboles
model_C = RandomForestClassifier(n_estimators=100, 
                               bootstrap = True, verbose=2,
                               max_features = 'sqrt')
# a entrenar!
model_C.fit(trainX,trainY)

4333 4333


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s


building tree 1 of 100
building tree 2 of 100
building tree 3 of 100
building tree 4 of 100
building tree 5 of 100
building tree 6 of 100
building tree 7 of 100
building tree 8 of 100
building tree 9 of 100
building tree 10 of 100
building tree 11 of 100
building tree 12 of 100
building tree 13 of 100
building tree 14 of 100
building tree 15 of 100
building tree 16 of 100
building tree 17 of 100
building tree 18 of 100
building tree 19 of 100
building tree 20 of 100
building tree 21 of 100
building tree 22 of 100
building tree 23 of 100
building tree 24 of 100
building tree 25 of 100
building tree 26 of 100
building tree 27 of 100
building tree 28 of 100
building tree 29 of 100
building tree 30 of 100
building tree 31 of 100
building tree 32 of 100
building tree 33 of 100
building tree 34 of 100
building tree 35 of 100
building tree 36 of 100
building tree 37 of 100
building tree 38 of 100
building tree 39 of 100
building tree 40 of 100
building tree 41 of 100
building tree 42 of 100
b

[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    4.9s finished


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='sqrt',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=2, warm_start=False)

In [117]:
pru_Y=model_C.predict(testX)
accuracy_score(testY,pru_Y)*100

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


87.85046728971963

In [118]:
print(confusion_matrix(testY,pru_Y,labels=["HARD1", "HARD2", "HARD3"]))
print(classification_report(testY,pru_Y))

[[680  11   2]
 [ 35  56   0]
 [ 56   0  16]]
              precision    recall  f1-score   support

       HARD1       0.88      0.98      0.93       693
       HARD2       0.84      0.62      0.71        91
       HARD3       0.89      0.22      0.36        72

    accuracy                           0.88       856
   macro avg       0.87      0.61      0.66       856
weighted avg       0.88      0.88      0.86       856



### Utilizando bigramas y Random Forest se obtiene una accuracy de 86 % y el sistema mejora su generalizacion en cada clase.

## PROPUESTA DE CARACTERISTICAS

In [119]:
carac3 = np.argmax(np.array(carac_2_pos_ant).astype(int),axis=1)
carac3_2 = np.argmax(np.array(carac_2_pos_desp).astype(int),axis=1)

In [120]:
X_data = np.array([[carac2[i],carac2_2[i],carac3[i],carac3_2[i]] for i in range (len(carac2_2))])

In [121]:
X_data.shape

(4333, 4)

In [122]:
msk = np.random.rand(len(X_data)) < 0.80
trainX = X_data[msk]
testX = X_data[~msk]
trainY=Y_data[msk]
testY=Y_data[~msk]

In [123]:
model = GaussianNB()
model.fit(trainX, trainY)
y_pred = model.predict(testX)

In [124]:
print("Accurracy utilizando propio sistema de caracterizacion : ",accuracy_score(testY,y_pred)*100,"%")

Accurracy utilizando propio sistema de caracterizacion :  78.08219178082192 %


In [125]:
confusion_matrix(testY,y_pred,labels=["HARD1", "HARD2", "HARD3"])

array([[669,   7,  17],
       [102,  10,   4],
       [ 58,   4,   5]], dtype=int64)

In [126]:
print(classification_report(testY,y_pred))

              precision    recall  f1-score   support

       HARD1       0.81      0.97      0.88       693
       HARD2       0.48      0.09      0.15       116
       HARD3       0.19      0.07      0.11        67

    accuracy                           0.78       876
   macro avg       0.49      0.38      0.38       876
weighted avg       0.72      0.78      0.72       876



### Utilizando bigramas de palabras y bigramas de "POS" y usando NaiveBayes se obtiene un accuracy del 77% ademas tambien el sistema es el que mejor generaiza de los otros sistemas de caracteristicas con NaiveBayes 

    De igual manera propongo utilizar un clasificador RandomForest

In [127]:
from sklearn.ensemble import RandomForestClassifier

carac_3 = [carac_2_ant[i] + carac_2_desp[i] + carac_2_pos_ant[0] + carac_2_pos_desp[0] for i in range(len(carac_2_desp))]
X_data = np.array(carac_3).astype(int)

X_data.shape

msk = np.random.rand(len(X_data)) < 0.80
trainX = X_data[msk]
testX = X_data[~msk]
trainY=Y_data[msk]
testY=Y_data[~msk]

# Crear el modelo con 100 arboles
model_C = RandomForestClassifier(n_estimators=100, 
                               bootstrap = True, verbose=2,
                               max_features = 'sqrt')
# a entrenar!
model_C.fit(trainX,trainY)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s


building tree 1 of 100
building tree 2 of 100
building tree 3 of 100
building tree 4 of 100
building tree 5 of 100
building tree 6 of 100
building tree 7 of 100
building tree 8 of 100
building tree 9 of 100
building tree 10 of 100
building tree 11 of 100
building tree 12 of 100
building tree 13 of 100
building tree 14 of 100
building tree 15 of 100
building tree 16 of 100
building tree 17 of 100
building tree 18 of 100
building tree 19 of 100
building tree 20 of 100
building tree 21 of 100
building tree 22 of 100
building tree 23 of 100
building tree 24 of 100
building tree 25 of 100
building tree 26 of 100
building tree 27 of 100
building tree 28 of 100
building tree 29 of 100
building tree 30 of 100
building tree 31 of 100
building tree 32 of 100
building tree 33 of 100
building tree 34 of 100
building tree 35 of 100
building tree 36 of 100
building tree 37 of 100
building tree 38 of 100
building tree 39 of 100
building tree 40 of 100
building tree 41 of 100
building tree 42 of 100
b

[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    3.7s finished


RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='sqrt',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=2, warm_start=False)

In [128]:
pru_Y=model_C.predict(testX)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


In [129]:
accuracy_score(testY,pru_Y)*100

87.52886836027713

In [130]:
print(confusion_matrix(testY,pru_Y,labels=["HARD1", "HARD2", "HARD3"]))
print(classification_report(testY,pru_Y))

[[685   6   1]
 [ 43  51   0]
 [ 58   0  22]]
              precision    recall  f1-score   support

       HARD1       0.87      0.99      0.93       692
       HARD2       0.89      0.54      0.68        94
       HARD3       0.96      0.28      0.43        80

    accuracy                           0.88       866
   macro avg       0.91      0.60      0.68       866
weighted avg       0.88      0.88      0.85       866



### Resumen : 
    Usando este propio sistema de caracteristicas y RandomForest se consigue un accuracy de 87% y ademas observando las metricas de la matriz de confusion el sistema es el que mejor generaliza y el que mayor accuracy posee


### Identificacion de las palabras ambigua tipo HARD1 mal etiquetadas  

In [131]:
X_data = np.array([[carac2[i],carac2_2[i],carac3[i],carac3_2[i]] for i in range (len(carac2_2))])
y_pred = model.predict(X_data)
errores = []
err_sen = []
for i in range (len(testY)):
    if Y_data[i] == 'HARD1' and y_pred[i] != 'HARD1':
        errores.append(i)
        err_sen.append(y_pred[i])

In [132]:
print(errores[0:10])
print(err_sen[0:10])

[6, 110, 127, 128, 141, 232, 238, 255, 256, 300]
['HARD2', 'HARD2', 'HARD3', 'HARD3', 'HARD3', 'HARD3', 'HARD2', 'HARD3', 'HARD3', 'HARD2']


In [133]:
for i in range(len(errores)):
    print("\n")
    inst = senseval.instances(senseval.fileids()[0])
    oracion = [inst[errores[i]].context[j][0] for j in range(len(inst[errores[i]].context))]
    separator = ' '
    print("La oracion en la que se cometio un error de etiquetado es :\n",separator.join(oracion))
    print("\n la palabra ambigua es de tipo : ",inst[errores[i]].senses," y segun el sistema clasificador fue etiquetada como :",err_sen[i])



La oracion en la que se cometio un error de etiquetado es :
 voting against seeking additional sources of funds was supervisor ray belgard , who told his colleagues , `` we have to face the hard facts of life .

 la palabra ambigua es de tipo :  ('HARD1',)  y segun el sistema clasificador fue etiquetada como : HARD2


La oracion en la que se cometio un error de etiquetado es :
 wes raynal , autoweek ; ( hbox ) ; `` low profiling is pretty hard in a car this bright , a characteristic that sets the r F t apart from the taurus sho .

 la palabra ambigua es de tipo :  ('HARD1',)  y segun el sistema clasificador fue etiquetada como : HARD2


La oracion en la que se cometio un error de etiquetado es :
 lawrence adelman , an analyst and vice president with dean witter reynolds inc . , said , `` they 're trying to come to grips with all their problems -- whether it be domestic snacks or international snacks or kfc -- make the hard decisions in 1991 and go forward with a very positive momentu

### Finalmente como objetivos del laboratorio es presentar cada uno de los diferentes clasificadores para cada palabra ambigua : "«interest», «line» y «serve»"
    Para ello en creado una funcion que devuelve el accuracy de cada clasificador

In [134]:
def sl_clasificador(num_ins):
    
    inst = senseval.instances(senseval.fileids()[num_ins])
    salidas = []
    for i in inst:
        salidas.append(i.senses[0])

    import pandas as pd 
    b = pd.pandas.get_dummies(salidas)
    salidas_1= list(b.values.tolist())

    inst = senseval.instances(senseval.fileids()[num_ins])
    contextos = []
    for i in inst:
        contextos += [i.context[it][0] for it in range (len(i.context))]

    voc = [ x for x in contextos if not x in list(STOPWORDS_SET)] 


    fd= nltk.FreqDist(voc)

        
    GramAmbig= [['harder','hardest'],['interests'],['lined','line'],['serving','served','serves']]
    
    mostCo=fd.most_common(250+len(GramAmbig[num_ins]))

    moscCo = [mostCo[i][0] for i in range (len(mostCo))]
    bag_words = [ x for x in moscCo if not x in list(GramAmbig[num_ins])] 


    features_1 = {}
    for i in range(len(bag_words)):
        features_1[bag_words[i]] = False


    inst = senseval.instances(senseval.fileids()[num_ins])
    carac_1 = []
    for i in inst:
        aux_dict = features_1.copy()
        for j in range(len(i.context)):
            if i.context[j][0] in features_1:
                aux_dict[i.context[j][0]] = True
        carac_1.append(list(aux_dict.values()))


    inst = senseval.instances(senseval.fileids()[num_ins])
    prev = []
    fut = []
    for i in inst:
        prev.append(i.context[i.position-2:i.position])
        fut.append(i.context[i.position+1:i.position+3])

    dic_car2 = {} 
    for i in range(len(prev)):
        if len(prev[i]) ==2:
            dic_car2["previous("+prev[i][0][0] + " "+prev[i][1][0]+")"] = False
        elif len(prev[i]) ==1:
            dic_car2["previous("+prev[i][0][0]+")"] = False
        if len(fut[i])==2:
            dic_car2["next("+fut[i][0][0] + " "+fut[i][1][0]+")"] = False
        if len(fut[i])==1:
             dic_car2["next("+fut[i][0][0] +")"] = False


    carac_2_ant = []
    carac_2_desp = []

    for it in range(len(prev)):
        aux_dict = features_1.copy()
        aux_dict2 = features_1.copy()
        l=0
        try:
            if prev[it][0][0] in aux_dict:
                aux_dict[prev[it][0][0]] = True
            if prev[it][1][0] in aux_dict:
                aux_dict[prev[it][1][0]] = True
            if fut[it][0][0] in aux_dict2 :
                aux_dict2[fut[it][0][0]] = True
            if fut[it][1][0] in aux_dict2 :
                aux_dict2[fut[it][1][0]] = True
        except:
            l+=1
        carac_2_ant.append(list(aux_dict.values()))
        carac_2_desp.append(list(aux_dict2.values()))
        


    inst = senseval.instances(senseval.fileids()[num_ins])
    contextos2 = []
    l=0
    for i in inst:
        try:
            contextos2 += [i.context[it][1] for it in range (len(i.context))]
        except:
            l+=1
        
    fd2= nltk.FreqDist(contextos2)


    mostCo=fd2.most_common(64+100)

    moscCo = [mostCo[i][0] for i in range (len(mostCo))]

    
    features_Pos = {}
    for i in range(len(moscCo)):
        features_Pos[moscCo[i]] = False

    dic_car3 = {} 
    for i in range(len(prev)):
        if len(prev[i]) ==2:
            dic_car3["previous("+prev[i][0][1] + " "+prev[i][1][1]+")"] = False
        elif len(prev[i]) ==1:
            dic_car3["previous("+prev[i][0][1]+")"] = False
        if len(fut[i])==2:
            dic_car3["next("+fut[i][0][1] + " "+fut[i][1][1]+")"] = False
        if len(fut[i])==1:
             dic_car3["next("+fut[i][0][1] +")"] = False



    carac_2_pos_ant = []
    carac_2_pos_desp = []

    for it in range(len(prev)):
        aux_dict = features_Pos.copy()
        aux_dict2 = features_Pos.copy()
        l=0
        try:
            if prev[it][0][1] in aux_dict:
                aux_dict[prev[it][0][1]] = True
        except:
            l+=1
        try:
            if prev[it][1][1] in aux_dict:
                aux_dict[prev[it][1][1]] = True
        except:
            l+=1 
        try:
            if fut[it][0][1] in aux_dict2 :
                aux_dict2[fut[it][0][1]] = True
        except:
            l+=1 
        try:
            if fut[it][1][1] in aux_dict2 :
                aux_dict2[fut[it][1][1]] = True
        except:
            l+=1 
        carac_2_pos_ant.append(list(aux_dict.values()))
        carac_2_pos_desp.append(list(aux_dict2.values()))



    import numpy as np
    from sklearn.naive_bayes import GaussianNB
    model = GaussianNB()

    
    X_data = np.argmax(np.array(carac_1).astype(int),axis=1)
    Y_data = np.array(salidas)


    # ### El siguiente paso es separar los datos en entrenamiento y evaluacion (80% entrenamiento 20% validacion):
    #     Para ello utilizo una mascara que toma posiciones randomicas de los vecotres de entrada y salida del sistema, conformando asi los datos de entrenamiento y validacion


    msk = np.random.rand(len(X_data)) < 0.80
    trainX = X_data[msk]
    testX = X_data[~msk]
    trainY=Y_data[msk]
    testY=Y_data[~msk]


    # ### El siguiente paso corresponde a entrenar el sistema NaiveBayes utilizando la funcion (fit)

    model.fit(trainX.reshape(-1,1), trainY)


    # ### Una ves entrenado el modelo lo testeamos con los datos de validacion utilizando la funcion (predict), y almacenamos estos datos en una nueva variable


    y_pred = model.predict(testX.reshape(-1,1))



    from sklearn.metrics import accuracy_score


    print("\nAccurracy utilizando bolsa de palabras : ",accuracy_score(testY,y_pred)*100,"%")


    # ### Para saber que tan eficiente es nuestro modelo, (saber si esta diferenciando bien entre clases) una buena opcion es recurrir a la matriz de confusion y a sus metricas


    from sklearn.metrics import confusion_matrix
    from sklearn.metrics import classification_report 
    #confusion_matrix(testY,y_pred,labels=list(set(salidas)))

    #print(classification_report(testY,y_pred))


    # ### Resumen :


    carac2 = np.argmax(np.array(carac_2_ant).astype(int),axis=1)
    
    #return carac_2_desp
    carac2_2 = np.argmax(np.array(carac_2_desp).astype(int),axis=1)
    


    X_data = np.array([[carac2[i],carac2_2[i]] for i in range (len(carac2_2))])
    Y_data = np.array(salidas)

    msk.shape,X_data.shape,len(carac2)


    msk = np.random.rand(len(X_data)) < 0.80
    trainX = X_data[msk]
    testX = X_data[~msk]
    trainY=Y_data[msk]
    testY=Y_data[~msk]


    model = GaussianNB()
    model.fit(trainX, trainY)
    y_pred = model.predict(testX)


    print("\nAccurracy utilizando Bigramas: ",accuracy_score(testY,y_pred)*100,"%")


    #confusion_matrix(testY,y_pred,labels=list(set(salidas)))


    #print(classification_report(testY,y_pred))



    # ## PROPUESTA DE CARACTERISTICAS

    carac3 = np.argmax(np.array(carac_2_pos_ant).astype(int),axis=1)
    carac3_2 = np.argmax(np.array(carac_2_pos_desp).astype(int),axis=1)


    X_data = np.array([[carac2[i],carac2_2[i],carac3[i],carac3_2[i]] for i in range (len(carac2_2))])



    X_data.shape



    msk = np.random.rand(len(X_data)) < 0.80
    trainX = X_data[msk]
    testX = X_data[~msk]
    trainY=Y_data[msk]
    testY=Y_data[~msk]



    model = GaussianNB()
    model.fit(trainX, trainY)
    y_pred = model.predict(testX)



    print("\nAccurracy utilizando Propio sistema de caracteristicas : ",accuracy_score(testY,y_pred)*100,"%")



    #confusion_matrix(testY,y_pred,labels=list(set(salidas)))


    #print(classification_report(testY,y_pred))


### Clasificadores NaiveBayes para la palabra "interest" 

In [135]:
sl_clasificador(1)


Accurracy utilizando bolsa de palabras :  61.35371179039302 %

Accurracy utilizando Bigramas:  46.975806451612904 %

Accurracy utilizando Propio sistema de caracteristicas :  41.75152749490835 %


### Clasificadores NaiveBayes para la palabra "Line" 

In [136]:
sl_clasificador(2)


Accurracy utilizando bolsa de palabras :  54.116222760290555 %

Accurracy utilizando Bigramas:  54.292343387471 %

Accurracy utilizando Propio sistema de caracteristicas :  51.73210161662818 %


### Clasificadores NaiveBayes para la palabra "Serve" 

In [137]:
sl_clasificador(3)


Accurracy utilizando bolsa de palabras :  44.77791116446579 %

Accurracy utilizando Bigramas:  28.361581920903955 %

Accurracy utilizando Propio sistema de caracteristicas :  39.50892857142857 %


### Preguntas

#### ¿Cuál es el conjunto de características que aporta mejores resultados? ¿Por qué?

    Considerando los tres conjunto de caracteristicas para desambiguar la palabra hard, observando los resultados de cada uno de los clasificadores (Accuracy y Metricas de la matriz de confusion) considero que el conjunto de caracteristicas que yo propongo utilizando bigramas de palabras y bigramas de los "POS" de la oracion es el mejor. Considero que es mejor porque la informacion que se tiene es mas eficiente, primero porque no se considera todo un contexto sino solo las 2 palabras que van antes y despues de la palabra ambigua, y ademas tambien sus categorias gramaticales ("POS"). esta informacion es mas util para ayudar al clasificador a converger a los resultados deseados

### ¿Cuál es el sentido más difícil de identificar? ¿Por qué?

    Para responder esta pregunta es importante mirar la matriz de confusion total, los sentidos (HARD1,HARD2) son difisiles de intendificar, esto debido a la poca cantidad de ejemplos en el corpus :
    Para el sentido HARD2 solo existen :  502, y para el sentido HARD3 solo  376. Por otra parte para el sentido HARD1 el total es : 3455. Esto proboca un desbalance en las clases y a su vez el entrenamiento de un clasificador se vuelve dificil.

### ¿Qué posibles mejoras se podrían aplicar para mejorar el rendimiento de los clasificadores creados? No es necesario que las implementes, solo que las comentes.

    Para contestar esta pregunta yo implemente un sistema de clasificacion utilizando RANDOM FOREST, el cual produce mejor accuracy y mejor generalizacion entre clases al momento de clasificar el sistema. 
    
    El problema dell clasificador NaiveBayes es que este se basa el la probabilidad de ocurrencia de los ejemplos vistos, en este problema se puede observar que existe una cantidad alta de ejemplos de clase HARD1 y relativamente pocos de las clases HARD2 y HARD3. Lo cual provoca que el clasificador falle.

### ¿Por qué no es justo comparar directamente la exactitud aportada por los clasificadores que han aprendido diferentes palabras ambiguas?

    Numero de instancas para cada sentido de la palabra  interest 
        son :  Counter({('interest_6',): 1252, ('interest_5',): 500, ('interest_1',): 361, ('interest_4',): 178, ('interest_3',): 66, ('interest_2',): 11})
    Numero de instancas para cada sentido de la palabra  line 
        son :  Counter({('product',): 2217, ('phone',): 429, ('text',): 404, ('division',): 374, ('cord',): 373, ('formation',): 349})
    Numero de instancas para cada sentido de la palabra  serve 
        son :  Counter({('SERVE10',): 1814, ('SERVE12',): 1272, ('SERVE2',): 853, ('SERVE6',): 439})

    No es posible comparar la exactitud aportada por los clasificadores porque el Clasificador NaiveBayes se basa en la probailidad de ocurrencia de los ejemplos vistos, y como podemos observar las clases estan completamente desbalanceadas en cada palabra ambigua.
    
    Por otra parte el accuracy nos muestra solo el radio de exito de el clasificador no nos aporta informacion sobre la capacidad de generalizacion del clasificador

### ¿Cómo podrías hacerlo para que la comparación entre clasificadores que desambiguan palabras diferentes tenga sentido?

    Una opcion seria la de utilizar la matriz de confunsion total, la cual si nos aporta informacion de como el sistema generaliza entre clases

### Compara la exactitud de los clasificadores con la que proporcionaría un clasificador que asignara el sentido de forma aleatoria. ¿Cuál sería el mejor clasificador tomando como referencia (baseline), el clasificador aleatorio?

### Creaccion de un clasificador aleatorio

In [170]:
salidas2=['HARD1','HARD2','HARD3']
aleatorio = []
for i in range(len(testY)):
        aleatorio.append(salidas2[np.random.randint(3)])

In [171]:
accuracy_score(testY,aleatorio)*100

32.5635103926097

In [172]:
print(confusion_matrix(testY,aleatorio,labels=["HARD1", "HARD2", "HARD3"]))
print(classification_report(testY,aleatorio))

[[231 227 234]
 [ 41  30  23]
 [ 33  26  21]]
              precision    recall  f1-score   support

       HARD1       0.76      0.33      0.46       692
       HARD2       0.11      0.32      0.16        94
       HARD3       0.08      0.26      0.12        80

    accuracy                           0.33       866
   macro avg       0.31      0.31      0.25       866
weighted avg       0.62      0.33      0.40       866



### Compracion de clasificadores para la palabra "Hard" (NaiveBayes vs Aleatorio)
    
    Si partimos el analisis por el accuracy : 
        NaiveBayes con la mejor caracterizacion = 77 % 
        Aleatorio = 32.5% 
    Podriamos decir que mejor exactitud tiene  el clasificador NaiveBayes
    
    Ahora analizando la capacidad de generalizacion : 
        NaiveBayes con la mejor caracterizacion tiene una precisicion en clasificar las clases hard2 y hard 3 (mas dificiles de clasificar) del 48 y 19% respectivamente.
        Por su parte el aleatorio posee del 11 y 8% respectivamente
     
     Por lo tanto el NaiveBayes es mejor clasificador.

### PARTE 4

### ¿Cuáles son las limitaciones de los clasificadores que has creado para la desambiguación del sentido de las palabras?

    La primera limitacion es el desbalance entre ejemplos de cada clase en el corpus.
    La segunda es el tipo de clasificador utilizado ya que se basa en la probabilidad de ocurrencia

### ¿Qué alternativas propondrías para superar esas limitaciones y obtener algoritmo que resuelva mejor el problema de la desambiguación del sentido de las palabras?

    La primera opcion seria balancear el corpues para tener una cantidad de ejemplos similares para cada clase, si son muy pocas entonces es necesario expandir el corpus y conseguir mas ejemplos.
    
    La otra alternativa es utilizar otro tipo de clasificador, como pude comprobar en este laboratorio, utilizar RandomForest es una muy buena opcion pero se podria mirar hacia otras tecnicas mas actules redes neuronales.

Debes aprender un clasificador que permita desambiguar la palabra «hard», es decir, que debes entrenar el clasificador utilizando las instancias disponibles en el corpus Senseval 2 para esta palabra ambigua.

Para entrenar y validar divide las instancias disponibles en una proporción del 80-20 % y recuerda que en el conjunto de datos de entrenamiento deben aparecer instancias de todas las clases.

Utiliza como características el conjunto basado en las palabras vecinas cuyo código has implementado en la parte 2 de este laboratorio. Para definir el vocabulario utiliza las 250 palabras más frecuentes (m=250).

Una vez hayas obtenido los resultados del rendimiento del clasificador, entrena otro modelo clasificador que permita desambiguar la palabra «hard», pero que utilice como conjunto de características las de colocación cuyo código has implementado en la parte 2 de este laboratorio.

Para definir la ventana de contexto utiliza la secuencia de dos palabras que ocurren antes de la palabra ambigua y la secuencia de dos palabras que ocurren después de esta (n=2). Utiliza los mismos conjuntos de entrenamiento y de test que has usado en el caso anterior para entrenar y validar este clasificador.

Por último, crea un tercer clasificador que también permita desambiguar la palabra «hard», pero que utilice como características el conjunto de las que has propuesto tú en la parte 2 de este laboratorio. Igual que en el caso anterior, utiliza los mismos conjuntos de entrenamiento y de test que has usado para entrenar los otros dos clasificadores.

Analiza los resultados del rendimiento con base en la exactitud (accuracy) y la matriz de confusión, obtenidos para cada uno de los tres clasificadores que permiten desambiguar el sentido de la palabra «hard».

Responde a las siguientes preguntas:

* ¿Cuál es el conjunto de características que aporta mejores resultados? ¿Por qué? 

* ¿Cuál es el sentido más difícil de identificar? ¿Por qué?

* ¿Qué posibles mejoras se podrían aplicar para mejorar el rendimiento de los clasificadores creados? No es necesario que las implementes, solo que las comentes.


Para el clasificador que permite desambiguar la palabra «hard» y que utiliza las características de colocación, obtén las instancias que pertenecen al sentido ‘HARD1’ y que se han clasificado incorrectamente. Presenta en el informe la oración en la que aparece la palabra ambigua (el contexto) para cada una de esas instancias y la etiqueta en la que han sido erróneamente clasificadas.

A continuación, entrena algunos clasificadores que te permitan desambiguar el resto de las palabras ambiguas «interest», «line» y «serve». Crea tres clasificadores para cada palabra ambigua manteniendo los mismos parámetros que en la extracción de características (m=250 para las características basadas en las palabras vecinas y n=2 para las características de colocación) y la proporción del 80-20 % para la creación de los conjuntos de entrenamiento y de test. Compara los resultados de rendimiento basados en la exactitud (accuracy) para los clasificadores que has creado. 

Presenta en el informe los valores de exactitud para cada uno de los 12 clasificadores (tres para cada palabra ambigua) y responde a las siguientes preguntas:

* ¿Por qué no es justo comparar directamente la exactitud aportada por los clasificadores que han aprendido diferentes palabras ambiguas?

* ¿Cómo podrías hacerlo para que la comparación entre clasificadores que desambiguan palabras diferentes tenga sentido?

* Compara la exactitud de los clasificadores con la que proporcionaría un clasificador que asignara el sentido de forma aleatoria. ¿Cuál sería el mejor clasificador tomando como referencia (baseline), el clasificador aleatorio?


## Parte 4: conclusiones sobre el uso de aprendizaje automático supervisado para desambiguar el sentido de las palabras

Una vez hayas implementado diferentes clasificadores para desambiguar el sentido de diferentes palabras y analizado su desempeño, reflexiona sobre el uso de algoritmos basados en aprendizaje automático supervisado para resolver la tarea de desambiguación del sentido de las palabras. Para ello responde de forma razonada a las siguientes preguntas:

* ¿Cuáles son las limitaciones de los clasificadores que has creado para la desambiguación del sentido de las palabras?

* ¿Qué alternativas propondrías para superar esas limitaciones y obtener algoritmo que resuelva mejor el problema de la desambiguación del sentido de las palabras?