# Actividad 2

In [10]:

# 1. Importamos el corpus CESS del español, que es una colección de textos anotados
from nltk.corpus import cess_esp


# 2. Cargamos todas las frases anotadas del corpus CESS
sents = cess_esp.tagged_sents()


# 3. Creamos un conjunto de entrenamiento y otro de prueba
#Metemos en el conjunto de entrenamiento el 90% de las frases, y el restante 10% en el conjunto de test
training = []
test = []
for i in range(len(sents)):
    if i % 10:
        training.append(sents[i])
    else:
        test.append(sents[i])
        
        
# 4. Creamos cuatro tipos distintos de analizadores morfológicos: 
# - Un tagger basado en unigramas: aprende de la estadística de cada palabra encontrada en el corpus CESS
# - Otro basadoen bigramas: aprende de la estadística de una palabra y su palabra anterior
# - Otro basado en trigramas: aprende a taggear una palabra basandose en la estadistica de la palabra y sus 2 anteriores
# - Otro basado en Modelos Ocultos de Markov (en inglés Hidden Markov Models, HMM): es el modelo mas completo
from nltk import UnigramTagger, BigramTagger, TrigramTagger
from nltk.tag.hmm import HiddenMarkovModelTagger

unigram_tagger = UnigramTagger(training)
bigram_tagger = BigramTagger(training, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training, backoff=unigram_tagger)
hmm_tagger = HiddenMarkovModelTagger.train(training)



# 5. Evaluamos sobre el conjunto de test que no usamos para el entrenamiento, para ver qué porcentaje de acierto hemos conseguido
print ('Acierto con unigramas:',unigram_tagger.evaluate(test)*100)
print ('Acierto con bigramas:',bigram_tagger.evaluate(test)*100)
print ('Acierto con trigramas:',trigram_tagger.evaluate(test)*100)
print ('Acierto con HMMs:',hmm_tagger.evaluate(test)*100)


Acierto con unigramas: 87.65970871234029
Acierto con bigramas: 89.42636311057363
Acierto con trigramas: 89.01624691098375
Acierto con HMMs: 89.88905831011094


In [12]:
# 6. Probamos uno de nuestro taggers
import nltk
sentence = "Los perros son buenos chuchetes"

tokens = nltk.word_tokenize(sentence)
tagged = trigram_tagger.tag(tokens)

print (tagged)

[('Los', 'da0mp0'), ('perros', 'ncmp000'), ('son', 'vsip3p0'), ('buenos', 'aq0mp0'), ('chuchetes', None)]


## Desarrollo de la actividad 2

El alumno en esta práctica, tras jugar un poco con el programa de partida, deberá entrenar un
nuevo tagger basado en trigramas, pero para el __catalán__. En principio ya hemos descargado este
corpus previamente si ya hemos ejecutado 'nltk.download()' tal y como se indicaba en el documento
'Herramientas NLP.pdf', pero si no se ha hecho antes, descárguese el corpus __ cess_cat __ mediante: 
1. el comando 'nltk.download()' y 
2. la posterior selección y descarga de ese corpus concreto (se puede descargar todo seleccionando 'all' y así nos aseguramos de que no haya ningún problema).

El tagger entrenado (__trigramTagger__) En caso de fallar deberá devolver el resultado de un tagger de
bigramas, que a su vez en caso de fallar devolverá uno de unigramas, que a su vez en caso de fallar
deberá devolver el resultado de otro tagger. ¿Qué otro tagger? El que el alumno decida que es el
más adecuado, tras leer el capitulo 5 del NLTK book http://www.nltk.org/book/ch05.html. En dicho
capítulo aparecen mencionadas distintas opciones. A continuación, Introduzca como input del
programa una frase en catalán (por ej. usando Google translate) que contenga la palabra 'chuchetes'
y comente el resultado: ¿ha variado el tag de __'chuchetes'__ con respecto al que obtuvimos en el
ejemplo en castellano?

In [7]:
# 1. Importamos el corpus CESS del español, que es una colección de textos anotados
from nltk.corpus import cess_cat


# 2. Cargamos todas las frases anotadas del corpus CESS
sents = cess_cat.tagged_sents()


# 3. Creamos un conjunto de entrenamiento y otro de prueba
#Metemos en el conjunto de entrenamiento el 90% de las frases, y el restante 10% en el conjunto de test
training = []
test = []
for i in range(len(sents)):
    if i % 10:
        training.append(sents[i])
    else:
        test.append(sents[i])
        
        
# 4. Creamos cuatro tipos distintos de analizadores morfológicos: 
# - Un tagger basado en unigramas: aprende de la estadística de cada palabra encontrada en el corpus CESS
# - Otro basadoen bigramas: aprende de la estadística de una palabra y su palabra anterior
# - Otro basado en trigramas: aprende a taggear una palabra basandose en la estadistica de la palabra y sus 2 anteriores
# - Otro basado en Modelos Ocultos de Markov (en inglés Hidden Markov Models, HMM): es el modelo mas completo
from nltk import UnigramTagger, BigramTagger, TrigramTagger
from nltk.tag.hmm import HiddenMarkovModelTagger

unigram_tagger = UnigramTagger(training)
bigram_tagger = BigramTagger(training, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training, backoff=unigram_tagger)
hmm_tagger = HiddenMarkovModelTagger.train(training)



# 5. Evaluamos sobre el conjunto de test que no usamos para el entrenamiento, para ver qué porcentaje de acierto hemos conseguido
print ('Acierto con unigramas:',unigram_tagger.evaluate(test)*100)
print ('Acierto con bigramas:',bigram_tagger.evaluate(test)*100)
print ('Acierto con trigramas:',trigram_tagger.evaluate(test)*100)
print ('Acierto con HMMs:',hmm_tagger.evaluate(test)*100)


Acierto con unigramas: 90.35533992024986
Acierto con bigramas: 91.88159264570115
Acierto con trigramas: 91.55944921330217
Acierto con HMMs: 92.15070026910762


### Evaluando
Los valores del __trigramTagger__ en realidad tiene un buen resultado mayor al anterior evaluando el castellano, revisando el articulo del la ntlk Categorizing and Tagging Words, se pueden identificar palabras que no aparecen y categorizarlas.  

In [9]:
# 6. Probamos uno de nuestro taggers
import nltk
sentence = "Els gossos són bons chuchetes"

tokens = nltk.word_tokenize(sentence)
tagged = bigram_tagger.tag(tokens)
print (tagged)

tagged = trigram_tagger.tag(tokens)
print (tagged)

tagged = hmm_tagger.tag(tokens)
print (tagged)

[('Els', 'da0mp0'), ('gossos', 'ncmp000'), ('són', 'vsip3p0'), ('bons', 'aq0mp0'), ('chuchetes', None)]
[('Els', 'da0mp0'), ('gossos', 'ncmp000'), ('són', 'vsip3p0'), ('bons', 'aq0mp0'), ('chuchetes', None)]
[('Els', 'da0mp0'), ('gossos', 'ncmp000'), ('són', 'vsip3p0'), ('bons', 'aq0mp0'), ('chuchetes', 'ncmp000')]


Para el caso sin evaluar, el resultado de la palabra __chuchetes__ no varia en comparacion al modelo de castellano anterior, se mantiene.