In [1]:

# 1. Importamos el corpus CESS del español, que es una colección de textos anotados
from nltk.corpus import cess_esp


# 2. Cargamos todas las frases anotadas del corpus CESS
sents = cess_esp.tagged_sents()


# 3. Creamos un conjunto de entrenamiento y otro de prueba
#Metemos en el conjunto de entrenamiento el 90% de las frases, y el restante 10% en el conjunto de test
training = []
test = []
for i in range(len(sents)):
    if i % 10:
        training.append(sents[i])
    else:
        test.append(sents[i])
        
        
# 4. Creamos cuatro tipos distintos de analizadores morfológicos: 
# - Un tagger basado en unigramas: aprende de la estadística de cada palabra encontrada en el corpus CESS
# - Otro basadoen bigramas: aprende de la estadística de una palabra y su palabra anterior
# - Otro basado en trigramas: aprende a taggear una palabra basandose en la estadistica de la palabra y sus 2 anteriores
# - Otro basado en Modelos Ocultos de Markov (en inglés Hidden Markov Models, HMM): es el modelo mas completo
from nltk import UnigramTagger, BigramTagger, TrigramTagger
from nltk.tag.hmm import HiddenMarkovModelTagger

unigram_tagger = UnigramTagger(training)
bigram_tagger = BigramTagger(training, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training, backoff=unigram_tagger)
hmm_tagger = HiddenMarkovModelTagger.train(training)



# 5. Evaluamos sobre el conjunto de test que no usamos para el entrenamiento, para ver qué porcentaje de acierto hemos conseguido
print ('Acierto con unigramas:',unigram_tagger.evaluate(test)*100)
print ('Acierto con bigramas:',bigram_tagger.evaluate(test)*100)
print ('Acierto con trigramas:',trigram_tagger.evaluate(test)*100)
print ('Acierto con HMMs:',hmm_tagger.evaluate(test)*100)




Acierto con unigramas: 87.65970871234029
Acierto con bigramas: 89.42636311057363
Acierto con trigramas: 89.01624691098375
Acierto con HMMs: 89.88905831011094


In [2]:

# 6. Probamos uno de nuestro taggers

import nltk


sentence = "Los perros son buenos chuchetes"

tokens = nltk.word_tokenize(sentence)
tagged = trigram_tagger.tag(tokens)


print (tagged)






[('Los', 'da0mp0'), ('perros', 'ncmp000'), ('son', 'vsip3p0'), ('buenos', 'aq0mp0'), ('chuchetes', None)]


## Ejercicio

1.- Descargamos el tagger para el corpus en catalán ("cess_cat")

In [3]:
from nltk.corpus import cess_cat
sents = cess_cat.tagged_sents()

In [6]:
#Metemos en el conjunto de entrenamiento el 90% de las frases, y el restante 10% en el conjunto de test
training_cat = []
test_cat = []
for i in range(len(sents)):
    if i % 10:
        training_cat.append(sents[i])
    else:
        test_cat.append(sents[i])

2.- Analizar frase en Catalán ("el president de la Generalitat ha tingut 4 chuchetes"). En un primer momento, vamos a hacerlo individualizado:

2.1.- Utilizando el tagger unigrama:

In [8]:
sentence_cat = "el president de la Generalitat ha tingut 4 chuchetes"
tokens_cat = nltk.word_tokenize(sentence_cat)
tagged_cat = unigram_tagger.tag(tokens_cat)
print ("TAGGER UNIGRAMA CAT:",tagged_cat)

TAGGER UNIGRAMA CAT: [('el', 'da0ms0'), ('president', None), ('de', 'sps00'), ('la', 'da0fs0'), ('Generalitat', 'np0000o'), ('ha', 'vaip3s0'), ('tingut', None), ('4', 'Z'), ('chuchetes', None)]


2.2.- Utilizando el tagger bigrama:

In [9]:
sentence_cat = "el president de la Generalitat ha tingut 4 chuchetes"
tokens_cat = nltk.word_tokenize(sentence_cat)
tagged_cat = bigram_tagger.tag(tokens_cat)
print ("TAGGER BIGRAMA CAT:",tagged_cat)

TAGGER BIGRAMA CAT: [('el', 'da0ms0'), ('president', None), ('de', 'sps00'), ('la', 'da0fs0'), ('Generalitat', 'np0000o'), ('ha', 'vaip3s0'), ('tingut', None), ('4', 'Z'), ('chuchetes', None)]


2.3.- Utilizando el tagger trigrama:

In [10]:
sentence_cat = "el president de la Generalitat ha tingut 4 chuchetes"
tokens_cat = nltk.word_tokenize(sentence_cat)
tagged_cat = trigram_tagger.tag(tokens_cat)
print ("TAGGER TRIGRAMA CAT:",tagged_cat)

TAGGER TRIGRAMA CAT: [('el', 'da0ms0'), ('president', None), ('de', 'sps00'), ('la', 'da0fs0'), ('Generalitat', 'np0000o'), ('ha', 'vaip3s0'), ('tingut', None), ('4', 'Z'), ('chuchetes', None)]


Imprimos el % de acierto para cada una de las opciones de análisis:

In [11]:
print ('Acierto con unigrama CATALAN:', unigram_tagger.evaluate(test_cat)*100)
print ('Acierto con bigrama CATALAN:', bigram_tagger.evaluate(test_cat)*100)
print ('Acierto con trigrama CATALAN:', trigram_tagger.evaluate(test_cat)*100)

Acierto con unigrama CATALAN: 41.38560961716003
Acierto con bigrama CATALAN: 41.53489559802785
Acierto con trigrama CATALAN: 41.460252607593944


4.- Ahora realizamos el ejercicio siguiendo las pautas marcadas en el texto del mismo y que trasncribimos a continuación: "El tagger entrenado (trigramTagger) en caso de fallar deberá devolver el resultado de un tagger de bigramas, que a su vez en caso de fallar devolverá uno de unigramas, que a su vez en caso de fallar deberá devolver el resultado de otro tagger. ¿Qué otro tagger? El que el alumno decida que es el más adecuado, tras leer el capitulo 5 del NLTK book"

Utilizamos los datos de entrenamiento (90% del corpus seleccionado)

In [12]:
# - Para ello utilizaremos:
# - Un tagger basado en unigramas: aprende de la estadística de cada palabra encontrada en el corpus CESS
# - Otro basado en bigramas: aprende de la estadística de una palabra y su palabra anterior
# - Otro basado en trigramas: aprende a taggear una palabra basandose en la estadistica de la palabra y sus 2 anteriores
# - Otro basado en el modelo 'Default' que es el seleccionado entre los existentes en la lectura propuesta del capítulo 5 del NLTK book, este tagger puede utilizar patrones o una cadena para el elemento no encontrado (el que utilizaremos: 'NLTK_FASHION')
from nltk import UnigramTagger, BigramTagger, TrigramTagger, DefaultTagger

#Trabajamos con los datos de entrenamiento 'training_cat' que suponen el 90% del corpus
default_tagger = DefaultTagger ('NLTK_FASHION')
unigram_tagger = UnigramTagger(training_cat, backoff=default_tagger)
bigram_tagger = BigramTagger(training_cat, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training_cat, backoff=bigram_tagger)
#Evaluamos sobre el conjunto 'test_cat' que no utilizamos para el entrenamiento:
print ('Acierto con método propuesto:',trigram_tagger.evaluate (test_cat)*100)
#Mostramos los resultados de sus tags para cada token de la frase analizada (sentence_cat):
sentence_cat = "el president de la Generalitat ha tingut 4 chuchetes"
tokens_cat = nltk.word_tokenize(sentence_cat)
tagged_cat = trigram_tagger.tag(tokens_cat)
print ("TAGGER TRIGRAMA CAT:",tagged_cat)

Acierto con método propuesto: 91.83444970437448
TAGGER TRIGRAMA CAT: [('el', 'da0ms0'), ('president', 'ncms000'), ('de', 'sps00'), ('la', 'da0fs0'), ('Generalitat', 'np0000o'), ('ha', 'vaip3s0'), ('tingut', 'vmp00sm'), ('4', 'Z'), ('chuchetes', 'NLTK_FASHION')]


Ahora, simplemente a modo informativo, utilizamos los datos de test 'test_cat' (10% de corpus seleccionado)

In [13]:
from nltk import UnigramTagger, BigramTagger, TrigramTagger, DefaultTagger

default_tagger = DefaultTagger ('NLTK_FASHION')
unigram_tagger = UnigramTagger(test_cat, backoff=default_tagger)
bigram_tagger = BigramTagger(test_cat, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(test_cat, backoff=bigram_tagger)
#Evaluamos sobre el propio conjunto 'test_cat':
print ('Acierto con método propuesto:',trigram_tagger.evaluate (test_cat)*100)
#Mostramos los resultados de sus tags para cada token de la frase analizada (sentence_cat):
sentence_cat = "el president de la Generalitat ha tingut 4 chuchetes"
tokens_cat = nltk.word_tokenize(sentence_cat)
tagged_cat = trigram_tagger.tag(tokens_cat)
print ("TAGGER TRIGRAMA CAT:",tagged_cat)

Acierto con método propuesto: 99.00017678602997
TAGGER TRIGRAMA CAT: [('el', 'da0ms0'), ('president', 'ncms000'), ('de', 'sps00'), ('la', 'da0fs0'), ('Generalitat', 'np00000'), ('ha', 'vaip3s0'), ('tingut', 'vmp00sm'), ('4', 'Z'), ('chuchetes', 'NLTK_FASHION')]


4.- Conclusión:
- Resultado del tag 'chuchetes' obtenido en Castellano: 'ncmp000'
- Resultado del tag 'chuchetes' obtenido en Catalán: 'NLTK_FASHION' (el sugerido como patrón para el método Default).
Mediante el método en cadena propuesto en el ejercicio, se ha conseguido identificar correctamente cada token de la frase (cuestión que antes, cuando se analizaban los tagger por separado no obteníamos resultados por encima de un 41,53%)... pero 'chuchetes' sigue sin ser identificado...