In [33]:

# 1. Importamos el corpus CESS del español, que es una colección de textos anotados
from nltk.corpus import cess_cat


# 2. Cargamos todas las frases anotadas del corpus CESS
sents = cess_cat.tagged_sents()


# 3. Creamos un conjunto de entrenamiento y otro de prueba
#Metemos en el conjunto de entrenamiento el 90% de las frases, y el restante 10% en el conjunto de test
training = []
test = []
for i in range(len(sents)):
    if i % 10:
        training.append(sents[i])
    else:
        test.append(sents[i])
        
        
# 4. Creamos cuatro tipos distintos de analizadores morfológicos: 
# - Un tagger basado en unigramas: aprende de la estadística de cada palabra encontrada en el corpus CESS
# - Otro basadoen bigramas: aprende de la estadística de una palabra y su palabra anterior
# - Otro basado en trigramas: aprende a taggear una palabra basandose en la estadistica de la palabra y sus 2 anteriores
# - Otro basado en Modelos Ocultos de Markov (en inglés Hidden Markov Models, HMM): es el modelo mas completo
from nltk import UnigramTagger, BigramTagger, TrigramTagger, DefaultTagger
from nltk.tag.hmm import HiddenMarkovModelTagger

default_tagger = DefaultTagger('KK')
unigram_tagger = UnigramTagger(training)
bigram_tagger = BigramTagger(training, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training, backoff=unigram_tagger)
hmm_tagger = HiddenMarkovModelTagger.train(training)

# 5. Evaluamos sobre el conjunto de test que no usamos para el entrenamiento, para ver qué porcentaje de acierto hemos conseguido
print ('Acierto con dafault:',default_tagger.evaluate(test)*100)
print ('Acierto con unigramas:',unigram_tagger.evaluate(test)*100)
print ('Acierto con bigramas:',bigram_tagger.evaluate(test)*100)
print ('Acierto con trigramas:',trigram_tagger.evaluate(test)*100)
print ('Acierto con HMMs:',hmm_tagger.evaluate(test)*100)
print('Fin')

Acierto con dafault: 0.0
Acierto con unigramas: 90.35533992024986
Acierto con bigramas: 91.88159264570115
Acierto con trigramas: 91.55944921330217
Acierto con HMMs: 92.15070026910762
Fin


In [35]:
# 6. Probamos uno de nuestro taggers

import nltk

sentence = "Los perros son buenos chuchetes"

tokens = nltk.word_tokenize(sentence)
tagged = trigram_tagger.tag(tokens)

print (tagged)
print(hmm_tagger.tag(tokens))
print(bigram_tagger.tag(tokens))

[('Los', None), ('perros', None), ('son', None), ('buenos', None), ('chuchetes', None)]
[('Los', 'da0fp0'), ('perros', 'ncfp000'), ('son', 'aq0fp0'), ('buenos', 'Fp'), ('chuchetes', 'Fpt')]
[('Los', None), ('perros', None), ('son', None), ('buenos', None), ('chuchetes', None)]


In [39]:
training_sent = 'el chuchete de sant roque'
print('Comenzamos taggeo')

tokens_cat = nltk.word_tokenize(training_sent)
tagged_cat = trigram_tagger.tag(tokens_cat)
print (tagged_cat)
print(hmm_tagger.tag(tagged_cat))
print(bigram_tagger.tag(tagged_cat))

default_tagger = nltk.DefaultTagger('NN')
unigram_tagger = nltk.UnigramTagger(training, backoff=default_tagger)
bigram_tagger = nltk.BigramTagger(training, backoff=unigram_tagger)
print(bigram_tagger.evaluate(training))

Comenzamos taggeo
[('el', 'da0ms0'), ('chuchete', None), ('de', 'sps00'), ('sant', 'ncms000'), ('roque', None)]
[(('el', 'da0ms0'), 'da0fp0'), (('chuchete', None), 'ncfp000'), (('de', 'sps00'), 'aq0fp0'), (('sant', 'ncms000'), 'Fp'), (('roque', None), 'Fpt')]
[(('el', 'da0ms0'), 'NN'), (('chuchete', None), 'NN'), (('de', 'sps00'), 'NN'), (('sant', 'ncms000'), 'NN'), (('roque', None), 'NN')]
0.974495743403158
