In [1]:

# 1. Importamos el corpus CESS del español, que es una colección de textos anotados
from nltk.corpus import cess_esp


# 2. Cargamos todas las frases anotadas del corpus CESS
sents = cess_esp.tagged_sents()


# 3. Creamos un conjunto de entrenamiento y otro de prueba
#Metemos en el conjunto de entrenamiento el 90% de las frases, y el restante 10% en el conjunto de test
training = []
test = []
for i in range(len(sents)):
    if i % 10:
        training.append(sents[i])
    else:
        test.append(sents[i])
        
        
# 4. Creamos cuatro tipos distintos de analizadores morfológicos: 
# - Un tagger basado en unigramas: aprende de la estadística de cada palabra encontrada en el corpus CESS
# - Otro basadoen bigramas: aprende de la estadística de una palabra y su palabra anterior
# - Otro basado en trigramas: aprende a taggear una palabra basandose en la estadistica de la palabra y sus 2 anteriores
# - Otro basado en Modelos Ocultos de Markov (en inglés Hidden Markov Models, HMM): es el modelo mas completo
from nltk import UnigramTagger, BigramTagger, TrigramTagger
from nltk.tag.hmm import HiddenMarkovModelTagger

unigram_tagger = UnigramTagger(training)
bigram_tagger = BigramTagger(training, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training, backoff=unigram_tagger)
hmm_tagger = HiddenMarkovModelTagger.train(training)



# 5. Evaluamos sobre el conjunto de test que no usamos para el entrenamiento, para ver qué porcentaje de acierto hemos conseguido
print 'Acierto con unigramas:',unigram_tagger.evaluate(test)*100
print 'Acierto con bigramas:',bigram_tagger.evaluate(test)*100
print 'Acierto con trigramas:',trigram_tagger.evaluate(test)*100
print 'Acierto con HMMs:',hmm_tagger.evaluate(test)*100




Acierto con unigramas: 87.6176455124
Acierto con bigramas: 89.3948157106
Acierto con trigramas: 88.953152111
Acierto con HMMs: 89.8890583101


In [2]:

# 6. Probamos uno de nuestro taggers

import nltk


sentence = "Los perros son buenos chuchetes"

tokens = nltk.word_tokenize(sentence)
tagged = trigram_tagger.tag(tokens)


print tagged






[('Los', u'da0mp0'), ('perros', u'ncmp000'), ('son', u'vsip3p0'), ('buenos', u'aq0mp0'), ('chuchetes', None)]


In [3]:
# 1. Importamos el corpus CESS del español, que es una colección de textos anotados
from nltk.corpus import cess_cat


# 2. Cargamos todas las frases anotadas del corpus CESS
sents = cess_cat.tagged_sents()


# 3. Creamos un conjunto de entrenamiento y otro de prueba
#Metemos en el conjunto de entrenamiento el 90% de las frases, y el restante 10% en el conjunto de test
training = []
test = []
for i in range(len(sents)):
    if i % 10:
        training.append(sents[i])
    else:
        test.append(sents[i])
        
        
# 4. Creamos cuatro tipos distintos de analizadores morfológicos: 
# - Un tagger basado en unigramas: aprende de la estadística de cada palabra encontrada en el corpus CESS
# - Otro basadoen bigramas: aprende de la estadística de una palabra y su palabra anterior
# - Otro basado en trigramas: aprende a taggear una palabra basandose en la estadistica de la palabra y sus 2 anteriores
# - Otro basado en Modelos Ocultos de Markov (en inglés Hidden Markov Models, HMM): es el modelo mas completo
from nltk import UnigramTagger, BigramTagger, TrigramTagger
from nltk.tag.hmm import HiddenMarkovModelTagger

unigram_tagger = UnigramTagger(training)
bigram_tagger = BigramTagger(training, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training, backoff=unigram_tagger)
hmm_tagger = HiddenMarkovModelTagger.train(training)



# 5. Evaluamos sobre el conjunto de test que no usamos para el entrenamiento, para ver qué porcentaje de acierto hemos conseguido
print 'Acierto con unigramas:',unigram_tagger.evaluate(test)*100
print 'Acierto con bigramas:',bigram_tagger.evaluate(test)*100
print 'Acierto con trigramas:',trigram_tagger.evaluate(test)*100
print 'Acierto con HMMs:',hmm_tagger.evaluate(test)*100


Acierto con unigramas: 90.3690899448
Acierto con bigramas: 91.8658783319
Acierto con trigramas: 91.5456991887
Acierto con HMMs: 92.1507002691


In [4]:


# 6. Probamos uno de nuestro taggers

import nltk


sentence = "Els gossos són bons chuchetes"

tokens = nltk.word_tokenize(sentence)
tagged = trigram_tagger.tag(tokens)


print tagged


[('Els', u'da0mp0'), ('gossos', u'ncmp000'), ('s\xc3\xb3n', None), ('bons', u'aq0mp0'), ('chuchetes', None)]
