In [5]:

# 1. Importamos el corpus CESS del español, que es una colección de textos anotados
from nltk.corpus import cess_esp


# 2. Cargamos todas las frases anotadas del corpus CESS
sents = cess_esp.tagged_sents()


# 3. Creamos un conjunto de entrenamiento y otro de prueba
#Metemos en el conjunto de entrenamiento el 90% de las frases, y el restante 10% en el conjunto de test
training = []
test = []
for i in range(len(sents)):
    if i % 10:
        training.append(sents[i])
    else:
        test.append(sents[i])
        
        
# 4. Creamos cuatro tipos distintos de analizadores morfológicos: 
# - Un tagger basado en unigramas: aprende de la estadística de cada palabra encontrada en el corpus CESS
# - Otro basadoen bigramas: aprende de la estadística de una palabra y su palabra anterior
# - Otro basado en trigramas: aprende a taggear una palabra basandose en la estadistica de la palabra y sus 2 anteriores
# - Otro basado en Modelos Ocultos de Markov (en inglés Hidden Markov Models, HMM): es el modelo mas completo
from nltk import UnigramTagger, BigramTagger, TrigramTagger
from nltk.tag.hmm import HiddenMarkovModelTagger

unigram_tagger = UnigramTagger(training)
bigram_tagger = BigramTagger(training, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training, backoff=unigram_tagger)
hmm_tagger = HiddenMarkovModelTagger.train(training)



# 5. Evaluamos sobre el conjunto de test que no usamos para el entrenamiento, para ver qué porcentaje de acierto hemos conseguido
print ('Acierto con unigramas:',unigram_tagger.evaluate(test)*100)
print ('Acierto con bigramas:',bigram_tagger.evaluate(test)*100)
print ('Acierto con trigramas:',trigram_tagger.evaluate(test)*100)
print ('Acierto con HMMs:',hmm_tagger.evaluate(test)*100)




Acierto con unigramas: 87.65970871234029
Acierto con bigramas: 89.42636311057363
Acierto con trigramas: 89.01624691098375
Acierto con HMMs: 89.88905831011094


In [6]:

# 6. Probamos uno de nuestro taggers

import nltk


sentence = "Los perros son buenos chuchetes"

tokens = nltk.word_tokenize(sentence)
tagged = trigram_tagger.tag(tokens)


print (tagged)


[('Los', 'da0mp0'), ('perros', 'ncmp000'), ('son', 'vsip3p0'), ('buenos', 'aq0mp0'), ('chuchetes', None)]


In [7]:
from nltk.corpus import cess_cat


sents = cess_cat.tagged_sents()

training = []
test = []
for i in range(len(sents)):
    if i % 10:
        training.append(sents[i])
    else:
        test.append(sents[i])
        
unigram_tagger = UnigramTagger(training)
bigram_tagger = BigramTagger(training, backoff=unigram_tagger)
trigram_tagger = TrigramTagger(training, backoff=unigram_tagger)
hmm_tagger = HiddenMarkovModelTagger.train(training)

print ('Acierto con unigramas:',unigram_tagger.evaluate(test)*100)
print ('Acierto con bigramas:',bigram_tagger.evaluate(test)*100)
print ('Acierto con trigramas:',trigram_tagger.evaluate(test)*100)
print ('Acierto con HMMs:',hmm_tagger.evaluate(test)*100)

Acierto con unigramas: 90.35533992024986
Acierto con bigramas: 91.88159264570115
Acierto con trigramas: 91.55944921330217
Acierto con HMMs: 92.15070026910762


In [74]:
sentence = "Els gossos són bons chuchetes"

tokens = nltk.word_tokenize(sentence)
tagged2=trigram_tagger.tag(tokens)

for tok,tag in tagged2:
    if tag == 'none':
        tagged2=bigram_tagger.tag(tokens)

for tok,tag in tagged2:
    if tag == 'none':
        tagged2=unigram_tagger.tag(tokens)
        
for tok,tag in tagged2:
    if tag == 'none':
        tagged2=hmm_tagger.tag(tokens)

print(tagged2)

[('Els', 'da0mp0'), ('gossos', 'ncmp000'), ('són', 'vsip3p0'), ('bons', 'aq0mp0'), ('chuchetes', None)]


In [47]:
for toc,tag in tagged:
    print (tag)

da0mp0
ncmp000
vsip3p0
aq0mp0
None


In [64]:
print(tagged.keys())


AttributeError: 'list' object has no attribute 'keys'