In [11]:
# Importamos las librerias con las que vamos a trabajar
import nltk
from nltk.chunk.util import conlltags2tree, tree2conlltags
#from nltk import ChunkParserI
import nltk.chunk, nltk.tag
from nltk.corpus import conll2000
from nltk import NaiveBayesClassifier
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('cess_esp')
nltk.download('conll2000')


class UnigramChunker(nltk.ChunkParserI):
  
    def __init__(self, train_sents):
       train_data = [[(t,c) for w,t,c in nltk.chunk.tree2conlltags(sent)] 
                     for sent in train_sents]

       self.tagger = nltk.UnigramTagger(train_data)

    def parse(self, sentence):
       pos_tags = [pos for (word,pos) in sentence]
       tagged_pos_tags = self.tagger.tag(pos_tags)
       chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
       conlltags = [(word, pos, chunktag) for ((word,pos),chunktag)
                    in zip(sentence, chunktags)] 
       return nltk.chunk.conlltags2tree(conlltags)    


class BigramChunker(nltk.ChunkParserI):
    def __init__(self, train_sents):
        train_data = [[(t,c) for w,t,c in nltk.chunk.tree2conlltags(sent)] for sent in train_sents]
        self.tagger = nltk.BigramTagger(train_data)

    def parse(self, sentence):
        pos_tags = [pos for (words, pos) in sentence]
        tagged_pos_tags = self.tagger.tag(pos_tags)
        chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
        conlltags = [(word, pos, chunktag) for ((word,pos),chunktag)
                    in zip(sentence, chunktags)] 
        return nltk.chunk.conlltags2tree(conlltags)    

class TrigramChunker(nltk.ChunkParserI):
    def __init__(self, train_sents):
        train_data = [[(t,c) for w,t,c in nltk.chunk.tree2conlltags(sent)]
        for sent in train_sents]
        self.tagger = nltk.TrigramTagger(train_data)

    def parse(self, sentence):
        pos_tags = [pos for (word,pos) in sentence]
        tagged_pos_tags = self.tagger.tag(pos_tags)
        chunktags = [chunktag for (pos, chunktag) in tagged_pos_tags]
        conlltags = [(word, pos, chunktag) for ((word,pos),chunktag)
        in zip(sentence, chunktags)]
        return nltk.chunk.conlltags2tree(conlltags) 


# Funcion de segmentacion de frases
def Segmentacion(menu):
    sentences = nltk.tokenize.sent_tokenize(menu)
    return (sentences)

# Función de tokenizacion    
def Tokenizacion(sentences):     
    tokens=nltk.word_tokenize(sentences,"spanish")
    return(tokens)

# Función de Analisis Morfologico POS Tagger
def Pos_Tag(tokens):
    tagged = nltk.pos_tag(tokens)
    return(tagged)

# Funcion RegexpParser
def RegPar(menu):  

    grammar = r'''
    Comida: {<CD>*<NN>+}  # numero (opcional) + uno o mas nombres  (1 bocadillo)
    {<JJ>*<NN>+}
    {<CD>*<NN><IN>*<NN>+}  # numero (opcional) + nombre + preposicion + nombre (1 bocadillo de calamares)
    Cantidad: {<JJ>}
    {<CD>}
    {<DT>}
    {<NN>}
    '''

    regex_parser = nltk.RegexpParser(grammar)
    parsed_sentence = regex_parser.parse(menu)

    return(parsed_sentence)

def GeneraArray(resultado):
    data = []
    for nodo in resultado:
        if type(nodo) == tuple:
          continue
        tipo = nodo.label()
        cant = 1
        for elemento in nodo:
          if type(elemento) != tuple:
            continue
          palabra, categoria = elemento

          if categoria == 'JJ' and (palabra == 'un' or palabra == 'una'):
              cant = 1

          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'dos'):
              cant = 2
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'tres'):
              cant = 3
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'cuatro'):
              cant = 4
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'cinco'):
              cant = 5 
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'seis'):
              cant = 6
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'siete'):
              cant = 7
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'ocho'):
              cant = 8
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'nueve'):
              cant = 9  
          if (categoria == 'NN' or categoria == 'NNS') and (palabra == 'diez'):
              cant = 10    

          if tipo == 'Comida' and (palabra != 'dos' and palabra != 'tres' and palabra != 'cuatro'
                                   and palabra != 'cinco' and palabra != 'seis' and palabra != 'siete' 
                                   and palabra != 'ocho' and palabra != 'nueve' and palabra != 'diez' 
                                   and palabra != 'y' and palabra != ','  and palabra != '.'):
            data.append(dict(comida=palabra, cantidad=cant))    
    return(data)        

def carga_corpus():
    corpus = "Quisiera pedir una carne, Quiero una tortilla y dos cervezas, Me pones un pollo entero y una ensalada, Quiero una paella, Quiero un bocadillo,Quiero una pizza,Ponme una sopa,Quiero un filete,Quisiera pedir una ensalada,Quiero cinco bocadillos,Quisiera una empanada,Quiero unas croquetas,Quisiera morcilla,Quiero pedir un solomillo,Quiero unos macarrones,Quiero una Lasagna,Quiero una hamburguesa, una de patatas fritas y una cerveza,Quiero un lenguado,Quiero un bonito,Quisiera una sepia,Quiero cinco cervezas,Quiero tres sidras y tres pinchos,Quiero cinco manzanas y tres melocotones,Quisiera cuatro solomillos,Quiero una naranja y dos peras"

    return (corpus)


# Función principal    
def main():
    # cargo el corpus con pedidos de comida
    corpora = carga_corpus() 

    Segm = Segmentacion(corpora)
    print ("\n\n1. Frases:",Segm)

    tok = Tokenizacion(corpora)
    print ("\n\n2. Tokens:",tok)

    ptag = Pos_Tag(tok)
    print ("\n\n3. Analisis Morfologico:",ptag)

    # Construimos Regex Parser
    RegexParser = RegPar(ptag)
    print("\n\n4 Parsed Sentence = ", RegexParser)  

    GeneraSalida = GeneraArray(RegexParser)
    print("\n\n5 Salida = ",GeneraSalida)

    iob_tags = tree2conlltags(RegexParser)
    print ("\n\n6 IOB Tags = ",iob_tags)

    tree = conlltags2tree(iob_tags)
    print  ("\n\n7 Tree = ",tree)


    test_sents = conll2000.chunked_sents('test.txt', chunk_types=['NP'])
    train_sents = conll2000.chunked_sents('train.txt', chunk_types=['NP'])


    
    Uchunker = UnigramChunker(train_sents)
    print("\n\n8 Acierto con unigramas: ", Uchunker.evaluate(test_sents))
    print("\n\n9 SENTENCE: ", Uchunker.parse(ptag))  

    Bchunker = BigramChunker(train_sents)
    print("\n\n10 Acierto con Bigramas: ", Bchunker.evaluate(test_sents))
    print("\n\n11 SENTENCE: ", Bchunker.parse(ptag))  

    Tchunker = TrigramChunker(train_sents)
    print("\n\n12 Acierto con Trigramas: ", Tchunker.evaluate(test_sents))
    print("\n\n13 SENTENCE: ", Tchunker.parse(ptag)) 

           
    classifier = nltk.NaiveBayesClassifier.train(GeneraSalida)
    classifier.show_most_informative_features()

main()    

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!
[nltk_data] Downloading package conll2000 to /root/nltk_data...
[nltk_data]   Package conll2000 is already up-to-date!


1. Frases: ['Quisiera pedir una carne, Quiero una tortilla y dos cervezas, Me pones un pollo entero y una ensalada, Quiero una paella, Quiero un bocadillo,Quiero una pizza,Ponme una sopa,Quiero un filete,Quisiera pedir una ensalada,Quiero cinco bocadillos,Quisiera una empanada,Quiero unas croquetas,Quisiera morcilla,Quiero pedir un solomillo,Quiero unos macarrones,Quiero una Lasagna,Quiero una hamburguesa, una de patatas fritas y una cerveza,Quiero un lenguad

AttributeError: ignored