### Ejercicio reserva billetes Pedro Llull

In [1]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag.hmm import HiddenMarkovModelTagger

# Regex Parser
from nltk.chunk.regexp import *

# Corpus CESS en español
from nltk.corpus import cess_esp

In [2]:
corpus = [
    [('Quiero', 'vmip1s0'), ('2', 'z'), ('billetes', 'ncfp000'), ('de', 'sps00'), ('Madrid', 'np000g0'), ('a', 'sps00'), ('Frankfurt', 'np000g0'), ('en', 'sps00'), ('Septiembre', 'w')], 
    [('Necesito', 'vmip1s0'), ('comprar', 'vmip1s0'), ('un', 'di0ms0'), ('billete', 'ncms000'), ('a', 'sps00'), ('Madrid', 'np000g0'), ('el', 'da0ms0'), ('5', 'w'), ('de', 'sps00'), ('Agosto', 'w')], 
    [('Comprar', 'vmn0000'), ('billete', 'ncms000'), ('Barcelona', 'ncms000'), ('a', 'sps00'), ('Roma', 'np000g0'), ('para', 'di0ms0'), ('el', 'da0ms0'), ('25', 'w'), ('de', 'sps00'), ('Agosto', 'w'), ('con', 'sps00'), ('Iberia', 'npcso00')], 
    [('Billete', 'ncms000'), ('barato', 'aq0ms0'), ('AirEuropa', 'npcso00'), ('de', 'sps00'), ('Madrid', 'np000g0'), ('a', 'sps00'), ('Sevilla', 'np000g0')],
    [('Quiero', 'vmip1s0'), ('ir', 'vmip1s0'), ('a', 'sps00'), ('Roma', 'np000g0'), ('con', 'sps00'), ('Lufthansa', 'npcso00')]
]

In [3]:
hmm = HiddenMarkovModelTagger.train(corpus)

In [4]:
hmm = hmm.train(cess_esp.tagged_sents())

In [5]:
def taggear(_frase, _tagger):
    
    tokens = word_tokenize(_frase)

    if _tagger == 'hmm':
        return hmm.tag(tokens)

In [6]:
reglas = '''
cantidad: {<z0>|<dn0cp0>}
fecha: {<sp.*><W>|<ncms000><sp.*><W>} 
aerolinea: <sp.*>{<np.*>}<sp.*>
destino: <np.*><sp.*>{<np.*>}
origen: <sp.*>{<np.*>}
'''
parser = nltk.RegexpParser(reglas)

In [7]:
frase_tag = parser.parse(taggear('Comprar tres billetes para el 15 de octubre con Iberia de Madrid a Bilbao', 'hmm'))
print(frase_tag)

(S
  Comprar/da0mp0
  (cantidad tres/dn0cp0)
  billetes/ncmp000
  para/sps00
  el/da0ms0
  (fecha 15/ncms000 de/sps00 octubre/W)
  con/sps00
  (aerolinea Iberia/np0000o)
  de/sps00
  (origen Madrid/np0000l)
  a/sps00
  (destino Bilbao/np0000l))


In [8]:
def extrae_info(_frase):
    
    tags = taggear(_frase, 'hmm')
    parseo = parser.parse(tags)
    temp_result = {}

    for nodo in parseo:
        if type(nodo) != tuple:
            label = nodo.label()
            info = ''
            for elm in nodo:
                palabra, tag = elm
                info += palabra + ' '
            temp_result[label] = info.strip()
    
    # Ordenar las claves, así coincide con la salida del ejercicio
    orden = ['origen', 'destino', 'fecha', 'cantidad', 'aerolinea']
    result = {k: temp_result[k] for k in orden if k in temp_result}

    return result


In [9]:
extrae_info("Comprar tres billetes para el 15 de octubre con Iberia de Madrid a Bilbao")

{'origen': 'Madrid',
 'destino': 'Bilbao',
 'fecha': '15 de octubre',
 'cantidad': 'tres',
 'aerolinea': 'Iberia'}

#### Segunda parte

In [10]:
reglas2 = '''
cantidad: {<z>}
fecha: {<w>|<z>|<di0ms0>}
destino: <np.*><sp.*>{<np.*>}<sp.*>
origen: {<np.*>}<sp.*>
aerolinea: <sp.*>{<np.*>}
'''

parser2 = nltk.RegexpParser(reglas2)

In [11]:
frase_tag2 = parser2.parse(taggear('Billete de Berlín a Madrid con Lufthansa', 'hmm'))
print(frase_tag2)

(S
  Billete/rg
  de/sps00
  (origen Berlín/np0000l)
  a/sps00
  (destino Madrid/np0000l)
  con/sps00
  (aerolinea Lufthansa/np0000o))


In [12]:
def extrae_info2(_frase):
    
    tags = taggear(_frase, 'hmm')
    parseo = parser2.parse(tags)
    temp_result = {}

    for nodo in parseo:
        if type(nodo) != tuple:
            label = nodo.label()
            info = ''
            for elm in nodo:
                palabra, tag = elm
                info += palabra + ' '
            temp_result[label] = info.strip()

    # Asignar None si falta alguna información o 1 predeterminado a cantidad (seguro se puede apurar más)
    # No me escondo, ChatGPT me ayudó con esta parte para asignar valores
    result = {
        'origen': temp_result.get('origen', None),
        'destino': temp_result.get('destino', None),
        'fecha': temp_result.get('fecha', None),
        'cantidad': temp_result.get('cantidad', 1),
        'aerolinea': temp_result.get('aerolinea', None),
    }

    return result

In [13]:
extrae_info2("Billete de Berlín a Madrid con Lufthansa")

{'origen': 'Berlín',
 'destino': 'Madrid',
 'fecha': None,
 'cantidad': 1,
 'aerolinea': 'Lufthansa'}