# **Librerias - Dependencias**

In [None]:
!pip install num2words
!pip install word2number
!pip install spacy
!python -m spacy download es_core_news_sm
!pip install geonamescache
!pip install pyttsx3
!pip install gtts
!pip install sounddevice numpy scipy

In [None]:
import re
import time
import nltk
import json
import pyttsx3
import gtts
from gtts import gTTS
from IPython.display import Audio
import sys
import os
import spacy
import requests
import unicodedata
import geonamescache
from word2number import w2n
from num2words import num2words
from sklearn.feature_extraction.text import CountVectorizer

# **CORPUS**

In [None]:
def cargar_corpus():
    """Carga el corpus de entrenamiento y separa ciudades/paises de aerolíneas."""
    with open(archivo_corpus, "r", encoding="utf-8") as f:
        corpus = json.load(f)

    ciudades_paises = set()
    aerolineas = set()

    for oracion in corpus:
        for palabra, etiqueta in oracion:
            if etiqueta == "np000g0":  # Nombre propio (Ciudad/País)
                ciudades_paises.add(palabra)
            elif etiqueta == "npcso00":  # Entidad (Aerolínea)
                aerolineas.add(palabra)

    return ciudades_paises, aerolineas

In [None]:
def cargar_frases(archivo_frases):
    with open(archivo_frases, "r", encoding="utf-8") as f:
    return json.load(f)

# **CODIGO IATA**

In [None]:
def obtener_codigo_iata(ciudad):
    """Consulta la API para obtener el código IATA de una ciudad."""
    url = "https://www.air-port-codes.com/api/v1/multi"
    headers = {
        "APC-Auth": "APY_KEY",
        "APC-Auth-Secret": "APY_SECRET"
    }
    params = {"term": ciudad, "limit": 1}

    try:
        respuesta = requests.get(url, headers=headers, params=params)
        datos = respuesta.json()

        if respuesta.status_code == 200 and datos.get("airports"):
            return datos["airports"][0]["iata"]  # Retornar código IATA
        else:
            print(f"⚠ No se encontró IATA para {ciudad}")
            return None

    except Exception as e:
        print(f"Error al consultar la API para {ciudad}: {str(e)}")
        return None

# **FECHA**

In [None]:
# Lista de meses en español
MESES = {
    "enero", "febrero", "marzo", "abril", "mayo", "junio",
    "julio", "agosto", "septiembre", "octubre", "noviembre", "diciembre"
}

def extraer_fechas(texto):
    """Extrae fechas en formatos como '25 de Agosto' o solo meses."""
    fechas = []

    # 1. Buscar fechas completas con día y mes (ej. '25 de Agosto')
    patron_fecha = r"(\d{1,2}) de (" + "|".join(MESES) + r")"
    for match in re.findall(patron_fecha, texto, re.IGNORECASE):
        dia, mes = match
        fechas.append(f"{dia} de {mes.capitalize()}")  # Guardamos con formato correcto

    # 2. Buscar solo meses (ej. 'en Septiembre')
    for palabra in texto.split():
        if palabra.lower() in MESES and palabra.lower() not in [f.split()[-1].lower() for f in fechas]:
            fechas.append(palabra.capitalize())  # Guardamos el mes si no estaba ya registrado

    return fechas

# **CANTIDAD BILLETES**

In [None]:
def cargar_palabras_a_numeros(archivo_numeros):
    palabras_a_numeros = {}

    with open(archivo_numeros, "r", encoding="utf-8") as f:
        for linea in f:
            linea = linea.strip()
            if not linea:  # Ignorar líneas vacías
                continue
            # Ajuste para manejar frases de varias palabras entre comillas
            match = re.match(r'"([a-záéíóú\s]+)"\s(\d+)', linea)
            if match:
                palabra = match.group(1).lower().strip()  # Captura la frase numérica
                numero = int(match.group(2))  # Captura el número
                palabras_a_numeros[palabra] = numero
            else:
                print(f"Advertencia: línea malformada o vacía ignorada: {linea}")

    return palabras_a_numeros

In [None]:
def extraer_cantidad_billetes(texto, palabras_a_numeros):
    """Busca la cantidad de billetes en números o palabras dentro del texto."""

    # 1: Buscar si hay un número explícito en la frase (ej. "42 billetes")
    matches = re.findall(r"(\d{1,3})\s*(billetes?|boletos?|pasajes?)", texto, re.IGNORECASE)

    for match in matches:
        numero, _ = match
        if numero:
            return int(numero)  # Si encontramos un número explícito, lo retornamos inmediatamente

    # 2: Si no hay número, buscar nombres de números en el texto
    for palabra_numero in sorted(palabras_a_numeros.keys(), key=len, reverse=True):
        if palabra_numero in texto.lower():
            return palabras_a_numeros[palabra_numero]  # Devolver el número correspondiente

    # 3: Si no encontramos nada, asumimos 1 billete por defecto
    return 1

# **Origen, Destino**

In [None]:
palabras_origen = ['de', 'desde', 'salida', 'billete', 'origen']
palabras_destino = ['a', 'para', 'llegada', 'destino', 'hasta']

def detectar_origen_destino(texto, lista_ciudades):
    """
    Detecta el origen y destino en una búsqueda de vuelos.

    Parámetros:
    - texto (str): Frase ingresada por el usuario.
    - lista_ciudades (list): Lista de nombres de ciudades.

    Retorna:
    - origen (str): Ciudad de origen detectada (o None si no se encuentra).
    - destino (str): Ciudad de destino detectada (o None si no se encuentra).
    """
    texto = texto.lower()
    patron_ciudad = r'\b(?:' + '|'.join(re.escape(ciudad.lower()) for ciudad in lista_ciudades) + r')\b'
    ciudades_encontradas = re.findall(patron_ciudad, texto)

    if not ciudades_encontradas:
        return None, None

    origen, destino = None, None

    for ciudad in ciudades_encontradas:
        ciudad_regex = re.escape(ciudad)

        # Buscar si hay palabra clave antes de la ciudad
        if re.search(r'\b(' + '|'.join(palabras_origen) + r')\s+' + ciudad_regex, texto):
            origen = ciudad
        elif re.search(r'\b(' + '|'.join(palabras_destino) + r')\s+' + ciudad_regex, texto):
            destino = ciudad

    # Si solo hay una ciudad, asumir que es destino
    if len(ciudades_encontradas) == 1:
        destino = ciudades_encontradas[0]

    # Si hay dos ciudades y no se detectaron palabras clave, asumir la primera como origen
    elif len(ciudades_encontradas) == 2:
        if not origen and not destino:
            origen, destino = ciudades_encontradas[0], ciudades_encontradas[1]

    return origen, destino

# **AEROLINEA**

In [None]:
def identificar_aerolinea(texto, aerolineas):
    # Usamos spaCy para extraer entidades nombradas
    doc = nlp(texto)

    # Buscar aerolíneas mencionadas usando las entidades de spaCy (nombres propios etiquetados)
    aerolineas_spacy = {ent.text for ent in doc.ents if ent.text in aerolineas}

    # También buscar aerolíneas usando expresiones regulares
    regex_pattern = r'\b(?:' + '|'.join(map(re.escape, aerolineas)) + r')\b'
    aerolineas_regex = set(re.findall(regex_pattern, texto, re.IGNORECASE))

    # Unir los resultados de spaCy y regex
    aerolineas_encontradas = list(aerolineas_spacy.union(aerolineas_regex))

    return aerolineas_encontradas

# **VOZ**

In [None]:
import os
import json
import gtts
from IPython.display import Audio

def speak(texto):
    """Convierte texto en voz y lo reproduce en Google Colab."""
    tts = gtts.gTTS(texto, lang="es")
    tts.save("mensaje.mp3")  # Guarda el audio temporalmente
    return Audio("mensaje.mp3", autoplay=True)  # Reproduce el audio

# **EJECUCION**

In [None]:
def procesar_texto(texto, ciudades_paises, aerolineas, palabras_a_numeros):
    """Extrae ciudades/paises, obtiene sus códigos IATA, también detecta fechas y cantidad de billetes."""
    doc = nlp(texto)

    # 1️. Buscar ciudades con spaCy
    lugares_spacy = {ent.text for ent in doc.ents if ent.text in ciudades_paises}

    # 2️. Buscar ciudades con regex usando la lista de ciudades/paises
    regex_pattern = r'\b(?:' + '|'.join(map(re.escape, ciudades_paises)) + r')\b'
    lugares_regex = set(re.findall(regex_pattern, texto, re.IGNORECASE))

    # 3️. Unir las ciudades detectadas de spaCy y regex
    lugares = list(lugares_spacy.union(lugares_regex))

    # Imprimir depuración de ciudades detectadas
    print(f"Ciudades detectadas: {lugares}")
    print("-" * 50)

    # 4️. Detectar origen y destino
    origen, destino = detectar_origen_destino(texto, lugares)

    # Obtener códigos IATA para las ciudades detectadas
    codigos_iata = {}
    for ciudad in lugares:
        iata = obtener_codigo_iata(ciudad)
        if iata:
            codigos_iata[ciudad] = iata

     # 5️. Identificar las aerolíneas
    aerolineas_encontradas = identificar_aerolinea(texto, aerolineas)

    # Asumimos que hay solo una aerolínea encontrada
    aerolinea = aerolineas_encontradas[0] if aerolineas_encontradas else None

    # Definir la cantidad de billetes
    cantidad = extraer_cantidad_billetes(texto, palabras_a_numeros) if extraer_cantidad_billetes(texto, palabras_a_numeros) else None

    # Construir el resultado en el formato solicitado
    resultado = {
        "origen": origen ,
        "destino": destino,
        "fecha": extraer_fechas(texto)[0] if extraer_fechas(texto) else None,
        "cantidad": str(cantidad) if cantidad else None,
        "aerolínea": aerolinea,
        "codigos_iata": codigos_iata  # Aquí añadimos los códigos IATA
    }

    return resultado

# **Asistente**

In [None]:
ciudades_paises, aerolineas = cargar_corpus()
palabras_a_numeros = cargar_palabras_a_numeros(archivo_numeros)

while True:
    frase = input("Hola, bienvenido a Sky2travel. ¿Cómo te puedo ayudar?: ").strip()

    if not frase:
        print("Por favor, ingresa una solicitud válida.")
        continue

    if frase.lower() == 'salir':
        print("Gracias por usar Sky2travel. ¡Hasta la próxima! 😊")
        break

    # Procesar la frase
    resultado = procesar_texto(frase, ciudades_paises, aerolineas, palabras_a_numeros)

    origen = resultado.get("origen", "origen desconocido")
    destino = resultado.get("destino", "destino desconocido")
    fecha = resultado.get("fecha", "una fecha desconocida")
    aerolinea = resultado.get("aerolínea", "cualquier aerolínea")

    # Construir el mensaje de voz personalizado
    mensaje = f"Ok, perfecto. Comienzo la búsqueda de tu viaje a {destino} desde {origen} para la fecha {fecha} con {aerolinea}."

    # Esperar 2 segundos antes del mensaje por voz
    time.sleep(3)

    # Mostrar y reproducir el mensaje de voz
    display(speak(mensaje))

    # Esperar 3 segundos antes de mostrar los resultados JSON
    time.sleep(15)

    # Mostrar el JSON estructurado
    print(json.dumps(resultado, indent=4, ensure_ascii=False))
    print("-" * 40)