# Proyecto del Diplomado en Ciencia de Datos

Participantes :
* Felipe Alvarez Zuloaga
* Jesús Adrián Raya Farela

## Objetivo del proyecto:

Utilizar información bancaria de distintas páginas de BBVA para hacer fine tuning a un modelo existente (GPT 2). Posteriormente generar respuestas basadas en promprs de dudas de este banco, y utilizar un agente que envíe mensajes, de forma calendarizada, en forma de newsletter a un número de whatsapp con las preguntas y respuestas.

# Metodología del proyecto:

1. Obtener información a travez de web scrapping
2. Procesar a información cruda
3. Hacer un fine tuning
4. Generar un loop para calendarizar la generación de preguntas y respuestas del modelo
5. Conectar un agente a para hacer la interacción con whatsapp y enviár la información generada

# Código

En caso de querer correr el código, y tener los resultados en tu numero de celular personal, es necesario crear una cuenta gratuita en twilio e ingresar tu número y llave verificada. En caso de no hacerlo, la última parte del código que conecta con whatsapp, se enviará a otro núumero celular.

## 1 Scrapping
Obtenemos la información de BBVA a travez de web scrapping con BeautifulSoup.

En esta parte también se aplica una parte del procesamiento de datos crudos, ya que se limpia el texto extraido y se guarda en diversos archivos .txt para su fácil consumo y control

In [None]:
import requests
from bs4 import BeautifulSoup
import re
import os
import warnings
import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from torch.utils.data import Dataset, DataLoader
from torch.optim import AdamW
warnings.filterwarnings('ignore')

In [None]:
# Lista de URLs oficiales de productos financieros BBVA
urls = [
    "https://www.bbva.mx/personas/productos/creditos/prestamos-personales/prestamo-personal-inmediato.html",
    "https://www.bbva.mx/personas/productos/creditos/prestamos-personales/prestamo-nomina.html",
    "https://www.bbva.mx/personas/productos/creditos/prestamos-personales/adelanto-de-sueldo.html",
    "https://www.bbva.mx/personas/productos/creditos/prestamos-personales/prestamos-personales.html",
    "https://www.bbva.mx/personas/productos/creditos-hipotecarios.html",
    "https://www.bbva.mx/personas/productos/creditos/credito-hipotecario/hipoteca-fija.html",
    "https://www.bbva.mx/personas/productos/creditos/credito-hipotecario/tu-opcion-en-mexico.html",
    "https://www.bbva.mx/personas/productos/creditos/credito-hipotecario/fovissste-para-todos.html",
    "https://www.bbva.mx/personas/productos/creditos/credito-auto.html",
    "https://automarket.bbva.mx/",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/solicitar-tarjeta-de-credito.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/tarjeta-de-credito-oro.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/tarjeta-de-credito-azul.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/mi-primera-tarjeta-de-credito.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/tarjeta-de-credito-platinum.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/tarjeta-de-credito-crea.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/tarjeta-de-credito-sin-anualidad.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/promociones/puntos-bbva.html",
    "https://www.bbva.mx/personas/productos/tarjetas-de-credito/promociones.html",
    "https://www.bbva.mx/personas/productos/cuentas.html",
    "https://www.bbva.mx/personas/productos/cuentas/cuenta-bancaria.html",
    "https://www.bbva.mx/personas/productos/cuentas/cuenta-libreton-basico.html",
    "https://www.bbva.mx/personas/productos/cuentas/cuenta-libreton-dolares.html",
    "https://www.bbva.mx/personas/productos/cuentas/basica.html",
    "https://www.bbva.mx/personas/productos/cuentas/link-card.html",
    "https://www.bbva.mx/personas/productos/inversion.html",
    "https://www.bbva.mx/personas/productos/inversion/inversion-a-plazo.html",
    "https://www.bbva.mx/personas/productos/inversion/inversion-a-plazo/pagare.html",
    "https://www.bbva.mx/personas/productos/inversion/inversion-a-plazo/cedes.html",
    "https://www.bbva.mx/personas/productos/inversion/fondos-de-inversion.html",
    "https://www.bbva.mx/personas/productos/inversion/fondos-de-inversion/deuda-avanzada.html",
    "https://www.bbva.mx/personas/productos/inversion/fondos-de-inversion/renta-variable.html",
    "https://www.bbva.mx/personas/productos/patrimonial-y-privada/inversiones.html",
    "https://www.bbva.mx/personas/productos/ahorro.html",
    "https://www.bbva.mx/personas/productos/ahorro.html#apartados",
    "https://www.bbva.mx/personas/productos/ahorro.html#bbva-plan"
]


In [None]:
# Función para limpieza de texto de BBVA

def limpiar_texto_bbva(texto):
    # Eliminar contenido común innecesario
    texto = re.sub(r"(?i)PUBLICIDAD.*?DDMMAAAA", "", texto)
    texto = re.sub(r"(?i)Pie de página.*", "", texto)
    texto = re.sub(r"(?i)Sugerencias|Anterior Siguiente", "", texto)
    texto = re.sub(r"(?i)Ver más Ver menos", "", texto)

    # Eliminar múltiples espacios y saltos de línea
    texto = re.sub(r'\s+', ' ', texto)

    # Eliminar contenido entre corchetes (posibles notas o referencias)
    texto = re.sub(r'\[.*?\]', '', texto)

    # Eliminar números de teléfono, correos electrónicos y URLs
    texto = re.sub(r'\b(?:\d{10}|\w+@\w+\.\w+|\w+://\S+)\b', '', texto)

    # Eliminar caracteres especiales innecesarios
    texto = re.sub(r'[^\w\s]', '', texto)

    return texto.strip()

# Función para extraer texto desde HTML
def extraer_texto(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, "html.parser")

    # Eliminar elementos no deseados
    for tag in soup(["script", "style", "nav", "footer", "form", "header", "noscript"]):
        tag.decompose()

    texto = soup.get_text(separator="\n")
    texto_limpio = "\n".join([line.strip() for line in texto.splitlines() if line.strip()])
    texto_limpio = limpiar_texto_bbva(texto_limpio)
    return texto_limpio

# Crear carpeta para guardar resultados
os.makedirs("scraping_bancos_resultados", exist_ok=True)

# Ejecutar scraping sobre cada URL
for url in urls:
    try:
        print(f"Procesando: {url}")
        texto_limpio = extraer_texto(url)

        # Generar nombre de archivo a partir del dominio y slug
        domain = "bbva" if "bbva" in url else "santander"
        slug = url.split("/")[-1].replace(".html", "") or "pagina_inicio"
        filename = f"scraping_bancos_resultados/{domain}_{slug}.txt"

        with open(filename, "w", encoding="utf-8") as f:
            f.write(texto_limpio)

        print(f"✅ Guardado en {filename}")

    except Exception as e:
        print(f"❌ Error procesando {url}: {e}")


Procesando: https://www.bbva.mx/personas/productos/creditos/prestamos-personales/prestamo-personal-inmediato.html
✅ Guardado en scraping_bancos_resultados/bbva_prestamo-personal-inmediato.txt
Procesando: https://www.bbva.mx/personas/productos/creditos/prestamos-personales/prestamo-nomina.html
✅ Guardado en scraping_bancos_resultados/bbva_prestamo-nomina.txt
Procesando: https://www.bbva.mx/personas/productos/creditos/prestamos-personales/adelanto-de-sueldo.html
✅ Guardado en scraping_bancos_resultados/bbva_adelanto-de-sueldo.txt
Procesando: https://www.bbva.mx/personas/productos/creditos/prestamos-personales/prestamos-personales.html
✅ Guardado en scraping_bancos_resultados/bbva_prestamos-personales.txt
Procesando: https://www.bbva.mx/personas/productos/creditos-hipotecarios.html
✅ Guardado en scraping_bancos_resultados/bbva_creditos-hipotecarios.txt
Procesando: https://www.bbva.mx/personas/productos/creditos/credito-hipotecario/hipoteca-fija.html
✅ Guardado en scraping_bancos_resultado

## 2 Procesamiento

Posteriormente a obtener la información limpia de las url, se procesan los datos juntándolos en un archivo, tokenizándo y separando en bloques con el fin de preparar el input correcto para el fine tuning

In [None]:
from transformers import GPT2Tokenizer, GPT2LMHeadModel, DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments
import os, torch

# --- Config ---
DATA_DIR   = "scraping_bancos_resultados"
MERGED     = "bbva_dataset.txt"
BLOCK_SIZE = 1024
MODEL_DIR  = "gpt2-bbva-finetuned"
BATCH_SIZE = 2
EPOCHS = 1
LEARNING_RATE = 5e-5

# Unimos los .txt ---
with open(MERGED, "w", encoding="utf-8") as out:
    for file in os.listdir(DATA_DIR):
        if file.endswith(".txt"):
            text = open(os.path.join(DATA_DIR, file), encoding="utf-8").read().strip()
            if text:
                title = file.replace(".txt", "").replace("_", " ").title()
                out.write(f"### {title}\n{text}\n\n")

# Tokenizamos
tok = GPT2Tokenizer.from_pretrained("gpt2")
tok.pad_token = tok.eos_token

ids = tok.encode(open(MERGED, encoding="utf-8").read(), add_special_tokens=False)

# Separamos en bloques
#blocks = [ids[i:i+BLOCK_SIZE] for i in range(0, len(ids), BLOCK_SIZE)]

blocks = [ids[i:i+BLOCK_SIZE]                     # BLOCK_SIZE = 1024
          for i in range(0, len(ids) - BLOCK_SIZE + 1, BLOCK_SIZE)]

if len(blocks[-1]) < BLOCK_SIZE//2:   # opcional: descartar el último si es muy pequeño
    blocks = blocks[:-1]

print(f"{len(blocks)} bloques de {BLOCK_SIZE} tokens")   # <- Verificación rápida del tamaño de bloques y tokens


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

Token indices sequence length is longer than the specified maximum sequence length for this model (92146 > 1024). Running this sequence through the model will result in indexing errors


89 bloques de 1024 tokens


## 3 Fine tuning

In [None]:
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import GPT2Tokenizer, GPT2LMHeadModel            # (de transformers.optimization)

class BBVADataset(Dataset):
    """Dataset que recibe la lista 'blocks' (cada bloque = ids de 1024 tokens)."""
    def __init__(self, token_blocks):
        # Convertimos cada bloque en Tensor Long para evitar trabajo al volar
        self.data = [torch.tensor(b, dtype=torch.long) for b in token_blocks]

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        x = self.data[idx]
        # GPT‑2 se entrena en modo causal LM → labels = input_ids
        return {"input_ids": x, "labels": x}

def collate_fn(batch):
    """
    Como todos los bloques son de longitud fija (BLOCK_SIZE = 1024),
    basta con apilarlos para hacer el fine tuning
    """
    input_ids = torch.stack([item["input_ids"] for item in batch])
    return {"input_ids": input_ids, "labels": input_ids.clone()}

dataset = BBVADataset(blocks)          # 'blocks' salió del paso de tokenización
loader  = DataLoader(dataset,
                     batch_size=BATCH_SIZE,
                     shuffle=True,
                     collate_fn=collate_fn)

# Entrenamiento
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = GPT2LMHeadModel.from_pretrained("gpt2")
model  = model.to(device)
optimizer = AdamW(model.parameters(), lr=LEARNING_RATE)

print(f"Entrenando en {device} | Total de bloques: {len(dataset)}")

model.train()
for epoch in range(EPOCHS):
    total_loss = 0.0
    for step, batch in enumerate(loader, 1):
        inputs = batch["input_ids"].to(device)
        labels = batch["labels"].to(device)

        outputs = model(input_ids=inputs, labels=labels)
        loss = outputs.loss

        loss.backward()
        optimizer.step()
        optimizer.zero_grad()

        total_loss += loss.item()

        # Logs cada n pasos (opcional)
        if step % 20 == 0 or step == len(loader):
            print(f"  Epoch {epoch+1} | Step {step}/{len(loader)} | Loss {loss.item():.4f}")

    avg_loss = total_loss / len(loader)
    print(f"Epoch {epoch+1}/{EPOCHS} — Loss promedio: {avg_loss:.4f}")

# === PASO 6: GUARDAR MODELO ==================================================
os.makedirs(MODEL_DIR, exist_ok=True)
model.save_pretrained(MODEL_DIR)
tok.save_pretrained(MODEL_DIR)
print(f"✅ Modelo fine‑tuned guardado en '{MODEL_DIR}'")


Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Entrenando en cuda | Total de bloques: 89


`loss_type=None` was set in the config but it is unrecognised.Using the default loss: `ForCausalLMLoss`.


  Epoch 1 | Step 20/45 | Loss 3.2369
  Epoch 1 | Step 40/45 | Loss 3.6371
  Epoch 1 | Step 45/45 | Loss 3.5944
Epoch 1/1 — Loss promedio: 3.8896
✅ Modelo fine‑tuned guardado en 'gpt2-bbva-finetuned'


## 4 Generar calendarización

En este ejemplo, se va a calendarizar el envío de mensajes cada minuto durante 3 minutos. Esto servirá unicamente como algo demostrativo para comprender que el alcance del proyecto se puede extender a tener mensajes generados tantas veces al día como se quiera.

Para estom se generará una función integrando la parte de mensajes que se explica en la sección siguiente (5)

La función de calendarización se añadirá al final de la sección 5

## 5 Conectar con whatsapp

Para esta parte es necesario contar con llaves de la API de twilio personales, con el fin de cambiar el número celular y tener acceso a los mensajes.

Las llaves aquí mostradas se utilizarán unicamente para grabar un demo y probar el funcionamiento del código

In [None]:
!pip install twilio

Collecting twilio
  Downloading twilio-9.5.2-py2.py3-none-any.whl.metadata (12 kB)
Collecting aiohttp-retry>=2.8.3 (from twilio)
  Downloading aiohttp_retry-2.9.1-py3-none-any.whl.metadata (8.8 kB)
Downloading twilio-9.5.2-py2.py3-none-any.whl (1.9 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.9 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━[0m [32m1.2/1.9 MB[0m [31m36.9 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.9/1.9 MB[0m [31m33.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading aiohttp_retry-2.9.1-py3-none-any.whl (10.0 kB)
Installing collected packages: aiohttp-retry, twilio
Successfully installed aiohttp-retry-2.9.1 twilio-9.5.2


Generemos una pregunta y respuesta de prueba

In [None]:
# Tomamos el modelo pre entrenado
model_path = "gpt2-bbva-finetuned"
tokenizer = GPT2Tokenizer.from_pretrained(model_path)
model = GPT2LMHeadModel.from_pretrained(model_path).to("cpu")

# Pregunta para enviar
prompt = "¿Tengo 30 años y busco comprar una casa Que instrumento de BBVA recomientdas?\n"

# Generamos respuesta
inputs = tokenizer.encode(prompt, return_tensors="pt")
outputs = model.generate(inputs, max_new_tokens=100, do_sample=True, temperature=0.8, top_k=50)
respuesta = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("📤 Respuesta generada:")
print(respuesta)


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


📤 Respuesta generada:
¿Tengo 30 años y busco comprar una casa Que instrumento de BBVA recomientdas?

Aviso de mi información BBVA México México Para aplicación de los cambics de cuenta de México México México Realidad La BBVA México de mi información BBVA México con los cuenta de México México Realidad La BBVA México de mi información BBVA México por cada de los cuenta de México


In [None]:
def generar_respuesta(prompt : str, model = model, tokenizer = tokenizer) -> str:
  inputs = tokenizer.encode(prompt, return_tensors="pt")
  outputs = model.generate(inputs, max_new_tokens=100, do_sample=True, temperature=0.8, top_k=50)
  respuesta = tokenizer.decode(outputs[0], skip_special_tokens=True)
  return respuesta

In [None]:
from twilio.rest import Client

# CREDENCIALES DE TWILIO
account_sid = "ACbb4a4296037868128d16b87a669eca09"
auth_token = "92ab79dd6c2ee46e3865e3c557017970"
twilio_whatsapp_number = "whatsapp:+14155238886"  # N° sandbox
numero_destino = "whatsapp:+5215540871701"  # Tu número verificado

# Inicializar cliente
client = Client(account_sid, auth_token)

# Enviar mensaje por WhatsApp
message_gen = client.messages.create(
    body=respuesta,
    from_=twilio_whatsapp_number,
    to=numero_destino
)

print(f"Mensaje de respuesta generada con SID: {message_gen.sid}")


Mensaje de respuesta generada con SID: SMbf1c0679867ac6f27894cbfb43dd913a


In [None]:
def enviar_whatsapp(respuesta, account_sid, auth_token, twilio_whatsapp_number, numero_destino):

  client = Client(account_sid, auth_token)

  message_gen = client.messages.create(
      body=respuesta,
      from_=twilio_whatsapp_number,
      to=numero_destino
  )

  print(f"Mensaje de respuesta generada con SID: {message_gen.sid}")



## 4 Calendarización

In [None]:
import time
import random

# Posibles preguntas
PROMPT_BANK = [
    "¿Cuál es la tasa anual fija de la Hipoteca Fija BBVA?",
    "Menciona dos requisitos para contratar el Préstamo de Nómina BBVA.",
    "¿Qué plazo mínimo puedo elegir para invertir en un Pagaré BBVA?",
    "¿Cuáles son dos beneficios de la Tarjeta Azul BBVA?",
    "Explica brevemente qué es el programa de Puntos BBVA."
]

CYCLES        = 3        # mensajes a enviar
INTERVAL_SEC  = 60       # segundos entre envíos

# Envío calendarizado
def mensaje_calendarizado(model, tokenizer, account_sid, auth_token, twilio_whatsapp_number, numero_destino, prompt_bank = PROMPT_BANK, cycles = CYCLES, interval_sec = INTERVAL_SEC):

    for i in range(cycles):

        prompt    = random.choice(prompt_bank)
        respuesta = generar_respuesta(prompt, model, tokenizer)

        enviar_whatsapp(respuesta, account_sid, auth_token, twilio_whatsapp_number, numero_destino)

        if i < cycles - 1:
            time.sleep(interval_sec)


In [None]:
mensaje_calendarizado(model, tokenizer, account_sid, auth_token, twilio_whatsapp_number, numero_destino, prompt_bank = PROMPT_BANK, cycles = CYCLES, interval_sec = INTERVAL_SEC)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Mensaje de respuesta generada con SID: SMbc444bc344490a15e20ac2fdd3a1cc09


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Mensaje de respuesta generada con SID: SM18ec09664f2d0ab59f22b674c65c6e3f


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Mensaje de respuesta generada con SID: SM8cdbc09f996a81ebea214b34857c12fb


# Adicional: Chatbot interactivo en whatsapp

Utilizando un modelo sin fine tuning (GPT 4), se conectará a whatsapp utilizando el mismo método que anteriormente. La diferencia es que esta vez, se puede interactuar con el modelo.

Las API KEYS de OpenAI son válidas hasta el 26 de Abril del año en curso.

Esta implementación tiene la constricción de que para utilizar y procesar los tokens, tiene un costo adicional (Aproximadamente 20USD por 700 palabras entre prompt y respuesta).

Debido a esto no se pudo desarrollar un demo.

In [None]:
# Configuracion
OPENAI_API_KEY      = "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"
TWILIO_ACCOUNT_SID  = "ACbb4a4296037868128d16b87a669eca09"
TWILIO_AUTH_TOKEN   = "92ab79dd6c2ee46e3865e3c557017970"

# Whatsapp
WHATSAPP_FROM = "whatsapp:+14155238886"

# Modelo y parámetros
GPT_MODEL    = "gpt-4o-mini"
MAX_TOKENS   = 400
TEMPERATURE  = 0.7

# Token de ngrok
NGROK_TOKEN  = "2wAGilvR6SnrHpDDCoIQEabGnI4_5yoa7VBknXxP1jA7pv2Vy"


In [None]:
!pip install --quiet --upgrade openai==1.* twilio flask pyngrok

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/661.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m655.4/661.2 kB[0m [31m25.8 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m661.2/661.2 kB[0m [31m18.3 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
from flask import Flask, request, Response
from twilio.twiml.messaging_response import MessagingResponse
from twilio.rest import Client
from pyngrok import ngrok
from openai import OpenAI
import requests, os, logging

openai_client = OpenAI(api_key=OPENAI_API_KEY)
twilio_client = Client(TWILIO_ACCOUNT_SID, TWILIO_AUTH_TOKEN)
ngrok.set_auth_token(NGROK_TOKEN)

app = Flask(__name__)

@app.route("/whatsapp", methods=["POST"])
def whatsapp_webhook():
    pregunta = request.values.get("Body", "").strip()

    resp = openai_client.chat.completions.create(
        model       = GPT_MODEL,
        messages    = [{"role": "user", "content": pregunta}],
        max_tokens  = MAX_TOKENS,
        temperature = TEMPERATURE,
    )
    respuesta = resp.choices[0].message.content.strip()

    twiml = MessagingResponse()
    twiml.message(respuesta)
    return Response(str(twiml), mimetype="application/xml")

# Cerramos conexiones previas en caso de que no se corra una unica vez
for t in ngrok.get_tunnels():
    ngrok.disconnect(t.public_url)

public_url = ngrok.connect(5000, "http").public_url
if public_url.startswith("http://"):
    public_url = "https://" + public_url[len("http://"):]

print("Webhook público:", public_url + "/whatsapp")

# Actualización del sandbox para whatsapp a travez de la rest api
sandbox_api = "https://messaging.twilio.com/v1/WhatsApp/Sandbox"
resp = requests.post(
    sandbox_api,
    auth=(TWILIO_ACCOUNT_SID, TWILIO_AUTH_TOKEN),
    data={"InboundUrl": public_url + "/whatsapp", "InboundMethod": "POST"}
)
if resp.ok:
    print("Sandbox actualizado automáticamente")
else:
    print("Pega manualmente el URL en Twilio Console → WhatsApp Sandbox Settings")

logging.getLogger('werkzeug').setLevel(logging.ERROR)
app.run(host="0.0.0.0", port=5000)


🌐  Webhook público: https://c092-34-16-153-68.ngrok-free.app/whatsapp
🔔  Pega manualmente el URL en Twilio Console → WhatsApp Sandbox Settings
 * Serving Flask app '__main__'
 * Debug mode: off


ERROR:__main__:Exception on /whatsapp [POST]
Traceback (most recent call last):
  File "/usr/local/lib/python3.11/dist-packages/flask/app.py", line 1511, in wsgi_app
    response = self.full_dispatch_request()
               ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/flask/app.py", line 919, in full_dispatch_request
    rv = self.handle_user_exception(e)
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/flask/app.py", line 917, in full_dispatch_request
    rv = self.dispatch_request()
         ^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/local/lib/python3.11/dist-packages/flask/app.py", line 902, in dispatch_request
    return self.ensure_sync(self.view_functions[rule.endpoint])(**view_args)  # type: ignore[no-any-return]
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "<ipython-input-15-8f8463e04290>", line 20, in whatsapp_webhook
    resp = openai_client.chat.completions.create(
       