In [2]:
import json
import random

METODOS = ["pix", "credito", "debito"]

TEMPLATES = [
    "passa {valor_extenso} no {metodo}",
    "pode passar {valor_extenso} no {metodo}",
    "vou pagar {valor_extenso} no {metodo}",
    "cobra {valor_extenso} no {metodo}",
    "pode cobrar {valor_extenso} no {metodo}",
    "fecha {valor_extenso} no {metodo}",
    "debita {valor_extenso}"
]

UNIDADES = [
    "zero", "um", "dois", "trÃªs", "quatro", "cinco", "seis",
    "sete", "oito", "nove", "dez", "onze", "doze", "treze",
    "quatorze", "quinze", "dezesseis", "dezessete",
    "dezoito", "dezenove"
]

DEZENAS = [
    "", "", "vinte", "trinta", "quarenta", "cinquenta",
    "sessenta", "setenta", "oitenta", "noventa"
]

CENTENAS = [
    "", "cento", "duzentos", "trezentos", "quatrocentos",
    "quinhentos", "seiscentos", "setecentos",
    "oitocentos", "novecentos"
]

def numero_extenso(n: int) -> str:
    if n == 0:
        return "zero"
    if n == 100:
        return "cem"
    if n < 20:
        return UNIDADES[n]
    if n < 100:
        d, u = divmod(n, 10)
        return DEZENAS[d] if u == 0 else f"{DEZENAS[d]} e {UNIDADES[u]}"
    if n < 1000:
        c, r = divmod(n, 100)
        return CENTENAS[c] if r == 0 else f"{CENTENAS[c]} e {numero_extenso(r)}"
    return str(n)

def valor_por_extenso(valor: float) -> str:
    reais = int(valor)
    centavos = int(round((valor - reais) * 100))

    texto = f"{numero_extenso(reais)} reais"

    if centavos > 0:
        texto += f" e {numero_extenso(centavos)} centavos"

    return texto

def gerar_valor():
    if random.random() < 0.5:
        return float(random.randint(5, 500))
    else:
        centavos = random.choice([5,10,15,20,25,30,40,50,60,75,80,90])
        return round(random.randint(5, 500) + centavos / 100, 2)

def gerar_exemplo():
    metodo = random.choice(METODOS)
    valor = gerar_valor()
    valor_extenso = valor_por_extenso(valor)

    frase = random.choice(TEMPLATES).format(
        valor_extenso=valor_extenso,
        metodo=metodo
    )

    return {
        "user_content": frase,
        "tool_name": "pagamento",
        "tool_arguments": {
            "valor": valor,
            "metodo_pagamento": metodo
        }
    }

def gerar_dataset(qtd=9000, arquivo="pagamentos_9000_extenso.jsonl"):
    with open(arquivo, "w", encoding="utf-8") as f:
        for _ in range(qtd):
            f.write(json.dumps(gerar_exemplo(), ensure_ascii=False) + "\n")

    print(f"Dataset gerado com {qtd} exemplos em '{arquivo}'")

if __name__ == "__main__":
    gerar_dataset()


Dataset gerado com 9000 exemplos em 'pagamentos_9000_extenso.jsonl'
