In [12]:
import pandas as pd
from openai import OpenAI
import json
import time

# ============================================================
# 01. Cargar configuración desde JSON
# ============================================================
with open("ConfigClasificador.json", "r", encoding="utf-8") as f:
    config = json.load(f)

API_KEY       = config["OPENAI_API_KEY"]
INPUT_XLSX    = config["INPUT_XLSX"]
OUTPUT_XLSX   = config["OUTPUT_XLSX"]
SHEET_NAME    = config["SHEET_NAME"]
use_cols      = config["USE_COLS"]
SLEEP_SECONDS = config["SLEEP_SECONDS"]
MODEL         = config["MODEL"]

# Inicializar cliente con la API Key del JSON
client = OpenAI(api_key=API_KEY)

# ============================================================
# PROMPTS
# ============================================================
PROMPT_DIRECT = """
Eres un clasificador muy estricto.
Analiza únicamente esta descripción de producto:

"{descripcion}"

Reglas:
1. Devuelve SOLO el JSON plano, sin comentarios ni bloques de código.
2. Para la clave "Marca":
   - Devuelve exactamente lo que aparezca en el texto, en MAYÚSCULA.
   - Si hay varias marcas explícitas, sepáralas con coma.
   - Si no hay marca, devuelve "DESCONOCIDA".
   - No inventes datos irrelevantes (ej: si el texto menciona la marca de un motor por ejemplo motor Perkins en un tractor Massey Ferguson, la marca principal es MASSEY FERGUSON, no PERKINS)
3. Para la clave "Condicion":
   - Devuelve "USADO" si aparecen palabras como "usado", "segunda","reacondicionado","remanufacturado","refurbished","utilizado","segunda mano" o un año que no sea el vigente.
   - Si no aparecen, devuelve "NUEVO".

Responde SOLO en JSON válido con este formato:
{{"Marca": "...", "Condicion": "..."}}
"""

PROMPT_INFER = """
Tengo esta descripción de mercancía: "{descripcion}".

Reglas:
1. Si no hay marca explícita, usa seriales, referencias o modelos
   para INFERIR la marca más probable. (ejemplo: "249D3": CATERPILLAR, "ZX10U-6" : HITACHI, "WA470" : KOMATSU) usa tus datos de entrenamiento de modelos y marcas de maquinaria amarilla
2. Devuelve en MAYÚSCULA.
3. Si hay varias posibles, sepáralas con coma.
4. Si no se puede inferir, responde "DESCONOCIDA".
5. Devuelve SOLO JSON plano, sin bloques de código.

Formato:
{{"Marca_probable": "..."}}
"""

# ============================================================
# FUNCIÓN CLASIFICADORA
# ============================================================
def clasificar_producto(descripcion: str):
    # --- Paso 1: extracción directa ---
    resp = client.responses.create(
        model=MODEL,
        input=PROMPT_DIRECT.format(descripcion=descripcion)
    )
    text = resp.output[0].content[0].text.strip()
    try:
        result = json.loads(text)
        marca = result.get("Marca", "DESCONOCIDA").upper()
        condicion = result.get("Condicion", "NUEVO").upper()
    except:
        print("Error parseando JSON directo. Respuesta:", text)
        marca, condicion = "DESCONOCIDA", "NUEVO"

    # --- Paso 2: inferencia si no hay marca ---
    marca_probable = marca
    if marca == "DESCONOCIDA":
        resp2 = client.responses.create(
            model=MODEL,
            input=PROMPT_INFER.format(descripcion=descripcion)
        )
        text2 = resp2.output[0].content[0].text.strip()
        try:
            result2 = json.loads(text2)
            marca_probable = result2.get("Marca_probable", "DESCONOCIDA").upper()
        except:
            print("Error parseando JSON inferencia. Respuesta:", text2)
            marca_probable = "DESCONOCIDA"

    return marca, marca_probable, condicion

# ============================================================
# PROCESAR TODO EL DF
# ============================================================
marcas, marcas_probables, condiciones = [], [], []

df = pd.read_excel(INPUT_XLSX, sheet_name=SHEET_NAME, usecols=use_cols, engine="openpyxl")
print("Columnas cargadas:", df.columns.tolist())

for i, desc in enumerate(df["Descripción de la mercancía"]):
    marca, marca_prob, condicion = clasificar_producto(desc)
    marcas.append(marca)
    marcas_probables.append(marca_prob)
    condiciones.append(condicion)

    #  Mostrar en consola resultado de la fila
    print(f"\nFila {i+1}:")
    print(f" Descripción: {desc}")
    print(f" Marca: {marca}")
    print(f" Marca probable: {marca_prob}")
    print(f" Condición: {condicion}")
    print("-" * 60)

    if (i+1) % 20 == 0:
        print(f" Procesadas {i+1}/{len(df)} filas...\n")
    time.sleep(SLEEP_SECONDS)

df["Marca"] = marcas
df["Marca_probable"] = marcas_probables
df["Condicion"] = condiciones

# ============================================================
# GUARDAR RESULTADOS
# ============================================================
df.to_excel(OUTPUT_XLSX, index=False)
print("\n Archivo generado:", OUTPUT_XLSX)


Columnas cargadas: ['fila', 'Descripción de la mercancía']

Fila 1:
 Descripción: DO I-145324 DECLARACION 1 DE 1DESGRAVACION ARANCELARIA DEL 0 %: DECRETO 272 DE 2018  NO REQUIERE DE ACUERDO CON LOS A
 Marca: DESCONOCIDA
 Marca probable: DESCONOCIDA
 Condición: NUEVO
------------------------------------------------------------

Fila 2:
 Descripción: Do: 13BOGBU12240048, Nro Pedido  Orden Compra:TIMZ204, Declaracion: 11 Codigo OEA: OEA  MERCANCIA NUEVA Y DE PRIMERA
 Marca: DESCONOCIDA
 Marca probable: DESCONOCIDA
 Condición: NUEVO
------------------------------------------------------------

Fila 3:
 Descripción: DO. BUN14034 DECLARACION 1 1FACTURA(S):1200 DCTO DE TRANSPORTE NO. 243406304 , MERCANCIA USADA , LICENCIA DE IMPORTA
 Marca: DESCONOCIDA
 Marca probable: DESCONOCIDA
 Condición: USADO
------------------------------------------------------------

Fila 4:
 Descripción: DO,00000128 Pedido 500MTD0 D,I, 33026884 Codigo, OEA No, OE0003   FACTURA No, IN000902545 DE FECHA  27-MAR-2024  