In [4]:
pip install --upgrade google-generativeai

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import google.generativeai as genai
import json
import time
import os
from tqdm import tqdm
from collections import deque

# --- CONFIGURACIÓN ---
GOOGLE_API_KEY = "AIzaSyBwTAaD_ikgG7S2hXY2sL7wlhKlCyIXiaE"
genai.configure(api_key=GOOGLE_API_KEY)

# Modelo (Gemma NO tiene JSON mode)
model = genai.GenerativeModel("models/gemma-3-27b-it")

# Rutas de Archivos
FILE_LIGIE = "C:/Users/Edward/Desktop/Bancomext/Tariffs/data/intermediate/LIGIE_Limpia.xlsx"
FILE_HTS = "C:/Users/Edward/Desktop/Bancomext/Tariffs/data/intermediate/HTS_Limpia.xlsx"
SHEET_NAME = "Concatenado"
OUTPUT_FILE = "C:/Users/Edward/Desktop/Bancomext/Tariffs/data/intermediate/Resultado_Mapeo_LIGIE_HTS.xlsx"

# Límites API
LIMIT_RPM = 30
LIMIT_TPM = 15000
SAFETY_BUFFER = 0.90


# --- RATE LIMITER ---
class RateLimiter:
    def __init__(self, max_rpm, max_tpm, safety_buffer=0.9):
        self.max_rpm = int(max_rpm * safety_buffer)
        self.max_tpm = int(max_tpm * safety_buffer)
        self.request_timestamps = deque()
        self.token_timestamps = deque()

    def wait_if_needed(self, estimated_tokens=0):
        current_time = time.time()
        while self.request_timestamps and self.request_timestamps[0] < current_time - 60:
            self.request_timestamps.popleft()
        while self.token_timestamps and self.token_timestamps[0][0] < current_time - 60:
            self.token_timestamps.popleft()

        current_rpm = len(self.request_timestamps)
        current_tpm = sum(t[1] for t in self.token_timestamps)

        sleep_time = 0
        if current_rpm >= self.max_rpm:
            sleep_time = max(sleep_time, 60 - (current_time - self.request_timestamps[0]))
        if current_tpm + estimated_tokens > self.max_tpm:
            if self.token_timestamps:
                sleep_time = max(sleep_time, 60 - (current_time - self.token_timestamps[0][0]))
            else:
                sleep_time = max(sleep_time, 1)

        if sleep_time > 0:
            time.sleep(sleep_time + 0.1)

    def add_request(self, tokens_used):
        now = time.time()
        self.request_timestamps.append(now)
        self.token_timestamps.append((now, tokens_used))


# --- PARSER ROBUSTO PARA GEMMA ---
def extraer_json_bruto(texto):
    """
    Gemma a veces agrega texto antes/después del JSON.
    Este parser detecta el primer '[' y el último ']' y extrae solo eso.
    """
    try:
        ini = texto.index("[")
        fin = texto.rindex("]") + 1
        solo_json = texto[ini:fin].strip()
        return json.loads(solo_json)
    except Exception:
        raise ValueError("No se pudo extraer JSON válido de la respuesta:\n" + texto[:400])


# --- PROMPT ESPECIAL PARA GEMMA ---
def generar_prompt(subpartida_6d, lista_ligie, lista_hts):
    return f"""
Actúa como un experto en comercio exterior México–USA.
Tu tarea: emparejar códigos LIGIE y HTS que correspondan semánticamente.

⚠ Produce **ÚNICAMENTE JSON válido**.
⚠ Sin explicaciones, sin texto antes/después.
⚠ SOLO un array JSON.

Subpartida: {subpartida_6d}

LIGIE México:
{json.dumps(lista_ligie, ensure_ascii=False)}

HTS USA:
{json.dumps(lista_hts, ensure_ascii=False)}

Formato EXACTO:
[
  {{
    "ligie_code": "XXXX.XX.XX",
    "hts_code": "XXXX.XX.XX",
    "tipo_relacion": "Exacta" | "LIGIE amplio" | "HTS amplio",
    "confianza": 0.0,
    "razonamiento": "..."
  }}
]

Devuelve solo el JSON.
"""


# --- CARGAR DATOS ---
def cargar_datos(filepath, sheetname):
    print(f"Cargando {filepath}...")
    df = pd.read_excel(filepath, sheet_name=sheetname, dtype=str)
    column_map = {
        'Código Completo': 'codigo_8d',
        'Descripción Completa Concatenada': 'descripcion',
        'Imp. Imp.': 'arancel',
        'Code': 'codigo_8d',
        'Concatenated Description': 'descripcion',
        'General Duty': 'arancel'
    }
    df.rename(columns=column_map, inplace=True, errors='ignore')
    df['codigo_6d'] = df['codigo_8d'].str.slice(0, 7)
    return df


def cargar_progreso_existente():
    if os.path.exists(OUTPUT_FILE):
        df_existente = pd.read_excel(OUTPUT_FILE, dtype=str)
        if 'subpartida_6d' in df_existente.columns:
            return df_existente.to_dict('records'), set(df_existente['subpartida_6d'].unique())
    return [], set()


# --- MAIN ---
def main():
    df_ligie = cargar_datos(FILE_LIGIE, SHEET_NAME)
    df_hts = cargar_datos(FILE_HTS, SHEET_NAME)

    subpartidas = sorted(list(set(df_ligie['codigo_6d']) & set(df_hts['codigo_6d'])))

    resultados, procesadas = cargar_progreso_existente()
    pendientes = [s for s in subpartidas if s not in procesadas]

    limiter = RateLimiter(LIMIT_RPM, LIMIT_TPM, SAFETY_BUFFER)

    for subpartida in tqdm(pendientes):
        cubeta_ligie = df_ligie[df_ligie['codigo_6d'] == subpartida][['codigo_8d', 'descripcion']].to_dict('records')
        cubeta_hts = df_hts[df_hts['codigo_6d'] == subpartida][['codigo_8d', 'descripcion']].to_dict('records')

        prompt = generar_prompt(subpartida, cubeta_ligie, cubeta_hts)

        est_tokens = int(len(prompt) / 3.5) + 200
        limiter.wait_if_needed(est_tokens)

        intentos = 0
        while intentos < 3:
            try:
                resp = model.generate_content(prompt)

                tokens_reales = resp.usage_metadata.total_token_count
                limiter.add_request(tokens_reales)

                contenido = resp.text.strip()
                data = extraer_json_bruto(contenido)

                for item in data:
                    item["subpartida_6d"] = subpartida
                    resultados.append(item)

                break

            except Exception as e:
                intentos += 1
                print(f"\nError en {subpartida}: {e}")
                if intentos < 3:
                    time.sleep(4)

        if len(resultados) % 10 == 0:
            pd.DataFrame(resultados).to_excel(OUTPUT_FILE, index=False)

    pd.DataFrame(resultados).to_excel(OUTPUT_FILE, index=False)
    print("¡Proceso terminado!")


if __name__ == "__main__":
    main()

Cargando C:/Users/Edward/Desktop/Bancomext/Tariffs/data/intermediate/LIGIE_Limpia.xlsx...
Cargando C:/Users/Edward/Desktop/Bancomext/Tariffs/data/intermediate/HTS_Limpia.xlsx...


  0%|          | 0/1816 [00:00<?, ?it/s]


Error en 4418.81: No se pudo extraer JSON válido de la respuesta:
```json
[
  {
    "ligie_code": "4418.81.01",
    "hts_code": "4418.81.00",
    "tipo_relacion": "Exacta",
    "confianza": 0.95,
    "razonamiento": "Ambos códigos describen específicamente 'Builders\' joinery and carpentry of wood, including cellular wood panels and assembled flooring panels; shingles and shakes:' y 'Productos de madera de ingeniería estructural: Madera laminada-encolada (llamad

Error en 4418.81: No se pudo extraer JSON válido de la respuesta:
```json
[
  {
    "ligie_code": "4418.81.01",
    "hts_code": "4418.81.00",
    "tipo_relacion": "Exacta",
    "confianza": 0.95,
    "razonamiento": "Ambos códigos describen específicamente 'Builders\' joinery and carpentry of wood, including cellular wood panels and assembled flooring panels; shingles and shakes:' y 'Productos de madera de ingeniería estructural: Madera laminada-encolada (llamad

Error en 4418.81: No se pudo extraer JSON válido de la respuest

  0%|          | 1/1816 [00:21<10:50:03, 21.49s/it]


Error en 7102.21: No se pudo extraer JSON válido de la respuesta:
```json
[
  {
    "ligie_code": "7102.21.01",
    "hts_code": "7102.21.10",
    "tipo_relacion": "Exacta",
    "confianza": 0.95,
    "razonamiento": "Ambos códigos describen diamantes industriales en bruto o simplemente aserrados, exfoliados o desbastados, específicamente 'Miners\' diamonds' en HTS."
  },
  {
    "ligie_code": "7102.21.01",
    "hts_code": "7102.21.30",
    "tipo_relacion": "LIGI

Error en 7102.21: No se pudo extraer JSON válido de la respuesta:
```json
[
  {
    "ligie_code": "7102.21.01",
    "hts_code": "7102.21.10",
    "tipo_relacion": "Exacta",
    "confianza": 0.95,
    "razonamiento": "Ambos códigos describen diamantes industriales en bruto o simplemente aserrados, exfoliados o desbastados, específicamente 'Miners\' diamonds' en HTS."
  },
  {
    "ligie_code": "7102.21.01",
    "hts_code": "7102.21.30",
    "tipo_relacion": "LIGI

Error en 7102.21: No se pudo extraer JSON válido de la respuest

100%|██████████| 1816/1816 [2:57:38<00:00,  5.87s/it]  


¡Proceso terminado!
