<a href="https://colab.research.google.com/github/MocT117/Another-one-/blob/master/Untitled22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

# -*- coding: utf-8 -*-
# Requisitos: pandas, openpyxl
# pip install pandas openpyxl

import os
import re
from datetime import datetime
import pandas as pd

# === 1) Define aquí la ruta del archivo ===
# Si tu estructura es: proyecto/raw_data/catalogo_fa.xlsx y este script está en "proyecto/",
# deja la ruta así:
INPUT_PATH = "raw_data/catalogo_fa.xlsx"

# (Opcional, recomendado) Forzar a que la ruta sea relativa a este .py, por si el IDE cambia el cwd:
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
INPUT_PATH = os.path.join(BASE_DIR, INPUT_PATH)

# === 2) Lee el Excel ===
try:
    # dtype=object evita que pandas quite ceros a la izquierda
    df = pd.read_excel(INPUT_PATH, sheet_name=0, dtype=object)
except FileNotFoundError:
    raise SystemExit(f"❌ No se encontró el archivo: {INPUT_PATH}")
except Exception as e:
    raise SystemExit(f"❌ Error leyendo el Excel: {e}")

# === 3) Ubica columnas objetivo de forma robusta ===
def norm(s: str) -> str:
    import unicodedata
    s = "".join(c for c in unicodedata.normalize("NFD", str(s).lower())
                if unicodedata.category(c) != "Mn")
    return re.sub(r"\s+", " ", s).strip()

norm_map = {norm(c): c for c in df.columns}

# Intentos comunes para "fracción arancelaria" y "descripción"
cand_frac = ["fraccion arancelaria", "fraccion", "fa", "hs code", "hs", "partida", "tarifa"]
cand_desc = ["descripcion", "description", "desc"]

col_frac = next((norm_map[n] for n in norm_map if any(k in n for k in cand_frac)), None)
col_desc = next((norm_map[n] for n in norm_map if any(k in n for k in cand_desc)), None)

if not col_frac:
    raise SystemExit(f"❌ No encontré la columna de Fracción Arancelaria. Columnas: {list(df.columns)}")
if not col_desc:
    raise SystemExit(f"❌ No encontré la columna de Descripción. Columnas: {list(df.columns)}")

# === 4) Limpia fracción y filtra patrón EXACTO xx.xx ===
def limpiar_fa(x) -> str:
    s = str(x).strip().strip(". ")
    s = re.sub(r"\s+", "", s)
    s = "".join(ch for ch in s if ch.isdigit() or ch == ".")
    return s

tmp = df[[col_frac, col_desc]].copy()
tmp["__fa__"] = tmp[col_frac].map(limpiar_fa)
mask = tmp["__fa__"].str.fullmatch(r"\d{2}\.\d{2}", na=False)

resultado = (
    tmp.loc[mask, [col_frac, col_desc]]
       .rename(columns={col_frac: "Fracción Arancelaria", col_desc: "Descripción"})
       .drop_duplicates()
       .reset_index(drop=True)
)

if resultado.empty:
    print("⚠️ No se encontraron fracciones en formato xx.xx (ej. 01.01). Revisa el archivo de entrada.")
else:
    # === 5) Exporta a Excel ===
    out_dir = os.path.join(BASE_DIR, "output")
    os.makedirs(out_dir, exist_ok=True)
    fecha = datetime.now().strftime("%Y%m%d")
    out_path = os.path.join(out_dir, f"fracciones_4digitos_{fecha}.xlsx")
    try:
        resultado.to_excel(out_path, index=False)
    except Exception as e:
        raise SystemExit(f"❌ Error exportando el Excel: {e}")

    print(f"✅ Listo. Registros: {len(resultado)}")
    print(f"📄 Archivo generado: {out_path}")