<a href="https://colab.research.google.com/github/MocT117/Another-one-/blob/master/Untitled23.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

# -*- coding: utf-8 -*-
# Requisitos: pandas, openpyxl
# pip install pandas openpyxl

import os, re
from datetime import datetime
import pandas as pd

# === 1) Define la ruta del archivo ===
# Ejemplo Windows (ruta absoluta):
# INPUT_PATH = r"C:\Users\tu_usuario\Downloads\TIGIE.xlsx"
# Ejemplo relativo (si el archivo está en ./raw_data):
INPUT_PATH = "raw_data/TIGIE.xlsx"

# Asegura que funcione aunque cambie el cwd del IDE
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
INPUT_PATH = os.path.join(BASE_DIR, INPUT_PATH)

# === 2) Utilidades mínimas internas ===
def _norm(s: str) -> str:
    import unicodedata
    s = "" if s is None else str(s)
    s = "".join(c for c in unicodedata.normalize("NFD", s.lower())
                if unicodedata.category(c) != "Mn")
    s = re.sub(r"\s+", " ", s).strip()
    return s

# === 3) Lee sin cabecera y detecta automáticamente la fila de encabezados ===
try:
    raw = pd.read_excel(INPUT_PATH, sheet_name=0, header=None, dtype=object)
except FileNotFoundError:
    raise SystemExit(f"❌ No se encontró el archivo: {INPUT_PATH}")
except Exception as e:
    raise SystemExit(f"❌ Error leyendo el Excel: {e}")

# Busca en las primeras N filas una que contenga algo parecido a ambas columnas clave
header_row = None
CAND_FRAC = ["fraccion arancelaria", "fraccion", "hs code", "hs", "partida", "tarifa", "fa"]
CAND_DESC = ["descripcion", "descripción", "description", "desc"]

max_scan = min(50, len(raw))  # escanea hasta 50 filas superiores
for i in range(max_scan):
    vals = raw.iloc[i].astype(str).tolist()
    norms = [_norm(v) for v in vals]
    has_frac = any(any(k in n for k in CAND_FRAC) for n in norms)
    has_desc = any(any(k in n for k in CAND_DESC) for n in norms)
    if has_frac and has_desc:
        header_row = i
        break

if header_row is None:
    # Si no se detectó, intenta con la fila 4 (muy común en estos PDFs a Excel)
    header_row = 4

# Construye DataFrame con cabecera correcta
header = raw.iloc[header_row].tolist()
df = raw.iloc[header_row + 1:].copy()
df.columns = header
df = df.reset_index(drop=True)

# === 4) Localiza las dos columnas objetivo de forma robusta ===
norm_map = {_norm(c): c for c in df.columns}
col_frac = next((norm_map[n] for n in norm_map if any(k in n for k in CAND_FRAC)), None)
col_desc = next((norm_map[n] for n in norm_map if any(k in n for k in CAND_DESC)), None)

if not col_frac:
    raise SystemExit(f"❌ No encontré la columna de Fracción Arancelaria. Columnas leídas: {list(df.columns)}")
if not col_desc:
    raise SystemExit(f"❌ No encontré la columna de Descripción. Columnas leídas: {list(df.columns)}")

# === 5) Limpieza + Filtro patrón EXACTO xx.xx ===
def _limpiar_fa(x) -> str:
    s = str(x).strip().strip(". ")
    s = re.sub(r"\s+", "", s)
    s = "".join(ch for ch in s if ch.isdigit() or ch == ".")
    return s

tmp = df[[col_frac, col_desc]].copy()
tmp["__fa__"] = tmp[col_frac].map(_limpiar_fa)
mask = tmp["__fa__"].str.fullmatch(r"\d{2}\.\d{2}", na=False)

resultado = (
    tmp.loc[mask, [col_frac, col_desc]]
       .rename(columns={col_frac: "Fracción Arancelaria", col_desc: "Descripción"})
       .drop_duplicates()
       .reset_index(drop=True)
)

# === 6) Exporta ===
out_dir = os.path.join(BASE_DIR, "output")
os.makedirs(out_dir, exist_ok=True)
fecha = datetime.now().strftime("%Y%m%d")
out_path = os.path.join(out_dir, f"fracciones_4digitos_{fecha}.xlsx")

if resultado.empty:
    print("⚠️ No se encontraron fracciones en formato xx.xx (ej. 01.01). Revisa el archivo.")
else:
    try:
        resultado.to_excel(out_path, index=False)
    except Exception as e:
        raise SystemExit(f"❌ Error exportando el Excel: {e}")
    print(f"✅ Listo. Registros: {len(resultado)}")
    print(f"📄 Archivo generado: {out_path}")