<a href="https://colab.research.google.com/github/MocT117/Another-one-/blob/master/Untitled27.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

# -*- coding: utf-8 -*-
# Requisitos: pandas, openpyxl
# pip install pandas openpyxl

import os, re
from datetime import datetime
import pandas as pd

# --- Ruta del archivo ---
# INPUT_PATH = r"C:\Users\TU_USUARIO\Downloads\TIGIE.xlsx"
INPUT_PATH = "raw_data/TIGIE.xlsx"

BASE_DIR = os.path.dirname(os.path.abspath(__file__))
INPUT_PATH = os.path.join(BASE_DIR, INPUT_PATH)

# ---------- utilidades ----------
def _norm(s: str) -> str:
    import unicodedata
    s = "" if s is None else str(s)
    s = "".join(c for c in unicodedata.normalize("NFD", s.lower())
                if unicodedata.category(c) != "Mn")
    return re.sub(r"\s+", " ", s).strip()

def _strip_weird_spaces(s: str) -> str:
    return s.replace("\u00A0", " ").replace("\u2007", " ").replace("\u202F", " ").strip()

def _to_xx_xx_strict(value) -> str | None:
    """
    Devuelve 'xx.xx' SOLO si el valor representa exactamente 2 niveles.
    Acepta: '01.01', '0101', '1.1' (normaliza a 'xx.xx').
    Rechaza: '0101.21.01', '0208.40.01', etc (3+ niveles).
    """
    if value is None:
        return None
    s = _strip_weird_spaces(str(value))

    # Mantener solo dígitos y puntos
    s = "".join(ch for ch in s if ch.isdigit() or ch == ".")
    if not s:
        return None

    # 4 dígitos seguidos -> xx.xx
    if re.fullmatch(r"\d{4}", s):
        return f"{int(s[:2]):02d}.{int(s[2:]):02d}"

    # Con puntos
    parts = [p for p in s.split(".") if p != ""]
    if len(parts) == 2 and all(1 <= len(p) <= 2 for p in parts):
        return f"{int(parts[0]):02d}.{int(parts[1]):02d}"

    # Todo lo demás (1 nivel, 3+ niveles, basura) -> None
    return None

# ---------- lectura + detección de cabecera ----------
try:
    raw = pd.read_excel(INPUT_PATH, sheet_name=0, header=None, dtype=object)
except FileNotFoundError:
    raise SystemExit(f"❌ No se encontró el archivo: {INPUT_PATH}")
except Exception as e:
    raise SystemExit(f"❌ Error leyendo el Excel: {e}")

CAND_FRAC = ["fraccion arancelaria", "fraccion", "fa", "hs code", "hs", "partida", "tarifa"]
CAND_DESC = ["descripcion", "descripción", "description", "desc"]

header_row = None
for i in range(min(80, len(raw))):
    norms = [_norm(v) for v in raw.iloc[i].astype(str).tolist()]
    if any(any(k in n for k in CAND_FRAC) for n in norms) and \
       any(any(k in n for k in CAND_DESC) for n in norms):
        header_row = i
        break
if header_row is None:
    header_row = 4  # respaldo

header = raw.iloc[header_row].tolist()
df = raw.iloc[header_row + 1:].copy()
df.columns = header
df = df.reset_index(drop=True)

# ---------- localizar columnas ----------
norm_map = {_norm(c): c for c in df.columns}
col_frac = next((norm_map[n] for n in norm_map if any(k in n for k in CAND_FRAC)), None)
col_desc = next((norm_map[n] for n in norm_map if any(k in n for k in CAND_DESC)), None)
if not col_frac:
    raise SystemExit(f"❌ No encontré la columna de Fracción Arancelaria. Columnas: {list(df.columns)}")
if not col_desc:
    raise SystemExit(f"❌ No encontré la columna de Descripción. Columnas: {list(df.columns)}")

# Forzar string y limpiar
df[col_frac] = df[col_frac].astype(str).map(_strip_weird_spaces)

# ---------- normalización estricta + filtro ----------
tmp = df[[col_frac, col_desc]].copy()
tmp["__fa_norm__"] = tmp[col_frac].map(_to_xx_xx_strict)

# Mantén SOLO las filas que se pudieron normalizar a EXACTO xx.xx
resultado = (
    tmp.loc[tmp["__fa_norm__"].notna(), ["__fa_norm__", col_desc]]
       .rename(columns={"__fa_norm__": "Fracción Arancelaria", col_desc: "Descripción"})
       .drop_duplicates()
       .reset_index(drop=True)
)

# ---------- exportación ----------
out_dir = os.path.join(BASE_DIR, "output")
os.makedirs(out_dir, exist_ok=True)
fecha = datetime.now().strftime("%Y%m%d")
out_path = os.path.join(out_dir, f"fracciones_4digitos_{fecha}.xlsx")

if resultado.empty:
    # Ayuda para depurar: muestra 15 valores crudos y su intento de normalización
    sample_raw = (df[col_frac].astype(str).head(15)).tolist()
    sample_norm = [ _to_xx_xx_strict(x) for x in sample_raw ]
    print("⚠️ No se encontraron fracciones de 2 niveles (xx.xx).")
    print("🔎 Muestra cruda:", sample_raw)
    print("🧰 Intento normalización:", sample_norm)
else:
    try:
        resultado.to_excel(out_path, index=False)
    except Exception as e:
        raise SystemExit(f"❌ Error exportando el Excel: {e}")

    print(f"✅ Registros exportados (solo xx.xx): {len(resultado)}")
    print(f"📄 Archivo generado: {out_path}")