<a href="https://colab.research.google.com/github/MocT117/Another-one-/blob/master/Untitled28.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

# -*- coding: utf-8 -*-
# Requisitos: pandas, openpyxl
# pip install pandas openpyxl

import os, re
from datetime import datetime
import pandas as pd

# --- Ruta del archivo ---
# INPUT_PATH = r"C:\Users\TU_USUARIO\Downloads\TIGIE.xlsx"
INPUT_PATH = "raw_data/TIGIE.xlsx"

BASE_DIR = os.path.dirname(os.path.abspath(__file__))
INPUT_PATH = os.path.join(BASE_DIR, INPUT_PATH)

# ---------- utilidades ----------
def _norm(s: str) -> str:
    import unicodedata
    s = "" if s is None else str(s)
    s = "".join(c for c in unicodedata.normalize("NFD", s.lower())
                if unicodedata.category(c) != "Mn")
    return re.sub(r"\s+", " ", s).strip()

def _strip_weird_spaces(s: str) -> str:
    return s.replace("\u00A0", " ").replace("\u2007", " ").replace("\u202F", " ").strip()

def _to_xx_xx_strict(value) -> str | None:
    """Devuelve 'xx.xx' SOLO si hay exactamente 2 niveles; normaliza 0101/1.1/01.01."""
    if value is None:
        return None
    s = _strip_weird_spaces(str(value))
    s = "".join(ch for ch in s if ch.isdigit() or ch == ".")
    if not s:
        return None
    if re.fullmatch(r"\d{4}", s):
        return f"{int(s[:2]):02d}.{int(s[2:]):02d}"
    parts = [p for p in s.split(".") if p != ""]
    if len(parts) == 2 and all(1 <= len(p) <= 2 for p in parts):
        return f"{int(parts[0]):02d}.{int(parts[1]):02d}"
    return None  # 1 nivel, 3+ niveles, etc.

def _pick_column(columns, positive, negatives=()):
    """
    Selección robusta: da un score por match positivo y penaliza si aparece un negativo.
    Devuelve el nombre ORIGINAL de la columna.
    """
    norm_map = {_norm(c): c for c in columns}
    best = (None, -1_000)
    for n, orig in norm_map.items():
        score = 0
        # positivos
        for p, w in positive:
            if p in n: score += w
        # negativos
        for neg, w in negatives:
            if neg in n: score -= w
        if score > best[1]:
            best = (orig, score)
    return best[0]

# ---------- lectura + detección de cabecera ----------
try:
    raw = pd.read_excel(INPUT_PATH, sheet_name=0, header=None, dtype=object)
except FileNotFoundError:
    raise SystemExit(f"❌ No se encontró el archivo: {INPUT_PATH}")
except Exception as e:
    raise SystemExit(f"❌ Error leyendo el Excel: {e}")

# Busca la fila donde estén ambas cabeceras
header_row = None
for i in range(min(80, len(raw))):
    norms = [_norm(v) for v in raw.iloc[i].astype(str).tolist()]
    has_frac = any("fraccion" in x for x in norms)
    has_desc = any(("descripcion" in x) or ("description" in x) for x in norms)
    if has_frac and has_desc:
        header_row = i
        break
if header_row is None:
    header_row = 4  # respaldo común

header = raw.iloc[header_row].tolist()
df = raw.iloc[header_row + 1:].copy()
df.columns = header
df = df.reset_index(drop=True)

# ---------- localizar columnas (evitando 'FA CORRELATIVA') ----------
col_frac = _pick_column(
    df.columns,
    positive=[
        ("fraccion arancelaria", 100),  # exacto
        ("fraccion", 50),
        ("hs code", 20), ("hs", 10), ("partida", 10), ("tarifa", 10),
    ],
    negatives=[  # penaliza fuerte
        ("correlativa", 200), ("nico", 200), ("descripcion", 200), ("description", 200)
    ]
)
col_desc = _pick_column(
    df.columns,
    positive=[("descripcion", 100), ("description", 80), ("desc", 20)],
    negatives=[("nico", 200), ("correlativa", 200)]
)

if not col_frac:
    raise SystemExit(f"❌ No encontré la columna de Fracción Arancelaria. Columnas: {list(df.columns)}")
if not col_desc:
    raise SystemExit(f"❌ No encontré la columna de Descripción. Columnas: {list(df.columns)}")

print(f"ℹ️ Usando columnas -> Fracción: '{col_frac}' | Descripción: '{col_desc}'")

# Forzar string y limpiar
df[col_frac] = df[col_frac].astype(str).map(_strip_weird_spaces)

# ---------- normalización estricta + filtro ----------
tmp = df[[col_frac, col_desc]].copy()
tmp["Fracción Arancelaria"] = tmp[col_frac].map(_to_xx_xx_strict)

resultado = (
    tmp.loc[tmp["Fracción Arancelaria"].notna(), ["Fracción Arancelaria", col_desc]]
       .rename(columns={col_desc: "Descripción"})
       .drop_duplicates()
       .reset_index(drop=True)
)

# ---------- exportación ----------
out_dir = os.path.join(BASE_DIR, "output")
os.makedirs(out_dir, exist_ok=True)
fecha = datetime.now().strftime("%Y%m%d")
out_path = os.path.join(out_dir, f"fracciones_4digitos_{fecha}.xlsx")

if resultado.empty:
    # imprime muestra para depurar
    sample_raw = (df[col_frac].astype(str).head(20)).tolist()
    sample_norm = [ _to_xx_xx_strict(x) for x in sample_raw ]
    print("⚠️ No se encontraron fracciones de 2 niveles (xx.xx).")
    print("🔎 Muestra cruda:", sample_raw)
    print("🧰 Normalización:", sample_norm)
else:
    try:
        resultado.to_excel(out_path, index=False)
    except Exception as e:
        raise SystemExit(f"❌ Error exportando el Excel: {e}")

    print(f"✅ Registros exportados (solo xx.xx): {len(resultado)}")
    print(f"📄 Archivo generado: {out_path}")