<a href="https://colab.research.google.com/github/MocT117/Another-one-/blob/master/Untitled30.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

# -*- coding: utf-8 -*-
# pip install pandas openpyxl

import os, re
from datetime import datetime
import pandas as pd

# ======= Ruta del archivo =======
# INPUT_PATH = r"C:\Users\TU_USUARIO\Downloads\TIGIE.xlsx"
INPUT_PATH = r"C:\Users\k021104\Downloads\TIGIE.XLSX"  # usa la tuya

BASE_DIR = os.path.dirname(os.path.abspath(__file__))
# Si INPUT_PATH ya es absoluta, no lo combines con BASE_DIR:
if not os.path.isabs(INPUT_PATH):
    INPUT_PATH = os.path.join(BASE_DIR, INPUT_PATH)

# ======= Utilidades =======
def _norm(s: str) -> str:
    import unicodedata
    s = "" if s is None else str(s)
    s = "".join(c for c in unicodedata.normalize("NFD", s.lower())
                if unicodedata.category(c) != "Mn")
    return re.sub(r"\s+", " ", s).strip()

def _strip_ws(s: str) -> str:
    return s.replace("\u00A0"," ").replace("\u2007"," ").replace("\u202F"," ").strip()

def to_xx_xx_strict(v) -> str | None:
    """Devuelve 'xx.xx' solo si hay exactamente 2 niveles; normaliza 0101/1.1/01.01."""
    if v is None:
        return None
    s = _strip_ws(str(v))
    s = "".join(ch for ch in s if ch.isdigit() or ch == ".")
    if not s:
        return None
    if re.fullmatch(r"\d{4}", s):                 # 0101 -> 01.01
        return f"{int(s[:2]):02d}.{int(s[2:]):02d}"
    parts = [p for p in s.split(".") if p != ""]
    if len(parts) == 2 and all(1 <= len(p) <= 2 for p in parts):  # 1.2 / 01.02
        return f"{int(parts[0]):02d}.{int(parts[1]):02d}"
    return None  # 1 nivel o 3+ niveles

# ======= Leer archivo y detectar cabecera =======
try:
    raw = pd.read_excel(INPUT_PATH, sheet_name=0, header=None, dtype=object)
except FileNotFoundError:
    raise SystemExit(f"❌ No se encontró: {INPUT_PATH}")
except Exception as e:
    raise SystemExit(f"❌ Error leyendo Excel: {e}")

# Buscar fila con 'fraccion' y 'descripcion'
header_row = None
for i in range(min(len(raw), 80)):
    norms = [_norm(v) for v in raw.iloc[i].astype(str).tolist()]
    if any("fraccion" in x for x in norms) and any(("descripcion" in x) or ("description" in x) for x in norms):
        header_row = i
        break
if header_row is None:
    header_row = 4  # respaldo típico en estos layouts

header = raw.iloc[header_row].tolist()
df = raw.iloc[header_row + 1:].copy()
df.columns = header
df = df.reset_index(drop=True)

# ======= Elegir la COLUMNA correcta por contenido =======
# 1) Penaliza columnas que no queremos; 2) cuenta cuántos 'xx.xx' produce cada una
penaliza = ("descripcion","description","nico","correlativa")
candidatas = []
for col in df.columns:
    n = _norm(col)
    penalty = sum(1 for p in penaliza if p in n)
    # Mide matches de dos niveles en esa columna
    serie = df[col].astype(str).map(to_xx_xx_strict)
    count_2lvl = serie.notna().sum()
    score = count_2lvl - (1000 if penalty else 0)  # gran penalización si parece columna no deseada
    candidatas.append((col, count_2lvl, score))

# Ordena por score descendente
candidatas.sort(key=lambda x: x[2], reverse=True)
col_frac = candidatas[0][0]
count_2lvl = candidatas[0][1]

# Ahora busca la columna de descripción por nombre (fallback: la que más texto tenga)
desc_cols = [c for c in df.columns if "descripcion" in _norm(c) or "description" in _norm(c)]
col_desc = desc_cols[0] if desc_cols else df.select_dtypes(include=["object"]).columns[-1]

print(f"ℹ️ Columna elegida para Fracción: '{col_frac}' (matches xx.xx = {count_2lvl})")
print(f"ℹ️ Columna elegida para Descripción: '{col_desc}'")

# Si por alguna razón eligió 'FA CORRELATIVA', la descartamos y tomamos la siguiente mejor
if "correlativa" in _norm(col_frac):
    # toma la siguiente candidata que no tenga 'correlativa' ni 'nico' ni 'descripcion'
    for col, cnt, _ in candidatas[1:]:
        if all(k not in _norm(col) for k in ("correlativa","nico","descripcion","description")):
            print(f"↪️ Reemplazo columna por: '{col}' (evitando 'correlativa')")
            col_frac, count_2lvl = col, df[col].astype(str).map(to_xx_xx_strict).notna().sum()
            break

# ======= Normaliza y filtra SOLO xx.xx =======
fa_norm = df[col_frac].astype(str).map(to_xx_xx_strict)
resultado = pd.DataFrame({
    "Fracción Arancelaria": fa_norm,
    "Descripción": df[col_desc].astype(str)
}).dropna(subset=["Fracción Arancelaria"]).drop_duplicates().reset_index(drop=True)

# ======= Exporta =======
out_dir = os.path.join(BASE_DIR, "output"); os.makedirs(out_dir, exist_ok=True)
fecha = datetime.now().strftime("%Y%m%d")
out_path = os.path.join(out_dir, f"fracciones_4digitos_{fecha}.xlsx")

if resultado.empty:
    # imprime muestra para depurar
    muestra = df[col_frac].astype(str).head(20).tolist()
    print("⚠️ No se encontraron valores de 2 niveles en la columna elegida.")
    print("🔎 Muestra cruda de esa columna:", muestra)
else:
    try:
        resultado.to_excel(out_path, index=False)
    except Exception as e:
        raise SystemExit(f"❌ Error exportando: {e}")
    print(f"✅ Exportados (solo xx.xx): {len(resultado)}")
    print(f"📄 Archivo: {out_path}")