<a href="https://colab.research.google.com/github/MocT117/Another-one-/blob/master/Untitled24.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

# -*- coding: utf-8 -*-
# Requisitos: pandas, openpyxl
# pip install pandas openpyxl

import os, re
from datetime import datetime
import pandas as pd

# === Ruta del archivo ===
# Ejemplos:
# INPUT_PATH = r"C:\Users\tu_usuario\Downloads\TIGIE.xlsx"
INPUT_PATH = "raw_data/TIGIE.xlsx"

BASE_DIR = os.path.dirname(os.path.abspath(__file__))
INPUT_PATH = os.path.join(BASE_DIR, INPUT_PATH)

# ----------------- utilidades -----------------
def _norm(s: str) -> str:
    """Normaliza texto (minúsculas, sin acentos, espacios colapsados)."""
    import unicodedata
    s = "" if s is None else str(s)
    s = "".join(c for c in unicodedata.normalize("NFD", s.lower())
                if unicodedata.category(c) != "Mn")
    return re.sub(r"\s+", " ", s).strip()

def _extract_xx_xx_or_none(value) -> str | None:
    """
    Devuelve una versión ESTANDARIZADA 'xx.xx' si el valor representa EXACTAMENTE 2 niveles.
    Reglas aceptadas:
      - '01.01' → '01.01'
      - '0101'  → '01.01'
      - '1.1'   → '01.01'
    Rechaza si trae más niveles (p. ej., '0101.21.01') o formatos raros.
    """
    if value is None:
        return None

    s = str(value).strip()

    # Si viene como número (e.g., 101.21), convertir a string cruda sin formatos
    # Quitar espacios, mantener dígitos y puntos
    s = "".join(ch for ch in s if ch.isdigit() or ch == ".")

    if not s:
        return None

    # Caso A: '0101' (4 dígitos contiguos)
    if re.fullmatch(r"\d{4}", s):
        a, b = s[:2], s[2:]
        return f"{int(a):02d}.{int(b):02d}"

    # Caso B: con puntos. Extrae tokens numéricos
    tokens = re.findall(r"\d+", s)

    # EXACTAMENTE 2 niveles, cada uno de 1-2 dígitos (ej. '1.1', '01.01', '1.12', '12.1')
    if len(tokens) == 2 and all(1 <= len(t) <= 2 for t in tokens):
        a, b = tokens[0], tokens[1]
        return f"{int(a):02d}.{int(b):02d}"

    # Cualquier otra cosa (incluye 3+ niveles como '0101.21.01') -> no válido
    return None

# ----------------- lectura y detección de cabecera -----------------
try:
    raw = pd.read_excel(INPUT_PATH, sheet_name=0, header=None, dtype=object)
except FileNotFoundError:
    raise SystemExit(f"❌ No se encontró el archivo: {INPUT_PATH}")
except Exception as e:
    raise SystemExit(f"❌ Error leyendo el Excel: {e}")

# Buscar fila de cabecera
CAND_FRAC = ["fraccion arancelaria", "fraccion", "fa", "hs code", "hs", "partida", "tarifa"]
CAND_DESC = ["descripcion", "descripción", "description", "desc"]

header_row = None
max_scan = min(60, len(raw))
for i in range(max_scan):
    norms = [_norm(v) for v in raw.iloc[i].astype(str).tolist()]
    has_frac = any(any(k in n for k in CAND_FRAC) for n in norms)
    has_desc = any(any(k in n for k in CAND_DESC) for n in norms)
    if has_frac and has_desc:
        header_row = i
        break

if header_row is None:
    # respaldo si no lo detecta automáticamente
    header_row = 4  # ajusta si tu formato cambia

header = raw.iloc[header_row].tolist()
df = raw.iloc[header_row + 1:].copy()
df.columns = header
df = df.reset_index(drop=True)

# ----------------- localizar columnas objetivo -----------------
norm_map = {_norm(c): c for c in df.columns}
col_frac = next((norm_map[n] for n in norm_map if any(k in n for k in CAND_FRAC)), None)
col_desc = next((norm_map[n] for n in norm_map if any(k in n for k in CAND_DESC)), None)

if not col_frac:
    raise SystemExit(f"❌ No encontré la columna de Fracción Arancelaria. Columnas: {list(df.columns)}")
if not col_desc:
    raise SystemExit(f"❌ No encontré la columna de Descripción. Columnas: {list(df.columns)}")

# ----------------- normalización y filtro -----------------
tmp = df[[col_frac, col_desc]].copy()
tmp["__fa_2lvl__"] = tmp[col_frac].map(_extract_xx_xx_or_none)

# Filtra solo las filas que se pudieron normalizar a xx.xx
resultado = (
    tmp.loc[tmp["__fa_2lvl__"].notna(), [col_frac, col_desc]]
       .rename(columns={col_frac: "Fracción Arancelaria", col_desc: "Descripción"})
       .drop_duplicates()
       .reset_index(drop=True)
)

# ----------------- exportación -----------------
out_dir = os.path.join(BASE_DIR, "output")
os.makedirs(out_dir, exist_ok=True)
fecha = datetime.now().strftime("%Y%m%d")
out_path = os.path.join(out_dir, f"fracciones_4digitos_{fecha}.xlsx")

if resultado.empty:
    print("⚠️ No se detectaron fracciones de 2 niveles (xx.xx). Revisa si la columna trae 3+ niveles.")
else:
    try:
        resultado.to_excel(out_path, index=False)
    except Exception as e:
        raise SystemExit(f"❌ Error exportando el Excel: {e}")
    print(f"✅ Listo. Registros: {len(resultado)}")
    print(f"📄 Archivo generado: {out_path}")