<a href="https://colab.research.google.com/github/MocT117/Another-one-/blob/master/Untitled21.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

# -*- coding: utf-8 -*-
"""
Filtra fracciones arancelarias con 4 dígitos (formato xx.xx) y exporta Excel.

Requisitos:
- pandas
- openpyxl (para escribir .xlsx)
"""

import os
import re
from datetime import datetime
from typing import Tuple

import pandas as pd


def _normalize_colname(s: str) -> str:
    """Normaliza nombre de columna: minúsculas, sin acentos y sin espacios extra."""
    import unicodedata
    s = "".join(
        c for c in unicodedata.normalize("NFD", s.lower())
        if unicodedata.category(c) != "Mn"
    )
    return re.sub(r"\s+", " ", s).strip()


def find_target_columns(columns) -> Tuple[str, str]:
    """
    Busca columnas 'Fracción Arancelaria' y 'Descripción' de forma robusta.
    Devuelve (col_fraccion, col_descripcion). Lanza ValueError si no encuentra.
    """
    norm_map = {_normalize_colname(c): c for c in columns}
    # Variantes comunes
    candid_fraccion = [
        "fraccion arancelaria", "fraccion", "fracción arancelaria",
        "fa", "partida", "hs code", "hs", "tarifa"
    ]
    candid_desc = ["descripcion", "descripción", "description", "desc"]

    col_f = next((norm_map[n] for n in norm_map if any(k in n for k in candid_fraccion)), None)
    col_d = next((norm_map[n] for n in norm_map if any(k in n for k in candid_desc)), None)

    if not col_f:
        raise ValueError(
            "No se encontró la columna de 'Fracción Arancelaria'. "
            f"Columnas disponibles: {list(columns)}"
        )
    if not col_d:
        raise ValueError(
            "No se encontró la columna de 'Descripción'. "
            f"Columnas disponibles: {list(columns)}"
        )
    return col_f, col_d


def clean_fa(value: object) -> str:
    """
    Limpia una fracción arancelaria a string:
    - elimina espacios
    - elimina puntos finales redundantes
    - deja solo dígitos y puntos en el orden original
    """
    s = str(value).strip()
    # quitar caracteres no deseados alrededor
    s = s.strip(". ")
    # colapsar espacios
    s = re.sub(r"\s+", "", s)
    # mantener solo dígitos y puntos
    s = "".join(ch for ch in s if ch.isdigit() or ch == ".")
    return s


def is_four_digit_pattern(s: str) -> bool:
    """Regresa True si la fracción está EXACTAMENTE en formato xx.xx (2 dígitos . 2 dígitos)."""
    return bool(re.fullmatch(r"\d{2}\.\d{2}", s))


def filter_fractions_4digits(df: pd.DataFrame, col_f: str, col_d: str) -> pd.DataFrame:
    """
    Filtra el DataFrame por fracciones con patrón xx.xx y devuelve solo dos columnas.
    No falla si hay NaN o formatos distintos: simplemente los excluye.
    """
    tmp = df[[col_f, col_d]].copy()

    # Limpia y valida fracción
    tmp["__fa_clean__"] = tmp[col_f].map(clean_fa)

    mask = tmp["__fa_clean__"].map(is_four_digit_pattern)
    out = tmp.loc[mask, [col_f, col_d]].rename(
        columns={col_f: "Fracción Arancelaria", col_d: "Descripción"}
    )

    # Quitar duplicados si existieran
    out = out.drop_duplicates().reset_index(drop=True)
    return out


def export_to_excel(df: pd.DataFrame, output_dir: str = "output", base_name: str = "fracciones_4digitos") -> str:
    """Guarda el DataFrame en output/<base_name>_<YYYYMMDD>.xlsx y devuelve la ruta."""
    os.makedirs(output_dir, exist_ok=True)
    stamp = datetime.now().strftime("%Y%m%d")
    path = os.path.join(output_dir, f"{base_name}_{stamp}.xlsx")
    df.to_excel(path, index=False)  # requiere openpyxl instalado
    return path


def main(input_path: str, sheet_name=0):
    """
    Flujo principal:
    1) Lee Excel
    2) Detecta columnas objetivo
    3) Filtra fracciones con patrón xx.xx
    4) Exporta resultado a Excel
    """
    try:
        df = pd.read_excel(input_path, sheet_name=sheet_name, dtype=object)  # dtype=object para no perder ceros a la izquierda
    except FileNotFoundError:
        raise SystemExit(f"❌ No se encontró el archivo: {input_path}")
    except Exception as e:
        raise SystemExit(f"❌ Error leyendo el Excel: {e}")

    try:
        col_f, col_d = find_target_columns(df.columns)
    except ValueError as e:
        raise SystemExit(f"❌ {e}")

    result = filter_fractions_4digits(df, col_f, col_d)

    if result.empty:
        print("⚠️ No se encontraron fracciones en formato xx.xx. Revisa el archivo de entrada.")
    else:
        out_path = export_to_excel(result)
        print(f"✅ Listo. Registros: {len(result)}")
        print(f"📄 Archivo generado: {out_path}")


# === Cómo usar ===
# Ajusta la ruta (relativa al proyecto / Colab):
#   - Sube el archivo a la carpeta 'raw_data/' (ej. 'raw_data/catalogo_fa.xlsx')
#   - Si tu hoja no es la primera, pasa el nombre/índice en sheet_name.
# main("raw_data/catalogo_fa.xlsx", sheet_name=0)