# ETL UNICOS desde XLSX Multi-Hoja

Este notebook carga un archivo Excel con m√∫ltiples hojas, extrae registros de recurso
(Equipos, Mano de Obra, Materiales, Transporte) clasificados por primera letra,
y genera un DataFrame final UNICOS con deduplicaci√≥n y normalizaci√≥n.

**Entrada**: Archivo .xlsx con 100+ hojas num√©ricas (001, 002, etc.) y auxiliares (Aux.01, etc.)

**Salida**: DataFrame UNICOS con columnas normalizadas, sin duplicados, ordenado.


## üìò Documento de Reglas y Contrato del ETL UNICOS

### üéØ Objetivo
Unificar recursos desde un Excel multi-hoja en un √∫nico dataset **UNICOS**, extrayendo **Equipos**, **Mano de Obra**, **Materiales** y **Transporte** con sus **unidades**, **precio unitario (tarifa)**, **CPC Elemento**, **NP/ND/EP** y **VAE (%)**.

### ‚úÖ Contrato de Entrada (Excel)
**Formato esperado**:
- Archivo `.xlsx` con m√∫ltiples hojas.
- Hojas num√©ricas con formato `###` (por defecto `001`, `002`, etc.).
- Opcional: hojas auxiliares `Aux.*`.

**Columnas requeridas (por letra)**:
- **A ‚Üí Column1**: C√≥digo o identificador (se usa para clasificar recurso).
- **B ‚Üí Column2**: C√≥digo alterno (si existe).
- **C ‚Üí Column3**: Descripci√≥n.
- **E ‚Üí Column5**: Tarifa (Equipos/Mano de Obra) o Unidad (Materiales/Transporte).
- **G ‚Üí Column7**: Precio unitario (Materiales/Transporte).
- **J ‚Üí Column10**: CPC Elemento.
- **K ‚Üí Column11**: NP/ND/EP.
- **L ‚Üí Column12**: VAE (%).

**Filas inv√°lidas**:
- Vac√≠as en descripci√≥n (Column3).
- Encabezados de secci√≥n (EQUIPOS, MANO DE OBRA, MATERIALES, TRANSPORTE).

### ‚öôÔ∏è Configuraci√≥n
- `sheet_pattern`: regex para hojas num√©ricas. Default `^\d{3}$`.
- `max_sheet`: m√°ximo de hojas a procesar (0 = todas).
- `include_aux`: incluir hojas `Aux.*`.
- `include_otro`: incluir recursos sin clasificaci√≥n (OTRO).
- `CODE_PATTERN`: regex para extraer c√≥digo si viene embebido en texto.

### üß† Reglas de Clasificaci√≥n (RECURSO)
Se clasifica por la **primera letra** del c√≥digo detectado:
- `M` ‚Üí EQUIPO
- `N` ‚Üí MANO DE OBRA
- `O` ‚Üí MATERIAL
- `P` ‚Üí TRANSPORTE
- Otro ‚Üí OTRO

### üîé Reglas de Extracci√≥n
- **DESCRIPCION**: Column3 (limpia).
- **PRECIO UNITARIO**:
  - Equipos y Mano de Obra ‚Üí Column5 (tarifa/costo hora)
  - Materiales y Transporte ‚Üí Column7 (precio unitario)
- **UNIDAD**:
  - Equipos y Mano de Obra ‚Üí vac√≠o
  - Materiales y Transporte ‚Üí Column5
- **CPC ELEMENTO**: Column10
- **NP/ND/EP**: Column11
- **VAE (%)**: Column12 (se mantiene como porcentaje num√©rico, ej. 40.0)

> Equipos y Mano de Obra tienen adem√°s **Rendimiento (h/U)** en el Excel,
> pero **no se exporta** en la salida final a menos que se solicite.

### üîß Normalizaci√≥n
- **N√∫meros**: acepta formatos `1,234.56`, `1.234,56`, `10%`.
- **Texto**: se limpia con `strip()`.

### üß© Agrupaci√≥n y Unificaci√≥n (UNICOS)
- Se concatenan todas las hojas v√°lidas.
- Se eliminan duplicados seg√∫n columnas finales.
- Orden final por **DESCRIPCION**.

### üì§ Salida Final (UNICOS)
**Columnas esperadas** (sin c√≥digo ni hoja):
- `DESCRIPCION`
- `UNIDAD` (si aplica)
- `PRECIO UNITARIO`
- `CPC ELEMENTO`
- `NP/ND/EP`
- `VAE (%)`
- `RECURSO`

---

### üó∫Ô∏è Diagrama del Flujo ETL (Mermaid)

```mermaid
flowchart TD
    A[Inicio] --> B[Cargar archivo Excel]
    B --> C[Seleccionar hojas por patr√≥n ### y Aux.*]
    C --> D[Leer columnas A,B,C,E,G,J,K,L]
    D --> E[Filtrar filas inv√°lidas y encabezados]
    E --> F[Detectar c√≥digo y clasificar recurso]
    F --> G[Extraer descripci√≥n, unidad y precio unitario]
    G --> H[Normalizar texto y n√∫meros]
    H --> I[Concatenar todas las hojas]
    I --> J[Eliminar duplicados]
    J --> K[Ordenar por descripci√≥n]
    K --> L[Exportar UNICOS]
```


In [19]:
# %% Setup de entorno
# Esta celda prepara el entorno del notebook:
# 1) Verifica/instala dependencias
# 2) Detecta librerias opcionales
# 3) Importa todo lo necesario para el ETL

import sys
import os
import re
import time
from pathlib import Path
from typing import Dict, List, Tuple, Optional, Set
import warnings
import subprocess
import importlib.util
warnings.filterwarnings('ignore')

print("\n" + "="*60)
print("SETUP: Instalando dependencias...")
print("="*60)
print(f"Python executable: {sys.executable}")
print(f"Python version: {sys.version.split()[0]}")

# Paquetes requeridos para el flujo principal
required_packages = {
    'pandas': 'pandas',
    'numpy': 'numpy',
    'openpyxl': 'openpyxl',
    'ipywidgets': 'ipywidgets',
}

def install_if_missing(package_name, import_name=None):
    """Instala el paquete solo si no existe en el kernel actual."""
    import_name = import_name or package_name
    if importlib.util.find_spec(import_name) is not None:
        print(f"‚úì {package_name} ya est√° instalado")
        return

    print(f"‚è≥ Instalando {package_name}...")
    try:
        # Importante: usar sys.executable asegura instalar en el mismo kernel
        result = subprocess.run(
            [sys.executable, "-m", "pip", "install", "-q", package_name],
            capture_output=True,
            text=True,
            check=True,
        )
        if result.stdout.strip():
            print(result.stdout.strip())
        if result.stderr.strip():
            print(result.stderr.strip())
        print(f"‚úì {package_name} instalado")
    except subprocess.CalledProcessError as e:
        print(f"‚úó Error instalando {package_name}")
        if e.stdout:
            print(e.stdout)
        if e.stderr:
            print(e.stderr)
        raise

    # Verificar import despu√©s de instalar
    if importlib.util.find_spec(import_name) is None:
        raise ImportError(f"No se pudo importar {import_name} despu√©s de la instalaci√≥n")

# Instalar/verificar requeridos
for pkg, imp in required_packages.items():
    install_if_missing(pkg, imp)

# Opcional: python-calamine para lectura ultra r√°pida
print("\n‚è≥ Verificando python-calamine (lectura ultra-rapida)...")
try:
    import calamine
    CALAMINE_AVAILABLE = True
    print("‚úì python-calamine disponible")
except ImportError:
    CALAMINE_AVAILABLE = False
    print("‚Ñπ python-calamine no disponible (usando openpyxl)")
    print("  Para instalar: pip install python-calamine")

# Opcional: itables para visualizaci√≥n interactiva
print("\n‚è≥ Verificando itables (visor interactivo)...")
try:
    import itables
    ITABLES_AVAILABLE = True
    print("‚úì itables disponible")
except ImportError:
    ITABLES_AVAILABLE = False
    print("‚Ñπ itables no disponible")
    print("  Para instalar: pip install itables")

# Importar dependencias luego de instalarlas
import pandas as pd
import numpy as np

import ipywidgets as widgets
from ipywidgets import FileUpload, VBox, HBox, Button, Label, HTML, Output, IntText, Text, Checkbox

print("\n" + "="*60)
print("‚úì Entorno configurado correctamente")
print("="*60 + "\n")



SETUP: Instalando dependencias...
Python executable: /home/codevars/Projects/ETL_EXCEL APUS/.venv/bin/python
Python version: 3.12.3
‚úì pandas ya est√° instalado
‚úì numpy ya est√° instalado
‚úì openpyxl ya est√° instalado
‚úì ipywidgets ya est√° instalado

‚è≥ Verificando python-calamine (lectura ultra-rapida)...
‚Ñπ python-calamine no disponible (usando openpyxl)
  Para instalar: pip install python-calamine

‚è≥ Verificando itables (visor interactivo)...
‚Ñπ itables no disponible
  Para instalar: pip install itables

‚úì Entorno configurado correctamente



In [None]:
# %% Configuraci√≥n de carpeta de entrada y carga de archivos

import shutil
from IPython.display import display, clear_output

# Crear carpeta de entrada si no existe
INPUT_FOLDER = Path('./input')
INPUT_FOLDER.mkdir(exist_ok=True)

OUTPUT_FOLDER = Path('./output')
OUTPUT_FOLDER.mkdir(exist_ok=True)

# Diccionario global para almacenar la ruta actual del archivo
current_file_path = {'path': None}

print("="*70)
print("üìÅ CONFIGURACI√ìN DE CARPETAS")
print("="*70)
print(f"Carpeta de entrada: {INPUT_FOLDER.absolute()}")
print(f"Carpeta de salida: {OUTPUT_FOLDER.absolute()}")

# UI para cargar archivo desde carpeta de entrada
input_output = Output()
input_status = Output()

input_file_upload = FileUpload(
    accept='.xlsx',
    multiple=False,
    description='üì§ Selecciona tu Excel:',
    layout=widgets.Layout(width='500px')
)

def list_input_files():
    """Lista archivos Excel en la carpeta de entrada."""
    excel_files = list(INPUT_FOLDER.glob('*.xlsx')) + list(INPUT_FOLDER.glob('*.xls'))
    return excel_files

def handle_input_upload(change):
    """Guarda el archivo en la carpeta de entrada."""
    input_status.clear_output()
    if input_file_upload.value:
        # ipywidgets >= 8.0 devuelve una tupla de diccionarios
        uploaded_files = input_file_upload.value
        if isinstance(uploaded_files, tuple):
            for file_info in uploaded_files:
                filename = file_info.get('name', 'archivo.xlsx')
                content = file_info.get('content', b'')
                input_path = INPUT_FOLDER / filename
                with open(input_path, 'wb') as f:
                    f.write(content)
                current_file_path['path'] = str(input_path)
                with input_status:
                    print(f"‚úÖ Archivo cargado: {filename}")
                    print(f"üìç Ubicaci√≥n: {input_path.absolute()}")
        else:
            # Versiones anteriores de ipywidgets
            for filename, filedata in uploaded_files.items():
                input_path = INPUT_FOLDER / filename
                with open(input_path, 'wb') as f:
                    f.write(filedata['content'])
                current_file_path['path'] = str(input_path)
                with input_status:
                    print(f"‚úÖ Archivo cargado: {filename}")
                    print(f"üìç Ubicaci√≥n: {input_path.absolute()}")

input_file_upload.observe(handle_input_upload, names='value')

# Bot√≥n para limpiar carpeta
clean_button = Button(
    description='üóëÔ∏è Limpiar entrada',
    button_style='warning',
    layout=widgets.Layout(width='150px')
)

def on_clean_click(b):
    """Limpia la carpeta de entrada."""
    with input_status:
        input_status.clear_output()
        try:
            if list(INPUT_FOLDER.glob('*')):
                shutil.rmtree(INPUT_FOLDER)
                INPUT_FOLDER.mkdir(exist_ok=True)
                current_file_path['path'] = None
                print("‚úÖ Carpeta de entrada limpiada")
            else:
                print("‚ÑπÔ∏è La carpeta ya est√° vac√≠a")
        except Exception as e:
            print(f"‚ùå Error al limpiar: {e}")

clean_button.on_click(on_clean_click)

# Bot√≥n para listar archivos
list_button = Button(
    description='üìã Listar archivos',
    button_style='info',
    layout=widgets.Layout(width='150px')
)

def on_list_click(b):
    """Lista los archivos en la carpeta de entrada."""
    with input_status:
        input_status.clear_output()
        files = list_input_files()
        if files:
            print("üìÇ Archivos en la carpeta de entrada:\n")
            for i, f in enumerate(files, 1):
                size_mb = f.stat().st_size / (1024*1024)
                selected = " ‚Üê SELECCIONADO" if current_file_path['path'] == str(f) else ""
                print(f"  {i}. {f.name} ({size_mb:.2f} MB){selected}")
        else:
            print("üì≠ No hay archivos Excel en la carpeta de entrada")

list_button.on_click(on_list_click)

# Construir panel de carga
input_ui = VBox([
    HTML('<h3>üì• Carga de Archivo</h3>'),
    input_file_upload,
    HBox([clean_button, list_button]),
    input_status
])

print("\n")
display(input_ui)

print("\n" + "="*70)
print("‚úÖ Carpeta de entrada configurada correctamente")
print("="*70 + "\n")


üìÅ CONFIGURACI√ìN DE CARPETAS
Carpeta de entrada: /home/codevars/Projects/ETL_EXCEL APUS/input
Carpeta de salida: /home/codevars/Projects/ETL_EXCEL APUS/output




VBox(children=(HTML(value='<h3>üì• Carga de Archivo</h3>'), FileUpload(value=(), accept='.xlsx', description='üì§ ‚Ä¶


‚úÖ Carpeta de entrada configurada correctamente



In [21]:
# %% Configuraci√≥n global
# Mapeo de columnas del Excel hacia nombres internos
# Nota: solo se leen columnas espec√≠ficas para optimizar rendimiento.
COLUMN_MAPPING = {
    'A': 'Column1',
    'B': 'Column2',
    'C': 'Column3',
    'E': 'Column5',
    'G': 'Column7',
    'J': 'Column10',
    'K': 'Column11',
    'L': 'Column12',
}

# Clasificaci√≥n por primera letra
RESOURCE_TYPE_MAP = {
    'M': 'EQUIPO',
    'N': 'MANO DE OBRA',
    'O': 'MATERIAL',
    'P': 'TRANSPORTE',
}

# Regex para detectar c√≥digos embebidos (ej: M.01, N02, O-03)
CODE_PATTERN = r'([MNOP])\s*[\.-]?\s*\d+'

# Patrones de encabezados que deben excluirse
SECTION_HEADERS_PATTERNS = [
    r'^EQUIPOS',
    r'^MANO\s+DE\s+OBRA',
    r'^MATERIALES?',
    r'^TRANSPORTE',
]

def is_section_header(text: str) -> bool:
    """Detecta si un texto es un encabezado de secci√≥n."""
    if pd.isna(text) or text == '':
        return False
    text_upper = str(text).strip().upper()
    for pattern in SECTION_HEADERS_PATTERNS:
        if re.match(pattern, text_upper):
            return True
    return False

print("‚úì Configuraci√≥n global cargada")


‚úì Configuraci√≥n global cargada


In [22]:
# %% Exportaci√≥n
def export_results():
    """Exporta UNICOS a CSV y XLSX."""
    global df_unicos

    if 'df_unicos' not in globals() or df_unicos is None or df_unicos.empty:
        print("‚ö† No hay resultados para exportar. Ejecuta primero el ETL.")
        return

    csv_path = csv_path_text.value
    xlsx_path = xlsx_path_text.value

    try:
        # Exportar CSV
        df_unicos.to_csv(csv_path, index=False, encoding='utf-8-sig')
        print(f"‚úì CSV exportado: {csv_path}")

        # Exportar XLSX
        with pd.ExcelWriter(xlsx_path, engine='openpyxl') as writer:
            df_unicos.to_excel(writer, sheet_name='UNICOS', index=False)
        print(f"‚úì XLSX exportado: {xlsx_path}")

        print(f"\nüì¶ Archivos de salida:")
        print(f"   CSV:  {os.path.abspath(csv_path)}")
        print(f"   XLSX: {os.path.abspath(xlsx_path)}")

    except Exception as e:
        print(f"‚ùå Error en exportaci√≥n: {e}")

print("‚úì export_results() disponible")


‚úì export_results() disponible


In [23]:
# %% (Opcional) Carga directa desde ruta
# Solo usa esto si prefieres especificar una ruta en lugar del widget
# Deja vac√≠o para usar el widget de carga

xlsx_path_manual = ""  # Ejemplo: "input/mi_archivo.xlsx"

if xlsx_path_manual:
    path_obj = Path(xlsx_path_manual)
    if path_obj.exists():
        current_file_path['path'] = str(path_obj.absolute())
        print(f"‚úì Ruta configurada: {path_obj.absolute()}")
    else:
        print(f"‚ö†Ô∏è Archivo no encontrado: {xlsx_path_manual}")
else:
    print("‚ÑπÔ∏è Usando widget de carga (celda anterior)")


‚ÑπÔ∏è Usando widget de carga (celda anterior)


In [24]:
# %% Funciones ETL - Selecci√≥n de hojas
def pick_sheets(
    xlsx_path: str,
    sheet_pattern: str = r'^\d{3}$',
    max_sheet: int = None,
    include_aux: bool = True
) -> List[str]:
    """
    Selecciona hojas seg√∫n patr√≥n regex y l√≠mite.
    Respeta el orden original del archivo.
    """
    try:
        excel_file = pd.ExcelFile(xlsx_path)
        all_sheets = excel_file.sheet_names
    except Exception as e:
        print(f"‚ùå Error abriendo {xlsx_path}: {e}")
        return []

    # Compilar regex del patr√≥n de hojas
    try:
        pattern = re.compile(sheet_pattern)
    except Exception:
        print(f"‚ùå Patr√≥n regex inv√°lido: {sheet_pattern}")
        return []

    # Hojas num√©ricas (seg√∫n patr√≥n)
    numeric_sheets = [s for s in all_sheets if pattern.match(s)]

    # Hojas auxiliares
    aux_sheets = [s for s in all_sheets if s.startswith('Aux.')] if include_aux else []

    # Combinar respetando orden original del archivo
    selected = [s for s in all_sheets if s in numeric_sheets or s in aux_sheets]

    # Limitar cantidad de hojas si se pide
    if max_sheet and max_sheet > 0:
        selected = selected[:max_sheet]

    return selected

print("‚úì pick_sheets() cargado")


‚úì pick_sheets() cargado


In [25]:
# %% Funciones ETL - Lectura eficiente
def read_sheet_fast(
    xlsx_path: str,
    sheet_name: str,
    column_mapping: Dict[str, str] = COLUMN_MAPPING
) -> Optional[pd.DataFrame]:
    """
    Lee solo columnas necesarias de una hoja.
    Intenta calamine primero (r√°pido), fallback a openpyxl.
    """
    try:
        # Intentar con python-calamine si est√° disponible
        if CALAMINE_AVAILABLE:
            try:
                from calamine import load_workbook
                wb = load_workbook(xlsx_path)
                ws = wb.sheet_by_name(sheet_name)

                # Indices 0-based para columnas A, B, C, E, G, J, K, L
                col_indices = {'A': 0, 'B': 1, 'C': 2, 'E': 4, 'G': 6, 'J': 9, 'K': 10, 'L': 11}
                data = {}

                for col_letter, col_name in column_mapping.items():
                    col_idx = col_indices[col_letter]
                    col_data = []
                    for row in ws.rows():
                        if col_idx < len(row):
                            cell = row[col_idx]
                            col_data.append(cell.value if hasattr(cell, 'value') else cell)
                        else:
                            col_data.append(None)
                    data[col_name] = col_data

                df = pd.DataFrame(data)
                return df
            except Exception:
                # Si falla calamine, se intenta openpyxl
                pass

        # Fallback: openpyxl
        from openpyxl import load_workbook
        wb = load_workbook(xlsx_path, data_only=True, read_only=True)
        ws = wb[sheet_name]

        # Construir columnas vac√≠as
        col_letters = list(column_mapping.keys())
        data = {column_mapping[col]: [] for col in col_letters}

        # Recorrer filas y extraer columnas clave
        for row in ws.iter_rows(min_col=1, max_col=12, values_only=False):
            for col_letter, col_name in column_mapping.items():
                col_idx = ord(col_letter) - ord('A')
                if col_idx < len(row):
                    cell = row[col_idx]
                    value = cell.value if hasattr(cell, 'value') else cell
                    data[col_name].append(value)
                else:
                    data[col_name].append(None)

        wb.close()
        df = pd.DataFrame(data)
        return df

    except Exception:
        # En caso de fallo, devolvemos None para que el flujo contin√∫e
        return None

print("‚úì read_sheet_fast() cargado")


‚úì read_sheet_fast() cargado


In [26]:
# %% Funciones ETL - Filtrado y clasificaci√≥n
def filter_rows(df: pd.DataFrame) -> pd.DataFrame:
    """
    Excluye:
    - Filas con descripci√≥n vac√≠a (Column3)
    - Encabezados de secci√≥n
    """
    # Filtrar nulos/vac√≠os en descripci√≥n
    df = df[df['Column3'].notna() & (df['Column3'] != '')]

    # Excluir encabezados de secci√≥n (por Column1 o Column3)
    df = df[~df['Column1'].astype(str).apply(is_section_header)]
    df = df[~df['Column3'].astype(str).apply(is_section_header)]

    return df.reset_index(drop=True)

def extract_code(row_dict: Dict) -> str:
    """
    Intenta extraer el c√≥digo desde Column1/Column2/Column3.
    Si no encuentra patr√≥n, devuelve texto normalizado del campo m√°s confiable.
    """
    candidates = [row_dict.get('Column1', ''), row_dict.get('Column2', ''), row_dict.get('Column3', '')]
    for val in candidates:
        if pd.isna(val) or val == '':
            continue
        m = re.search(CODE_PATTERN, str(val).upper())
        if m:
            return m.group(0).replace(' ', '')

    # Fallback: usar Column1/Column2 sin patr√≥n
    fallback = normalize_text_field(row_dict.get('Column1', '')) or normalize_text_field(row_dict.get('Column2', ''))
    return fallback

def classify_resource(code_or_text: str) -> str:
    """Clasifica recurso por primera letra encontrada."""
    text = str(code_or_text).upper() if code_or_text else ''
    if text:
        letter = text[0]
        return RESOURCE_TYPE_MAP.get(letter, 'OTRO')
    return 'OTRO'

def normalize_numeric(value, is_percentage=False) -> float:
    """
    Normaliza valores num√©ricos con m√∫ltiples formatos:
    - "1,234.56", "1.234,56", "1234,56", "1234.56", "10%", "0.1"

    Nota: si is_percentage=True, convierte 40 -> 0.40
    """
    if pd.isna(value) or value == '':
        return 0.0

    value_str = str(value).strip()

    # Quitar s√≠mbolo % si existe (pero no convertir autom√°ticamente)
    if '%' in value_str:
        value_str = value_str.replace('%', '').strip()

    # Detectar separador decimal (coma o punto)
    comma_count = value_str.count(',')
    dot_count = value_str.count('.')

    try:
        if comma_count > 1 or dot_count > 1:
            if ',' in value_str and '.' in value_str:
                # Decide si el √∫ltimo separador es decimal
                if value_str.rindex(',') > value_str.rindex('.'):
                    # Formato: 1.234,56
                    value_str = value_str.replace('.', '').replace(',', '.')
                else:
                    # Formato: 1,234.56
                    value_str = value_str.replace(',', '')
            elif comma_count > 1:
                # M√∫ltiples comas: las primeras son miles
                value_str = value_str.replace(',', '.', comma_count - 1).replace(',', '.')
        elif comma_count == 1 and dot_count == 0:
            # Podr√≠a ser 1,5 o 1.500 dependiendo del locale
            parts = value_str.split(',')
            if len(parts[1]) > 2:
                value_str = value_str.replace(',', '')
            else:
                value_str = value_str.replace(',', '.')

        result = float(value_str)

        # Si se pide convertir porcentaje a fracci√≥n
        if is_percentage:
            result = result / 100.0

        return result
    except Exception:
        return 0.0

def normalize_text_field(value) -> str:
    """Normaliza campos de texto."""
    if pd.isna(value) or value == '':
        return ''
    return str(value).strip()

print("‚úì Funciones de filtrado cargadas")


‚úì Funciones de filtrado cargadas


In [27]:
# %% Funciones ETL - Procesamiento de filas
def process_row(row_dict: Dict) -> Optional[Dict]:
    """Procesa una fila y devuelve dict normalizado o None si no es v√°lida."""
    try:
        # Extraer columnas seg√∫n el mapeo
        col1 = row_dict.get('Column1', '')
        col2 = row_dict.get('Column2', '')
        col3 = row_dict.get('Column3', '')
        col5 = row_dict.get('Column5', '')
        col7 = row_dict.get('Column7', '')
        col10 = row_dict.get('Column10', '')
        col11 = row_dict.get('Column11', '')
        col12 = row_dict.get('Column12', '')

        # Validaci√≥n: debe haber descripci√≥n
        if pd.isna(col3) or col3 == '':
            return None

        # Excluir encabezados
        if is_section_header(col1) or is_section_header(col3):
            return None

        # Detectar c√≥digo y clasificar recurso
        codigo = extract_code(row_dict)
        recurso = classify_resource(codigo)

        # DESCRIPCION
        descripcion = normalize_text_field(col3)

        # PRECIO UNITARIO y UNIDAD seg√∫n RECURSO
        if recurso in ('EQUIPO', 'MANO DE OBRA'):
            # Tarifa/costo hora
            precio_unitario = normalize_numeric(col5)
            unidad = ''
        else:  # MATERIAL, TRANSPORTE, OTRO
            precio_unitario = normalize_numeric(col7)
            unidad = normalize_text_field(col5)

        # Otros campos
        cpc = normalize_text_field(col10)
        np_nd = normalize_text_field(col11)
        vae = normalize_numeric(col12, is_percentage=False)

        result = {
            'DESCRIPCION': descripcion,
            'UNIDAD': unidad,
            'PRECIO UNITARIO': precio_unitario,
            'CPC ELEMENTO': cpc,
            'NP/ND/EP': np_nd if np_nd else '',
            'VAE (%)': vae,
            'RECURSO': recurso
        }

        return result
    except Exception:
        # Si algo falla en una fila, no detener todo el ETL
        return None

print("‚úì process_row() cargado")


‚úì process_row() cargado


In [28]:
# %% Funciones ETL - Construcci√≥n del dataset UNICOS
def build_unicos(
    all_rows: List[Dict],
    include_otro: bool = False
) -> pd.DataFrame:
    """
    Construye DataFrame UNICOS final:
    - Concatena todas las filas
    - Deduplicaci√≥n
    - Normalizaci√≥n
    - Ordenamiento
    """
    if not all_rows:
        print("‚ùå No hay filas para procesar")
        return pd.DataFrame()

    df = pd.DataFrame(all_rows)

    # Excluir OTRO si aplica
    if not include_otro:
        df = df[df['RECURSO'] != 'OTRO']

    # Columnas finales (sin CODIGO ni HOJA)
    final_cols = ['DESCRIPCION', 'UNIDAD', 'PRECIO UNITARIO', 'CPC ELEMENTO', 'NP/ND/EP', 'VAE (%)', 'RECURSO']
    df = df[final_cols]

    # Deduplicaci√≥n exacta de filas
    df = df.drop_duplicates()

    # Normalizaci√≥n post-dedup
    df['NP/ND/EP'] = df['NP/ND/EP'].fillna('').astype(str)
    df['VAE (%)'] = df['VAE (%)'].fillna(0).astype(float)
    df['PRECIO UNITARIO'] = df['PRECIO UNITARIO'].fillna(0).astype(float)
    df['UNIDAD'] = df['UNIDAD'].fillna('').astype(str)

    # Ordenar por DESCRIPCION
    df = df.sort_values('DESCRIPCION', ignore_index=True)

    return df

print("‚úì build_unicos() cargado")


‚úì build_unicos() cargado


In [29]:
# %% Ejecuci√≥n del ETL
def run_etl(
    xlsx_path: str,
    max_sheet: int = None,
    include_aux: bool = True,
    include_otro: bool = False,
    sheet_pattern: str = r'^\d{3}$'
) -> Tuple[pd.DataFrame, Dict]:
    """
    Ejecuta el pipeline ETL completo.
    Devuelve (df_unicos, stats_dict)
    """
    stats = {
        'total_sheets': 0,
        'sheets_ok': 0,
        'sheets_failed': 0,
        'total_rows_extracted': 0,
        'duplicates_removed': 0,
        'final_rows': 0,
        'time_seconds': 0
    }

    start_time = time.time()

    # 1. Seleccionar hojas
    sheets_to_process = pick_sheets(
        xlsx_path,
        sheet_pattern=sheet_pattern,
        max_sheet=max_sheet,
        include_aux=include_aux
    )

    stats['total_sheets'] = len(sheets_to_process)
    print(f"\nüìä Hojas a procesar: {stats['total_sheets']}")
    print(f"   Patr√≥n: {sheet_pattern}")
    print(f"   Include Aux: {include_aux}")
    print(f"   Max: {max_sheet if max_sheet and max_sheet > 0 else 'todas'}\n")

    all_rows = []

    # 2. Procesar cada hoja
    for i, sheet_name in enumerate(sheets_to_process, 1):
        print(f"[{i:3d}/{stats['total_sheets']}] Leyendo '{sheet_name}'...", end=' ')

        df = read_sheet_fast(xlsx_path, sheet_name)

        if df is None or df.empty:
            print("‚ö† Vac√≠a o error")
            stats['sheets_failed'] += 1
            continue

        # Filtrar filas v√°lidas
        df = filter_rows(df)

        if df.empty:
            print("‚ö† Sin filas v√°lidas")
            stats['sheets_failed'] += 1
            continue

        # Procesar cada fila
        sheet_rows = 0
        for _, row in df.iterrows():
            processed = process_row(row.to_dict())
            if processed:
                all_rows.append(processed)
                sheet_rows += 1

        stats['sheets_ok'] += 1
        stats['total_rows_extracted'] += sheet_rows
        print(f"‚úì {sheet_rows} filas")

    # 3. Construir UNICOS
    print(f"\nüîÑ Deduplicando {stats['total_rows_extracted']} filas...")
    df_unicos = build_unicos(all_rows, include_otro=include_otro)

    stats['final_rows'] = len(df_unicos)
    stats['duplicates_removed'] = stats['total_rows_extracted'] - stats['final_rows']
    stats['time_seconds'] = time.time() - start_time

    print(f"\nüìà Resultados:")
    print(f"   Hojas procesadas: {stats['sheets_ok']}/{stats['total_sheets']}")
    print(f"   Filas extra√≠das: {stats['total_rows_extracted']}")
    print(f"   Duplicados removidos: {stats['duplicates_removed']}")
    print(f"   Filas finales (UNICOS): {stats['final_rows']}")
    print(f"   Tiempo: {stats['time_seconds']:.2f}s")

    return df_unicos, stats

print("‚úì run_etl() cargado")


‚úì run_etl() cargado


In [30]:
# %% Callback para ejecutar ETL
def on_execute_click(b):
    # Limpiar salida previa
    output_status.clear_output()

    # Determinar ruta
    xlsx_path = manual_path_text.value.strip() if manual_path_text.value.strip() else current_file_path['path']

    if not xlsx_path:
        with output_status:
            print("‚ùå Por favor sube un archivo o ingresa una ruta manual")
        return

    if not os.path.exists(xlsx_path):
        with output_status:
            print(f"‚ùå Archivo no encontrado: {xlsx_path}")
        return

    with output_status:
        try:
            # Par√°metros desde UI
            max_sheet = max_sheet_input.value if max_sheet_input.value > 0 else None
            include_aux = include_aux_checkbox.value
            include_otro = include_otro_checkbox.value
            sheet_pattern = sheet_pattern_text.value
            csv_path = csv_path_text.value
            xlsx_path_export = xlsx_path_text.value

            # Ejecutar ETL
            df_unicos, stats = run_etl(
                xlsx_path,
                max_sheet=max_sheet,
                include_aux=include_aux,
                include_otro=include_otro,
                sheet_pattern=sheet_pattern
            )

            # Guardar resultado en variables globales
            globals()['df_unicos'] = df_unicos
            globals()['etl_stats'] = stats

            print("\n‚úì ETL ejecutado exitosamente")

            # Vista previa
            print("\nüìã Primeras 10 filas:")
            cols_preview = ['DESCRIPCION', 'UNIDAD', 'PRECIO UNITARIO', 'CPC ELEMENTO', 'NP/ND/EP', 'VAE (%)', 'RECURSO']
            print(df_unicos[cols_preview].head(10).to_string(index=False))

            # Distribuci√≥n por recurso
            print("\nüìä Distribuci√≥n por RECURSO:")
            print(df_unicos['RECURSO'].value_counts().to_string())

        except Exception as e:
            print(f"‚ùå Error en ETL: {e}")
            import traceback
            traceback.print_exc()

# Enlazar bot√≥n con el callback
execute_button.on_click(on_execute_click)

print("‚úì Callback ejecutar ETL asignado")


‚úì Callback ejecutar ETL asignado


In [34]:
# %% ‚ö° VERIFICACI√ìN Y EJECUCI√ìN DIRECTA
# Esta celda te permite ejecutar el ETL SIN usar el bot√≥n
# √ötil para verificar que todo funciona

print("="*70)
print("üîç VERIFICACI√ìN DEL SISTEMA")
print("="*70)

# 1. Verificar archivo cargado
print("\n1Ô∏è‚É£ ARCHIVO CARGADO:")
if current_file_path.get('path'):
    archivo = current_file_path['path']
    if os.path.exists(archivo):
        size_mb = os.path.getsize(archivo) / (1024*1024)
        print(f"   ‚úÖ {archivo}")
        print(f"   üì¶ Tama√±o: {size_mb:.2f} MB")
        
        # Mostrar hojas del archivo
        try:
            excel = pd.ExcelFile(archivo)
            print(f"   üìã Total hojas: {len(excel.sheet_names)}")
            print(f"   üìã Primeras 5: {excel.sheet_names[:5]}")
        except Exception as e:
            print(f"   ‚ö†Ô∏è Error leyendo hojas: {e}")
    else:
        print(f"   ‚ùå Archivo no existe: {archivo}")
else:
    print("   ‚ùå No hay archivo cargado")
    print("   üëÜ Sube un archivo en la celda 2 (widget de carga)")

# 2. Verificar funciones cargadas
print("\n2Ô∏è‚É£ FUNCIONES CARGADAS:")
funciones = ['pick_sheets', 'read_sheet_fast', 'filter_rows', 'run_etl', 'build_unicos']
for f in funciones:
    if f in dir():
        print(f"   ‚úÖ {f}()")
    else:
        print(f"   ‚ùå {f}() - FALTA EJECUTAR CELDAS ANTERIORES")

# 3. Verificar variables globales
print("\n3Ô∏è‚É£ VARIABLES:")
print(f"   INPUT_FOLDER: {INPUT_FOLDER.absolute() if 'INPUT_FOLDER' in dir() else '‚ùå No definida'}")
print(f"   OUTPUT_FOLDER: {OUTPUT_FOLDER.absolute() if 'OUTPUT_FOLDER' in dir() else '‚ùå No definida'}")

print("\n" + "="*70)

# EJECUCI√ìN DIRECTA (descomenta para ejecutar sin bot√≥n)
if current_file_path.get('path') and os.path.exists(current_file_path['path']):
    print("\nüöÄ ¬øQuieres ejecutar el ETL ahora?")
    print("   Descomenta las l√≠neas de abajo y ejecuta esta celda nuevamente")
    print("""
--- DESCOMENTA ESTO PARA EJECUTAR ---
df_unicos, etl_stats = run_etl(
    current_file_path['path'],
    max_sheet=5,  # Solo 5 hojas para prueba r√°pida
    include_aux=True,
    include_otro=False,
    sheet_pattern=r'^\\d{3}$'
)
print("\\n‚úÖ ETL completado! Resultado en: df_unicos")
display(df_unicos.head(10))
""")
else:
    print("\n‚ö†Ô∏è Primero carga un archivo Excel para poder ejecutar el ETL")


üîç VERIFICACI√ìN DEL SISTEMA

1Ô∏è‚É£ ARCHIVO CARGADO:
   ‚úÖ input/00 APUS 9.2 E.T. OTRA VERSI√ìN.xlsx
   üì¶ Tama√±o: 3.79 MB
   üìã Total hojas: 595
   üìã Primeras 5: ['Datos', 'PRES.', 'UNICOS', '√çNDICE', '001']

2Ô∏è‚É£ FUNCIONES CARGADAS:
   ‚úÖ pick_sheets()
   ‚úÖ read_sheet_fast()
   ‚úÖ filter_rows()
   ‚úÖ run_etl()
   ‚úÖ build_unicos()

3Ô∏è‚É£ VARIABLES:
   INPUT_FOLDER: /home/codevars/Projects/ETL_EXCEL APUS/input
   OUTPUT_FOLDER: /home/codevars/Projects/ETL_EXCEL APUS/output


üöÄ ¬øQuieres ejecutar el ETL ahora?
   Descomenta las l√≠neas de abajo y ejecuta esta celda nuevamente

--- DESCOMENTA ESTO PARA EJECUTAR ---
df_unicos, etl_stats = run_etl(
    current_file_path['path'],
    max_sheet=5,  # Solo 5 hojas para prueba r√°pida
    include_aux=True,
    include_otro=False,
    sheet_pattern=r'^\d{3}$'
)
print("\n‚úÖ ETL completado! Resultado en: df_unicos")
display(df_unicos.head(10))



In [32]:
# %% Visor interactivo de resultados
def display_results():
    """Muestra resultados del ETL en formato interactivo."""
    global df_unicos

    if 'df_unicos' not in globals() or df_unicos is None or df_unicos.empty:
        print("‚ö† Ejecuta primero el ETL (bot√≥n verde)")
        return

    print(f"\n{'='*70}")
    print(f"Dataset UNICOS - {len(df_unicos)} filas totales")
    print(f"{'='*70}\n")

    if ITABLES_AVAILABLE:
        print("üìä Usando visor interactivo itables (b√∫squeda, ordenamiento, paginaci√≥n)\n")
        itables.show(df_unicos, maxRows=500)
    else:
        print("üìä Visor est√°ndar (primeras 50 filas):\n")
        pd.set_option('display.max_rows', 50)
        pd.set_option('display.max_columns', None)
        pd.set_option('display.width', None)
        display(df_unicos)
        pd.reset_option('display.max_rows')

print("‚úì display_results() disponible")


‚úì display_results() disponible


In [33]:
# %% Exportaci√≥n de resultados
def export_results(include_hoja_column: bool = False):
    """
    Exporta los resultados del ETL a CSV y XLSX.
    
    Args:
        include_hoja_column: Si True, incluye la columna HOJA en los archivos
    """
    if 'df_unicos' not in globals() or df_unicos is None or len(df_unicos) == 0:
        print("‚ö†Ô∏è No hay resultados para exportar")
        print("Ejecuta primero el ETL")
        return

    csv_path = Path(csv_path_text.value)
    xlsx_path = Path(xlsx_path_text.value)

    # Asegurar que existan las carpetas
    csv_path.parent.mkdir(parents=True, exist_ok=True)
    xlsx_path.parent.mkdir(parents=True, exist_ok=True)

    # Preparar datos para exportar
    df_export = df_unicos.copy()
    if not include_hoja_column and 'HOJA' in df_export.columns:
        df_export = df_export.drop(columns=['HOJA'])

    try:
        # Exportar CSV
        df_export.to_csv(csv_path, index=False, encoding='utf-8-sig')
        print(f"‚úÖ CSV: {csv_path.absolute()}")

        # Exportar XLSX
        with pd.ExcelWriter(xlsx_path, engine='openpyxl') as writer:
            df_export.to_excel(writer, sheet_name='UNICOS', index=False)
        print(f"‚úÖ XLSX: {xlsx_path.absolute()}")

        print(f"\nüì¶ Archivos guardados en carpeta: {OUTPUT_FOLDER.absolute()}")
        
        # Mostrar tama√±os de archivo
        if csv_path.exists():
            csv_size = csv_path.stat().st_size / 1024
            print(f"   üìÑ CSV: {csv_size:.2f} KB")
        if xlsx_path.exists():
            xlsx_size = xlsx_path.stat().st_size / 1024
            print(f"   üìä XLSX: {xlsx_size:.2f} KB")

    except Exception as e:
        print(f"‚ùå Error en exportaci√≥n: {e}")

print("‚úì export_results() disponible")


‚úì export_results() disponible


---

## üéØ Resumen de uso

### Flujo completo:
1. **Ejecuta todas las celdas** desde el principio (Setup ‚Üí Carga ‚Üí Configuraci√≥n ‚Üí Funciones ‚Üí Callback)
2. **Sube tu archivo Excel** usando el widget de carga
3. **Configura par√°metros** si es necesario
4. **Presiona "‚ñ∂Ô∏è Ejecutar ETL"**
5. **Ve los resultados** con `display_results()`
6. **Exporta** con `export_results()`

### Comandos √∫tiles despu√©s del ETL:
```python
# Ver resultados
display_results()

# Exportar a CSV y XLSX
export_results()

# Exportar incluyendo columna HOJA
export_results(include_hoja_column=True)

# Ver estad√≠sticas
print(etl_stats)

# Filtrar solo EQUIPOS
df_equipos = df_unicos[df_unicos['RECURSO'] == 'EQUIPO']
print(f"Total EQUIPOS: {len(df_equipos)}")

# Buscar por descripci√≥n
df_search = df_unicos[df_unicos['DESCRIPCION'].str.contains('MOTOR', case=False)]
display(df_search)
```
