In [0]:
# Databricks notebook source
# ==========================================================
# UNIFICAR Y LIMPIAR PARQUETS HIST√ìRICOS (1FL)
# Proyecto: Liga 1 Per√∫
# Autor: Oscar Garc√≠a Del √Åguila
# Descripci√≥n:
#   1Ô∏è‚É£ Conecta a ADLS con secrets de Key Vault
#   2Ô∏è‚É£ Lee los archivos temporales (temp/<a√±o>/data/)
#   3Ô∏è‚É£ Valida esquemas y hace append con columnas faltantes
#   4Ô∏è‚É£ Guarda el resultado final en 1FL/data/
#   5Ô∏è‚É£ Elimina las carpetas temp/ tras consolidar
# ==========================================================

from pyspark.sql import SparkSession
from pyspark.sql.utils import AnalysisException
from pyspark.sql import functions as F
import traceback

# Importar utilidades ADLS
from util.utils_liga1 import setup_adls, get_abfss_path, test_conexion_adls

# COMMAND ----------

# üì¶ PARAMETROS RECIBIDOS DESDE PIPELINE
dbutils.widgets.text("filesystem", "")
dbutils.widgets.text("capa_raw", "")
dbutils.widgets.text("rutaBase", "")
dbutils.widgets.text("nombre_archivo", "")
dbutils.widgets.text("historical_start_year", "")
dbutils.widgets.text("current_year", "")

filesystem = dbutils.widgets.get("filesystem")
capa_raw = dbutils.widgets.get("capa_raw").strip("/")
rutaBase = dbutils.widgets.get("rutaBase").strip("/")
nombre_archivo = dbutils.widgets.get("nombre_archivo")
historical_start_year = int(dbutils.widgets.get("historical_start_year"))
current_year = int(dbutils.widgets.get("current_year"))

spark = SparkSession.builder.getOrCreate()

# COMMAND ----------

print("===============================================")
print("  üß© UNIFICADOR HIST√ìRICO DE PARQUETS (1FL)")
print("===============================================")
print(f"Entidad        : {nombre_archivo}")
print(f"A√±os procesados: {historical_start_year} - {current_year}")
print(f"Ruta RAW base  : {capa_raw}/{rutaBase}")
print("===============================================")

In [0]:
try:
    setup_adls()
    test_conexion_adls()
except Exception as e:
    print(f"‚ùå Error al configurar conexi√≥n ADLS: {e}")
    dbutils.notebook.exit("FAILED")

# COMMAND ----------

# üß≠ FUNCIONES AUXILIARES
def safe_list_dir(path):
    try:
        return [f.path for f in dbutils.fs.ls(path)]
    except Exception:
        return []

def align_schemas(df_main, df_new):
    """
    Alinea columnas entre dos DataFrames para unionByName seguro.
    """
    cols_main = set(df_main.columns)
    cols_new = set(df_new.columns)
    
    # Columnas faltantes en df_new
    for c in cols_main - cols_new:
        df_new = df_new.withColumn(c, F.lit(None))
    # Columnas nuevas en df_new
    for c in cols_new - cols_main:
        df_main = df_main.withColumn(c, F.lit(None))
    
    # Reordenar columnas para uni√≥n coherente
    return df_main.select(sorted(df_main.columns)), df_new.select(sorted(df_main.columns))

# COMMAND ----------

# üß† 2Ô∏è‚É£ RECOLECTAR RUTAS TEMPORALES DISPONIBLES
rutas_temp = []
for anio in range(historical_start_year, current_year + 1):
    ruta_temp = f"{capa_raw}/{rutaBase}/{nombre_archivo}/temp/{anio}/data"
    rutas_temp.append(get_abfss_path(ruta_temp))

rutas_existentes = [r for r in rutas_temp if len(safe_list_dir(r)) > 0]

if not rutas_existentes:
    raise Exception(f"No se encontraron rutas temporales para {nombre_archivo}")

print("‚úÖ Rutas temporales encontradas:")
for r in rutas_existentes:
    print(f"  - {r}")

# COMMAND ----------

# üß© 3Ô∏è‚É£ LEER Y UNIR TODOS LOS PARQUETS (CON VALIDACI√ìN DE ESQUEMAS)
df_final = None

for ruta in rutas_existentes:
    try:
        df_temp = spark.read.parquet(ruta)
        print(f"üìÑ Le√≠do {ruta}: {df_temp.count()} registros, {len(df_temp.columns)} columnas")

        if df_final is None:
            df_final = df_temp
        else:
            df_final, df_temp = align_schemas(df_final, df_temp)
            df_final = df_final.unionByName(df_temp, allowMissingColumns=True)

    except AnalysisException:
        print(f"‚ö†Ô∏è No se pudo leer la ruta: {ruta}")
    except Exception as e:
        print(f"‚ö†Ô∏è Error procesando {ruta}: {str(e)}")

if df_final is None:
    raise Exception("‚ùå No se pudo leer ning√∫n archivo parquet temporal.")

print(f"‚úÖ Total de registros unificados: {df_final.count()}")
print(f"‚úÖ Columnas finales: {len(df_final.columns)} ‚Üí {df_final.columns}")

# COMMAND ----------

# üíæ 4Ô∏è‚É£ GUARDAR ARCHIVO FINAL 1FL
ruta_final = f"{capa_raw}/{rutaBase}/{nombre_archivo}/1FL/data"
ruta_final_abfss = get_abfss_path(ruta_final)

print(f"üíæ Guardando archivo final en: {ruta_final_abfss}")
df_final.write.mode("overwrite").parquet(ruta_final_abfss)
print("‚úÖ Archivo hist√≥rico consolidado guardado correctamente.")

# COMMAND ----------

# üßπ 5Ô∏è‚É£ ELIMINAR CARPETAS TEMPORALES
print("üßπ Eliminando carpetas temporales...")
for anio in range(historical_start_year, current_year + 1):
    ruta_temp_eliminar = get_abfss_path(f"{capa_raw}/{rutaBase}/{nombre_archivo}/temp/{anio}")
    try:
        dbutils.fs.rm(ruta_temp_eliminar, True)
        print(f"üóëÔ∏è Carpeta eliminada: {ruta_temp_eliminar}")
    except Exception as e:
        print(f"‚ö†Ô∏è No se pudo eliminar {ruta_temp_eliminar}: {e}")

print("üéØ Proceso hist√≥rico completado con √©xito.")