In [None]:
import json
import requests
# Import necessary libraries for Spark and Delta Lake
from delta import DeltaTable

from pyspark.sql import SparkSession
# Initialize Spark session
# This is necessary to use Spark DataFrame and SQL functionalities
spark = SparkSession.builder.getOrCreate()
# Set Spark configurations for Delta Lake and Parquet

from pyspark.sql.functions import (
    col,
    concat,
    concat_ws,
    current_date,
    date_format,
    dayofmonth,
    explode,
    from_json,
    hour,
    lag,
    lit,
    month,
    round,
    struct,
    to_csv,
    to_json,
    trim,
    udf,
    when,
    year,
)
from pyspark.sql.types import (
    ArrayType,
    DateType,
    DecimalType,
    IntegerType,
    StringType,
    StructField,
    StructType,
    TimestampType,
)

spark.conf.set('spark.sql.caseSensitive', True)
spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
spark.conf.set("spark.microsoft.delta.optimizeWrite.enabled", "true")

In [None]:
def get_tip_cast(tipo, precision=None, scale=None):
    """
    Devuelve el tipo de dato de PySpark para castear columnas según el parámetro 'tipo'.
    - tipo: 'decimal', 'integer', 'string', 'float', 'double', 'date', 'timestamp', etc.
    - precision, scale: solo para decimal.
    """
    from pyspark.sql.types import DecimalType, IntegerType, StringType, FloatType, DoubleType, DateType, TimestampType

    if tipo == "decimal":
        if precision is not None and scale is not None:
            return DecimalType(precision=precision, scale=scale)
        else:
            return DecimalType()
    elif tipo == "integer":
        return IntegerType()
    elif tipo == "string":
        return StringType()
    elif tipo == "float":
        return FloatType()
    elif tipo == "double":
        return DoubleType()
    elif tipo == "date":
        return DateType()
    elif tipo == "timestamp":
        return TimestampType()
    else:
        raise ValueError(f"Tipo '{tipo}' no soportado.")

## Ejemplo de uso:
# tipo_decimal = get_tip_cast("decimal", 10, 2)
# tipo_entero = get_tip_cast("integer")
# tipo_texto = get_tip_cast("string")
# df = df.withColumn("columna_decimal", F.col("columna_decimal").cast(tipo_decimal))
# df = df.withColumn("columna_entero", F.col("columna_entero").cast(tipo_entero))

In [None]:
def rename_columns(dforigen, selected_cols, new_col_names):
    df_filtered = dforigen.select(selected_cols)
    df_renamed = df_filtered.toDF(*new_col_names)
    return df_renamed


## Ejemplo de uso:
## Supón que tienes un DataFrame con columnas: ["A", "B", "C"]
#df_renamed = rename_columns(df, ["A", "B"], ["Columna1", "Columna2"])
## Ahora df_renamed tendrá solo dos columnas: ["Columna1", "Columna2"]

In [None]:
def read_and_simple_transform_data(origin_table, pi_fecha_carga_datos, pi_proceso_carga_datos, important_fields, renamed_fields, columns_to_transform_to_integer, columns_to_transform_to_float, columns_to_transform_to_double, columns_to_transform_to_decimal, columns_to_transform_to_date, columns_to_transform_to_timestamp, columns_to_transform_to_bool = [], filtro_opcional="", decimal_columns={}):
    df = spark.sql(f"SELECT {', '.join(important_fields)} FROM {pi_lakehouse_origen}.{origin_table} WHERE FECHA_CARGA_DATOS = '{pi_fecha_carga_datos}'" + (f" {filtro_opcional}" if filtro_opcional else ""))
    df_renamed = rename_columns(df, important_fields, renamed_fields)
    
    if decimal_columns:
        
        list_of_columns_to_transform_to_decimal =[(col(c).cast(DecimalType(precision=38, scale=decimal_columns[c]))) for c in decimal_columns]

    else: 
        list_of_columns_to_transform_to_decimal = [col(c).cast('decimal') for c in columns_to_transform_to_decimal] #Por defecto es con 0 decimales
    
    df_cast = df_renamed.select(\
            *[col(c).cast('integer') for c in columns_to_transform_to_integer],\
            *[col(c).cast('float') for c in columns_to_transform_to_float],\
            *[col(c).cast('double') for c in columns_to_transform_to_double],\
            *list_of_columns_to_transform_to_decimal,\
            *[col(c).cast('date') for c in columns_to_transform_to_date],\
            *[col(c).cast('timestamp') for c in columns_to_transform_to_timestamp],\
            *[col(c).cast('boolean') for c in columns_to_transform_to_bool],\
            *[col(c) for c in df_renamed.columns if c not in columns_to_transform_to_integer+columns_to_transform_to_float+columns_to_transform_to_double+columns_to_transform_to_decimal+columns_to_transform_to_date+columns_to_transform_to_timestamp+columns_to_transform_to_bool]\
        )
    column_order = df_renamed.columns
    df_cast = df_cast.select(*column_order)
    df_cast = df_cast.select("*", lit(pi_proceso_carga_datos).alias("AuditoriaProcesoCargaDatos"),\
    lit(pi_fecha_carga_datos).alias("AuditoriaFechaCargaDatos"))
    return df_cast


In [None]:
def get_write_params_overwriteschema(is_dev):
    if is_dev:
        write_params = True
    else: 
        write_params = False
    return write_params

## No entiendo el uso de la funcion.

In [None]:
def read_table_lh(workspace, lakehouse, schema, table):
    # Validación simple de parámetros
    if any(" " in str(x) for x in [workspace, lakehouse, schema, table]):
        raise ValueError("Ningún parámetro debe contener espacios en blanco.")
    # Construcción de la ruta
    table_path = f"abfss://{workspace}@onelake.dfs.fabric.microsoft.com/{lakehouse}.Lakehouse/Tables/{schema}/{table}"
    # Lectura de la tabla
    df = spark.read.load(table_path)
    return df

## Ejemplo de uso:
# Esta función se utiliza para leer una tabla de un Lakehouse en OneLake.
## Supón que tienes los siguientes datos:
# workspace = "miworkspace"
# lakehouse = "milakehouse"
# schema = "miesquema"
# table = "mitabla"

## Llamas a la función para leer la tabla:
#df = read_table_lh(workspace, lakehouse, schema, table)

## Ahora puedes trabajar con el DataFrame 'df', por ejemplo:
#df.show(5)


In [None]:
def check_or_create_schema(workspace, lakehouse, schema_name):
    list_of_schemas = []
    for schema in notebookutils.fs.ls( f"abfss://{workspace}@onelake.dfs.fabric.microsoft.com/{lakehouse}.Lakehouse/Tables/"):
        list_of_schemas.append(schema.name)
    if schema_name not in list_of_schemas:
        notebookutils.fs.mkdirs(f"abfss://{workspace}@onelake.dfs.fabric.microsoft.com/{lakehouse}.Lakehouse/Tables/{schema_name}")
        print(f"El esquema {schema_name} se ha creado.")
    else:
        print(f"El esquema {schema_name} ya existe en el entorno de trabajo especificado.")


In [None]:
mes_nombre = {1: "Enero", 2: "Febrero", 3: "Marzo", 4: "Abril",\
    5: "Mayo", 6: "Junio", 7: "Julio", 8: "Agosto",\
    9: "Septiembre", 10: "Octubre", 11: "Noviembre", 12: "Diciembre"}

@udf(StringType())
def cambiar_idioma_mes(month):
    return mes_nombre.get(month, "")

In [None]:
def extraer_segmentos_fecha(columna):
   return [year(col(columna)).alias(f"{columna}_Año"),\
           month(col(columna)).alias(f"{columna}_Mes"),\
           cambiar_idioma_mes(month(col(columna))).alias(f"{columna}_MesNombre"),\
           dayofmonth(col(columna)).alias(f"{columna}_Dia")]

In [None]:
def extraer_segmentos_fecha(columna):
    """
    Extrae diferentes segmentos de una columna que representa fechas.

    :param columna: La columna que contiene las fechas.
    :return: Una lista con nuevas columnas que representan el año, mes y nombre del mes de la fecha.
    """
    from pyspark.sql.functions import year, month, dayofmonth, col

    # Extrae el año
    año = year(col(columna)).alias(f"{columna}_Año")

    # Extrae el mes (numérico)
    mes_numérico = month(col(columna)).alias(f"{columna}_Mes")

    # Convierte el mes numérico a nombre en español
    mes_nombre = cambiar_idioma_mes(mes_numérico).alias(f"{columna}_MesNombre")

    # Extrae el día del mes
    dia_del_mes = dayofmonth(col(columna)).alias(f"{columna}_Dia")

    return [año, mes_nombre, dia_del_mes]

In [None]:
def extraer_segmentos_hora(columna):
   return [hour(col(columna)).alias(f"{columna}_Hora")]

In [None]:
def obtener_mapeo(lakehouse_path, tabla, campoclave, campovalor1, campovalor2=None):
    
    table_path = lakehouse_path+"/"+tabla

    df = spark.read.load(table_path)
    
    dictmapeo1 = dict(df.select(campoclave, campovalor1).rdd.map(lambda row: (row[campoclave], row[campovalor1])).collect())
    
    if campovalor2:
        dictmapeo2 = dict(df.select(campoclave, campovalor2).rdd.map(lambda row: (row[campoclave], row[campovalor2])).collect())
        return dictmapeo1, dictmapeo2
    
    return dictmapeo1

In [None]:
def traducir_mapeo_diccionario(dictionary): 
    return udf(lambda col: dictionary.get(col),StringType())

In [None]:
def transform_data(df_cast, types_dict):
    transform_exprs = []
    transformed_columns = []
    for colname, target_type in types_dict.items(): 
        if colname in df_cast.columns:
            transform_exprs.append(col(colname).cast(target_type))
            transformed_columns.append(colname)
        else:
            print("Revisa la columna "+ colname+ ". No está en el df")
    for column in df_cast.columns:
        if not column in transformed_columns:
            transform_exprs.append(col(column))
    return df_cast.select(*transform_exprs)

In [None]:
#def read_and_transform_data(origin_table, pi_fecha_carga_datos, pi_proceso_carga_datos, important_fields, renamed_fields, filtro_opcional="", types_dict={}):
#    df = spark.sql(f"SELECT {', '.join(important_fields)} FROM {pi_lakehouse_origen}.{origin_table} WHERE FECHA_CARGA_DATOS = '{pi_fecha_carga_datos}'" + (f" {filtro_opcional}" if filtro_opcional else ""))
#    df_renamed = rename_columns(df, important_fields, renamed_fields)
#    
#    df_cast = transform_data(df_renamed, types_dict)
#
#    column_order = df_renamed.columns
#    df_cast = df_cast.select(*column_order)
#    df_cast = df_cast.select("*", lit(pi_proceso_carga_datos).alias("AuditoriaProcesoCargaDatos"),\
#    lit(pi_fecha_carga_datos).alias("AuditoriaFechaCargaDatos"))
#    return df_cast

def read_and_transform_data(
    origin_table,
    pi_fecha_carga_datos,
    pi_proceso_carga_datos,
    important_fields,
    renamed_fields,
    filtro_opcional="",
    types_dict={},
    schema=None,
):
    tabla_origen = (
        f"{pi_lakehouse_origen}.{schema}.{origin_table}"
        if schema
        else f"{pi_lakehouse_origen}.{origin_table}"
    )
    df = spark.sql(
        f"SELECT {', '.join(important_fields)} FROM {tabla_origen} WHERE FECHA_CARGA_DATOS = '{pi_fecha_carga_datos}'"
        + (f" {filtro_opcional}" if filtro_opcional else "")
    )
    df_renamed = rename_columns(df, important_fields, renamed_fields)

    df_cast = transform_data(df_renamed, types_dict)

    column_order = df_renamed.columns
    df_cast = df_cast.select(*column_order)
    df_cast = df_cast.select(
        "*",
        lit(pi_proceso_carga_datos).alias("AuditoriaProcesoCargaDatos"),
        lit(pi_fecha_carga_datos).alias("AuditoriaFechaCargaDatos"),
    )
    return df_cast    


In [None]:
def write_table_into_deltalake(
    df,
    workspace,
    pi_lakehouse_destino,
    schema,
    tabla_destino,
    primary_keys,
    modo="upsert",
    ow_schema=False,
    del_fec_baja=True,
    is_lh_name = True
):
    try:
        # Chequeamos que el WS no tenga espacios. Falla en Fabric
        if len(str(workspace).split(' ')) > 1:
            print('Error: El workspace no puede tener espacios en blanco')
            return

        # Chequeamos si estamos recibiendo la info del Lakehouse destino como nombre o como id, para añadir la extensión '.Lakehouse' en caso de nombre. Por defecto, asumimos recibir nombres
        if is_lh_name:
            pi_lakehouse_destino = pi_lakehouse_destino+'.Lakehouse'

        # Chequeamos si la PK/s es un string o una lista. Lo pasamos siempre a lista para que no de problemas el upsert (en su caso)
        if type(primary_keys) == str:
            primary_keys = [primary_keys]
        
        # Chequeamos si el DF de entrada tiene o no fecha de baja (encuentra cualquiera que contenga 'AuditoriaFechaBaja'. Ej: 'AuditoriaFechaBaja' y 'AuditoriaFechaBajaLogica')
        col_fec_baja = ''

        for col in df.columns:
            if 'AuditoriaFechaBaja' in col:
                col_fec_baja = col
                break

        # Ruta final de guardado. El nombre del Lakehouse es mejor pasarlo como '"nombre_lakehouse".Lakehouse', por tema de id-id o nombre-nombre
        abfs_path = f"abfss://{workspace}@onelake.dfs.fabric.microsoft.com/{pi_lakehouse_destino}/Tables/{schema}/{tabla_destino}"

        list_of_table_names = []
        for table in mssparkutils.fs.ls(
            f"abfss://{workspace}@onelake.dfs.fabric.microsoft.com/{pi_lakehouse_destino}/Tables/{schema}"
        ):
            list_of_table_names.append(table.name)

        # Casuística de si existe o no la tabla (se comenta y quita la parte de is_dev para hacer una función más genérica -> "and is_dev" y el parámetro)
        if (not tabla_destino in list_of_table_names):
            if col_fec_baja != '':
                if del_fec_baja:
                    # Si lo hemos seleccionado como parámetro, borramos los registros dados de baja
                    df = df.filter(df[col_fec_baja].isNull())
                
                # Borramos siempre, si existe, la columna de fecha de baja porque no suele estar en la capa std (REVISAR ESTO!)
                df = df.drop(col_fec_baja)

            # Si la tabla destino no existe en el Lakehouse, el modo siempre es 'overwrite' con 'overwriteSchema' por defecto (independientemente del campo modo)
            df.write.format("delta").mode("overwrite").option("overwriteSchema", "true").save(f"{abfs_path}")
            print("Table saved (new)")
        else:
            if modo == "upsert":
                if col_fec_baja != '':
                    if del_fec_baja:
                        # Si vamos a querer borrar los registros dados de baja, nos guardamos cuáles son
                        df_fecha_baja_not_null = df.filter(df[col_fec_baja].isNotNull()).drop(col_fec_baja) #.select(primary_keys)
                    
                    df = df.drop(col_fec_baja)

                # Si tenemos más de una PK en la lista de entrada, hemos de establecer la condición del merge con todas ellas
                condition_list = []
                for col_pivot in primary_keys:  
                    condition_list.append(f'destino.{col_pivot} = origen.{col_pivot}')
                condition=' AND '.join(condition_list)

                # Realizamos el merge
                tabla_delta = DeltaTable.forPath(spark, abfs_path)
                tabla_delta.alias("destino").merge(
                    df.alias("origen"), condition).whenMatchedUpdateAll().whenNotMatchedInsertAll().execute()

                if col_fec_baja != '' and del_fec_baja:
                    if not df_fecha_baja_not_null.rdd.isEmpty():

                        # Borramos de la tabla destino, aquellos registros que se hayan actualizado con FEC_BAJA != NULL
                        tabla_delta.alias("destino").merge(
                            df_fecha_baja_not_null.alias("origen"),
                            condition).whenMatchedDelete().execute()

                        # Para mostrar, si queremos, los registros borrados (en su caso)
                        primary_key_list = (
                            df_fecha_baja_not_null.select(primary_keys).rdd.map(tuple).collect()
                        )
                        print("deleted " + str(primary_key_list))
                print("Table saved (upsert)")
            elif modo == "append":
                # Aquí habría que tener cuidado con la presencia de PKs repetidas, aunque si se hace append es porque se quiere añadir todo el conjunto nuevo
                # Si hay registros dados de baja en el bloque a añadir, se quitan y se elimina el campo de fecha de baja (que no suele estar en la capa std)
                if col_fec_baja != '':
                    if del_fec_baja:
                        df = df.filter(df[col_fec_baja].isNull())
                    
                    df = df.drop(col_fec_baja)

                df.write.format("delta").mode("append").save(f"{abfs_path}")
                print("Table saved (append)")
            elif modo == "overwrite":
                # Si hay registros dados de baja en el bloque con el que vamos a sobreescribir, se quitan si lo deseamos, y se elimina el campo de fecha de baja (que no suele estar en la capa std)
                if col_fec_baja != '':
                    if del_fec_baja:
                        df = df.filter(df[col_fec_baja].isNull())
                        
                    df = df.drop(col_fec_baja)

                # Decidimos en base al parámetro 'ow_schema' si queremos sobreescribir el esquema de la tabla o no (en dev típicamente sí, pero en pro no)
                if ow_schema:
                    df.write.format("delta").mode("overwrite").option("overwriteSchema", "true").save(f"{abfs_path}")
                else:
                    df.write.format("delta").mode("overwrite").save(f"{abfs_path}")
                print("Table saved (overwrite)")
            else:
                print(f"Error: Mode {modo} not valid. Allowed values: overwrite, append or upsert")
    except:
        print("Error en la función de escritura. Escritura no realizada")
        df.show(n=5, vertical=True, truncate=False)
        raise

In [None]:
def get_data_from_url(url, headers=None, params=None):
    response = requests.get(url, headers=headers, params=params)

    if response.ok:
        try:
            response = response.json()
        except Exception as e:
            print(f"Decoding error: {e}")
            return None
    else:
        msg = f"status {str(response.status_code)}, details: {response.text}"
        print(f"API call error: {msg}")
        return None

    return response

## Ejemplo de uso:
# import requests

## URL de la API que deseas consultar
#url = "https://api.example.com/data"

## Parámetros adicionales si es necesario
#params = {
#  "param1": "value1",
#  "param2": "value2"
#}

## Encabezados adicionales si es necesario
#headers = {
#   "Authorization": "Bearer your_access_token_here"
#}

## Llamada a la función
#data = get_data_from_url(url, headers=headers, params=params)

#if data is not None:
#   print("Datos obtenidos exitosamente:")
#  print(data)
#else:
#    print("Error al obtener los datos.")

In [None]:
def get_data_from_url(url, headers=None, params=None):
    """
    Obtiene datos de una URL utilizando una solicitud GET a través de la biblioteca requests.
    
    :param url: URI de la API al que se realizará la solicitud.
    :param headers: Diccionario de encabezados adicionales (opcional).
    :param params: Diccionario de parámetros adicionales para la solicitud GET (opcional).
    :return: Los datos decodificados del JSON si la respuesta es exitosa, None en caso contrario.
    """
    try:
        response = requests.get(url, headers=headers, params=params)
        
        if response.ok:
            # Añadir excepción más específica para errores de codificación JSON
            return response.json()
        else:
            msg = f"status {response.status_code}, details: {response.text}"
            raise Exception(f"API call error: {msg}")
    
    except requests.exceptions.JSONDecodeError as e:
        print(f"Decoding error: {e}")
        return None

## Ejemplo de uso
#import logging

#logging.basicConfig(level=logging.INFO)

#url = "https://api.example.com/data"
#params = {
#    "param1": "value1",
#    "param2": "value2"
#}
#headers = {
#    "Authorization": "Bearer your_access_token_here"
#}

#try:
#    data = get_data_from_url(url, headers=headers, params=params)
#    if data is not None:
#        logging.info("Datos obtenidos exitosamente:")
#        logging.info(data)
#    else:
#        logging.error("Error al obtener los datos.")
#except Exception as e:
#    logging.error(f"Ocurrió un error: {e}")

In [None]:
def normalize_json_col(df, col_name, schema, list_selected_cols):
    '''
    df: DataFrame name we want to modify
    col_name: Column name we want to normalize
    shcema: JSON schema in PySpark types 
    selected_cols: Column names we want to select
    '''
    normalized_df = df.withColumn(col_name, from_json(col(col_name), schema))
    normalized_df = normalized_df.withColumn(col_name, explode(col_name))
    normalized_df = normalized_df.select([col(c) for c in list_selected_cols])
    
    return normalized_df

## Ejemplo de uso:

#from pyspark.sql import SparkSession

## Inicializar una sesión de Spark
#spark = SparkSession.builder.appName("Example").getOrCreate()

## Ejemplo de DataFrame con columnas JSON
#data = [
#   (1, '{"name": "Alice", "age": 30, "address": {"city": "New York"}}'),
#   (2, '{"name": "Bob", "age": 25, "address": {"city": "Los Angeles"}}')
#]
#columns = ["id", "json_data"]

#df = spark.createDataFrame(data, columns)

## Definir el esquema JSON
#schema = {
#    'id': IntegerType(),
#    'name': StringType(),
#    'age': IntegerType(),
#    'address': StructType([
#     ('city', StringType())
#    ])
#}

# Columna a normalizar y las columnas seleccionadas
#col_to_normalize = "json_data"
#selected_columns = ["id", "name", "city"]

# Llamar a la función normalize_json_col
#normalized_df = normalize_json_col(df, col_to_normalize, schema, selected_columns)

# Mostrar el DataFrame resultante
#normalized_df.show(truncate=False)


In [None]:

def normalize_json_col(df, col_name, schema):
    '''
    df: DataFrame name we want to modify
    col_name: Column name we want to normalize
    shcema: JSON schema in PySpark types 
    '''
    # Convert the JSON column into a structured format using from_json
    normalized_df = df.withColumn(col_name, from_json(col(col_name), schema))
    
    return normalized_df

## Ejemplo de uso:

#if __name__ == "__main__":
#    spark = SparkSession.builder.appName("Example").getOrCreate()

#    data = [
#        (1, '{"name": "Alice", "age": 30, "address": {"city": "New York"}}'),
#        (2, '{"name": "Bob", "age": 25, "address": {"city": "Los Angeles"}}')
#    ]
#    columns = ["id", "json_data"]

#    df = spark.createDataFrame(data, columns)

    # Define the JSON schema
#    schema = {
#        'id': IntegerType(),
#        'name': StringType(),
#        'age': IntegerType(),
#        'address': StructType([
#            ('city', StringType())
#        ])
#    }

#3    col_to_normalize = "json_data"

## Normalize the column and select specific columns
#    normalized_df = normalize_json_col(df, col_to_normalize, schema)

## Use json_normalize to simplify the data extraction
#    normalized_df_normalized = json_normalize(normalized_df.select(col_name))

## Show the result
# normalized_df_normalized.show(truncate=False)

In [None]:
def jerarquizar_fechas(df, lista_columnas):
    if all(col in df.columns for col in lista_columnas):
        # Se extrae fecha (año, mes y día)
        columnas_jerarquia_fechas = []
 
        for column in lista_columnas:
            columnas_jerarquia_fechas.extend(extraer_segmentos_fecha(column))
        df = df.select(*df.columns, *columnas_jerarquia_fechas)
    else:
        print("No todas las columnas estaban en el DataFrame, proceso no ejecutado.")
    return df


In [None]:
def jerarquizar_fechas(df, lista_columnas):
    # Verificar si todas las columnas están presentes en el DataFrame
    if not all(col in df.columns for col in lista_columnas):
        print("No todas las columnas estaban en el DataFrame, proceso no ejecutado.")
        return df

    # Extraer segmentos de fecha (año, mes y día) para todas las columnas especificadas
    fechas_jerarquizadas = []
    for col in lista_columnas:
        fecha_segmentos = extraer_segmentos_fecha(col)
        if fecha_segmentos:
            fechas_jerarquiaizadas.extend(fecha_segmentos)

    # Seleccionar el DataFrame para incluir todas las columnas actuales y los nuevos segmentos de fecha
    df = df.select(*df.columns, *fechas_jerarquizadas)

    return df

##Ejemplo de uso:
#import pandas as pd

## Creación del DataFrame
#data = {
#    'fecha1': ['2023-04-15', '2023-05-20', '2023-06-25'],
#    'fecha2': ['2023-12-25', '2024-01-01', '2024-02-05']
#}
#df = pd.DataFrame(data)

## Lista de columnas a jerarquizar
#columnas_a_jerarquizar = ['fecha1', 'fecha2']

## Llamada a la función jerarquizar_fechas
#resultado = jerarquizar_fechas(df, columnas_a_jerarquizar)

#print(resultado)

# fecha1   fecha2  año_f1  mes_f1  día_f1  año_f2  mes_f2  día_f2
#0  2023-04-15  2023-12-25     2023      4       15        2023    12       25
#1  2023-05-20  2024-01-01     2023      5       20        2024      1       01
#2  2023-06-25  2024-02-05     2023      6       25        2024      2       05






In [None]:
def jerarquizar_horas(df, lista_columnas):
    if all(col in df.columns for col in lista_columnas):
        # Se extrae tiempo (hora, minutos y segundos)
        columnas_jerarquia_fechas = []
 
        for column in lista_columnas:
            columnas_jerarquia_fechas.extend(extraer_segmentos_hora(column))
        df = df.select(*df.columns, *columnas_jerarquia_fechas)
    else:
        print("No todas las columnas estaban en el DataFrame, proceso no ejecutado.")
    return df