In [7]:
import json
import requests
import pandas as pd
# Import necessary libraries for Spark and Delta Lake
from delta import DeltaTable

from pyspark.sql import SparkSession
# Initialize Spark session
# This is necessary to use Spark DataFrame and SQL functionalities
def new_func():
    spark = SparkSession.builder.getOrCreate()
    return spark

spark = new_func()
# Set Spark configurations for Delta Lake and Parquet

from pyspark.sql.functions import (
    col,
    concat,
    concat_ws,
    current_date,
    date_format,
    dayofmonth,
    explode,
    from_json,
    hour,
    lag,
    lit,
    month,
    round,
    struct,
    to_csv,
    to_json,
    trim,
    udf,
    when,
    year,
)
from pyspark.sql.types import (
    ArrayType,
    DateType,
    DecimalType,
    IntegerType,
    StringType,
    StructField,
    StructType,
    TimestampType,
)

spark.conf.set('spark.sql.caseSensitive', True)
spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
spark.conf.set("spark.microsoft.delta.optimizeWrite.enabled", "true")

KeyboardInterrupt: 

In [4]:
def get_tip_cast(tipo, precision=None, scale=None):
    """
    Devuelve el tipo de dato de PySpark para castear columnas según el parámetro 'tipo'.
    - tipo: 'decimal', 'integer', 'string', 'float', 'double', 'date', 'timestamp', etc.
    - precision, scale: solo para decimal.
    """
    from pyspark.sql.types import DecimalType, IntegerType, StringType, FloatType, DoubleType, DateType, TimestampType

    if tipo == "decimal":
        if precision is not None and scale is not None:
            return DecimalType(precision=precision, scale=scale)
        else:
            return DecimalType()
    elif tipo == "integer":
        return IntegerType()
    elif tipo == "string":
        return StringType()
    elif tipo == "float":
        return FloatType()
    elif tipo == "double":
        return DoubleType()
    elif tipo == "date":
        return DateType()
    elif tipo == "timestamp":
        return TimestampType()
    else:
        raise ValueError(f"Tipo '{tipo}' no soportado.")

## Ejemplo de uso:
# tipo_decimal = get_tip_cast("decimal", 10, 2)
# tipo_entero = get_tip_cast("integer")
# tipo_texto = get_tip_cast("string")
# df = df.withColumn("columna_decimal", F.col("columna_decimal").cast(tipo_decimal))
# df = df.withColumn("columna_entero", F.col("columna_entero").cast(tipo_entero))

In [5]:
def rename_columns(dforigen, selected_cols, new_col_names):
    df_filtered = dforigen.select(selected_cols)
    df_renamed = df_filtered.toDF(*new_col_names)
    return df_renamed


## Ejemplo de uso:
## Supón que tienes un DataFrame con columnas: ["A", "B", "C"]
#df_renamed = rename_columns(df, ["A", "B"], ["Columna1", "Columna2"])
## Ahora df_renamed tendrá solo dos columnas: ["Columna1", "Columna2"]

In [7]:
def get_write_params_overwriteschema(is_dev):
    if is_dev:
        write_params = True
    else: 
        write_params = False
    return write_params

## No entiendo el uso de la funcion.

In [8]:
def read_table_lh(workspace, lakehouse, schema, table):
    # Validación simple de parámetros
    if any(" " in str(x) for x in [workspace, lakehouse, schema, table]):
        raise ValueError("Ningún parámetro debe contener espacios en blanco.")
    # Construcción de la ruta
    table_path = f"abfss://{workspace}@onelake.dfs.fabric.microsoft.com/{lakehouse}.Lakehouse/Tables/{schema}/{table}"
    # Lectura de la tabla
    df = spark.read.load(table_path)
    return df

## Ejemplo de uso:
# Esta función se utiliza para leer una tabla de un Lakehouse en OneLake.
## Supón que tienes los siguientes datos:
# workspace = "miworkspace"
# lakehouse = "milakehouse"
# schema = "miesquema"
# table = "mitabla"

## Llamas a la función para leer la tabla:
#df = read_table_lh(workspace, lakehouse, schema, table)

## Ahora puedes trabajar con el DataFrame 'df', por ejemplo:
#df.show(5)


In [9]:
def check_or_create_schema(workspace, lakehouse, schema_name):
    list_of_schemas = []
    for schema in notebookutils.fs.ls( f"abfss://{workspace}@onelake.dfs.fabric.microsoft.com/{lakehouse}.Lakehouse/Tables/"):
        list_of_schemas.append(schema.name)
    if schema_name not in list_of_schemas:
        notebookutils.fs.mkdirs(f"abfss://{workspace}@onelake.dfs.fabric.microsoft.com/{lakehouse}.Lakehouse/Tables/{schema_name}")
        print(f"El esquema {schema_name} se ha creado.")
    else:
        print(f"El esquema {schema_name} ya existe en el entorno de trabajo especificado.")


In [None]:
# Diccionario para traducir números de mes a nombres en español
mes_nombre = {1: "Enero", 2: "Febrero", 3: "Marzo", 4: "Abril",
              5: "Mayo", 6: "Junio", 7: "Julio", 8: "Agosto",
              9: "Septiembre", 10: "Octubre", 11: "Noviembre", 12: "Diciembre"}

@udf(StringType())
def cambiar_idioma_mes(month):
    return mes_nombre.get(month, "")

In [12]:
def extraer_segmentos_fecha(columna):
    """
    Extrae diferentes segmentos de una columna que representa fechas.

    :param columna: La columna que contiene las fechas.
    :return: Una lista con nuevas columnas que representan el año, mes y nombre del mes de la fecha.
    """
    from pyspark.sql.functions import year, month, dayofmonth, col

    # Extrae el año
    año = year(col(columna)).alias(f"{columna}_Año")

    # Extrae el mes (numérico)
    mes_numérico = month(col(columna)).alias(f"{columna}_Mes")

    # Convierte el mes numérico a nombre en español
    mes_nombre = cambiar_idioma_mes(mes_numérico).alias(f"{columna}_MesNombre")

    # Extrae el día del mes
    dia_del_mes = dayofmonth(col(columna)).alias(f"{columna}_Dia")

    return [año, mes_nombre, dia_del_mes]

In [13]:
def extraer_segmentos_hora(columna):
   return [hour(col(columna)).alias(f"{columna}_Hora")]

In [15]:
def traducir_mapeo_diccionario(dictionary): 
    return udf(lambda col: dictionary.get(col),StringType())

In [20]:
def get_data_from_url(url, headers=None, params=None):
    """
    Obtiene datos de una URL utilizando una solicitud GET a través de la biblioteca requests.
    
    :param url: URI de la API al que se realizará la solicitud.
    :param headers: Diccionario de encabezados adicionales (opcional).
    :param params: Diccionario de parámetros adicionales para la solicitud GET (opcional).
    :return: Los datos decodificados del JSON si la respuesta es exitosa, None en caso contrario.
    """
    try:
        response = requests.get(url, headers=headers, params=params)
        
        if response.ok:
            # Añadir excepción más específica para errores de codificación JSON
            return response.json()
        else:
            msg = f"status {response.status_code}, details: {response.text}"
            raise Exception(f"API call error: {msg}")
    
    except requests.exceptions.JSONDecodeError as e:
        print(f"Decoding error: {e}")
        return None

## Ejemplo de uso
#import logging

#logging.basicConfig(level=logging.INFO)

#url = "https://api.example.com/data"
#params = {
#    "param1": "value1",
#    "param2": "value2"
#}
#headers = {
#    "Authorization": "Bearer your_access_token_here"
#}

#try:
#    data = get_data_from_url(url, headers=headers, params=params)
#    if data is not None:
#        logging.info("Datos obtenidos exitosamente:")
#        logging.info(data)
#    else:
#        logging.error("Error al obtener los datos.")
#except Exception as e:
#    logging.error(f"Ocurrió un error: {e}")

In [21]:
def normalize_json_col(df, col_name, schema, list_selected_cols):
    '''
    df: DataFrame name we want to modify
    col_name: Column name we want to normalize
    shcema: JSON schema in PySpark types 
    selected_cols: Column names we want to select
    '''
    normalized_df = df.withColumn(col_name, from_json(col(col_name), schema))
    normalized_df = normalized_df.withColumn(col_name, explode(col_name))
    normalized_df = normalized_df.select([col(c) for c in list_selected_cols])
    
    return normalized_df

## Ejemplo de uso:

#from pyspark.sql import SparkSession

## Inicializar una sesión de Spark
#spark = SparkSession.builder.appName("Example").getOrCreate()

## Ejemplo de DataFrame con columnas JSON
#data = [
#   (1, '{"name": "Alice", "age": 30, "address": {"city": "New York"}}'),
#   (2, '{"name": "Bob", "age": 25, "address": {"city": "Los Angeles"}}')
#]
#columns = ["id", "json_data"]

#df = spark.createDataFrame(data, columns)

## Definir el esquema JSON
#schema = {
#    'id': IntegerType(),
#    'name': StringType(),
#    'age': IntegerType(),
#    'address': StructType([
#     ('city', StringType())
#    ])
#}

# Columna a normalizar y las columnas seleccionadas
#col_to_normalize = "json_data"
#selected_columns = ["id", "name", "city"]

# Llamar a la función normalize_json_col
#normalized_df = normalize_json_col(df, col_to_normalize, schema, selected_columns)

# Mostrar el DataFrame resultante
#normalized_df.show(truncate=False)


In [22]:

def normalize_json_col(df, col_name, schema):
    '''
    df: DataFrame name we want to modify
    col_name: Column name we want to normalize
    shcema: JSON schema in PySpark types 
    '''
    # Convert the JSON column into a structured format using from_json
    normalized_df = df.withColumn(col_name, from_json(col(col_name), schema))
    
    return normalized_df

## Ejemplo de uso:

#if __name__ == "__main__":
#    spark = SparkSession.builder.appName("Example").getOrCreate()

#    data = [
#        (1, '{"name": "Alice", "age": 30, "address": {"city": "New York"}}'),
#        (2, '{"name": "Bob", "age": 25, "address": {"city": "Los Angeles"}}')
#    ]
#    columns = ["id", "json_data"]

#    df = spark.createDataFrame(data, columns)

    # Define the JSON schema
#    schema = {
#        'id': IntegerType(),
#        'name': StringType(),
#        'age': IntegerType(),
#        'address': StructType([
#            ('city', StringType())
#        ])
#    }

#3    col_to_normalize = "json_data"

## Normalize the column and select specific columns
#    normalized_df = normalize_json_col(df, col_to_normalize, schema)

## Use json_normalize to simplify the data extraction
#    normalized_df_normalized = json_normalize(normalized_df.select(col_name))

## Show the result
# normalized_df_normalized.show(truncate=False)

In [24]:
def jerarquizar_fechas(df, lista_columnas):
    # Verificar si todas las columnas están presentes en el DataFrame
    if not all(col in df.columns for col in lista_columnas):
        print("No todas las columnas estaban en el DataFrame, proceso no ejecutado.")
        return df

    # Extraer segmentos de fecha (año, mes y día) para todas las columnas especificadas
    fechas_jerarquizadas = []
    for col in lista_columnas:
        fecha_segmentos = extraer_segmentos_fecha(col)
        if fecha_segmentos:
            fechas_jerarquiaizadas.extend(fecha_segmentos)

    # Seleccionar el DataFrame para incluir todas las columnas actuales y los nuevos segmentos de fecha
    df = df.select(*df.columns, *fechas_jerarquizadas)

    return df

##Ejemplo de uso:
#import pandas as pd

## Creación del DataFrame
#data = {
#    'fecha1': ['2023-04-15', '2023-05-20', '2023-06-25'],
#    'fecha2': ['2023-12-25', '2024-01-01', '2024-02-05']
#}
#df = pd.DataFrame(data)

## Lista de columnas a jerarquizar
#columnas_a_jerarquizar = ['fecha1', 'fecha2']

## Llamada a la función jerarquizar_fechas
#resultado = jerarquizar_fechas(df, columnas_a_jerarquizar)

#print(resultado)

# fecha1   fecha2  año_f1  mes_f1  día_f1  año_f2  mes_f2  día_f2
#0  2023-04-15  2023-12-25     2023      4       15        2023    12       25
#1  2023-05-20  2024-01-01     2023      5       20        2024      1       01
#2  2023-06-25  2024-02-05     2023      6       25        2024      2       05






In [1]:
def jerarquizar_horas(df, lista_columnas):
    if all(col in df.columns for col in lista_columnas):
        # Se extrae tiempo (hora, minutos y segundos)
        columnas_jerarquia_fechas = []
 
        for column in lista_columnas:
            columnas_jerarquia_fechas.extend(extraer_segmentos_hora(column))
        df = df.select(*df.columns, *columnas_jerarquia_fechas)
    else:
        print("No todas las columnas estaban en el DataFrame, proceso no ejecutado.")
    return df

In [None]:
def nvl(valor, reemplazo):
    """
    Devuelve 'valor' si no es None, en caso contrario devuelve 'reemplazo'.
    Equivalente a la función NVL de Oracle.
    """
    return valor if valor is not None else reemplazo

# Ejemplo de uso:
#   print(nvl(None, 'sc'))  # Salida: sc
#   print(nvl(5, 'sc'))     # Salida: 5

In [None]:
def generate_pk(*args):
    """
    Devuelve la concatenación de los argumentos recibidos, separados por '_'.
    """
    return "_".join(str(arg) for arg in args)

def nvl(valor, reemplazo):
    """
    Devuelve 'valor' si no es None, en caso contrario devuelve 'reemplazo'.
    Equivalente a la función NVL de Oracle.
    """
    return valor if valor is not None else reemplazo

# Ejemplo de uso:
#   resultado = concatenar_campos(1, 20, "ABC")
#   print(resultado)  # Salida: 1_20_ABC
#   print(nvl(None, 'sc'))  # Salida: sc
#   print(nvl(5, 'sc'))     # Salida: 5

In [None]:

def get_duplicates_pk(df, campos):
    """
    Devuelve las filas del DataFrame que tienen valores duplicados en la combinación de los campos especificados.
    """
    return df[df.duplicated(subset=campos, keep=False)]

##Crear un DataFrame de ejemplo
#df = pd.DataFrame({
#    'id': [1, 2, 2, 3, 4, 4, 4,4],
#    'valor': ['a', 'b', 'c', 'd', 'e', 'f', 'g','g']
#})

#duplicados = get_duplicates_pk(df, ['id', 'valor'])
#print(duplicados)

   id valor
6   4     g
7   4     g
