In [None]:
from pyspark.sql.functions import current_timestamp

def load_create_stg(file_path, myWorkspace, myLakehouse, mytable, mySchema):
    # Paso 1: Cargar el fichero desde el entorno de Fabric (OneLake)
    
    # Paso 2: Leer el fichero como DataFrame
    df = spark.read.option("header", "true").option("inferSchema", "true").option("delimiter", ";").csv(file_path)
    
    # Paso 2: Añadir columna de fecha y hora actual
    df_con_fecha = df.withColumn("fecha_carga", current_timestamp())
    
    # Mostrar los primeros registros para verificar
    df_con_fecha.show()
    
    # Paso 3: Crear la tabla en el Lakehouse
    tablePath= mySchema+"."+mytable
    
    ## En STAGING OVERWRITE:::
    df_con_fecha.write.mode("overwrite").saveAsTable(tablePath)

# Ejemplo de uso de la función con parámetros
file_path = "Files/origen1/CAMPOS-INFR-POR-PROYECTO.csv"
myWorkspace = "ws_tte_poc_data"
myLakehouse = "raw_lh_app1_origen1"
mytable = "tabla1"
mySchema = "staging"

load_create_stg(file_path, myWorkspace, myLakehouse, mytable, mySchema)


In [None]:
from pyspark.sql.functions import current_timestamp
from pyspark.sql import SparkSession

def load_create_stg(file_path, myWorkspace, myLakehouse, mytable, mySchema):
    # Paso 1: Cargar el fichero desde el entorno de Fabric (OneLake)
    
    # Paso 2: Leer el fichero como DataFrame
    df = spark.read.option("header", "true").option("inferSchema", "true").option("delimiter", ";").csv(file_path)
    
    # Paso 2: Añadir columna de fecha y hora actual
    df_con_fecha = df.withColumn("fecha_carga", current_timestamp())
    
    # Mostrar los primeros registros para verificar
    df_con_fecha.show()
    
    # Paso 3: Crear la tabla en el Lakehouse
    tablePath= mySchema+"."+mytable
    
    ## En STAGING OVERWRITE:::
    df_con_fecha.write.mode("overwrite").saveAsTable(tablePath)

# Configuración de Spark (iniciar sesión)
spark = SparkSession.builder.appName("load_create_stg").getOrCreate()

# Ejemplo de uso de la función con parámetros
file_paths = ["Files/origen1/CAMPOS-INFR-POR-PROYECTO.csv",
               "Files/origen2/OTRO-FICHERO.CSV"]
myWorkspaces = ["ws_tte_poc_data", "ws_another_workspace"]
myLakehouses = ["raw_lh_app1_origen1", "raw_lh_app2_origen2"]
mytables = ["tabla1", "otra_tabla"]
mySchemas = ["staging", "staging"]

# Llamadas a la función para cada conjunto de parámetros
for i in range(len(file_paths)):
    load_create_stg(file_paths[i], myWorkspaces[i], myLakehouses[i], mytables[i], mySchemas[i])

# Cerrar la sesión Spark al finalizar las operaciones
spark.stop()

In [None]:
from pyspark.sql.functions import current_timestamp
from pyspark.sql import SparkSession
from concurrent.futures import ThreadPoolExecutor

def load_create_stg(file_path, myWorkspace, myLakehouse, mytable, mySchema):
    # Paso 1: Cargar el fichero desde el entorno de Fabric (OneLake)
    
    # Paso 2: Leer el fichero como DataFrame
    df = spark.read.option("header", "true").option("inferSchema", "true").option("delimiter", ";").csv(file_path)
    
    # Paso 2: Añadir columna de fecha y hora actual
    df_con_fecha = df.withColumn("fecha_carga", current_timestamp())
    
    # Mostrar los primeros registros para verificar
    df_con_fecha.show()
    
    # Paso 3: Crear la tabla en el Lakehouse
    tablePath= mySchema+"."+mytable
    
    ## En STAGING OVERWRITE:::
    df_con_fecha.write.mode("overwrite").saveAsTable(tablePath)

# Configuración de Spark (iniciar sesión)
spark = SparkSession.builder.appName("load_create_stg").getOrCreate()

# Ejemplo de uso de la función con parámetros
file_paths = ["Files/origen1/CAMPOS-INFR-POR-PROYECTO-BAL.csv",
              "Files/origen1/CAMPOS-INFR-POR-PROYECTO-MED.csv",
              "Files/origen1/CAMPOS-INFR-POR-PROYECTO-PROG.csv",
              "Files/origen1/CAMPOS-INFR-POR-PROYECTO.csv"]
#myWorkspaces = ["ws_tte_poc_data", "ws_another_workspace"]
#myLakehouses = ["raw_lh_app1_origen1", "raw_lh_app2_origen2"]
#mytables = ["tabla1", "otra_tabla"]
#mySchemas = ["staging", "staging"]

myWorkspace = "ws_tte_poc_data"
myLakehouses = "raw_lh_app1_origen1" 
mySchema = "staging"
mytable = ["tablaBAL", "tablaMED", "tablaPROG", "tablaPROYECTO"]

# Función para ejecutar load_create_stg
def execute_load_create_stg(i):
    load_create_stg(file_paths[i], myWorkspaces, myLakehouses, mytables[i], mySchemas)

# Uso de ThreadPoolExecutor para ejecutar en paralelo
with ThreadPoolExecutor(max_workers=5) as executor:
    executor.map(execute_load_create_stg, range(len(file_paths)))

# Cerrar la sesión Spark al finalizar las operaciones
spark.stop()

In [None]:
from pyspark.sql.functions import current_timestamp
from pyspark.sql import SparkSession
import asyncio

async def load_create_stg(file_path, myWorkspace, myLakehouse, mytable, mySchema):
    # Paso 1: Cargar el fichero desde el entorno de Fabric (OneLake)
    
    # Paso 2: Leer el fichero como DataFrame
    df = spark.read.option("header", "true").option("inferSchema", "true").option("delimiter", ";").csv(file_path)
    
    # Paso 2: Añadir columna de fecha y hora actual
    df_con_fecha = df.withColumn("fecha_carga", current_timestamp())
    
    # Mostrar los primeros registros para verificar
    df_con_fecha.show()
    
    # Paso 3: Crear la tabla en el Lakehouse
    tablePath= mySchema+"."+mytable
    
    ## En STAGING OVERWRITE:::
    df_con_fecha.write.mode("overwrite").saveAsTable(tablePath)

# Configuración de Spark (iniciar sesión)
spark = SparkSession.builder.appName("load_create_stg").getOrCreate()

# Ejemplo de uso de la función con parámetros
file_paths = ["Files/origen1/CAMPOS-INFR-POR-PROYECTO.csv",
               "Files/origen2/OTRO-FICHERO.CSV"]
myWorkspaces = ["ws_tte_poc_data", "ws_another_workspace"]
myLakehouses = ["raw_lh_app1_origen1", "raw_lh_app2_origen2"]
mytables = ["tabla1", "otra_tabla"]
mySchemas = ["staging", "staging"]

# List of tasks to execute
tasks = []
for i in range(len(file_paths)):
    task = asyncio.create_task(load_create_stg(file_paths[i], myWorkspaces[i], myLakehouses[i], mytables[i], mySchemas[i]))
    tasks.append(task)

# Wait for all tasks to complete
await asyncio.gather(*tasks)

# Cerrar la sesión Spark al finalizar las operaciones
spark.stop()