In [0]:
#keycloak_group


In [0]:
#Configuración de conexión JDBC
JDBC_CONFIG = {
    "hostname": "psql-dn-keycloak-restore-2.postgres.database.azure.com",
    "port": 5432,
    "database": "keycloak",
    "username": dbutils.secrets.get(scope='secret-storeview', key='username-keycloak-db'),
    "password": dbutils.secrets.get(scope='secret-storeview', key='password-keycloak-db'),
    "driver": "org.postgresql.Driver"
}

jdbcUrl = f"jdbc:postgresql://{JDBC_CONFIG['hostname']}:{JDBC_CONFIG['port']}/{JDBC_CONFIG['database']}?sslmode=require"
connectionProperties = {
    "user": JDBC_CONFIG["username"],
    "password": JDBC_CONFIG["password"],
    "driver": JDBC_CONFIG["driver"]
}

In [0]:
#consultar tablas

df_tablas = spark.read.jdbc(
    url=jdbcUrl,
    table="keycloak_group",
    properties=connectionProperties
)

# Mostrar los nombres de las tablas
df_tablas.show()


In [0]:
#Se importa los tipos de datos necesarios para definir el esquema del DataFrame
from pyspark.sql.types import StructType, StructField, StringType

# Controlar los tipos de datos y evitar inferencias automáticas de Spark
schema_keycloak_group = StructType([
    StructField("id", StringType(), False),
    StructField("name", StringType(), True),
    StructField("parent_group", StringType(), True),
    StructField("realm_id", StringType(), True)
])


In [0]:
# Leer la tabla "keycloak_group" desde PostgreSQL usando el esquema definido
# Para garantizar que los tipos de datos sean los correctos
df_keycloak_group = spark.read \
    .format("jdbc") \
    .option("url", jdbcUrl) \
    .option("dbtable", "keycloak_group") \
    .option("user", connectionProperties["user"]) \
    .option("password", connectionProperties["password"]) \
    .option("driver", connectionProperties["driver"]) \
    .schema(schema_keycloak_group)\
    .load()

# Mostrar los primeros 10 registros para verificar la lectura
display(df_keycloak_group.limit(10))


In [0]:
#Validar el esquema
def validar_esquema_postgresql(jdbc_url, table_name, connection_props, schema_keycloak_group):

    # Leer la tabla desde PostgreSQL usando el esquema definido
    df_actual = spark.read.jdbc(url=jdbc_url, table=table_name, properties=connection_props)
    actual_schema = df_actual.schema

    # Comparar los esquemas
    expected_fields = {field.name: type(field.dataType) for field in schema_keycloak_group.fields}
    actual_fields = {field.name: type(field.dataType) for field in actual_schema.fields}

    errores = False # Variable para controlar si hay errores

    #Revisar si hay colummnas faltantes o con tipos diferentes
    for col in expected_fields:
        if col not in actual_fields:
            print(f"⚠️ Columna faltante: '{col}'")
            errores = True
        elif expected_fields[col] != actual_fields[col]:
            print(f"⚠️ Tipo cambiado en '{col}': esperado {expected_fields[col]}, recibido {actual_fields[col]}")
            errores = True

    #Revisar si hay columnas adicionales
    for col in actual_fields:
        if col not in expected_fields:
            print(f"⚠️ Columna adicional no esperada: '{col}'")
            errores = True

    # Mostrar el resdultado de si hubo o no errores
    if errores:
        print("❌ El esquema actual NO coincide con el esperado.")
    else:
        print("✅ El esquema actual coincide con el esperado.")

        # Mostrar los primeros 10 registros para verificar la lectura
        display(df_actual.limit(10))

# Ejecutar la validación
validar_esquema_postgresql(jdbcUrl, "keycloak_group", connectionProperties, schema_keycloak_group)

In [0]:
# Ruta destino en Bronze
bronze_path = "/mnt/bronze/keycloak/dn_keycloak_group"

# Eliminar en caso que exista
try:
  dbutils.fs.ls(bronze_path)
  print("Existe, se sobreescribirá")
except:
  print("No existe, se creará")

# Escribir en delta
df_keycloak_group.write.format("delta").mode("overwrite").save(bronze_path)

# Registrar tabla
spark.sql(f"""
    CREATE TABLE IF NOT EXISTS bronze.dn_keycloak_group
    USING DELTA
    LOCATION '{bronze_path}/'
""")
spark.sql("REFRESH TABLE bronze.dn_keycloak_group")

In [0]:
# consultar tabla
spark.sql("SELECT * FROM bronze.dn_keycloak_group").show()

In [0]:
spark.sql("DESCRIBE bronze.dn_keycloak_group")
