### **ETL: Pipeline desde Azure Blob Storage, tranformación en Databricks y conexión con Power BI**
### 

**I. Leer archivo desde Azure Blob Storage en Databricks**

Conectar databricks con la cuenta de almacenamiento. Se hace uso de [Key value de Azure](https://learn.microsoft.com/es-es/azure/key-vault/general/basic-concepts) para no ingresar
la clave almacenamiento en el código.

In [0]:
spark.conf.set(
  "fs.azure.account.key.storagedc1.blob.core.windows.net",
  dbutils.secrets.get(scope = "kv-scope", key = "storage-key")
)

Leer desde el contenedor de Blob Storage el archivo ventas csv

In [0]:

df = spark.read.format("csv")\
     .option("header", "true")\
     .option("inferSchema", "true") \
     .load("wasbs://dataempresarial@storagedc1.blob.core.windows.net/ventas/ventas.csv")
df.display()

id,id_producto,categoria_producto,nombre_producto,precio_producto,id_factura,cantidad,total,metodo_pago,fecha_factura,id_cliente,ciudad,gastos_marketing_og
1,101000001,Animales,Bolsa diseño rana,50000,20230000005,10,500000,Tarjeta debito,20230110,1000004,Bucaramanga,64865
2,101000001,Animales,Bolsa diseño rana,50000,20230000007,20,1000000,Tarjeta debito,20230112,1000006,Bogotá,116667
3,104000003,Flora-Paisajes,Bolsa diseño roja,50000,20230000002,8,400000,Tarjeta credito,20230105,1000001,Bucaramanga,51892
4,101000002,Animales,Bolsa diseño orangutanes,50000,20230000013,9,450000,Tarjeta credito,20230120,1000012,Cali,56000
5,101000001,Animales,Bolsa diseño rana,50000,20230000001,15,750000,Tarjeta credito,20230101,1000002,Bucaramanga,97297
6,101000002,Animales,Bolsa diseño orangutanes,50000,20230000012,7,350000,Tarjeta credito,20230118,1000011,Cali,43556
7,101000001,Animales,Bolsa diseño rana,50000,20230000008,20,1000000,Tarjeta credito,20230113,1000007,Bogotá,116667
8,106000001,Musica,Bolsa diseño bateria,50000,20230000003,4,200000,Tarjeta debito,20230106,1000003,Bucaramanga,25946
9,102000001,Danza,Bolsa diseño classics,50000,20230000016,6,300000,Tarjeta debito,20230123,1000004,Cali,37333
10,101000003,Animales,Bolsa diseño serpiente,50000,20230000015,25,1250000,Tarjeta credito,20230122,1000014,Cali,155556


In [0]:
df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- id_producto: integer (nullable = true)
 |-- categoria_producto: string (nullable = true)
 |-- nombre_producto: string (nullable = true)
 |-- precio_producto: integer (nullable = true)
 |-- id_factura: long (nullable = true)
 |-- cantidad: integer (nullable = true)
 |-- total: integer (nullable = true)
 |-- metodo_pago: string (nullable = true)
 |-- fecha_factura: integer (nullable = true)
 |-- id_cliente: integer (nullable = true)
 |-- ciudad: string (nullable = true)
 |-- gastos_marketing_og: integer (nullable = true)



**II. Transformar la base datos y registrarla como tabla delta lake en el metastore**

Guardar el df como una tabla Delta Lake. Esta acción permitirá realizar los cambios pertinentes a la tabla, llevar el control de los cambios mediante el registro de un historial y guardar la tabla en el metastore de Hive (catálogo de Databricks) para poder conectarla con la plataforma Power BI.

In [0]:
df.write.format("delta").mode("overwrite").save("/mnt/delta/ventas")

In [0]:
#Realizar corrección en id. factura "20230000005", cambiar producto "Bolsa diseño orangutanes", por "Bolsa diseño serpiente" con id_producto "101000003". 

from delta.tables import DeltaTable

# Ruta de la tabla Delta
path = "/mnt/delta/ventas"

# Cargar la tabla Delta
delta_ventas = DeltaTable.forPath(spark, path)

# Actualizar múltiples columnas bajo una condición
delta_ventas.update(
    condition="id_factura = 20230000005 AND categoria_producto = 'Animales'",
    set={
        "nombre_producto": "'Bolsa diseño serpiente'",
        "id_producto": "'101000003'"
    }
)

DataFrame[num_affected_rows: bigint]

In [0]:
#Ver el cambio realizado

spark.sql("""
SELECT *
FROM delta.`/mnt/delta/ventas`
WHERE id_factura = 20230000005 AND categoria_producto = 'Animales'
""").display()

id,id_producto,categoria_producto,nombre_producto,precio_producto,id_factura,cantidad,total,metodo_pago,fecha_factura,id_cliente,ciudad,gastos_marketing_og
1,101000003,Animales,Bolsa diseño serpiente,50000,20230000005,10,500000,Tarjeta debito,20230110,1000004,Bucaramanga,64865


In [0]:
#historial de cambios

delta_ventas = DeltaTable.forPath(spark, "/mnt/delta/ventas")
delta_ventas.history().display()

version,timestamp,userId,userName,operation,operationParameters,job,notebook,clusterId,readVersion,isolationLevel,isBlindAppend,operationMetrics,userMetadata,engineInfo
4,2025-06-30T20:48:40Z,993783110248991,diseno360.com@outlook.com,UPDATE,"Map(predicate -> [""((id_factura#699L = 20230000005) AND (categoria_producto#696 = Animales))""])",,List(682610284294241),0612-144113-gjpgyym,3.0,WriteSerializable,False,"Map(numRemovedFiles -> 0, numRemovedBytes -> 0, numCopiedRows -> 0, numDeletionVectorsAdded -> 1, numDeletionVectorsRemoved -> 0, numAddedChangeFiles -> 0, executionTimeMs -> 8049, numDeletionVectorsUpdated -> 0, scanTimeMs -> 4896, numAddedFiles -> 1, numUpdatedRows -> 1, numAddedBytes -> 3264, rewriteTimeMs -> 3067)",,Databricks-Runtime/15.4.x-photon-scala2.12
3,2025-06-30T20:48:17Z,993783110248991,diseno360.com@outlook.com,WRITE,"Map(mode -> Overwrite, statsOnLoad -> false, partitionBy -> [])",,List(682610284294241),0612-144113-gjpgyym,2.0,WriteSerializable,False,"Map(numFiles -> 1, numOutputRows -> 58, numOutputBytes -> 5308)",,Databricks-Runtime/15.4.x-photon-scala2.12
2,2025-06-24T17:31:45Z,993783110248991,diseno360.com@outlook.com,UPDATE,"Map(predicate -> [""((id_factura#207L = 20230000005) AND (categoria_producto#204 = Animales))""])",,List(682610284294241),0612-144113-gjpgyym,1.0,WriteSerializable,False,"Map(numRemovedFiles -> 0, numRemovedBytes -> 0, numCopiedRows -> 0, numDeletionVectorsAdded -> 1, numDeletionVectorsRemoved -> 0, numAddedChangeFiles -> 0, executionTimeMs -> 22422, numDeletionVectorsUpdated -> 0, scanTimeMs -> 15024, numAddedFiles -> 1, numUpdatedRows -> 1, numAddedBytes -> 3264, rewriteTimeMs -> 7263)",,Databricks-Runtime/15.4.x-photon-scala2.12
1,2025-06-24T15:59:14Z,993783110248991,diseno360.com@outlook.com,WRITE,"Map(mode -> Overwrite, statsOnLoad -> false, partitionBy -> [])",,List(682610284294241),0612-144113-gjpgyym,0.0,WriteSerializable,False,"Map(numFiles -> 1, numOutputRows -> 58, numOutputBytes -> 5308)",,Databricks-Runtime/15.4.x-photon-scala2.12
0,2025-06-24T15:38:33Z,993783110248991,diseno360.com@outlook.com,WRITE,"Map(mode -> ErrorIfExists, statsOnLoad -> false, partitionBy -> [])",,List(682610284294241),0612-144113-gjpgyym,,WriteSerializable,True,"Map(numFiles -> 1, numOutputRows -> 58, numOutputBytes -> 5308)",,Databricks-Runtime/15.4.x-photon-scala2.12


In [0]:
# Registrar la tabla Delta como tabla en el metastore

# Cargar el DataFrame desde el Delta Lake
df_ventas = spark.read.format("delta").load("/mnt/delta/ventas")

# Guardar la tabla en el metastore de Hive (catálogo de Databricks)
df_ventas.write.format("delta").mode("overwrite").saveAsTable("ventas")

 **III. Conectar Databricks a Power BI Desktop**

Hay dos métodos de conexión de databricks con Power BI Desktop: 

1. ODBC (Conectividad Abierta de Bases de Datos)
2. DirectQuery (lectura directa)

**1. ODBC (Conectividad Abierta de Bases de Datos)**

Es un estándar de interfaz que permite a aplicaciones (como Power BI, Excel, o Python) conectarse y comunicarse con diferentes sistemas de bases de datos (como SQL Server, PostgreSQL, MySQL, Databricks, etc.), independientemente del motor de base de datos que uses. Con este método se importan los datos a Power BI y este crea una copia de estos en tu máquina local con extensión .pbix.

La ventaja principal consultas y visualizaciones rápidas, porque están en memoria local y su desventaja; si los datos cambian en Databricks, necesita recargar o refrescar manualmente. Es posible que no se puedan importar tablas tan grandes.

Requisitos:

- Power BI Desktop instalado

- Driver ODBC de Databricks instalado ([versiones](https://www.databricks.com/spark/odbc-drivers-download))

- Token de acceso personal (PAT) desde tu cuenta de Databricks:
    Ir al espacio de trabajo en Databricks.
    Haz clic en tu nombre (esquina superior derecha)
    Seleccionar "Ajustes" -> desarrollador -> Tókenes de acceso -> Generar nuevo token
    Cópialo y guárdalo.




1.1 Ir a inicio y en obtener datos de otros orígenes seleccionar ODBC y dar clic en conectar.

![Imagen](https://raw.githubusercontent.com/DianaGarcesPortilla/ETL-Storage_Databricks_PowerBI/main/image01.png)


1.2 Seleccionar el nombre de la fuente de datos.

![Imagen](https://raw.githubusercontent.com/DianaGarcesPortilla/ETL-Storage_Databricks_PowerBI/main/image02.png)



1.3 Se accede al catálogo de databricks, dar clic en el catálogo donde se encuentra la tabla 'ventas' en este caso 'databricks_dc_diana'. Seleccionar la tabla y en la parte inferior derecha dar clic en cargar.

![Imagen](https://raw.githubusercontent.com/DianaGarcesPortilla/ETL-Storage_Databricks_PowerBI/main/image03.png)

Se han importado los datos exitosamente. En el repositorio 'Power-BI' se encuentra el dashboard con los KPI's y el informe trimestral de ventas de ilevo [clic](https://github.com/DianaGarcesPortilla/Porwer-BI).


**2. DirectQuery (lectura directa)**

Por este método los datos quedan en la nube, cada vez que se hace una visualización Power BI envía una consulta en tiempo real a Databricks.

Es ideal para datos muy grandes que no caben en la memoria local. Su conexión puede ser más lenta porque depende del rendimiento de la red y del clúster. Y algunas funciones de Power BI están limitadas.




2.1 Ir a inicio y en obtener datos de otros orígenes seleccionar Azure Databricks.

![Imagen](https://raw.githubusercontent.com/DianaGarcesPortilla/ETL-Storage_Databricks_PowerBI/main/image04.png)

2.2 Registrar el **nombre de acceso al servidor** que se encuentra en la barra de dirreciones cuando se abre el área de trabajo de Databricks. **La ruta de acceso HTTP** la cual esta en el menú izquierdo de Databricks, computo -> cluster definido -> Avanzado -> JDBC/ODBC -> HTTP. Seleccionar **DirectQuery**. Aceptar.

![Imagen](https://raw.githubusercontent.com/DianaGarcesPortilla/ETL-Storage_Databricks_PowerBI/main/image05.png)





2.3 Iniciar sesión.

![Imagen](https://raw.githubusercontent.com/DianaGarcesPortilla/ETL-Storage_Databricks_PowerBI/main/image06.png)



2.4 Ingresar contraseña y seguido el código de verificación.

![Imagen](https://raw.githubusercontent.com/DianaGarcesPortilla/ETL-Storage_Databricks_PowerBI/main/image07.png)

Se han importado los datos exitosamente. En el repositorio 'Power-BI' se encuentra el dashboard con los KPI's y el informe trimestral de ventas de ilevo [clic](https://github.com/DianaGarcesPortilla/Porwer-BI).
