# Ingenier√≠a de Datos ‚Äì ETLs y Workflows con Delta Lake
## Gu√≠a pr√°ctica (clase)

Este notebook es la **gu√≠a te√≥rico-pr√°ctica** del bloque.
Aqu√≠ **NO se programa en profundidad**, se explican conceptos y ejemplos.

---

## üéØ Objetivo del bloque

Entender c√≥mo pasar:
- de **datos crudos**
- a **pipelines ETL robustos**
- listos para **producci√≥n** con Delta Lake y Workflows


%md
## 1Ô∏è‚É£ Recordatorio ETL

**ETL = Extract ‚Äì Transform ‚Äì Load**

Un ETL (Extract, Transform, Load) es un proceso fundamental en la ingenier√≠a de datos. Consiste en extraer datos de diferentes fuentes, transformarlos para adecuarlos a las necesidades del negocio y cargarlos en un sistema de almacenamiento o an√°lisis, como un Data Lake o un Data Warehouse.

### Extract
En los entornos de Big Data, los datos pueden venir en m√∫ltiples formatos. Cada formato tiene ventajas y desventajas en cuanto a compresi√≥n, velocidad de lectura/escritura y compatibilidad. Parquet, por ejemplo, es columnar y eficiente para grandes vol√∫menes.
- CSV
- Parquet
- JSON
- Bases de datos
- Streaming

### Transform
- Limpieza
- Reglas de negocio
- Normalizaci√≥n
- Agregaciones

### Load
- Data Lake
- Data Warehouse
- Tablas Delta


#### Leer desde CSV
Leer datos desde un archivo CSV es una de las formas m√°s comunes de ingesta en proyectos de datos. El formato CSV (Comma Separated Values) es ampliamente utilizado por su simplicidad y compatibilidad con la mayor√≠a de las herramientas. Pero no es el formato m√°s eficiente para grandes vol√∫menes de datos.

<pre>
df_csv = spark.read.csv(
    path=path,
    header=...,
    inferSchema=...,
    sep=...
)
</pre>

#### Leer desde parquet
El formato Parquet es un est√°ndar de almacenamiento columnar ampliamente utilizado en Big Data. Su principal fortaleza es la eficiencia tanto en almacenamiento como en velocidad de lectura, especialmente cuando se trabaja con grandes vol√∫menes de datos y consultas sobre columnas espec√≠ficas. Parquet permite compresi√≥n y soporta tipos de datos complejos, lo que lo hace ideal para an√°lisis y procesamiento distribuido. 

<pre>
df_parquet = spark.read.parquet(path)
</pre>

#### Leer desde Json
El formato JSON (JavaScript Object Notation) es ampliamente utilizado para el intercambio de datos debido a su flexibilidad y legibilidad. Permite almacenar estructuras de datos complejas, como listas y diccionarios anidados. Pero no es tan eficiente en almacenamiento ni en velocidad de procesamiento para grandes vol√∫menes de datos

<pre>
df_json = spark.read.json(path)
</pre>

%md
 Fuente   | ‚úîÔ∏è Ventajas                                                                 | ‚ùå Desventajas                                                                | Uso Com√∫n                                               |
----------|-------------------------------------------------------------------------|----------------------------------------------------------------------------|---------------------------------------------------------|
 CSV      | Simple y ampliamente compatible. F√°cil de editar manualmente.            | No soporta tipos de datos complejos ni compresi√≥n nativa. Menos eficiente para grandes vol√∫menes. | Ingesta inicial de datos peque√±os o de fuentes externas.|
 Parquet  | Almacenamiento columnar eficiente, compresi√≥n nativa, r√°pido para consultas en columnas espec√≠ficas. | No es legible por humanos. Requiere herramientas espec√≠ficas para edici√≥n.  | Procesamiento de Big Data, an√°lisis y almacenamiento optimizado.|
 JSON     | Flexible para estructuras complejas (anidadas). Legible y compatible con APIs web. | Menos eficiente en almacenamiento y procesamiento para grandes vol√∫menes.   | Intercambio de datos con sistemas web o cuando se necesita flexibilidad en la estructura.|
 BD       | Acceso directo a datos actualizados, integraci√≥n con sistemas empresariales, soporte para consultas SQL. | Requiere configuraci√≥n de conexi√≥n, puede tener limitaciones de rendimiento y permisos. | An√°lisis de datos operacionales, integraci√≥n de datos de negocio.|

### Recordatorio: Leer con/sin esquema

Al leer datos en Spark, se puede dejar que el sistema infiera autom√°ticamente el esquema (tipos de datos de cada columna) o definirlo expl√≠citamente. Inferir el esquema es c√≥modo y r√°pido para exploraciones iniciales, pero puede ser m√°s lento y propenso a errores si los datos son inconsistentes o si hay muchas columnas. Definir el esquema manualmente garantiza que los tipos de datos sean los esperados, mejora el rendimiento en la carga y ayuda a evitar problemas en etapas posteriores del procesamiento. Es una buena pr√°ctica definir el esquema en entornos productivos o cuando se requiere mayor control y robustez sobre los datos.

Ejecuta el siguiente c√≥digo para leer sin esquema

%md
| M√©todo de Lectura         | ‚úîÔ∏è Ventajas                                                                 | ‚ùå Desventajas                                                            | Uso Recomendado                          |
|--------------------------|--------------------------------------------------------------------------|------------------------------------------------------------------------|------------------------------------------|
| **Sin esquema (inferSchema=True)** | - R√°pido para exploraci√≥n inicial<br>- No requiere conocer los tipos de datos previamente | - Puede inferir tipos incorrectos si los datos son inconsistentes<br>- M√°s lento en archivos grandes<br>- Menos robusto en producci√≥n | Exploraci√≥n, pruebas r√°pidas, datos peque√±os o desconocidos |
| **Con esquema definido** | - Tipos de datos consistentes y controlados<br>- Mejor rendimiento en la carga<br>- Evita errores por inferencia incorrecta | - Requiere conocer la estructura de los datos<br>- M√°s trabajo inicial | Procesos productivos, datos cr√≠ticos, ETLs, grandes vol√∫menes |

<pre>
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType

# Definir el esquema manualmente
schema = StructType([
    # Nombre, Tipo de dato, Requerido
    StructField("id", StringType(), True),
    StructField("fecha", StringType(), True),
    StructField("producto", StringType(), True),
    StructField("cantidad", IntegerType(), True),
    StructField("precio", DoubleType(), True)
])

df_csv = spark.read.csv(
    path=base_path+"ventas.csv",
    header=True,
    schema=schema,
    sep=","
)

df_csv.printSchema()
</pre>

%md
## 2Ô∏è‚É£ Tipos de extracci√≥n

### Carga total
- Se borra y se vuelve a cargar todo
- Simple
- Poco eficiente

### Carga incremental
- Solo datos nuevos
- Basada en fecha o ID
- M√°s compleja, m√°s eficiente

üëâ **En producci√≥n casi siempre incremental**

Copia el siguiente bloque de c√≥digo en el notebook adaptando las rutas


<pre>
# Ejemplo de carga total
df_total = spark.read.csv("/Volumes/master/repaso/datos/total.csv", header=True, inferSchema=True)
display(df_total)

# Ejemplo de carga incremental
df_incremental = spark.read.csv("/Volumes/master/repaso/datos/incremental.csv", header=True, inferSchema=True)
df_incremental_load = df_incremental.join(df_total, on=df_total.columns, how="left_anti")
display(df_incremental_load)
</pre>

%md
## 3Ô∏è‚É£ Transformaciones habituales

### Limpieza
- Eliminar nulos
- Eliminar duplicados

### Estandarizaci√≥n
- Tipos de datos
- Formatos de fecha

### Reglas de negocio
- Columnas calculadas
- Flags


Ve copiando cada celda en el notebook y comprueba como va cambiando el df

<pre>
# Ejemplo de transformaciones habituales en Spark DataFrames

from pyspark.sql.functions import col, trim, lower, when, regexp_replace

# Creamos un DataFrame de ejemplo
data = [
    (1, "  Juan  ", "M", "Madrid", 25, None),
    (2, "Ana", "F", "Barcelona", 30, "2026-01-07"),
    (3, "Pedro", None, "Valencia", None, "2025-12-31"),
    (4, "luc√≠a", "F", "Madrid", 22, "2026-01-01"),
    (5, "Carlos", "M", "Sevilla", 40, "2026-01-05"),
    (6, "  MAR√çA", "F", "Madrid", 35, None)
]
columns = ["id", "nombre", "genero", "ciudad", "edad", "fecha_registro"]
df = spark.createDataFrame(data, columns)
</pre>

<pre>
# 1. Limpieza: eliminar espacios y valores nulos
df_limpio = df.withColumn("nombre", trim(col("nombre"))) \
              .na.fill({"genero": "Desconocido", "edad": 0})
display(df_flags)
</pre>

<pre>
# 2. Estandarizaci√≥n: convertir a min√∫sculas y normalizar nombres de ciudad
df_estandar = df_limpio.withColumn("nombre", lower(col("nombre"))) \
                       .withColumn("ciudad", regexp_replace(lower(col("ciudad")), "madrid", "MADRID"))
display(df_flags)
</pre>

<pre>
# 3. Reglas de negocio: crear flags
df_flags = df_estandar.withColumn("es_madrid", when(col("ciudad") == "MADRID", 1).otherwise(0)) \
                      .withColumn("mayor_edad", when(col("edad") >= 18, 1).otherwise(0)) \
                      .withColumn("registro_reciente", when(col("fecha_registro") >= "2026-01-01", 1).otherwise(0))

display(df_flags)
</pre>

%md
## 4Ô∏è‚É£ ¬øPor qu√© Delta Lake?

Delta Lake es una capa de almacenamiento open source que se integra con Apache Spark y a√±ade capacidades como:

- Transacciones **ACID**:
    - **Atomicity**: todo o nada
    - **Consistency**: el esquema se respeta
    - **Isolation**: escrituras concurrentes
    - **Durability**: los datos persisten
- **Schema enforcement**
- **Time Travel**: Delta guarda un **log de transacciones**. Permite:
    - Auditar cambios
    - Recuperar datos
    - Comparar versiones
- Optimizaci√≥n de datos

üëâ Sin Delta Lake, un Data Lake es solo almacenamiento

##### ¬øPor qu√© es tan valioso el formato de Delta Table?
Guardar tablas en formato Delta permite aprovechar las ventajas de transacciones ACID, manejo de versiones, y optimizaci√≥n de consultas. Es ideal para entornos donde los datos cambian frecuentemente y se requiere trazabilidad.

Una Delta Table permite realizar operaciones ACID, mantener el hist√≥rico con time travel, gestionar versiones, optimizar el almacenamiento, y escalar en entornos de producci√≥n.

### Guardar una tabla
Guardar una tabla en Databricks puede hacerse de dos formas principales:


%md
| M√©todo | Descripci√≥n | ‚úîÔ∏è Ventajas | Uso Recomendado |
|--------|-------------|----------|-----------------|
| **Por path** | Guarda los datos en una ruta espec√≠fica del sistema de archivos (ej: DBFS) usando formato Delta. | - Flexible y directo<br>- F√°cil de mover entre entornos<br>- Integraci√≥n con sistemas externos | Automatizaci√≥n, migraciones, acceso directo por ruta |
| **Por cat√°logo del metastore** | Registra la tabla en el cat√°logo de Databricks para consultas SQL y control de acceso. | - Ideal para colaboraci√≥n multiusuario<br>- Control de permisos y versiones<br> - Auditor√≠a y seguridad avanzada<br>- F√°cil acceso mediante SQL | Entornos colaborativos, equipos de an√°lisis, integraci√≥n con BI |

**Nota:** Ambas opciones aprovechan las ventajas del formato Delta: transacciones ACID, versionado y optimizaci√≥n de consultas.




Por path
<pre>
df_csv.write.format("delta").mode("overwrite").save(...)
</pre>

Por catalogo
<pre>
df_csv.write.format("delta").mode("overwrite").saveAsTable("...")
</pre>

### Leer una tabla

%md
1. Lectura de una tabla Delta desde Spark: Tambi√©n puedes leer una tabla Delta directamente desde Spark usando el API de DataFrame:

<pre>
df_delta = spark.read.format("delta").load(base_path+"delta")
df_delta.show()
</pre>

Esto es √∫til cuando necesitas manipular los datos con Python, realizar transformaciones complejas, aplicar l√≥gica de negocio o integrarlo en pipelines de procesamiento.

2. Consulta SQL sobre una tabla Delta: Puedes consultar una tabla Delta registrada en el cat√°logo usando SQL est√°ndar. Por ejemplo:

<pre>
SELECT * FROM ceste.productos;
</pre>

Esto te permite aprovechar toda la potencia del lenguaje SQL para filtrar, agrupar, unir y analizar los datos almacenados en formato Delta. Es especialmente √∫til para usuarios que prefieren trabajar con SQL o para integraciones con herramientas de BI.

%md
| M√©todo                |       ‚úîÔ∏è Ventajas        | Diferencias| Uso recomendado|
|-----------------------|--------------------|------------|----------------|
| **Spark DataFrame API** | - Procesamiento avanzado<br>- Integraci√≥n con ML y ETL<br>- Automatizaci√≥n y pipelines<br>- Flexibilidad en transformaciones                         | Permite l√≥gica compleja y manipulaci√≥n program√°tica de datos.  | Procesos autom√°ticos, machine learning, ETL, integraci√≥n con Python/Scala.|
| **SQL**               | - F√°cil de usar y compartir<br>- Ideal para an√°lisis exploratorio<br>- Integraci√≥n con dashboards y BI<br>- Colaboraci√≥n multiusuario         | Sintaxis declarativa, acceso directo desde notebooks y herramientas BI.| An√°lisis, reporting, dashboards, colaboraci√≥n entre equipos.     |

Ambos m√©todos aprovechan las ventajas de Delta Lake: transacciones ACID, versionado, rendimiento y escalabilidad.


### Modificar una tabla
Cuando trabajamos con tablas Delta, una de las grandes ventajas es la posibilidad de realizar operaciones transaccionales complejas de forma eficiente y segura como:
- Updates
- Deletes
- Merges

<pre>
from delta.tables import DeltaTable

delta_table = DeltaTable.forPath(spark, base_path+"delta")
</pre>

#### Update
%md
Permite modificar el valor de una o varias columnas en las filas que cumplen una condici√≥n espec√≠fica. Por ejemplo, se puede actualizar el nombre de un producto o corregir un valor err√≥neo en una tabla sin tener que reescribir todo el dataset. La sintaxis es similar a la de SQL, pero se realiza sobre la API de DeltaTable en Spark.

<pre>
# UPDATE
delta_table.update(
    condition="id = 1",
    set={"producto": "'Ordenador'"}
)
</pre>

#### Delete
Permite eliminar filas que cumplen una condici√≥n determinada. Es √∫til para depurar datos, eliminar registros obsoletos o cumplir con requisitos legales de borrado. Al igual que el update, el delete es transaccional y garantiza la integridad de la tabla.

<pre>
delta_table.delete("precio > 150")
</pre>
%md
Ambas operaciones aprovechan las transacciones ACID de Delta Lake, lo que significa que los cambios son at√≥micos, consistentes, aislados y duraderos. Esto evita problemas de concurrencia y asegura que los datos siempre est√©n en un estado v√°lido, incluso en entornos multiusuario o de procesamiento distribuido.


#### Merge
En este bloque de c√≥digo se muestra c√≥mo realizar un "merge" (tambi√©n conocido como upsert) sobre una tabla Delta:

1. Se crea un DataFrame con nuevos datos o datos actualizados.
2. Luego, se utiliza el m√©todo `merge` de la API de Delta Lake para comparar los datos existentes en la tabla (target) con los nuevos datos (source) usando una condici√≥n de emparejamiento (en este caso, el campo id).
3. Si el `id` ya existe en la tabla, se actualizan todos los campos de ese registro (`whenMatchedUpdateAll`).
4. Si el `id` no existe, se inserta el nuevo registro (`whenNotMatchedInsertAll`).

<pre>
# Nuevos datos a insertar/actualizar
columns = ["id", "fecha", "producto", "cantidad", "precio"]

nuevos_datos = [(3, "2025-05-24", "Monitor", 1, 179.99), (4, "2025-05-24", "Impresora", 2, 89.99)]
df_updates = spark.createDataFrame(nuevos_datos, columns)


delta_table.alias("target").merge(
    df_updates.alias("source"),
    "target.id = source.id") \
  .whenMatchedUpdateAll() \
  .whenNotMatchedInsertAll() \
  .execute()
  </pre>

Este tipo de operaci√≥n es fundamental en escenarios de integraci√≥n incremental de datos, donde peri√≥dicamente llegan nuevos registros o actualizaciones y queremos mantener la tabla Delta siempre actualizada y sin duplicados.

Ventajas de usar merge en Delta Lake:

- Permite mantener la integridad y consistencia de los datos.
- Facilita la implementaci√≥n de pipelines de datos incrementales.
- Aprovecha las transacciones ACID de Delta Lake, evitando problemas de concurrencia o corrupci√≥n de datos.
- Es mucho m√°s eficiente y sencillo que realizar operaciones manuales de actualizaci√≥n e inserci√≥n por separado.


### Time Travel

El Time Travel en Delta Lake es una funcionalidad que permite consultar versiones anteriores de una tabla Delta. Cada vez que se realiza una operaci√≥n de escritura (insert, update, delete, merge), Delta Lake crea una nueva versi√≥n de la tabla, manteniendo el historial de cambios.

**¬øPara qu√© sirve el Time Travel?**
- Recuperar datos borrados o modificados accidentalmente.
- Auditar cambios y analizar c√≥mo han evolucionado los datos a lo largo del tiempo.
- Comparar el estado de la tabla en diferentes momentos.
- Reproducir experimentos o an√°lisis sobre datos hist√≥ricos.

**¬øC√≥mo se usa?**
Puedes acceder a una versi√≥n anterior de la tabla especificando el n√∫mero de versi√≥n (`versionAsOf`) o una marca de tiempo (`timestampAsOf`) al leer los datos:

**Ventajas:**
- No necesitas mantener copias manuales de los datos para auditor√≠a o recuperaci√≥n.
- Todas las operaciones de Time Travel son transaccionales y consistentes.
- Facilita la trazabilidad y el cumplimiento normativo en entornos empresariales.

Copia las siguientes celdas en el Notebook y mira lo que pasa

Ver historial
<pre>
display(delta_table.history())
</pre>

Leer versi√≥n anterior
<pre>
df_old = spark.read.format("delta").option("versionAsOf", 0).load(base_path+"delta")
display(df_old)
</pre>

Leer la tabla tal como estaba en una fecha concreta
<pre>
df_moment = spark.read.format("delta").option("timestampAsOf", "2025-05-27 10:00:00").load(base_path+"delta")
</pre>


### Optimizaci√≥n de Tablas
%md
La optimizaci√≥n de tablas en Delta Lake es clave para mejorar el rendimiento de las consultas y reducir el coste de almacenamiento en entornos de Big Data. Existen dos t√©cnicas principales:

- **Compactaci√≥n (OPTIMIZE):** Consiste en reducir el n√∫mero de archivos peque√±os que se generan tras m√∫ltiples escrituras o actualizaciones. Al compactar, se agrupan estos archivos en otros m√°s grandes, lo que acelera las lecturas y reduce la sobrecarga de gesti√≥n de archivos en el sistema distribuido.

- **Z-Ordering:** Es una t√©cnica de ordenaci√≥n f√≠sica de los datos en disco basada en una o varias columnas clave. Al aplicar Z-Ordering, los datos se almacenan de forma que las filas con valores similares en las columnas seleccionadas queden f√≠sicamente pr√≥ximas. Esto mejora notablemente el rendimiento de las consultas filtradas por esas columnas, ya que minimiza la cantidad de datos que Spark necesita leer.

**Ventajas de la optimizaci√≥n:**
- Consultas m√°s r√°pidas y eficientes, especialmente en grandes vol√∫menes de datos.
- Menor latencia en dashboards y an√°lisis interactivos.
- Reducci√≥n de costes de almacenamiento y procesamiento.
- Mejor aprovechamiento de los recursos del cluster.

**Cu√°ndo optimizar:**
- Tras cargas masivas de datos o procesos ETL frecuentes.
- Cuando se detecta degradaci√≥n en el rendimiento de las consultas.
- Antes de ejecutar an√°lisis cr√≠ticos o dashboards de negocio.

En resumen, la optimizaci√≥n peri√≥dica de las tablas Delta es una buena pr√°ctica para mantener el entorno √°gil, eficiente y escalable.

Optimizar tabla
<pre>
spark.sql("OPTIMIZE ceste.productos")
</pre>

Ordenar f√≠sicamente por "id"
<pre>
spark.sql("OPTIMIZE ceste.productos ZORDER BY id")
</pre>

%md
## 5Ô∏è‚É£ Transacciones ACID (muy importante)

- **Atomicity**: todo o nada
- **Consistency**: el esquema se respeta
- **Isolation**: escrituras concurrentes
- **Durability**: los datos persisten

üëâ Clave para entornos productivos


%md
## 6Ô∏è‚É£ Time Travel

Delta guarda un **log de transacciones**.

Permite:
- Auditar cambios
- Recuperar datos
- Comparar versiones

üëâ Muy usado para debugging y errores humanos


---

%md
## 7Ô∏è‚É£ Modelado y pipelines

Arquitectura t√≠pica:

### Bronze
- Datos crudos

### Silver
- Datos limpios y transformados

### Gold
- Datos agregados y listos para negocio

üëâ Cada capa suele ser un notebook


%md
## 8Ô∏è‚É£ Jobs y Workflows

### Job
- Ejecuta un notebook
- Programado o manual

### Workflow
- Encadena m√∫ltiples Jobs
- Controla dependencias
- Maneja errores

üëâ Es lo que se usa en producci√≥n


%md
## ‚úÖ Mensaje final

Un buen pipeline:
- Es **autom√°tico**
- Es **reproducible**
- Falla de forma controlada
- Est√° preparado para crecer
