## Fase 0: Creaci√≥n de la Arquitectura del Cat√°logo

**Objetivo:** Construir el esqueleto de nuestro Lakehouse en Unity Catalog.

Inspirados en las mejores pr√°cticas, no trabajaremos en esquemas sueltos. Crearemos una estructura autocontenida y profesional:
1.  **Un Cat√°logo dedicado**: `sesion_5`. Ser√° el contenedor principal de todo nuestro proyecto.
2.  **Tres Esquemas (Bases de Datos)**: `bronze`, `silver` y `gold`, uno para cada capa de nuestra arquitectura Medallion.
3.  **Tres Vol√∫menes**: `raw_files`, `silver_tables` y `gold_tables`, para almacenar f√≠sicamente los datos de cada capa.

Este paso se ejecuta una sola vez para configurar todo el entorno.

## La Arquitectura Medallion: Un Enfoque L√≥gico para el Lakehouse

La **Arquitectura Medallion** es un patr√≥n de dise√±o de datos que organiza l√≥gicamente los datos dentro de un Data Lakehouse en tres capas distintas: **Bronce (raw)**, **Plata (validated)** y **Oro (enriched)**. El objetivo principal es mejorar de manera incremental la calidad, estructura y fiabilidad de los datos a medida que fluyen a trav√©s de estas capas. 

Imagina el proceso como el de una refiner√≠a: el petr√≥leo crudo (Bronce) se refina para obtener productos m√°s √∫tiles y limpios como la gasolina (Plata), y finalmente se convierte en productos de alto valor y especializados (Oro).

***
### ¬øPor Qu√© Usar la Arquitectura Medallion? La Justificaci√≥n

Adoptar este enfoque no es solo una cuesti√≥n de organizaci√≥n, sino una estrategia que resuelve problemas fundamentales en la gesti√≥n de datos a gran escala:

* **Integridad y Confianza en los Datos**: Garantiza que los usuarios de negocio consuman datos de alta calidad (capa Oro), mientras que los procesos de ETL/ELT se construyen sobre una base validada y limpia (capa Plata). Esto evita el problema del "pantano de datos" (Data Swamp), donde los datos crudos y sin gobierno generan desconfianza.
* **Linaje de Datos y Gobernanza Sencillos**: La estructura en capas hace que sea muy f√°cil rastrear el origen de cualquier dato (linaje) y aplicar controles de seguridad y gobernanza. Por ejemplo, se puede restringir el acceso a los datos crudos (Bronce) y solo permitir a la mayor√≠a de los usuarios acceder a las capas Plata y Oro.
* **Eficiencia en el Procesamiento**: Al tener una capa Plata limpia y modelada, se evita tener que reprocesar y limpiar los datos crudos de la capa Bronce una y otra vez para cada nuevo caso de uso. La capa Plata act√∫a como una "fuente √∫nica de la verdad" optimizada para futuras transformaciones.
* **Democratizaci√≥n del Acceso a los Datos**: Cada capa sirve a un prop√≥sito y a una audiencia diferente, permitiendo que tanto los ingenieros de datos, como los cient√≠ficos de datos y los analistas de negocio trabajen de manera eficiente sin interferir entre s√≠.

***
### Las Capas en Detalle

#### ü•â **Capa Bronce (Raw Data)**

Esta es la primera parada de los datos en el Lakehouse.

* **Prop√≥sito**: Ingestar y almacenar datos de los sistemas de origen en su **formato nativo y sin procesar**. Es una copia fiel del origen.
* **Caracter√≠sticas**:
    * **Inmutable y de solo adici√≥n (append-only)**: Se guardan todos los datos hist√≥ricos, sin eliminar ni modificar nada. Si llega una actualizaci√≥n de una fila, se a√±ade como una nueva fila, preservando el historial completo.
    * **Estructura del Origen**: La estructura de las tablas en esta capa debe reflejar la del sistema de origen para facilitar la conciliaci√≥n.
    * **Base para la Reconstrucci√≥n**: Es la capa de respaldo. Si hay errores en las capas Plata u Oro, siempre se pueden reconstruir a partir de los datos crudos y confiables de la capa Bronce.
* **Usuarios T√≠picos**: Principalmente ingenieros de datos que construyen los pipelines hacia la capa Plata.

#### ü•à **Capa Plata (Cleansed & Conformed Data)**

Esta capa es la "fuente √∫nica de la verdad" del Lakehouse.

* **Prop√≥sito**: Proporcionar una visi√≥n limpia, validada y modelada de los datos empresariales clave. Aqu√≠ es donde los datos crudos se convierten en informaci√≥n de valor.
* **Caracter√≠sticas**:
    * **Limpieza de Datos**: Se manejan valores nulos, se corrigen tipos de datos y se eliminan duplicados.
    * **Enriquecimiento y Conformaci√≥n**: Se unen datos de diferentes fuentes para crear una visi√≥n m√°s completa. Por ejemplo, se une un pedido con la informaci√≥n del cliente.
    * **Modelado de Datos**: Es aqu√≠ donde com√∫nmente se aplica un **Esquema en Estrella**, creando tablas de hechos y dimensiones que son intuitivas y optimizadas para el an√°lisis.
* **Usuarios T√≠picos**: Ingenieros de datos, cient√≠ficos de datos (para exploraci√≥n y feature engineering) y analistas de negocio avanzados.

#### ü•á **Capa Oro (Curated Business-Level Data)**

Esta es la capa final, optimizada para el consumo directo por parte del negocio.

* **Prop√≥sito**: Entregar datos altamente refinados y agregados, listos para responder a preguntas de negocio espec√≠ficas.
* **Caracter√≠sticas**:
    * **Agregaciones de Negocio**: Las tablas en esta capa contienen m√©tricas pre-calculadas (ej. `ventas_totales_por_mes`, `clientes_activos_por_region`).
    * **Optimizaci√≥n para el Rendimiento**: Los datos suelen estar desnormalizados y organizados por proyecto o √°rea de negocio para que las consultas de BI y los modelos de ML sean extremadamente r√°pidos.
    * **Enfocado en el Caso de Uso**: Mientras que la capa Plata est√° modelada para toda la empresa, la capa Oro se centra en las necesidades de un departamento o proyecto espec√≠fico (Finanzas, Marketing, etc.).
* **Usuarios T√≠picos**: Analistas de negocio, cient√≠ficos de datos (para entrenamiento de modelos) y cualquier usuario final que consuma dashboards o reportes.

In [0]:
%sql
-- 1. Creamos nuestro propio cat√°logo para el proyecto
CREATE CATALOG IF NOT EXISTS sesion_5;

-- 2. Creamos los esquemas para cada capa dentro de nuestro nuevo cat√°logo
CREATE SCHEMA IF NOT EXISTS sesion_5.bronze COMMENT 'Esquema para datos crudos e inmutables';
CREATE SCHEMA IF NOT EXISTS sesion_5.silver COMMENT 'Esquema para datos validados, limpiados y modelados';
CREATE SCHEMA IF NOT EXISTS sesion_5.gold COMMENT 'Esquema para datos agregados y listos para el negocio';

-- 3. Creamos los vol√∫menes para el almacenamiento f√≠sico de los datos
CREATE VOLUME IF NOT EXISTS sesion_5.bronze.raw_files;
CREATE VOLUME IF NOT EXISTS sesion_5.silver.tables;
CREATE VOLUME IF NOT EXISTS sesion_5.gold.tables;

SELECT "Cat√°logo, esquemas y vol√∫menes creados exitosamente." as status;

### ‚úã Acci√≥n Manual: Subir los Archivos a la Capa Bronze

Ahora que la estructura est√° creada, debes subir los 9 archivos CSV del dataset de Olist a nuestro nuevo volumen.

**Pasos:**
1.  En el men√∫ de la izquierda, ve a **Catalog**.
2.  Navega hasta tu nuevo cat√°logo: `sesion_5`.
3.  Entra al esquema `bronze`.
4.  Haz clic en el volumen `raw_files`.
5.  Usa el bot√≥n **"Upload to this volume"** para subir tus archivos.

**Una vez que los archivos est√©n subidos, puedes continuar ejecutando el resto del cuaderno.**

## Fase 1: Configuraci√≥n y Carga de Datos en DataFrames

**Objetivo:** Definir las rutas a nuestra nueva arquitectura y cargar los datos del volumen `bronze` en DataFrames de Spark para su procesamiento.

In [0]:
# 1. Definir la configuraci√≥n usando nuestra nueva estructura de cat√°logo
catalog_name = "sesion_5"
bronze_schema = "bronze"
silver_schema = "silver"

# 2. Definir la ruta al volumen de la capa Bronze
bronze_volume_path = f"/Volumes/{catalog_name}/{bronze_schema}/raw_files"

# 3. Cargar todos los datasets desde el volumen Bronze en DataFrames
print(f"Leyendo archivos desde: {bronze_volume_path}...")
options = {"header": "true", "inferSchema": "true"}

customers_df = spark.read.options(**options).csv(f"{bronze_volume_path}/olist_customers_dataset.csv")
order_items_df = spark.read.options(**options).csv(f"{bronze_volume_path}/olist_order_items_dataset.csv")
order_payments_df = spark.read.options(**options).csv(f"{bronze_volume_path}/olist_order_payments_dataset.csv")
orders_df = spark.read.options(**options).csv(f"{bronze_volume_path}/olist_orders_dataset.csv")
products_df = spark.read.options(**options).csv(f"{bronze_volume_path}/olist_products_dataset.csv")
sellers_df = spark.read.options(**options).csv(f"{bronze_volume_path}/olist_sellers_dataset.csv")
category_translation_df = spark.read.options(**options).csv(f"{bronze_volume_path}/product_category_name_translation.csv")

print("\n¬°Carga completada! Los DataFrames de la capa Bronze est√°n en memoria.")

## Fase 2: Exploraci√≥n de Datos (EDA)

**Objetivo:** Entender la estructura, el contenido y la escala de nuestros datos crudos.

Antes de transformar, debemos entender con qu√© estamos trabajando. Un buen EDA nos permite:
1.  **Validar los Tipos de Datos**: ¬øSpark infiri√≥ correctamente las fechas y los n√∫meros?
2.  **Identificar Nulos**: ¬øHay columnas con datos faltantes que debamos tratar?
3.  **Tener una Noci√≥n del Volumen**: ¬øEstamos hablando de miles o millones de registros?

Realizaremos una exploraci√≥n b√°sica sobre los DataFrames que acabamos de cargar.

In [0]:
# 1. Revisar los esquemas para validar los tipos de datos
print("--- Esquema de 'orders_df' (Pedidos) ---")
orders_df.printSchema()

# 2. Contar el n√∫mero de filas para entender la escala
orders_count = orders_df.count()
print(f"\nN√∫mero de registros en 'orders_df': {orders_count:,}")

# 3. Visualizar una muestra de los datos para entender el contenido
print("\n--- Muestra de datos de 'orders_df' ---")
orders_df.show(5, truncate=False)

## Fase 3: Reflexi√≥n - El Plan del Arquitecto 

**Objetivo:** Dise√±ar nuestro modelo Silver antes de construirlo.

Hemos confirmado que tenemos 9 DataFrames con datos relacionados pero desorganizados. Si un analista quisiera saber "las ventas totales por ciudad", tendr√≠a que unir `orders`, `order_items`, `order_payments` y `customers` cada vez que haga la consulta. Esto es ineficiente y propenso a errores.

Aqu√≠ es donde aplicamos el **pensamiento arquitect√≥nico**. Nuestro plan es transformar estos datos crudos en un **Esquema en Estrella** robusto y optimizado para el an√°lisis.

* **La Estrella Central (Hechos)**: El proceso de negocio fundamental es el **pedido**. Por lo tanto, crearemos una √∫nica tabla de hechos, `fact_pedidos`, que contendr√° las m√©tricas (`precio`, `valor_pago`) y las claves para conectarse con su contexto.
* **Los Puntos de la Estrella (Dimensiones)**: El contexto que describe cada hecho son las entidades de negocio:
    * `dim_clientes`: ¬ø**Qui√©n** compr√≥?
    * `dim_productos`: ¬ø**Qu√©** se compr√≥?
    * `dim_vendedores`: ¬ø**Qui√©n** lo vendi√≥?

Este modelo es el objetivo de nuestra capa **Silver**. En la siguiente fase, lo haremos realidad.

## Fase 4: Creaci√≥n de Tablas Silver y Comparativa de M√©todos

**Objetivo:** Crear nuestras tablas en la capa Silver y entender las dos formas de hacerlo: **PySpark vs. SQL**.

### 4.1. PySpark vs. SQL: Dos Caminos para el Mismo Destino
* **PySpark (Program√°tico)** üêç: Flexible y potente, ideal para l√≥gica compleja y pipelines automatizados. Manipulamos DataFrames con c√≥digo Python.
* **Spark SQL (Declarativo)** üìä: Legible y universal. Perfecto para transformaciones de BI. Le *declaramos* el resultado que queremos a la base de datos.

Crearemos la `dim_clientes` con ambos m√©todos para ver la diferencia.

#### Ejemplo 1: Creando `dim_clientes` con PySpark

In [0]:
%sql
-- Paso 1 (PySpark): Crear una tabla vac√≠a con el esquema correcto
-- Usamos SQL para definir la estructura porque es muy claro y expl√≠cito.
CREATE OR REPLACE TABLE sesion_5.silver.dim_clientes_pyspark (
  customer_id STRING NOT NULL,
  customer_unique_id STRING,
  customer_zip_code_prefix STRING,
  customer_city STRING,
  customer_state STRING
)
USING DELTA
COMMENT 'Dimensi√≥n de Clientes, creada con PySpark.';

SELECT "Tabla 'dim_clientes_pyspark' creada con el esquema correcto." as status;

In [0]:
from pyspark.sql.functions import col

# Paso 2 (PySpark): Transformar los datos en un DataFrame
dim_clientes_pyspark_df = customers_df.select(
    col("customer_id"),
    col("customer_unique_id"),
    col("customer_zip_code_prefix"),
    col("customer_city"),
    col("customer_state")
).distinct()

# Paso 3 (PySpark): Insertar los datos del DataFrame en la tabla que ya creamos.
# Usamos .insertInto() para a√±adir los datos a la tabla existente.
# El modo "overwrite" vaciar√° la tabla antes de insertar, asegurando que no haya datos viejos.
dim_clientes_pyspark_df.write.mode("overwrite").insertInto("sesion_5.silver.dim_clientes_pyspark")

print("Datos insertados correctamente en 'dim_clientes_pyspark'.")
display(spark.table("sesion_5.silver.dim_clientes_pyspark"))

#### Ejemplo 2: Creando `dim_clientes` con Spark SQL

In [0]:
# Paso 1: Registrar el DataFrame como una vista temporal para poder usar SQL sobre √©l.
customers_df.createOrReplaceTempView("customers_bronze_vw")

print("Vista temporal 'customers_bronze_vw' creada.")

In [0]:
%sql
-- Paso 2: Crear la tabla con el esquema expl√≠cito y luego insertar los datos.
-- Este enfoque de dos pasos nos da control total sobre la estructura de la tabla.

-- Primero, creamos la tabla con la columna de la llave primaria definida como NOT NULL.
CREATE OR REPLACE TABLE sesion_5.silver.dim_clientes_sql (
  customer_id STRING NOT NULL,
  customer_unique_id STRING,
  customer_zip_code_prefix STRING,
  customer_city STRING,
  customer_state STRING
)
USING DELTA
COMMENT 'Dimensi√≥n de Clientes, creada con SQL y con esquema definido.';

-- Segundo, insertamos los datos en la tabla ya creada.
INSERT INTO sesion_5.silver.dim_clientes_sql
SELECT DISTINCT
  customer_id,
  customer_unique_id,
  customer_zip_code_prefix,
  customer_city,
  customer_state
FROM customers_bronze_vw;

-- Verificamos el resultado
SELECT * FROM sesion_5.silver.dim_clientes_sql LIMIT 5;

Ahora construiremos las tablas `dim_productos`, `dim_vendedores` y, finalmente, la tabla central `fact_pedidos` que une todo el modelo. Seguiremos el mismo patr√≥n de crear vistas temporales sobre los datos Bronze y luego usar SQL para transformar y crear las tablas Silver.

### 5.1. Dimensi√≥n de Productos (`dim_productos`)

In [0]:
# 1. Registrar los DataFrames necesarios como vistas temporales
products_df.createOrReplaceTempView("products_bronze_vw")
category_translation_df.createOrReplaceTempView("category_translation_bronze_vw")

print("Vistas temporales 'products_bronze_vw' y 'category_translation_bronze_vw' creadas.")

In [0]:
%sql
-- Crear la tabla de dimensi√≥n de productos
-- **CORRECCI√ìN**: A√±adimos la definici√≥n de la columna PK como NOT NULL
CREATE OR REPLACE TABLE sesion_5.silver.dim_productos (
  product_id STRING NOT NULL,
  product_category STRING,
  product_photos_qty INT,
  product_weight_g DOUBLE,
  product_length_cm DOUBLE,
  product_height_cm DOUBLE,
  product_width_cm DOUBLE
)
USING DELTA
COMMENT 'Dimensi√≥n de Productos, enriquecida.';

-- Insertamos los datos desde nuestra vista temporal
INSERT INTO sesion_5.silver.dim_productos
SELECT DISTINCT
  p.product_id,
  t.product_category_name_english AS product_category,
  p.product_photos_qty,
  p.product_weight_g,
  p.product_length_cm,
  p.product_height_cm,
  p.product_width_cm
FROM products_bronze_vw p
LEFT JOIN category_translation_bronze_vw t ON p.product_category_name = t.product_category_name;

-- Verificamos
SELECT * FROM sesion_5.silver.dim_productos LIMIT 5;

### 5.2. Dimensi√≥n de Vendedores (`dim_vendedores`)

In [0]:
# 1. Registrar el DataFrame de vendedores como una vista temporal
sellers_df.createOrReplaceTempView("sellers_bronze_vw")

print("Vista temporal 'sellers_bronze_vw' creada.")

In [0]:
%sql
-- Crear la tabla de dimensi√≥n de vendedores
-- **CORRECCI√ìN**: A√±adimos la definici√≥n de la columna PK como NOT NULL
CREATE OR REPLACE TABLE sesion_5.silver.dim_vendedores (
  seller_id STRING NOT NULL,
  seller_zip_code_prefix STRING,
  seller_city STRING,
  seller_state STRING
)
USING DELTA
COMMENT 'Dimensi√≥n de Vendedores, depurada y modelada.';

-- Insertamos los datos
INSERT INTO sesion_5.silver.dim_vendedores
SELECT DISTINCT
  seller_id,
  seller_zip_code_prefix,
  seller_city,
  seller_state
FROM sellers_bronze_vw;

-- Verificamos
SELECT * FROM sesion_5.silver.dim_vendedores LIMIT 5;

### 5.3. Tabla de Hechos de Pedidos (`fact_pedidos`)
Esta es la tabla m√°s importante. La construiremos uniendo los DataFrames de pedidos, items de pedidos y pagos para consolidar todas las m√©tricas y claves for√°neas en un solo lugar.

In [0]:
# 1. Registrar todos los DataFrames relacionados con los pedidos como vistas temporales
orders_df.createOrReplaceTempView("orders_bronze_vw")
order_items_df.createOrReplaceTempView("order_items_bronze_vw")
order_payments_df.createOrReplaceTempView("order_payments_bronze_vw")

print("Vistas temporales para pedidos, items y pagos creadas.")

In [0]:
%sql
-- Crear la tabla de hechos
-- **CORRECCI√ìN**: Definimos las columnas que ser√°n FK como NOT NULL
CREATE OR REPLACE TABLE sesion_5.silver.fact_pedidos (
  order_id STRING,
  customer_id STRING NOT NULL,
  product_id STRING NOT NULL,
  seller_id STRING NOT NULL,
  fecha_pedido DATE,
  order_status STRING,
  price DOUBLE,
  costo_envio DOUBLE,
  secuencia_pago INT,
  tipo_pago STRING,
  cuotas_pago INT,
  valor_pago DOUBLE
)
USING DELTA
COMMENT 'Tabla de hechos con las m√©tricas de los pedidos.';

-- Insertamos los datos
INSERT INTO sesion_5.silver.fact_pedidos
SELECT
  o.order_id,
  o.customer_id,
  i.product_id,
  i.seller_id,
  TO_DATE(o.order_purchase_timestamp) AS fecha_pedido,
  o.order_status,
  i.price,
  i.freight_value AS costo_envio,
  p.payment_sequential AS secuencia_pago,
  p.payment_type AS tipo_pago,
  p.payment_installments AS cuotas_pago,
  p.payment_value AS valor_pago
FROM orders_bronze_vw o
JOIN order_items_bronze_vw i ON o.order_id = i.order_id
JOIN order_payments_bronze_vw p ON o.order_id = p.order_id;

-- Verificamos
SELECT * FROM sesion_5.silver.fact_pedidos LIMIT 10;

## Fase 6: Definici√≥n de Claves Primarias y For√°neas

**Objetivo:** Establecer formalmente la integridad y las relaciones de nuestro modelo.

Ahora que las tablas existen, vamos a a√±adirles "restricciones" (constraints).
* **Llaves Primarias (PK)**: Garantizan que cada fila en una tabla de dimensi√≥n sea √∫nica.
* **Llaves For√°neas (FK)**: Crean un v√≠nculo entre la tabla de hechos y las tablas de dimensi√≥n, asegurando que un pedido solo pueda referenciar a clientes y productos que realmente existen.

En el Lakehouse, estas restricciones son informacionales (`NOT ENFORCED`), pero son vitales para que las herramientas de BI, los optimizadores de consultas y los propios desarrolladores entiendan c√≥mo se relacionan las tablas.

In [0]:
%sql
-- Definiendo las Llaves Primarias para cada tabla de dimensi√≥n
-- (Usamos la tabla creada con SQL como principal para el resto del taller)
ALTER TABLE sesion_5.silver.dim_clientes_sql ADD CONSTRAINT pk_dim_clientes PRIMARY KEY(customer_id) NOT ENFORCED;
ALTER TABLE sesion_5.silver.dim_productos ADD CONSTRAINT pk_dim_productos PRIMARY KEY(product_id) NOT ENFORCED;
ALTER TABLE sesion_5.silver.dim_vendedores ADD CONSTRAINT pk_dim_vendedores PRIMARY KEY(seller_id) NOT ENFORCED;

-- Definiendo las Llaves For√°neas en la tabla de hechos
ALTER TABLE sesion_5.silver.fact_pedidos ADD CONSTRAINT fk_pedidos_clientes FOREIGN KEY(customer_id) REFERENCES sesion_5.silver.dim_clientes_sql(customer_id) NOT ENFORCED;
ALTER TABLE sesion_5.silver.fact_pedidos ADD CONSTRAINT fk_pedidos_productos FOREIGN KEY(product_id) REFERENCES sesion_5.silver.dim_productos(product_id) NOT ENFORCED;
ALTER TABLE sesion_5.silver.fact_pedidos ADD CONSTRAINT fk_pedidos_vendedores FOREIGN KEY(seller_id) REFERENCES sesion_5.silver.dim_vendedores(seller_id) NOT ENFORCED;

SELECT "Llaves primarias y for√°neas definidas exitosamente." as status;

## Fase 7: Verificaci√≥n Final del Modelo Silver

**Objetivo:** Comprobar que nuestro modelo en estrella funciona correctamente y que las relaciones est√°n bien definidas.

Ahora que tenemos un modelo de datos √≠ntegro y bien estructurado, podemos responder a preguntas de negocio complejas con consultas simples y eficientes.

In [0]:
%sql
-- Pregunta de negocio: ¬øCu√°l es el valor total pagado por categor√≠a de producto en el estado de S√£o Paulo (SP)?

SELECT
  dp.product_category,
  SUM(fp.valor_pago) AS valor_total_pagado
FROM sesion_5.silver.fact_pedidos AS fp
JOIN sesion_5.silver.dim_clientes_sql AS dc ON fp.customer_id = dc.customer_id
JOIN sesion_5.silver.dim_productos AS dp ON fp.product_id = dp.product_id
WHERE
  dc.customer_state = 'SP'
GROUP BY
  dp.product_category
ORDER BY
  valor_total_pagado DESC
LIMIT 10;

## La Capa Oro: La "√öltima Milla" de los Datos ü•á

Si la capa Plata es la "fuente √∫nica de la verdad" para toda la empresa, la capa **Oro** es la **"versi√≥n de la verdad optimizada para un prop√≥sito espec√≠fico"**. Su objetivo no es la integridad o el modelado general, sino la **velocidad y la facilidad de uso** para un caso de negocio concreto.

Pi√©nsalo como la diferencia entre una cocina de restaurante bien surtida (la capa Plata) y el plato final que se sirve en la mesa (la capa Oro). El plato final ya tiene todos los ingredientes combinados, cocinados y presentados de la forma exacta en que el comensal lo necesita.

***

### ## Diferencias Clave: Plata vs. Oro

| Caracter√≠stica | ü•à Capa Plata (Fuente de la Verdad) | ü•á Capa Oro (Consumo) |
| :--- | :--- | :--- |
| **Prop√≥sito** | Integraci√≥n y modelado de datos para toda la empresa. | Responder a preguntas de negocio espec√≠ficas. |
| **Estructura** | Generalmente modelada (ej. Esquema en Estrella). | Altamente desnormalizada y agregada. |
| **Audiencia** | Ingenieros de datos, cient√≠ficos de datos. | Analistas de negocio, ejecutivos (v√≠a dashboards). |
| **Alcance** | Empresarial (toda la informaci√≥n de clientes). | Espec√≠fico del proyecto (ej. "rentabilidad del cliente"). |
| **Optimizaci√≥n** | Para la integridad y la flexibilidad del an√°lisis. | Para la velocidad de las consultas (`queries`). |

***

### ## Ejemplos Pr√°cticos para Nuestro Dataset de Olist

A partir de nuestra capa Silver, podr√≠amos crear varias tablas Oro, cada una dise√±ada para un prop√≥sito diferente.

#### Ejemplo 1: El Dashboard de Ventas (BI)
* **Nombre de la tabla**: `resumen_ventas_mensual`
* **Pregunta de negocio**: "¬øC√≥mo van nuestras ventas mes a mes en cada estado?"
* **Estructura**:
  * `a√±o_mes` (ej. '2018-02')
  * `estado_cliente`
  * `total_pedidos` (COUNT)
  * `valor_total_vendido` (SUM)
  * `promedio_por_pedido` (AVG)
  * `total_clientes_unicos` (COUNT DISTINCT)
* **Beneficio**: Una herramienta como Power BI o Tableau puede conectarse a esta tabla y crear un dashboard incre√≠blemente r√°pido, ya que todos los c√°lculos pesados ya est√°n hechos. El analista solo arrastra y suelta los campos.

#### Ejemplo 2: El Modelo de Segmentaci√≥n de Clientes (Machine Learning)
* **Nombre de la tabla**: `features_clientes_rfm`
* **Pregunta de negocio**: "¬øCu√°les son nuestros mejores clientes basados en su comportamiento de compra?"
* **Estructura (RFM - Recencia, Frecuencia, Valor Monetario)**:
  * `customer_unique_id`
  * `dias_desde_ultima_compra` (Recencia)
  * `numero_total_pedidos` (Frecuencia)
  * `valor_total_gastado` (Valor Monetario)
  * `categoria_favorita`
* **Beneficio**: Un cient√≠fico de datos puede usar esta tabla directamente para entrenar un modelo de clustering (ej. K-Means) para segmentar a los clientes en grupos como "Campeones", "En Riesgo", "Nuevos", etc. No necesita hacer `JOINs` ni agregaciones.

#### Ejemplo 3: El Reporte Financiero
* **Nombre de la tabla**: `performance_vendedores`
* **Pregunta de negocio**: "¬øQu√© vendedores est√°n generando m√°s ingresos y cu√°l es su costo de env√≠o promedio?"
* **Estructura**:
  * `seller_id`
  * `seller_city`
  * `seller_state`
  * `total_ingresos_generados`
  * `promedio_costo_envio`
  * `numero_productos_vendidos`
* **Beneficio**: El equipo de finanzas o de operaciones puede evaluar r√°pidamente el rendimiento de los vendedores sin necesidad de consultar m√∫ltiples tablas.

***

### ## ¬øPor Qu√© es Tan Importante la Capa Oro?

1.  **Rendimiento Extremo**: Las consultas a tablas agregadas son √≥rdenes de magnitud m√°s r√°pidas que las consultas que deben procesar millones de filas en la capa Silver. Para un dashboard interactivo, esta es la diferencia entre una experiencia fluida y una frustrante.
2.  **Reducci√≥n de Costos**: En sistemas de `data warehousing` en la nube que cobran por datos escaneados, consultar tablas Oro peque√±as y agregadas es mucho m√°s barato que escanear tablas de hechos masivas repetidamente.
3.  **Consistencia del Negocio**: Si todos los reportes de ventas se basan en la tabla `resumen_ventas_mensual`, te aseguras de que todos en la empresa vean exactamente los mismos n√∫meros. Evita que cada analista calcule las "ventas totales" a su manera.
4.  **Autoservicio Real**: Empodera a los usuarios de negocio para que puedan responder a sus propias preguntas sin depender constantemente del equipo de datos para construir consultas complejas.

## Fase 8: Construcci√≥n de la Capa Oro (Gold)

**Objetivo:** Crear tablas agregadas y espec√≠ficas para el negocio que potencien el BI y el reporting.

La capa Oro es la √∫ltima milla de nuestro pipeline. No contiene datos nuevos, sino **agregaciones de la capa Silver** dise√±adas para ser extremadamente r√°pidas y f√°ciles de consultar.

Crearemos una tabla llamada `ventas_por_estado_categoria` que pre-calcular√° las ventas totales. Un analista de negocio podr√≠a conectar una herramienta como Power BI directamente a esta tabla sin necesidad de escribir `JOINs` complejos.

In [0]:
%sql
-- Creamos nuestra primera tabla en la capa Gold
CREATE OR REPLACE TABLE sesion_5.gold.ventas_por_estado_categoria
USING DELTA
COMMENT 'Tabla agregada con el total de ventas por estado del cliente y categor√≠a del producto.'
AS
SELECT
  dc.customer_state,
  dp.product_category,
  COUNT(fp.order_id) AS total_pedidos,
  SUM(fp.valor_pago) AS valor_total_pagado,
  AVG(fp.valor_pago) AS promedio_pago_por_pedido
FROM sesion_5.silver.fact_pedidos AS fp
JOIN sesion_5.silver.dim_clientes_sql AS dc ON fp.customer_id = dc.customer_id
JOIN sesion_5.silver.dim_productos AS dp ON fp.product_id = dp.product_id
GROUP BY
  dc.customer_state,
  dp.product_category;

-- ¬°Ahora consultar esta informaci√≥n es instant√°neo!
SELECT *
FROM sesion_5.gold.ventas_por_estado_categoria
WHERE customer_state = 'SP'
ORDER BY valor_total_pagado DESC
LIMIT 10;

## ¬°Hemos Completado el Pipeline Medallion! üéâ

**¬°Felicidades!** Has construido un pipeline de datos de extremo a extremo, desde la ingesta de archivos crudos (Bronze), pasando por la limpieza y modelado (Silver), hasta la creaci√≥n de una tabla agregada lista para el negocio (Gold).

### Pr√≥ximos Pasos y Consideraciones Finales

En un proyecto real, los siguientes pasos ser√≠an:
* **Optimizaci√≥n y Mantenimiento**: Para asegurar que las consultas a la capa Silver sigan siendo r√°pidas a medida que los datos crecen, programar√≠amos tareas de mantenimiento como `OPTIMIZE` y `ZORDER`. Por ejemplo:
    ```sql
    OPTIMIZE sesion_5.silver.fact_pedidos ZORDER BY (fecha_pedido);
    ```
* **Orquestaci√≥n**: Automatizar√≠amos la ejecuci√≥n de este notebook para que se actualice diariamente usando una herramienta como Databricks Workflows o Airflow.
* **Data Quality**: A√±adir√≠amos pruebas de calidad de datos (usando `EXPECTATIONS` en Delta Live Tables, por ejemplo) para asegurar que solo datos v√°lidos pasen de Bronze a Silver.

¬°Excelente! Ahora que tienes el pipeline completo, el siguiente paso l√≥gico es automatizarlo. La **orquestaci√≥n** es el proceso de programar y gestionar la ejecuci√≥n de tus flujos de trabajo de datos (tus notebooks) de manera autom√°tica, fiable y monitorizada.

La herramienta nativa para esto en Databricks se llama **Databricks Workflows (Jobs)**. Es extremadamente potente y f√°cil de usar.

Aqu√≠ tienes un paso a paso detallado para orquestar tu pipeline.

---
## Prerrequisito: Preparar tu Notebook para Producci√≥n

Antes de automatizar, es una buena pr√°ctica "limpiar" tu notebook de desarrollo para crear una versi√≥n de producci√≥n. Un notebook de producci√≥n no deber√≠a tener celdas de exploraci√≥n o pruebas.

**Acciones recomendadas:**
1.  **Guarda una copia:** Guarda tu notebook actual con un nuevo nombre, por ejemplo, `pipeline_olist_produccion`.
2.  **Elimina celdas innecesarias:** En la nueva copia, elimina las celdas que no son esenciales para la ejecuci√≥n del pipeline:
    * Las celdas de exploraci√≥n (EDA) con `.show()` o `.printSchema()`.
    * La celda de comparaci√≥n entre PySpark y SQL. Qu√©date solo con la versi√≥n que usar√°s en producci√≥n (la versi√≥n SQL en nuestro caso).
    * La celda de `Fase 0` para crear el cat√°logo y los esquemas. En producci√≥n, la infraestructura ya deber√≠a existir.
3.  **Aseg√∫rate de que se ejecute de principio a fin:** El notebook final debe contener √∫nicamente el c√≥digo necesario para ejecutar la transformaci√≥n de Bronze a Gold sin errores.

---
## Paso a Paso para la Orquestaci√≥n con Databricks Workflows

### Paso 1: Ir a la Secci√≥n de Workflows

En el men√∫ principal de la izquierda de tu workspace de Databricks, haz clic en el √≠cono de **Workflows**.


---
### Paso 2: Crear un Nuevo "Job"

Un **Job** (Trabajo) es el contenedor de tu flujo de trabajo. Puede tener una o varias tareas.

1.  Dentro de la p√°gina de Workflows, haz clic en el bot√≥n azul **Create Job**.
2.  Dale un nombre descriptivo a tu Job en la parte superior, por ejemplo, `Procesamiento Diario Olist`.



---
### Paso 3: Configurar tu Primera Tarea (Task)

Ahora, configurar√°s la tarea que ejecutar√° tu notebook.

1.  **Nombre de la Tarea**: Dale un nombre a la tarea, como `bronze_a_gold`.
2.  **Tipo (Type)**: Selecciona **Notebook**.
3.  **Fuente (Source)**: Selecciona **Workspace** y busca tu notebook de producci√≥n (`pipeline_olist_produccion.ipynb`) usando el explorador de archivos.
4.  **Cluster**: Aqu√≠ tienes la decisi√≥n m√°s importante.
    * **Opci√≥n A (Recomendada para producci√≥n):** *New Job Cluster*. Esto crea un cl√∫ster temporal que se enciende solo para ejecutar el job y se apaga al terminar. Es la opci√≥n m√°s eficiente en costos. Puedes configurar un tama√±o de cl√∫ster peque√±o para empezar.
    * **Opci√≥n B (Para pruebas):** Puedes seleccionar tu cl√∫ster interactivo existente (el que usaste para desarrollar).
5.  Haz clic en el bot√≥n **Create task**.



---
### Paso 4: Programar la Ejecuci√≥n (Schedule)

Aqu√≠ es donde le dices a Databricks *cu√°ndo* quieres que se ejecute tu pipeline.

1.  En el panel de la derecha de la configuraci√≥n del Job, haz clic en **Add trigger**.
2.  En "Trigger type", selecciona **Schedule**.
3.  Configura la frecuencia. Por ejemplo, para una ejecuci√≥n diaria a las 3:00 AM:
    * **Schedule**: `Daily`
    * **At**: `03` : `00`
4.  Puedes usar la sintaxis **Cron** para programaciones m√°s complejas si lo necesitas.
5.  Haz clic en **Save**.



---
### Paso 5: (Opcional pero recomendado) Configurar Alertas

Es vital saber si tu pipeline fall√≥ o se complet√≥ con √©xito.

1.  En la configuraci√≥n del Job, ve a la secci√≥n de **Notifications**.
2.  Haz clic en **Add notification**.
3.  A√±ade tu correo electr√≥nico para los eventos **On success** (√©xito) y, m√°s importante, **On failure** (fallo).
4.  Haz clic en **Confirm**.

---
### Paso 6: Ejecutar y Monitorear

¬°Listo! Ya tienes un pipeline orquestado.

* Puedes hacer clic en **Run now** en la esquina superior derecha para probarlo inmediatamente.
* En la pesta√±a **Runs**, podr√°s ver el historial de todas las ejecuciones, ver si tuvieron √©xito o fallaron, y acceder a los logs para depurar cualquier problema.

Siguiendo estos pasos, has pasado de un script interactivo a un pipeline de datos automatizado, robusto y listo para producci√≥n.

## Orquestaci√≥n del Pipeline con Databricks Workflows ‚öôÔ∏è

**Objetivo:** Automatizar la ejecuci√≥n de nuestro pipeline para que se actualice de forma regular sin intervenci√≥n manual.

Un pipeline solo es √∫til si los datos est√°n frescos. La orquestaci√≥n es el proceso de programar nuestro notebook para que se ejecute autom√°ticamente. La herramienta nativa para esto es **Databricks Workflows (Jobs)**.

**Pasos para Orquestar este Notebook:**
1.  **Preparar una Versi√≥n de Producci√≥n**: Guarda una copia de este notebook (ej. `pipeline_olist_produccion`) y elimina las celdas de exploraci√≥n (EDA) y las de comparaci√≥n (PySpark vs SQL). El notebook final debe contener solo el c√≥digo esencial para ir de Bronce a Oro.
2.  **Ir a Workflows**: En el men√∫ de Databricks, ve a la secci√≥n "Workflows".
3.  **Crear un Nuevo Job**: Dale un nombre (ej. `Procesamiento Diario Olist`).
4.  **Configurar la Tarea**:
    * **Tipo**: Notebook.
    * **Fuente**: Selecciona tu notebook de producci√≥n.
    * **Cluster**: Configura un *New Job Cluster*. Esto es m√°s eficiente en costos, ya que el cl√∫ster se crea solo para la ejecuci√≥n y se apaga al terminar.
5.  **Programar la Ejecuci√≥n (Schedule)**:
    * A√±ade un "Trigger" de tipo "Schedule".
    * Config√∫ralo para que se ejecute diariamente a la hora que prefieras (ej. 3:00 AM).
6.  **Configurar Alertas**: A√±ade tu correo electr√≥nico en la secci√≥n de "Notifications" para recibir una alerta si el job falla.

Una vez configurado, Databricks se encargar√° de ejecutar tu pipeline y mantener tus datos actualizados autom√°ticamente.

## Mantenimiento y Optimizaci√≥n a Largo Plazo üõ†Ô∏è

**Objetivo:** Entender las tareas necesarias para mantener el rendimiento de nuestro Lakehouse.

A medida que los datos crecen, las consultas pueden volverse m√°s lentas. Delta Lake viene con herramientas para combatir esto. En un entorno de producci√≥n, a√±adir√≠amos estos comandos al final de nuestro job orquestado:

* **`OPTIMIZE`**: Compacta los archivos peque√±os en archivos m√°s grandes. Leer un archivo grande es mucho m√°s r√°pido para Spark que leer miles de archivos peque√±os.
* **`ZORDER`**: Es una t√©cnica de co-localizaci√≥n de datos. Ordena los datos dentro de los archivos seg√∫n las columnas que m√°s usas para filtrar (como fechas o IDs), permitiendo a Spark "saltarse" los archivos que no necesita leer.

In [0]:
%sql
-- Ejemplo de comandos de mantenimiento que se ejecutar√≠an al final del pipeline
-- Esto no necesita ejecutarse ahora, es para ilustrar el concepto.

-- OPTIMIZE sesion_5.silver.fact_pedidos ZORDER BY (fecha_pedido);
-- ANALYZE TABLE sesion_5.silver.fact_pedidos COMPUTE STATISTICS FOR ALL COLUMNS;

SELECT "El mantenimiento es clave para un rendimiento sostenido." as conclusion;

## Conclusi√≥n de la Reconstrucci√≥n Punta a Punta üöÄ

**¬°Lo hemos logrado!** Hemos construido un pipeline de datos completo, robusto y automatizable, siguiendo las mejores pr√°cticas de la industria.

**Nuestro Viaje:**
1.  **Configuramos una Arquitectura Profesional**: Creamos un cat√°logo dedicado con esquemas y vol√∫menes para cada capa (Bronce, Plata, Oro).
2.  **Ingestamos Datos Crudos (Bronce)**: Cargamos los archivos CSV originales sin ninguna modificaci√≥n.
3.  **Validamos la Calidad**: Implementamos "guardianes" que detienen el pipeline si los datos no cumplen con nuestras reglas de negocio, protegiendo la integridad de nuestro Lakehouse.
4.  **Modelamos la Fuente de la Verdad (Plata)**: Transformamos los datos crudos en un Esquema en Estrella limpio, validado y con relaciones definidas, listo para an√°lisis flexibles.
5.  **Entregamos Valor al Negocio (Oro)**: Creamos tablas pre-agregadas y optimizadas para que las consultas de BI sean instant√°neas.

Ahora tienes un modelo de trabajo que puedes adaptar y escalar para cualquier proyecto de datos en el futuro.