# 🧪 Laboratorio 3: Creación de una Arquitectura Lakehouse Completa

## 🎯 Objetivo

Construir una arquitectura Lakehouse usando Databricks y Delta Lake con capas Bronze, Silver y Gold, y compartir datos entre cuentas mediante Delta Sharing.

## ℹ️ Introducción

El enfoque Lakehouse combina lo mejor de los data lakes (almacenamiento económico y escalable) con las capacidades de gestión de datos de los data warehouses.
Este laboratorio se centra en aplicar este enfoque usando Delta Lake para construir una arquitectura de tres capas: Bronze, Silver y Gold, incluyendo mecanismos de compartición como Delta Sharing.

## 🧠 Conceptos Clave

**Delta Lake**
Formato de almacenamiento transaccional sobre Apache Spark que permite ACID transactions, manejo de versiones y control de esquemas.
[📘 Ver documentación](https://docs.delta.io/latest/index.html)

**Arquitectura Multi-Hop**
- **Bronze**: Datos crudos sin procesar.
- **Silver**: Datos limpios y validados.
- **Gold**: Datos agregados o listos para consumo de negocio.

**Delta Sharing**
Protocolo abierto para compartir datos entre plataformas y organizaciones directamente desde Delta Lake.
[📘 Ver documentación](https://docs.delta.io/latest/delta-sharing.html)

## 🛠️ Pasos del laboratorio

### 1. Ingestar datos en la capa Bronze (sin transformación)

In [None]:
df_bronze = spark.read.option("header", True).csv("/databricks-datasets/retail-org/customers/")
df_bronze.write.format("delta").mode("overwrite").save("/mnt/lakehouse/bronze/customers")

### 2. Transformar y guardar datos limpios en la capa Silver

In [None]:
df_silver = spark.read.format("delta").load("/mnt/lakehouse/bronze/customers")
df_silver_clean = df_silver.dropna().dropDuplicates()
df_silver_clean.write.format("delta").mode("overwrite").save("/mnt/lakehouse/silver/customers")

### 3. Crear una vista Gold con datos agregados

In [None]:
df_gold = spark.read.format("delta").load("/mnt/lakehouse/silver/customers")
df_agg = df_gold.groupBy("state").count()
df_agg.write.format("delta").mode("overwrite").save("/mnt/lakehouse/gold/customers_by_state")

### 4. Compartir datos usando Delta Sharing (simulado)
- En un entorno real, se debe configurar un share y un recipient desde la UI de Databricks o vía API.
- Para este ejercicio, asumimos que los datos Gold están disponibles públicamente a través de Delta Sharing.

## ✅ Validación
- Explora el contenido de cada carpeta Delta (Bronze, Silver y Gold).
- Usa `DESCRIBE HISTORY` para verificar versionado.
- Simula el acceso compartido de otra cuenta usando rutas absolutas en Delta Lake.
