---
title: "DBT - Data Build Tool"
author: "√Ångel Rodr√≠guez Chicote"
lang: es
toc: true
toc-expand: true
number-sections: true
number-depth: 3
format:
  html:
    self-contained: true
    code-fold: false
    toc: true
    toc-expand: 1
  # pdf: 
  #   code-fold: false
  #   toc: true
  # docx:
  #   code-fold: false
  #   toc: true
execute:
  warning: false
---

## Introducci√≥n a dbt - Transformando el Mundo de los Datos

### Problemas antes de dbt

Antes de dbt, los equipos de datos enfrentaban varios desaf√≠os cr√≠ticos:

#### 1. **El Problema del "Spaghetti Code"**
- Scripts SQL dispersos sin organizaci√≥n clara
- Transformaciones complejas en archivos monol√≠ticos
- Dependencias impl√≠citas dif√≠ciles de rastrear
- Falta de modularidad y reutilizaci√≥n

#### 2. **Ausencia de Mejores Pr√°cticas de Software**
- Testing manual y propenso a errores
- Documentaci√≥n desactualizada o inexistente
- Colaboraci√≥n limitada entre equipos

#### 3. **Problemas de Escalabilidad**
- Pipelines fr√°giles que se romp√≠an frecuentemente
- Dificultad para onboarding de nuevos desarrolladores
- Mantenimiento costoso y tiempo de desarrollo lento

### ¬øQu√© es dbt? 

**dbt (Data Build Tool) es una herramienta de l√≠nea de comandos que permite a los equipos de datos transformar datos en sus warehouses aplicando pr√°cticas de ingenier√≠a de software**.

#### Definici√≥n T√©cnica
dbt es un **framework de transformaci√≥n de datos** que:
- Compila modelos en SQL puro
- Ejecuta transformaciones directamente en el data warehouse
- Gestiona dependencias autom√°ticamente
- Aplica testing y documentaci√≥n de forma nativa

#### Filosof√≠a Core de dbt
```
"dbt does the T in ELT"
(Extract, Load, Transform)
```

En lugar del ETL tradicional, dbt se centra en el modelo **ELT**:
- **Extract & Load**: Ingestar los datos de origen con transformaciones minimas.
- **Transform**: dbt se encarga de las transformaciones.

### Los Modelos: El Coraz√≥n de dbt

#### ¬øQu√© es un Modelo?
Un **modelo** en dbt es:
- Un archivo `.sql` que contiene una consulta SELECT donde se combina SQL y Jinja
- Representa una transformaci√≥n de datos
- Se ejecuta y materializa en el warehouse

#### Ejemplo Conceptual
```sql
select
    customer_id,
    first_name,
    last_name,
    email
from {{ source('raw_data', 'customers') }}
where active = true
```

### Funciones Especiales que Revolucionan el SQL

#### 1. **ref() - Referencias entre Modelos**
```sql
-- Crea dependencias autom√°ticas
select * from {{ ref('staging__customers') }}
```

#### 2. **source() - Referencias a Datos Raw**
```sql
-- Referencia a tablas originales
select * from {{ source('ecommerce', 'raw_orders') }}
```


### Componentes Arquitect√≥nicos de dbt

#### 1. **El Compilador (Compiler)**
- **Funci√≥n**: Convierte los modelos en SQL puro
- **Proceso**:
  ```
  M√≥delo dbt ‚Üí Compilador ‚Üí SQL ejecutable
  ```

#### 2. **El Runner (Ejecutor)**
- **Funci√≥n**: Ejecuta el SQL compilado en el data warehouse
- **Caracter√≠sticas**:
  - Gesti√≥n autom√°tica de dependencias gracias al uso de DAGs.
  - Ejecuci√≥n paralela cuando es posible
  - Manejo de errores y rollbacks
  - Logging detallado de operaciones



## Estructura del Proyecto jaffle_shop

Nuestro proyecto tiene la siguiente estructura:

```
jaffle_shop/
‚îú‚îÄ‚îÄ dbt_project.yml          # Configuraci√≥n del proyecto
‚îú‚îÄ‚îÄ profiles.yml             # Configuraci√≥n de conexi√≥n
‚îú‚îÄ‚îÄ models/
‚îÇ   ‚îú‚îÄ‚îÄ staging/             # Modelos de preparaci√≥n (views)
‚îÇ   ‚îî‚îÄ‚îÄ marts/               # Modelos finales (tables)
‚îú‚îÄ‚îÄ macros/                  # Funciones reutilizables
‚îú‚îÄ‚îÄ tests/                   # Tests personalizados
‚îî‚îÄ‚îÄ seeds/                   # Datos raw
```


## Comandos B√°sicos de dbt

### Comandos Esenciales

```bash
# Verificar configuraci√≥n
dbt debug

# Cargar ficheros seed
dbt seed

# Ejecutar todos los modelos
dbt run

# Ejecutar un modelo espec√≠fico
dbt run --select staging__order_items

# Ejecutar modelos con dependencias
dbt run --select marts__customers+

# Compilar sin ejecutar
dbt compile

# Generar fichero yml
dbt run-operation generate_model_yaml --args '{"model_names": ["staging__customers"]}'

# Ver la documentaci√≥n
dbt docs generate
dbt docs serve
```

Con `dbt seed` podemos cargar datos de ejemplo en nuestro data warehouse desde archivos CSV ubicados en la carpeta `seeds/`. Estos datos ser√°n datos en raw, los datos de partida, nuestras sources.

Ahora imaginemos que estamos interesados en rresponder las siguientes preguntas de negocio:

1. ¬øCu√°ntos clientes activos tenemos (con compras en el √∫ltimo mes)?
2. ¬øCu√°l es el total de ventas por producto?
3. ¬øCu√°les son los 10 productos m√°s vendidos en el √∫ltimo trimestre?

Vamos a resolverlos utilizando las tablas que tenemos ahora mismo (las tablas de raw)

Podremos resolverlo con querys como las siguientes: 

```sql
-- 1. Clientes activos
select 
  count(distinct customer) as number_of_active_customers 
from 
  jaffle_shop.raw.orders
where 
  ORDERED_AT >= '2016-08-01'
```
```sql
-- 2. Total de ventas por producto
select 
    sku, 
    sum(price) as total_ventas
from 
    jaffle_shop.raw.items
group by 
    sku
order by 
    total_ventas desc
```
```sql
-- 3. Top 10 productos m√°s vendidos desde 2016-07-01
select 
    sku, 
    sum(units) as unidades_vendidas
from
    jaffle_shop.raw.items
inner join 
  jaffle_shop.raw.orders
on orders.id = items.order_id
where 
    ORDERED_AT >= '2016-07-01' -- Esta comparaci√≥n puede ser peligrosa
group by 
    sku
order by 
    unidades_vendidas desc
limit 10
```

## Capa Staging

Dado que los datos en las tablas raw no est√°n limpios ni estructurados para consultar, el primer paso es crear una capa de staging. Esta capa se encargar√° de preparar y limpiar los datos para que est√©n listos para su consulta. La capa staging estar√° compuesta por modelos dbt que transformen las tablas raw en vistas limpias y estructuradas. Es aqui donde tendremos el primer acercamiento con los modelos de dbt y donde podremos ver la filosofia de dbt en acci√≥n.


### El Paradigma dbt: Transform First, Questions Later

#### Enfoque Tradicional
```
Pregunta de Negocio ‚Üí An√°lisis Ad-hoc ‚Üí SQL espec√≠fico ‚Üí Resultado
```

#### Enfoque dbt
```
Datos en bruto ‚Üí Modelos Base ‚Üí Modelos Intermedios ‚Üí Modelos Marts ‚Üí M√∫ltiples An√°lisis
```

**Ventaja**: Una vez construidos los modelos base, responder nuevas preguntas es mucho m√°s r√°pido.

Ahora ya podemos trabajar con las tablas limpias desde el inicio, sin tener que lidiar con los datos sucios de las tablas raw. Pero a√∫n as√≠, para responder ciertas preguntas, tenemos que hacer transformaciones adicionales. Por ejemplo, para calcular el total de ventas por producto y mes, necesitamos unir las tablas de orders e items y realizar agregaciones. Dado que queremos aislar toda la complejidad posible, crearemos una nueva capa intermedia llamada "intermediate" donde realizaremos estas transformaciones adicionales antes de llegar a la capa final.

## Capa Intermediate

La capa intermediate sirve como puente entre la capa de staging y la capa de marts. En esta capa, realizamos transformaciones adicionales y agregaciones que preparan los datos para su an√°lisis final. Los modelos en esta capa suelen ser m√°s complejos y pueden incluir c√°lculos espec√≠ficos del negocio. A√±adiremos mayor complejidad, por lo que se distingue de la capa de staging, pero no ser√°n tablas completas para un consumo final, por lo que no estar√°n en la capa de marts.

En este caso crearemos las tablas intermedias:

- intermediate__orders_lineitems: Combina las tablas de orders e items, calculando cantidades originales y finales, precios unitarios y subtotales, y si hubo devoluciones.
- intermediate__orders: Agrega los datos combinados por fecha, ubicaci√≥n y cliente, contando el n√∫mero de productos y sumando cantidades y precios.

Ambas presentan una complejidad considerable (una a nivel de producto y otra a nivel de order), pero a√∫n no est√°n listas para el consumo final, por lo que las ubicamos en la capa intermediate.


## Capa Marts

La capa marts es la capa final donde los datos est√°n completamente preparados para el an√°lisis y la generaci√≥n de informes. Los modelos en esta capa suelen ser tablas que contienen m√©tricas clave y dimensiones que los analistas pueden utilizar directamente para responder preguntas de negocio. En esta capa, los modelos son optimizados para el rendimiento y la facilidad de uso. Dado que esta capa est√° destinada a resolver preguntas, debemos pensar en la estructura de las tablas para que sean intuitivas y f√°ciles de consultar. 

Por ejemplo, imaginemos que queremos reponder preguntas como las siguientes:

1. ¬øCu√°ntas compras ha hecho cada cliente en el √∫ltimo a√±o?
2. ¬øCu√°l es el total de ventas por producto de los sacados recientemente?
3. ¬øCu√°l es el precio de los 10 productos m√°s vendidos en el √∫ltimo a√±o?
4. ¬øQu√© porcentaje de la compra suponen los productos de comida para cada cliente?

Ahora que ya hemos limpiado y enriquecido nuestras tablas, toca crear la √∫ltima capa: la capa marts. En esta capa, crearemos modelos que respondan directamente a las preguntas de negocio planteadas anteriormente.

## Configuraci√≥n de los Modelos en dbt

En dbt, podemos configurar c√≥mo se comportan y materializan nuestros modelos usando el **bloque de configuraci√≥n (config)**. Esta configuraci√≥n determina aspectos cruciales como el tipo de materializaci√≥n, el esquema de destino, las etiquetas, y mucho m√°s.

### Formas de Configurar un Modelo

#### 1. Configuraci√≥n en el archivo SQL (Recomendado para configuraciones espec√≠ficas)
```sql
{{ config(
    materialized='table',
    schema='staging',
    tags=['daily', 'critical']
) }}

select
    customer_id,
    first_name,
    last_name
from {{ source('raw_data', 'customers') }}
```

#### 2. Configuraci√≥n en dbt_project.yml (Para configuraciones globales)
```yaml
models:
  jaffle_shop:
    staging:
      +materialized: view
      +schema: staging
    marts:
      +materialized: table
      +schema: analytics
```

#### 3. Configuraci√≥n en archivos .yml de propiedades (menos usado)
```yaml
models:
  - name: staging__customers
    config:
      materialized: view
      tags: ['pii', 'hourly']
```

### Par√°metros de Configuraci√≥n M√°s Comunes

#### 1. **materialized** - Tipo de Materializaci√≥n
Define c√≥mo se crea el modelo en el warehouse:

```sql
-- Vista (recalcula en cada consulta)
{{ config(materialized='view') }}

-- Tabla f√≠sica (se reconstruye completamente)
{{ config(materialized='table') }}

-- Incremental (solo a√±ade/actualiza nuevos registros)
{{ config(materialized='incremental') }}

-- Ephemeral (solo existe en compilaci√≥n, no se crea en warehouse)
-- Equivalente a un alias
{{ config(materialized='ephemeral') }}
```

#### 2. **schema** - Esquema de Destino
```sql
{{ config(schema='staging') }}

-- Se crear√° en: <target_schema>_staging
-- Ejemplo: jaffle_shop_staging
```

#### 3. **alias** - Nombre Personalizado de la Tabla
```sql
{{ config(alias='customer_data') }}

-- En lugar de "staging__customers"
-- Se crear√° como "customer_data"
```

#### 4. **tags** - Etiquetas para Organizaci√≥n
```sql
{{ config(tags=['daily', 'core', 'pii']) }}

-- Permite ejecutar grupos de modelos:
-- dbt run --select tag:daily
-- dbt run --select tag:pii
```

#### 5. **enabled** - Habilitar/Deshabilitar Modelo
```sql
{{ config(enabled=false) }}

-- El modelo no se ejecutar√° ni compilar√°
-- √ötil para deprecar modelos temporalmente
```

#### 6. **unique_key** - Clave para Modelos Incrementales
```sql
{{
    config(
        materialized='incremental',
        unique_key='order_id'
    )
}}

select * from {{ ref('staging__orders') }}

{% if is_incremental() %}
where order_date > (select max(order_date) from {{ this }})
{% endif %}
```

#### 7. **pre_hook** y **post_hook** - Hooks SQL
```sql
{{
    config(
        pre_hook="grant usage on schema {{ schema }} to role analyst",
        post_hook="grant select on {{ this }} to role analyst"
    )
}}

-- Se ejecutan antes/despu√©s de materializar el modelo
```

### Precedencia de Configuraci√≥n

La configuraci√≥n se aplica en el siguiente orden (de menor a mayor prioridad):

1. **dbt_project.yml** (configuraci√≥n global)
2. **Archivos .yml de propiedades** (configuraci√≥n por modelo)
3. **Bloque config en archivo .sql** (configuraci√≥n espec√≠fica)
4. **L√≠nea de comandos** (dbt run --vars)

```sql
-- Esto sobrescribe configuraciones previas
{{ config(materialized='table') }}

-- Incluso si dbt_project.yml dice:
-- +materialized: view
```

### Mejores Pr√°cticas

1. **Usa config en SQL para configuraciones espec√≠ficas del modelo**
   - Materializaciones especiales
   - unique_key para incrementales

2. **Usa dbt_project.yml para configuraciones por carpeta**
   - Todos los staging como views
   - Todos los marts como tables

3. **Documenta decisiones de configuraci√≥n**
   ```sql
   {{ config(
       materialized='incremental',
       -- Incremental porque esta tabla tiene >100M filas
       -- y se actualiza cada hora
       unique_key='log_id'
   ) }}
   ```

4. **Usa tags para organizaci√≥n y ejecuci√≥n selectiva**
   ```bash
   dbt run --select tag:daily     # Solo modelos diarios
   dbt run --select tag:pii       # Solo datos sensibles
   dbt run --select tag:critical  # Solo tablas cr√≠ticas
   ```



## ¬øQu√© es un Modelo Incremental?

Un **modelo incremental** es una materializaci√≥n que permite **procesar solo los datos nuevos o modificados** en lugar de reconstruir toda la tabla desde cero en cada ejecuci√≥n.

#### El Problema

```sql
-- Modelo tradicional (materialized='table')
{{ config(materialized='table') }}

select * from {{ source('raw', 'events') }}
-- Problema: Si hay 100M de filas, se reconstruyen TODAS cada vez
```

**En cada ejecuci√≥n:**

- DROP + CREATE toda la tabla
- Procesa 100 millones de filas
- Tarda 30 minutos ‚è±Ô∏è
- Alto consumo de recursos üí∞

#### La Soluci√≥n: Incremental

```sql
-- Modelo incremental
{{ config(materialized='incremental') }}

select * from {{ source('raw', 'orders') }}

{% if is_incremental() %}
    -- Solo procesar datos nuevos
    where created_at > (select max(created_at) from {{ this }})
{% endif %}
```

**En ejecuciones posteriores:**

- Solo agrega las filas nuevas
- Procesa 10,000 filas nuevas (en lugar de 100M)
- Tarda 10 segundos ‚ö°
- Bajo consumo de recursos üí∞

---

### ¬øCu√°ndo Usar Modelos Incrementales?

‚úÖ **√ösalos cuando:**

- Tablas de hechos grandes (millones de filas)
- Datos append-only (logs, eventos, transacciones)
- Tiempos de ejecuci√≥n largos (>5 minutos)
- Los datos nuevos son identificables (fecha, ID incremental)

‚ùå **NO los uses cuando:**

- Tablas peque√±as (<100K filas)
- Los datos cambian frecuentemente (usa snapshots)
- Necesitas recalcular todo constantemente
- Las agregaciones dependen de toda la historia

---

### Componentes Clave

#### 1. **`is_incremental()`** - Detectar Modo Incremental

```sql
{% if is_incremental() %}
    -- Este c√≥digo solo se ejecuta en runs incrementales
    where created_at > (select max(created_at) from {{ this }})
{% endif %}
```

- **Primera ejecuci√≥n:** `is_incremental()` es `False` ‚Üí procesa todo
- **Ejecuciones posteriores:** `is_incremental()` es `True` ‚Üí procesa solo nuevos

#### 2. **`unique_key`** - Gestionar Duplicados

Define c√≥mo identificar registros √∫nicos:

```sql
{{
    config(
        materialized='incremental',
        unique_key='event_id'
    )
}}
```

Si llega un registro con `event_id` existente:

- **Con `unique_key`:** Actualiza el registro
- **Sin `unique_key`:** Inserta duplicado

---

### Estrategias de Incremental

dbt soporta diferentes estrategias seg√∫n el warehouse:

#### 1. **`append`** (Por Defecto)
Solo inserta filas nuevas, nunca actualiza.

```sql
{{ config(
    materialized='incremental',
    incremental_strategy='append'
) }}
```

**Uso:** Datos inmutables (logs, eventos)

#### 2. **`merge`** (Recomendado)
Actualiza registros existentes e inserta nuevos.

```sql
{{ config(
    materialized='incremental',
    unique_key='order_id',
    incremental_strategy='merge'
) }}
```

**Uso:** Cuando los datos pueden actualizarse


---

### Ejemplo con Actualizaciones: Tabla de Pedidos

```sql
-- models/marts/marts__orders.sql

{{
    config(
        materialized='incremental',
        unique_key='order_id',
        incremental_strategy='merge'
    )
}}

select
    *
from {{ ref('staging__orders') }}

{% if is_incremental() %}
    -- Capturar pedidos nuevos o actualizados
    where orderer_at > (select max(ordered_at) from {{ this }})
{% endif %}
```

**Comportamiento:**
- **Pedido nuevo:** Se inserta
- **Pedido actualizado:** Se actualiza (gracias a `unique_key`)

---

### Forzar Reconstrucci√≥n Completa

A veces necesitas reconstruir desde cero:

```bash
# Forzar full-refresh (ignora incremental)
dbt run --full-refresh --select marts__user_events
```

Esto ejecuta el modelo como si fuera la primera vez (sin `WHERE`).

---

### Mejores Pr√°cticas

#### 1. **Siempre Usa una Columna de Tiempo**
```sql
-- ‚úÖ BUENO
where created_at > (select max(created_at) from {{ this }})

-- ‚ùå MALO (sin filtro temporal)
where id > (select max(id) from {{ this }})
-- Problema: No captura actualizaciones
```

#### 2. **A√±ade un Margen de Seguridad**
```sql
{% if is_incremental() %}
    where created_at > (
        select dateadd('day', -1, max(created_at)) 
        from {{ this }}
    )
{% endif %}
-- Reprocesa √∫ltimos 1 d√≠as para capturar datos tard√≠os
```


## Snapshots en dbt - Rastreando Cambios Hist√≥ricos

### ¬øQu√© es un Snapshot?

Un **snapshot** en dbt es una funcionalidad que permite **capturar y rastrear cambios en los datos a lo largo del tiempo**. Es la implementaci√≥n de dbt para las **Slowly Changing Dimensions (SCD)**, espec√≠ficamente Type 2 SCD.

#### El Problema que Resuelven los Snapshots

Imagina que tienes una tabla de clientes:

```sql
-- Hoy (2024-01-15)
| customer_id | name          | status   | city      |
|-------------|---------------|----------|-----------|
| 1           | Ana Garc√≠a    | active   | Madrid    |
| 2           | Luis P√©rez    | active   | Barcelona |
```

Ma√±ana, Ana se muda a Valencia:

```sql
-- Ma√±ana (2024-01-16)
| customer_id | name          | status   | city      |
|-------------|---------------|----------|-----------|
| 1           | Ana Garc√≠a    | active   | Valencia  |  ‚Üê CAMBIO
| 2           | Luis P√©rez    | active   | Barcelona |
```

**Problema:** Sin snapshots, perdemos el hist√≥rico. No sabemos que Ana viv√≠a en Madrid.

**Soluci√≥n:** Los snapshots mantienen todas las versiones:

```sql
-- Tabla snapshot_customers
| customer_id | name       | status | city      | dbt_valid_from | dbt_valid_to |
|-------------|------------|--------|-----------|----------------|--------------|
| 1           | Ana Garc√≠a | active | Madrid    | 2024-01-15     | 2024-01-16   |
| 1           | Ana Garc√≠a | active | Valencia  | 2024-01-16     | NULL         |
| 2           | Luis P√©rez | active | Barcelona | 2024-01-15     | NULL         |
```

---

### ¬øCu√°ndo Usar Snapshots?

‚úÖ **Casos de Uso Ideales:**
- Rastrear cambios en datos de clientes (direcciones, tier, estado)
- Hist√≥rico de precios de productos
- Cambios en configuraciones o categor√≠as
- Seguimiento de estados de pedidos o tickets
- Auditor√≠a y cumplimiento normativo

‚ùå **Cu√°ndo NO Usar Snapshots:**
- Datos transaccionales que no cambian (pedidos, logs, eventos)
- Tablas que crecen solo con inserciones (append-only)
- Datos que cambian con mucha frecuencia (cada minuto)

---

### Estrategias de Snapshot

dbt ofrece dos estrategias principales para detectar cambios:

#### 1. **Estrategia `timestamp`** (Recomendada)

Detecta cambios bas√°ndose en una columna de timestamp que indica cu√°ndo se actualiz√≥ el registro.

**Requisitos:**
- La tabla origen debe tener una columna `updated_at` o similar
- Esta columna se actualiza cada vez que cambia el registro

**Ejemplo:**

```sql
{% snapshot snapshot__customers %}

{{
    config(
      target_schema='snapshots',
      unique_key='customer_id',
      
      strategy='timestamp',
      updated_at='updated_at'
    )
}}

select * from {{ source('raw', 'customers') }}

{% endsnapshot %}
```

**¬øC√≥mo funciona?**

- dbt compara el `updated_at` de cada registro con la √∫ltima versi√≥n capturada
- Si `updated_at` es m√°s reciente, marca el registro antiguo como vencido y crea uno nuevo

**Ventajas:**

- ‚úÖ M√°s eficiente (solo compara un campo)
- ‚úÖ M√°s r√°pido en tablas grandes
- ‚úÖ Menos costoso computacionalmente

**Desventajas:**

- ‚ùå Requiere que la tabla tenga un campo de timestamp confiable

---

#### 2. **Estrategia `check`**

Detecta cambios comparando los valores de columnas espec√≠ficas (o todas las columnas).

**Requisitos:**

- No necesita columna de timestamp
- Especificas qu√© columnas monitorear para cambios

**Ejemplo:**

```sql
{% snapshot snapshot__products %}

{{
    config(
      target_schema='snapshots',
      unique_key='sku',
      
      strategy='check',
      check_cols=['price', 'type']
      -- Alternativamente: check_cols='all' para monitorear todas las columnas
    )
}}

select * from {{ source('raw', 'products') }}

{% endsnapshot %}
```

**¬øC√≥mo funciona?**

- dbt calcula un hash de las columnas especificadas
- Si el hash cambia, marca el registro antiguo como vencido y crea uno nuevo

**Ventajas:**

- ‚úÖ Funciona sin columna de timestamp
- ‚úÖ Control granular sobre qu√© columnas rastrear
- ‚úÖ Detecta cambios incluso si no hay `updated_at`

**Desventajas:**

- ‚ùå M√°s costoso (compara m√∫ltiples columnas)
- ‚ùå M√°s lento en tablas grandes
- ‚ùå Si usas `check_cols='all'`, cambios en columnas irrelevantes pueden crear versiones innecesarias

---

### Estructura de un Snapshot

Los archivos de snapshot se crean en la carpeta `snapshots/` del proyecto:

```
jaffle_shop/
‚îú‚îÄ‚îÄ snapshots/
‚îÇ   ‚îú‚îÄ‚îÄ snapshot__customers.sql
‚îÇ   ‚îî‚îÄ‚îÄ snapshot__products.sql
‚îú‚îÄ‚îÄ models/
‚îú‚îÄ‚îÄ dbt_project.yml
‚îî‚îÄ‚îÄ ...
```

---

### Comandos de Snapshot

#### 1. **Ejecutar Todos los Snapshots**
```bash
dbt snapshot
```

Ejecuta todos los archivos en la carpeta `snapshots/`.

#### 2. **Ejecutar un Snapshot Espec√≠fico**
```bash
dbt snapshot --select snapshot__customers
```

#### 3. **Ejecutar Snapshots por Tag**
```bash
dbt snapshot --select tag:daily
```

#### 4. **Ver SQL Compilado**
```bash
dbt compile --select snapshot__customers
```

El SQL compilado estar√° en `target/compiled/jaffle_shop/snapshots/`.

---

### Mejores Pr√°cticas

#### 1. **Usa `timestamp` Cuando Sea Posible**
```sql
-- ‚úÖ Preferido - m√°s eficiente
strategy='timestamp'
updated_at='updated_at'

-- ‚ùå Solo si no hay timestamp
strategy='check'
check_cols='all'
```

#### 2. **S√© Selectivo con `check_cols`**
```sql
-- ‚úÖ Solo columnas relevantes
check_cols=['price', 'status', 'tier']

-- ‚ùå Evita 'all' si hay columnas que cambian constantemente pero no importan
check_cols='all'
```

#### 3. **Ejecuta Snapshots Regularmente**

- Configura un cron job o scheduler para ejecutar `dbt snapshot` diariamente
- La frecuencia depende de qu√© tan r√°pido cambian los datos

#### 4. **Documenta tus Snapshots**
```yaml
# snapshots/schema.yml
version: 2

snapshots:
  - name: snapshot__customers
    description: |
      Hist√≥rico de cambios en datos de clientes.
      Ejecutado diariamente a las 2:00 AM.
      
      Rastrea cambios en: direcci√≥n, tier, status
    
    columns:
      - name: customer_id
        description: "ID √∫nico del cliente"
      
      - name: dbt_valid_from
        description: "Fecha desde la cual esta versi√≥n es v√°lida"
      
      - name: dbt_valid_to
        description: "Fecha hasta la cual esta versi√≥n fue v√°lida (NULL = actual)"
```

#### 5. **Monitorea el Tama√±o de Snapshots**

- Los snapshots crecen con cada cambio
- Revisa peri√≥dicamente el tama√±o y considera archivar versiones antiguas

#### 6. **No Hagas Snapshot de Datos Transaccionales**
```sql
-- ‚ùå MAL - Los pedidos no cambian, solo se crean
{% snapshot snapshot__orders %}
select * from {{ source('raw', 'orders') }}
{% endsnapshot %}

-- ‚úÖ BIEN - Los clientes S√ç cambian con el tiempo
{% snapshot snapshot__customers %}
select * from {{ source('raw', 'customers') }}
{% endsnapshot %}
```


## Macros y Paquetes en dbt

### ¬øQu√© son las Macros?

Las **macros** son funciones reutilizables escritas en **Jinja** que te permiten:

- ‚úÖ Evitar c√≥digo SQL repetitivo (DRY - Don't Repeat Yourself)
- ‚úÖ Crear l√≥gica compleja y reutilizable
- ‚úÖ Generar SQL din√°micamente
- ‚úÖ Compartir c√≥digo entre modelos

Las macros son como funciones en programaci√≥n, pero para SQL.

---

### Sintaxis B√°sica de una Macro

```sql
{# macros/my_macro.sql #}
{% macro nombre_macro(parametro1, parametro2) %}
    -- C√≥digo SQL aqu√≠
    select {{ parametro1 }}, {{ parametro2 }}
{% endmacro %}
```

#### Uso de la Macro
```sql
{# En cualquier modelo #}
{{ nombre_macro('columna1', 'columna2') }}
```

---

### Ejemplos de Macros

```sql
{# macros/days_since.sql #}
{% macro days_since(date_column) %}
    datediff('day', {{ date_column }}, current_date)
{% endmacro %}
```

**Uso:**
```sql
select
    customer_id,
    last_order_date,
    {{ days_since('last_order_date') }} as days_since_last_order
from {{ ref('marts__customers') }}
```

**SQL Compilado:**
```sql
select
    customer_id,
    last_order_date,
    datediff('day', last_order_date, current_date) as days_since_last_order
from analytics.marts__customers
```

---


#### Generar Columnas de Fecha
Una macro muy √∫til para crear m√∫ltiples columnas derivadas de una fecha:

```sql
{# macros/generate_date_columns.sql #}
{% macro generate_date_columns(date_field) %}
    {{ date_field }} as date,
    extract(year from {{ date_field }}) as year,
    extract(month from {{ date_field }}) as month,
    extract(day from {{ date_field }}) as day,
    extract(dayofweek from {{ date_field }}) as day_of_week,
    case 
        when extract(dayofweek from {{ date_field }}) in (0, 6) then true 
        else false 
    end as is_weekend
{% endmacro %}
```

**Uso:**
```sql
select
    order_id,
    {{ generate_date_columns('order_date') }}
from {{ ref('staging__orders') }}
```


### Macros Especiales de dbt

dbt incluye macros integradas muy √∫tiles:

#### 1. `ref()` - Referenciar Modelos
```sql
select * from {{ ref('staging__customers') }}
```

#### 2. `source()` - Referenciar Fuentes
```sql
select * from {{ source('raw', 'customers') }}
```

#### 3. `is_incremental()` - Detectar Ejecuci√≥n Incremental
```sql
{{ config(materialized='incremental', unique_key='order_id') }}

select * from {{ ref('staging__orders') }}

{% if is_incremental() %}
    where order_date > (select max(order_date) from {{ this }})
{% endif %}
```

#### 4. `this` - Referencia al Modelo Actual
```sql
-- √ötil en hooks y l√≥gica incremental
select max(updated_at) from {{ this }}
```

**Las macros son globales:** Una vez definidas, est√°n disponibles en **todos los modelos** del proyecto.

---

### Mejores Pr√°cticas con Macros

#### 1. Nombres Descriptivos
```sql
{# ‚úÖ Bueno #}
{% macro calculate_customer_lifetime_value(orders_table) %}

{# ‚ùå Malo #}
{% macro calc_ltv(tbl) %}
```

#### 2. Documentaci√≥n de Macros
```sql
{# macros/days_since.sql #}

{#
    Calcula el n√∫mero de d√≠as transcurridos desde una fecha dada hasta hoy.
    
    Par√°metros:
        date_column (str): Nombre de la columna de fecha
    
    Retorna:
        Expresi√≥n SQL que calcula la diferencia en d√≠as
    
    Ejemplo:
        {{ days_since('last_login') }}
#}
{% macro days_since(date_column) %}
    datediff('day', {{ date_column }}, current_date)
{% endmacro %}
```

#### 3. Testear Macros con dbt compile
```bash
dbt compile --select modelo_que_usa_macro
```

Revisa el SQL compilado en `target/compiled/` para validar que la macro genera el c√≥digo esperado.


**Ejercicio de Pr√°ctica**: Crea una macro que pivote la familia de producto en m√∫ltiples columnas basadas en sus valores √∫nicos y que sume el n√∫mero unidades.

---

## ¬øQu√© son los Paquetes?

Los **paquetes** son colecciones de macros, modelos y tests desarrollados por la comunidad o por dbt Labs que puedes instalar y reutilizar en tu proyecto.

**Beneficios:**

- ‚úÖ Evitar reinventar la rueda
- ‚úÖ Implementar mejores pr√°cticas probadas por la comunidad
- ‚úÖ Acelerar el desarrollo
- ‚úÖ Acceder a funcionalidad avanzada sin escribir c√≥digo desde cero

---

### Instalaci√≥n de Paquetes

#### 1. Crear el Archivo `packages.yml`
En la ra√≠z de tu proyecto dbt, crea el archivo `packages.yml`:

```yaml
# packages.yml
packages:
  - package: dbt-labs/dbt_utils
    version: 1.1.1
  
  - package: calogica/dbt_expectations
    version: 0.10.1
  
  - package: dbt-labs/codegen
    version: 0.12.1
```

#### 2. Instalar los Paquetes
```bash
dbt deps
```

Este comando descarga los paquetes en la carpeta `dbt_packages/`:

```
jaffle_shop/
‚îú‚îÄ‚îÄ dbt_packages/
‚îÇ   ‚îú‚îÄ‚îÄ dbt_utils/
‚îÇ   ‚îú‚îÄ‚îÄ dbt_expectations/
‚îÇ   ‚îî‚îÄ‚îÄ codegen/
‚îú‚îÄ‚îÄ packages.yml
‚îî‚îÄ‚îÄ ...
```


## Documentaci√≥n en dbt

### ¬øPor qu√© es Importante la Documentaci√≥n?

Antes de dbt, la documentaci√≥n de datos era:
- ‚ùå Manual y propensa a quedar desactualizada
- ‚ùå Dispersa en wikis, Google Docs o Confluence
- ‚ùå Dif√≠cil de mantener sincronizada con el c√≥digo
- ‚ùå Poco accesible para analistas de negocio

**dbt revoluciona la documentaci√≥n al:**

- ‚úÖ Generarla autom√°ticamente desde el c√≥digo
- ‚úÖ Mantenerla junto al c√≥digo (fuente √∫nica de la verdad)
- ‚úÖ Crear un sitio web interactivo con linaje de datos
- ‚úÖ Facilitar la colaboraci√≥n entre equipos t√©cnicos y de negocio

---

### Generaci√≥n Autom√°tica de Archivos YAML

Antes de documentar manualmente, dbt ofrece herramientas para **generar autom√°ticamente la estructura base de los archivos YAML**. Esto ahorra tiempo y asegura que no olvidemos ninguna columna.

#### El Paquete `codegen`

**codegen** es un paquete de dbt que proporciona macros para generar c√≥digo autom√°ticamente, incluyendo archivos YAML de documentaci√≥n.

##### Instalaci√≥n

1. **Agregar el paquete en `packages.yml`:**
```yaml
# packages.yml (en la ra√≠z del proyecto)
packages:
  - package: dbt-labs/codegen
    version: 0.12.1
```

2. **Instalar las dependencias:**
```bash
dbt deps
```

Esto descargar√° el paquete codegen en la carpeta `dbt_packages/`.

#### Comando: `generate_model_yaml`

Este comando genera autom√°ticamente la estructura YAML para uno o varios modelos, incluyendo:
- Nombre del modelo
- Lista completa de columnas
- Tipos de datos

##### Sintaxis B√°sica

```bash
dbt run-operation generate_model_yaml --args '{"model_names": ["nombre_modelo"]}'
```

##### Ejemplos Pr√°cticos

**Ejemplo 1: Generar YAML para un solo modelo**

```bash
cd jaffle_shop
dbt run-operation generate_model_yaml --args '{"model_names": ["staging__customers"]}'
```

**Ejemplo 2: Generar YAML para m√∫ltiples modelos**

```bash
dbt run-operation generate_model_yaml --args '{"model_names": ["staging__customers", "staging__orders", "staging__products"]}'
```

#### Flujo de Trabajo Recomendado

1. **Crear el modelo SQL**
   ```sql
   -- models/staging/staging__customers.sql
   select
       id as customer_id,
       first_name,
       last_name,
       email
   from {{ source('raw', 'customers') }}
   ```

2. **Ejecutar el modelo para crear la tabla**
   ```bash
   dbt run --select staging__customers
   ```

3. **Generar el YAML autom√°ticamente**
   ```bash
   dbt run-operation generate_model_yaml --args '{"model_names": ["staging__customers"]}'
   ```

4. **Copiar la salida a un archivo YAML**
   ```bash
   # Crear o editar el archivo
   # models/staging/staging__customers.yml
   ```
   
   Pegar la salida generada y guardar.

5. **Completar las descripciones manualmente**
   ```yaml
   version: 2

   models:
     - name: staging__customers
       description: "Datos limpios de clientes desde la tabla raw"
       columns:
         - name: customer_id
           description: "Identificador √∫nico del cliente (PK)"
           tests:
             - unique
             - not_null
         
         - name: first_name
           description: "Nombre del cliente"
         
         - name: last_name
           description: "Apellido del cliente"
         
         - name: email
           description: "Email de contacto del cliente"
           tests:
             - unique
   ```

**Ventajas de la Generaci√≥n Autom√°tica**

‚úÖ **Ahorro de tiempo**: No escribir manualmente cada columna
‚úÖ **Cero errores de tipeo**: Los nombres se extraen directamente del warehouse
‚úÖ **Completitud**: No olvidar√°s documentar ninguna columna
‚úÖ **Punto de partida**: Estructura base lista para agregar descripciones
‚úÖ **Escalabilidad**: Puedes generar YAML para decenas de modelos r√°pidamente

**Limitaciones**

‚ö†Ô∏è **No genera descripciones**: Las descripciones quedan vac√≠as, debes completarlas manualmente
‚ö†Ô∏è **No a√±ade tests**: Debes agregar los tests seg√∫n tus necesidades
‚ö†Ô∏è **Sobrescribe**: Ten cuidado de no sobrescribir YAML existente con documentaci√≥n

---

### El Comando dbt docs

Una vez que tienes tus archivos YAML (generados autom√°ticamente o escritos manualmente), dbt puede crear un sitio web de documentaci√≥n interactivo.

dbt incluye dos comandos principales para documentaci√≥n:

#### 1. `dbt docs generate`
```bash
dbt docs generate
```

**¬øQu√© hace?**

- Extrae informaci√≥n de los modelos, tests, fuentes y macros
- Lee las descripciones de los archivos `.yml`
- Genera metadatos sobre columnas, tipos de datos y dependencias
- Crea archivos JSON con toda la informaci√≥n (`manifest.json` y `catalog.json`)

**Archivos generados:**
```
target/
‚îú‚îÄ‚îÄ manifest.json      # Estructura del proyecto, dependencias, configuraciones
‚îî‚îÄ‚îÄ catalog.json       # Metadatos del warehouse (tipos de columnas, estad√≠sticas)
```

#### 2. `dbt docs serve`
```bash
dbt docs serve
```

**¬øQu√© hace?**

- Inicia un servidor web local (generalmente en `http://localhost:8080`)
- Presenta un sitio interactivo con toda la documentaci√≥n
- Permite navegar por modelos, dependencias y linaje de datos
- Incluye b√∫squeda y filtrado avanzado

**Para detenerlo:** Presiona `Ctrl+C` en la terminal

---

### C√≥mo Documentar tus Modelos Manualmente

Despu√©s de generar la estructura base con codegen, es importante completar y enriquecer la documentaci√≥n.

#### 1. Documentaci√≥n B√°sica en Archivos YAML

```yaml
# models/staging/schema.yml
version: 2

models:
  - name: staging__customers
    description: |
      Datos de clientes limpios y estandarizados desde la tabla raw.
      Cada registro representa un cliente √∫nico.
      
      **Transformaciones aplicadas:**
      - Renombrado de columnas a snake_case
      - Conversi√≥n de tipos de datos
      - Eliminaci√≥n de registros duplicados
    
    columns:
      - name: customer_id
        description: "Identificador √∫nico del cliente (PK)"
        tests:
          - unique
          - not_null
      
      - name: first_name
        description: "Nombre del cliente"
      
      - name: last_name
        description: "Apellido del cliente"
      
      - name: email
        description: "Email de contacto del cliente"
        tests:
          - unique
          - not_null
```

#### 2. Documentaci√≥n de Fuentes (Sources)

```yaml
# models/staging/sources.yml
version: 2

sources:
  - name: raw
    description: "Datos crudos importados del sistema transaccional"
    database: jaffle_shop
    schema: raw
    
    tables:
      - name: customers
        description: |
          Tabla de clientes del sistema de e-commerce.
          Actualizada cada noche a las 2:00 AM UTC.
        
        columns:
          - name: id
            description: "ID √∫nico del cliente"
            tests:
              - unique
              - not_null
          
          - name: first_name
            description: "Nombre del cliente"
```

#### 3. Documentaci√≥n Avanzada con Metadatos

```yaml
models:
  - name: marts__customers
    description: "Tabla anal√≠tica de m√©tricas agregadas por cliente"
    
    meta:
      owner: "Data Analytics Team"
      update_frequency: "Daily at 3:00 AM"
      maturity: "production"
      contains_pii: true
    
    columns:
      - name: customer_id
        description: "Identificador √∫nico del cliente"
        meta:
          sensitive: false
      
      - name: lifetime_spend
        description: |
          Gasto total del cliente desde su primer pedido.
          **F√≥rmula:** Suma de subtotal + tax + shipping de todos los pedidos
        meta:
          unit: "USD"
          calculation: "sum(order_total)"
```

### Caracter√≠sticas del Sitio de Documentaci√≥n

#### 1. **Vista General del Proyecto**

- Lista de todos los modelos organizados por carpeta
- Estad√≠sticas del proyecto (n√∫mero de modelos, tests, fuentes)
- B√∫squeda global por nombre o descripci√≥n

#### 2. **Vista de Modelo Individual**

Cada modelo muestra:
- Descripci√≥n detallada
- Lista de columnas con tipos y descripciones
- Tests configurados
- C√≥digo SQL compilado
- Linaje de datos (dependencies upstream y downstream)

#### 3. **Gr√°fico de Linaje (DAG)**

- Visualizaci√≥n interactiva de dependencias
- Navegaci√≥n por el grafo de transformaciones
- Identificaci√≥n de modelos upstream (fuentes) y downstream (consumidores)

**Ejemplo de navegaci√≥n:**
```
raw_customers ‚Üí staging__customers ‚Üí intermediate__customer_orders ‚Üí marts__customers
```

#### 4. **Documentaci√≥n de Macros**

- Descripci√≥n de macros personalizados
- Par√°metros de entrada y salida
- Ejemplos de uso

#### 5. **Informaci√≥n del Warehouse**

- Tipos de datos de cada columna (extra√≠dos del warehouse)
- N√∫mero de filas (si est√° disponible)
- √öltima actualizaci√≥n

### Flujo de Trabajo Completo Recomendado

```bash
# 1. Desarrollar modelo SQL
# models/marts/marts__customers.sql

# 2. Ejecutar modelo
dbt run --select marts__customers

# 3. Generar YAML base autom√°ticamente
dbt run-operation generate_model_yaml --args '{"model_names": ["marts__customers"]}'

# 4. Copiar salida a schema.yml y a√±adir descripciones y tests
# models/marts/schema.yml

# 5. Generar documentaci√≥n
dbt docs generate

# 6. Visualizar documentaci√≥n
dbt docs serve

# 7. Revisar en navegador (http://localhost:8080)
# - Ver descripci√≥n del modelo
# - Revisar linaje de datos
# - Validar que columnas est√°n documentadas
```

### Mejores Pr√°cticas de Documentaci√≥n

#### 1. **Documenta el "Por Qu√©", No el "Qu√©"**
```yaml
# ‚ùå Malo - describe lo obvio
- name: customer_count
  description: "N√∫mero de clientes"

# ‚úÖ Bueno - explica el prop√≥sito y l√≥gica
- name: customer_count
  description: |
    N√∫mero de clientes √∫nicos activos en los √∫ltimos 90 d√≠as.
    Un cliente se considera activo si ha realizado al menos un pedido.
```

#### 2. **Documenta Decisiones de Negocio**
```yaml
models:
  - name: marts__revenue
    description: |
      M√©tricas de ingresos para reportes ejecutivos.
      
      **Nota importante:** Los ingresos excluyen pedidos cancelados
      y devoluciones, siguiendo la definici√≥n de CFO del Q2 2024.
      
      Para ingresos brutos (incluyendo devoluciones), usar
      marts__revenue_gross en su lugar.
```

#### 3. **Usa Markdown para Formato**
```yaml
columns:
  - name: customer_tier
    description: |
      Segmentaci√≥n del cliente basada en lifetime value:
      
      - **VIP**: LTV > $10,000
      - **Premium**: LTV entre $5,000 - $10,000
      - **Standard**: LTV entre $1,000 - $5,000
      - **New**: LTV < $1,000
```

#### 4. **Documenta Transformaciones Complejas**
```yaml
- name: churn_probability
  description: |
    Probabilidad de abandono del cliente en los pr√≥ximos 30 d√≠as.
    
    **Modelo:** Regresi√≥n log√≠stica entrenada en datos hist√≥ricos
    **Variables:** d√≠as desde √∫ltimo pedido, frecuencia de compra, ticket promedio
    **√öltima actualizaci√≥n del modelo:** 2024-01-15
```

#### 5. **Mant√©n Documentaci√≥n Cercana al C√≥digo**
```
models/
‚îú‚îÄ‚îÄ marts/
‚îÇ   ‚îú‚îÄ‚îÄ marts__customers.sql
‚îÇ   ‚îî‚îÄ‚îÄ marts__customers.yml          # Documentaci√≥n en el mismo directorio
```

### Beneficios de una Buena Documentaci√≥n

1. **Onboarding m√°s r√°pido**: Nuevos analistas entienden el modelo de datos r√°pidamente
2. **Colaboraci√≥n mejorada**: Equipos t√©cnicos y de negocio hablan el mismo idioma
3. **Debugging m√°s f√°cil**: El linaje de datos ayuda a rastrear problemas
4. **Confianza en los datos**: Transparencia sobre qu√© representan las m√©tricas
5. **Self-service analytics**: Analistas pueden explorar datos sin ayuda constante


Ahora que sabes c√≥mo generar y documentar tus modelos, veamos c√≥mo validar que funcionan correctamente con **testing**.

## Testing en dbt

### Tipos de Tests

#### 1. Tests Gen√©ricos
- `unique`: Valores √∫nicos
- `not_null`: Sin valores nulos
- `accepted_values`: Valores permitidos
- `relationships`: Integridad referencial

#### 2. Tests Personalizados
```sql
-- tests/assert_no_negative_customer_metrics.sql
select customer_id
from {{ ref('marts__customers') }}
where lifetime_spend < 0
   or count_lifetime_orders < 0
```

### Ejemplo de Configuraci√≥n de Tests
```yaml
# tests/properties.yml
models:
  - name: marts__customers
    columns:
      - name: customer_id
        tests:
          - unique
          - not_null
      - name: customer_type
        tests:
          - accepted_values:
              values: ['new', 'returning']
```

### Ejecutar Tests
```bash
# Todos los tests
dbt test

# Tests de un modelo espec√≠fico
dbt test --select marts__customers
```