### "dbt" "Data Build Tool".

### Index <a id="index"></a>

### [Introduction to DBT (Data Build Tool) | ETL Vs ELT](#mark_00)

### [How to Install DBT and Set Up a Project, Create Your First dbt Model](#mark_01)

### [Macros](#macros)

### [Macros --> Testing](#macros_testing)

### [DBT Sources, Seeds & Analyses | Data Build Tool Demo with Real World Examples](#mark_02)

### [DBT Tests | Data Build Tool | Singular | Generic | Custom | Prebuild | Source Freshness](#mark_03)

### [](#mark_04)

### [](#mark_05)


### Introduction to DBT (Data Build Tool) | ETL Vs ELT: <a id="mark_00"></a> [Back to Index](#index)

https://www.youtube.com/watch?v=b2nSMPiXdXk&list=PLc2EZr8W2QIBegSYp4dEIMrfLj_cCJgYA

![](Screenshot_0.png)

![](Screenshot_1.png)

![](Screenshot_2.png)

![](Screenshot_3.png)


### How to Install DBT and Set Up a Project, Create Your First dbt Model: <a id="mark_01"></a> [Back to Index](#index)

https://www.youtube.com/watch?v=1fY1A8SRflI&list=PLc2EZr8W2QIBegSYp4dEIMrfLj_cCJgYA&index=2

![](Screenshot_4.png)

![](Screenshot_5.png)

![](Screenshot_6.png)

Environment created in Conda: dbt

Create a directory .dbt in the home directory, for maintaining the profile.yml one of the important dbt configuration files or database connection details and user credentials are stored.

![](Screenshot_7.png)

**In Linux:**

```sh
(dbt) compu_dell_ubuntu_01@CompuDell01:~$ cd /home
(dbt) compu_dell_ubuntu_01@CompuDell01:/home$ ls -lac
total 12
drwxr-xr-x  3 root                 root                 4096 Jun  1  2023 .
drwxr-xr-x 20 root                 root                 4096 Apr 13 11:04 ..
drwxr-x--- 22 compu_dell_ubuntu_01 compu_dell_ubuntu_01 4096 Apr 13 00:01 compu_dell_ubuntu_01
(dbt) compu_dell_ubuntu_01@CompuDell01:/home$ mkdir .dbt
```
**Initialize our first dbt project with the **dbt init** command.

![](Screenshot_8.png)

`*******************************************************************************************************************************************************`
![](Screenshot_67.png)

## Contenido del archivo ".dbt/profiles.yml" en dbt:

El archivo `.dbt/profiles.yml` es un componente crucial en dbt Core, ya que define las conexiones a sus plataformas de almacenamiento de datos. Cuando ejecuta comandos dbt desde la línea de comandos, dbt utiliza este archivo para encontrar los detalles de conexión para el perfil especificado en su archivo `dbt_project.yml`.

**Contenido punto por punto:**

**1. Sección de perfiles:**

* **Nombre del perfil:** Cada perfil se identifica con un nombre único, como `dbt_project_01` en el ejemplo proporcionado.
* **Sección `outputs`:** Define las configuraciones de conexión para diferentes entornos o targets.
    * **Nombre del output:** Cada entorno o target se identifica con un nombre único, como `dev` en el ejemplo.
        * **`dbname`:** Especifica el nombre de la base de datos a la que se conectará dbt.
        * **`host`:** Indica la dirección IP o el nombre de host del servidor de la base de datos.
        * **`pass`:** Contraseña para acceder a la base de datos.
        * **`port`:** Número de puerto del servidor de la base de datos.
        * **`schema`:** (Opcional) Especifica el esquema de la base de datos al que se conectará dbt.
        * **`threads`:** (Opcional) Define el número de subprocesos que dbt utilizará para ejecutar consultas.
        * **`type`:** Indica el tipo de plataforma de almacenamiento de datos, como `postgres` o `snowflake`.
        * **`user`:** Nombre de usuario para acceder a la base de datos.
* **Sección `target`:** (Opcional) Define el target por defecto que se utilizará cuando no se especifique en el comando dbt.

**2. Mejoras potenciales:**

* **Almacenamiento seguro de credenciales:** Para evitar exponer credenciales sensibles en el archivo YAML, se recomienda utilizar un administrador de secretos como HashiCorp Vault o AWS Secrets Manager.
* **Uso de variables de entorno:** En lugar de codificar las credenciales directamente en el archivo YAML, se pueden utilizar variables de entorno para mayor flexibilidad y seguridad.
* **Implementación de múltiples perfiles:** Se pueden definir múltiples perfiles para diferentes entornos, como desarrollo, pruebas y producción.
* **Organización por entorno:** Se puede organizar la estructura del archivo YAML por entorno para facilitar la búsqueda y el mantenimiento.
* **Comentarios y documentación:** Agregar comentarios y documentación para explicar el propósito de cada configuración y las prácticas recomendadas.

**Ejemplo con credenciales almacenadas en variables de entorno:**

```yaml
dbt_project_01:
  outputs:
    dev:
      dbname: {{ env_var("DB_NAME") }}
      host: {{ env_var("DB_HOST") }}
      pass: {{ env_var("DB_PASSWORD") }}
      port: {{ env_var("DB_PORT") }}
      schema: {{ env_var("DB_SCHEMA") }}
      threads: {{ env_var("DB_THREADS") }}
      type: {{ env_var("DB_TYPE") }}
      user: {{ env_var("DB_USER") }}
  target: dev
```

**En resumen, el archivo `.dbt/profiles.yml` es esencial para establecer conexiones seguras y confiables a sus plataformas de almacenamiento de datos. Implementar las mejores prácticas mencionadas anteriormente puede mejorar la seguridad, la organización y la facilidad de mantenimiento de sus perfiles dbt.**

`*******************************************************************************************************************************************************`

The tool created the framework, with an important configuration file **dbt_project.yml**.

![](Screenshot_9.png)

![](Screenshot_10.png)

![](Screenshot_11.png)

Checking the db connection/ data platform using `dbt debug`

![](Screenshot_12.png)

**Models**: In dbt Models refer to an SQL query that is designed to carry out a particular transformation task on your data platform.

DBT Use CTE (Common Table Expressions) to improve modularity and readability.

![](Screenshot_13.png)

Run our first model `dbt run`

![](Screenshot_14.png)

We have two ways to modify the model configuration, first using the **dbt_project.yml**:

![](Screenshot_15.png)

and directly in the model:

![](Screenshot_16.png)

#### IMPORTANT: **Did you know that you can also configure models directly within SQL files? This will override configurations stated in dbt_project.yml**

Referencing to other tables/models:

https://www.youtube.com/watch?v=cW7KFaos2cw&list=PLc2EZr8W2QIBegSYp4dEIMrfLj_cCJgYA&index=3&pp=iAQB

![](Screenshot_17.png)

![](Screenshot_18.png)

![](Screenshot_19.png)

`materialized='view'` and `materialized='table'`:

![](Screenshot_20.png)

For this example, we'll use three different levels:

![](Screenshot_21.png)

![](Screenshot_22.png)

By default all the models are materialized as views, so we need to overwrite this behaviour only for the model that required table materialization.

![](Screenshot_23.png)

In terms of schema placement, the `profile.yml` file already defines the default target schema, for this example es `L3_CONSUPTION`.

![](Screenshot_24.png)

To place intermediate models in the processing layer, I need to overwrite the target schema for those models, overwriting the target schema en dbt is not straightforward due to certain deliberate design considerations, for more information https://docs.getdbt.com/docs/build/custom-schemas

However, as a workaround, we could create a **Macro** to enable seamless schema overrides.

![](Screenshot_25.png)

`******************************************************************************************************************************************************`
## La sección "macros" en un proyecto dbt: <a id="macros"></a> [Back to Index](#index)

La sección "macros" en un proyecto dbt es una herramienta poderosa que permite crear funciones reutilizables y encapsular lógica compleja para mejorar la organización, legibilidad y mantenibilidad del código dbt. 

**¿Qué son las macros?**

Las macros en dbt son fragmentos de código SQL que se definen una vez y se pueden reutilizar en múltiples modelos y transformaciones. Estas macros actúan como bloques de construcción, simplificando el código y haciéndolo más modular.

**¿Por qué usar macros?**

Las macros ofrecen varios beneficios:

* **Reutilización de código:** Evita la duplicación de código repetitivo, mejorando la legibilidad y mantenibilidad del proyecto.
* **Encapsulación de lógica compleja:** Permite encapsular lógica compleja en funciones reutilizables, facilitando la comprensión y el mantenimiento del código.
* **Modularidad:** Promueve un enfoque modular en el desarrollo de modelos, separando preocupaciones y mejorando la organización del proyecto.
* **Consistencia:** Garantiza la consistencia en la aplicación de transformaciones y lógica en diferentes modelos.
* **Facilidad de mantenimiento:** Simplifica la actualización de código repetitivo, ya que solo se necesita modificar la macro en un solo lugar.

**Ejemplos de uso de macros:**

* **Conversión de unidades:** Cree una macro para convertir valores de una unidad a otra, como de Celsius a Fahrenheit.
* **Filtrado de datos:** Defina una macro para filtrar datos según criterios específicos, como eliminar valores nulos o filtrar por rango de fechas.
* **Cálculos complejos:** Encapsule cálculos complejos en una macro para reutilizarlos en diferentes modelos, como calcular promedios ponderados o realizar transformaciones matemáticas.
* **Validación de datos:** Implemente una macro para validar la integridad y consistencia de los datos, como verificar la existencia de valores nulos o formatos de datos incorrectos.

**Paso a paso para crear una macro:**

1. **Defina la macro:** En la sección "macros" de su archivo `dbt_project.yml`, defina la macro utilizando la sintaxis YAML.

```yaml
macros:
  # Nombre de la macro
  convertir_a_mayusculas:
    # Descripción de la macro
    desc: Convierte un texto a minúsculas.
    # Contenido de la macro (código SQL)
    sql: |-
      SELECT UPPER({{ value }});
```

2. **Utilice la macro en un modelo:** En la sección "sources" de un modelo, utilice la macro como si fuera una función SQL.

```yaml
models:
  - name: modelo_ejemplo
    config:
      target: table
    sources:
      - name: datos_de_origen
        path: data/datos.csv
        format: csv
    sql: >>
      SELECT id, {{ convertir_a_mayusculas(nombre) }} AS nombre_mayusculas
      FROM {{ source('datos_de_origen') }};
```

Finalmente el archivo `dbt_projects.yml` quedaría de esta forma:

```yaml
# dbt project configuration file

# Name your project!
name: 'dbt_project_01'
version: '1.0.0'
config-version: 2

# Profile used by dbt for this project
profile: 'dbt_project_01'

# Locations of different file types
model-paths: ["models"]
analysis-paths: ["analyses"]
test-paths: ["tests"]
seed-paths: ["seeds"]
macro-paths: ["macros"]
snapshot-paths: ["snapshots"]

# Directories to clean with `dbt clean`
clean-targets:
  - "target"
  - "dbt_packages"

# Macros (reusable functions)
macros:
  convertir_a_mayusculas:
    # Description of the macro
    desc: Convierte un texto a mayúscula.
    # SQL code for the macro
    sql: |-
      SELECT UPPER({{ value }});

# Models configuration
models:
  - name: modelo_ejemplo  # Specific model name
    example:  # Indicates the model belongs to "example" directory
      # Inherited target: table (from models section)
      sources:
        - name: datos_de_origen
          path: data/datos.csv
          format: csv
      sql: >>
        SELECT id, {{ convertir_a_mayusculas(nombre) }} AS nombre_mayusculas
        FROM {{ source('datos_de_origen') }};

```

¿Cómo utilizar la sección "sources"?

Para utilizar la sección "sources" en un modelo, siga estos pasos:

Defina la fuente de datos: Cree una entrada para cada fuente de datos que su modelo utilizará. Especifique el nombre, la ruta y el formato del archivo de datos.

Refiera la fuente de datos en SQL: En la consulta SQL del modelo, utilice la función {{ source() }} para acceder a los datos de una fuente específica. Por ejemplo, si desea seleccionar todos los datos de la fuente datos_de_origen, puede escribir:
```sql
SELECT * FROM {{ source('datos_de_origen') }};
```
Nota: La sección "sources" no se utiliza para definir macros. Las macros se definen en una sección separada llamada "macros" en el archivo dbt_project.yml. Las macros son funciones reutilizables que se pueden utilizar en diferentes modelos y transformaciones.

En resumen, la sección "sources" en un modelo dbt es crucial para especificar las fuentes de datos que se utilizarán para crear o actualizar la tabla objetivo del modelo. Al definir las fuentes de datos correctamente, puede garantizar que su modelo tenga acceso a los datos precisos y actualizados necesarios para realizar las transformaciones deseadas.

**En resumen, las macros en dbt son una herramienta valiosa para optimizar el desarrollo de modelos de datos. Al encapsular lógica compleja y promover la reutilización de código, las macros hacen que el código sea más legible, mantenible y modular, simplificando la creación y el mantenimiento de proyectos dbt a gran escala.**

## Uso de macros en dbt en Testing: <a id="macros_testing"></a> [Back to Index](#index)

Las macros en dbt son herramientas poderosas que no solo se limitan a la transformación de datos, sino que también pueden ser utilizadas para realizar pruebas de manera eficiente y organizada. Al encapsular lógica de prueba y simplificar la sintaxis, las macros permiten crear pruebas robustas y escalables para sus modelos dbt.

**¿Cómo usar macros para pruebas en dbt?**

1. **Defina macros de prueba:** Cree macros que encapsulen la lógica de prueba específica para sus modelos. Estas macros pueden realizar diversas tareas como:

   * **Validar datos:** Verifique si los datos cumplen con las expectativas de formato, rango de valores, integridad y consistencia.
   * **Comparar resultados:** Compare los resultados de su modelo con datos de referencia o resultados esperados.
   * **Detectar errores:** Identifique y registre errores o anomalías en los datos o en el proceso de transformación.

2. **Utilice macros de prueba en modelos:** Incorpore las macros de prueba en sus modelos dbt como parte de la consulta SQL. Las macros pueden utilizarse para validar diferentes aspectos del modelo durante su ejecución.

3. **Aproveche las herramientas de prueba de dbt:** Integre las macros de prueba con las herramientas de prueba integradas en dbt, como `dbt test` y `dbt run-operation`, para ejecutar pruebas de manera automatizada y obtener informes detallados de los resultados.

**Ejemplo de uso de macros para pruebas:**

**Supongamos que tiene un modelo que calcula el promedio de ventas por cliente.**

1. **Cree una macro para validar el formato de los datos:**

    _ Aclaración: Tanto `sql: |-` como `sql: >>` son syntaxis que indica que continua una declaración **multi-line SQL** dentro de un bloque YAML, el simbolo `|-` es utilizado para indentar el código SQL dentro del bloque YAML, y `sql: >>` marca el inicio de un bloque SQL en el bloque YAML, en ambos casos el bloque se termina con `;`. 

```yaml
macros:
  validar_formato_fecha:
    desc: Valida si un valor es una fecha en formato YYYY-MM-DD.
    sql: |-
      SELECT CASE WHEN TO_DATE({{ value }}) IS NOT NULL THEN TRUE ELSE FALSE END AS es_fecha_valida;
```

2. **Utilice la macro en su modelo para validar la columna de fecha:**

```yaml
models:
  - name: modelo_promedio_ventas
    config:
      target: table
    sources:
      - name: datos_ventas
        path: data/ventas.csv
        format: csv
    sql: >>
      SELECT cliente_id, AVG(venta) AS promedio_venta
      FROM {{ source('datos_ventas') }}
      WHERE {{ validar_formato_fecha(fecha_venta) }} = TRUE
      GROUP BY cliente_id;
```

3. **Ejecute las pruebas utilizando `dbt test`:**

```bash
dbt test
```

En este ejemplo, la macro `validar_formato_fecha` se utiliza para verificar que la columna `fecha_venta` en la tabla de origen contiene fechas en el formato correcto. Esto ayuda a garantizar la integridad de los datos utilizados para calcular el promedio de ventas.

**Beneficios de usar macros para pruebas:**

* **Reutilización:** Las macros permiten reutilizar la lógica de prueba en diferentes modelos, reduciendo la duplicación de código.
* **Lecturabilidad:** Las macros encapsulan la lógica de prueba en bloques de código más pequeños y descriptivos, mejorando la legibilidad y la comprensión.
* **Mantenimiento:** Simplifica el mantenimiento de las pruebas, ya que solo se necesita modificar la macro en un solo lugar para actualizar la lógica de prueba.
* **Escalabilidad:** Facilita la creación de pruebas escalables para proyectos dbt complejos.

**Conclusión:**

Las macros en dbt son una herramienta valiosa para crear pruebas robustas, legibles y escalables. Al encapsular la lógica de prueba y simplificar la sintaxis, las macros permiten a los desarrolladores dbt garantizar la calidad y la confiabilidad de sus modelos de datos de manera eficiente.


`******************************************************************************************************************************************************`
Over the following example, as a custom schema is configured for a model dbt concatenates the default schema name from the `profile.yml` file with the custom schema name specified in the `dbt_project.yml`, with this Macro we aim to modify this default behaviour by removing the concatenation logic 

![](Screenshot_26.png)

We are ready to run the models, we have to options, trigger the dbt trhought the `dbt run` command, to run all the models in the current project. Or execute the dbt run models plus customer revenue command which execute all the preceding models referenced and finally run the the customer revenue model itself.

![](Screenshot_27.png)

![](Screenshot_28.png)

More execution details could be found in the logs path.

![](Screenshot_29.png)

But I want to create permanent tables in production, so:

![](Screenshot_30.png)

The intermedia tables and views were created as expected:

![](Screenshot_31.png)

In VSC we can use the **lineage view** function to see the flow created, and interact with it through clicking the objects.



### DBT Sources, Seeds & Analyses | Data Build Tool Demo with Real World Examples: <a id="mark_02"></a> [Back to Index](#index)

## ¿Qué son las "seeds" en el contexto de dbt y cómo se deben utilizar?

En el contexto de dbt (Data Build Tool), las **"seeds"** son conjuntos de datos precargados que se utilizan para poblar tablas o modelos con datos iniciales. Estas semillas son útiles para:

**1. Pruebas:**

* **Validar modelos:** Las semillas permiten probar el funcionamiento de los modelos de transformación de datos antes de utilizarlos con datos reales.
* **Desarrollar visualizaciones:** Se pueden usar semillas para crear visualizaciones y dashboards que representen el estado inicial de los datos.

**2. Entornos de desarrollo y pruebas:**

* **Replicar entornos de producción:** Las semillas permiten crear entornos de desarrollo y pruebas que simulen el estado de los datos en producción.
* **Facilitar la colaboración:** Los desarrolladores pueden trabajar con los mismos datos iniciales, lo que facilita la colaboración y la resolución de problemas.

**3. Integración de sistemas:**

* **Cargar datos de referencia:** Las semillas se pueden utilizar para cargar datos de referencia estáticos que no cambian con el tiempo.
* **Migrar datos de otros sistemas:** Se pueden usar semillas para migrar datos de otros sistemas a un nuevo modelo de datos.

**¿Cómo se utilizan las "seeds" en dbt?**

Las semillas en dbt se implementan utilizando modelos de tipo **"seed"**. Estos modelos tienen las siguientes características:

* **Heredan de la configuración de `target`:** Al igual que los modelos de transformación, los modelos seed heredan la configuración de `target` para especificar la ubicación donde se almacenarán los datos.
* **No se ejecutan durante la ejecución de `dbt run`:** Los modelos seed no se ejecutan durante la ejecución de `dbt run`. En su lugar, se ejecutan de forma independiente utilizando el comando `dbt seed`.
* **Contienen instrucciones SQL para cargar datos:** Los modelos seed contienen instrucciones SQL para cargar datos en las tablas o modelos de destino.

**Ejemplo de un modelo seed en dbt:**

```yaml
models:
  - name: seed_usuarios
    config:
      target: table
      materialized: view
    sources:
      - name: usuarios_csv
        path: data/usuarios.csv
        format: csv
    sql: >>
      INSERT INTO usuarios (id, nombre, email)
      SELECT id, nombre, email
      FROM {{ source('usuarios_csv') }};
```

En este ejemplo, el modelo `seed_usuarios` carga datos desde un archivo CSV llamado `usuarios.csv` en la tabla `usuarios`.

`*******************************************************************************************************************************************************`

In dbt **seeds** are csv files that can be easily loaded into the DW using the "dbt seeds" commands, seeds are particularly useful when working with static or infrequently changing data such as reference data and lookup tables the sales Target data is relatively small and doesn't change frequently.

![](Screenshot_32.png)

making it suitable for implementation as a seed let's get back to our retail order management system project.

![](Screenshot_33.png)

My business team wanted to set quarterly sales targets for each store ID and in the bi report they would like to compare it against the actual sales achieved in these two existing tables.

![](Screenshot_34.png)

Can be used to calculate the actual sales for each store.

![](Screenshot_35.png)

However, the Target sales data is missing from our data warehouse we will use the DDT seeds feature to 
import it.

let's proceed with creating the CSV file in the seeds folder please note that the table will have the same name as the CSV file that we create here are the quarterly sales targets separately set by the business team for each store once you've saved the file you can run the dbt command

![](Screenshot_36.png)

![](Screenshot_37.png)

![](Screenshot_38.png)

![](Screenshot_39.png)

![](Screenshot_40.png)

![](Screenshot_41.png)

![](Screenshot_42.png)

![](Screenshot_43.png)

![](Screenshot_44.png)

![](Screenshot_45.png)

![](Screenshot_46.png)

![](Screenshot_47.png)

![](Screenshot_48.png)

### DBT Tests | Data Build Tool | Singular | Generic | Custom | Prebuild | Source Freshness: <a id="mark_03"></a> [Back to Index](#index)

https://www.youtube.com/watch?v=OpsQfyrWTs8&list=PLc2EZr8W2QIBegSYp4dEIMrfLj_cCJgYA&index=5

![](Screenshot_49.png)

![](Screenshot_50.png)

![](Screenshot_51.png)

![](Screenshot_52.png)

![](Screenshot_53.png)

![](Screenshot_54.png)

![](Screenshot_55.png)

![](Screenshot_56.png)

![](Screenshot_57.png)

![](Screenshot_58.png)

![](Screenshot_59.png)

![](Screenshot_60.png)

![](Screenshot_61.png)

![](Screenshot_62.png)

![](Screenshot_63.png)

![](Screenshot_64.png)

![](Screenshot_65.png)

![](Screenshot_66.png)
