# 1. Introducción

## 1). ¿Qué es dbt?

DBT (data build tool) es una herramienta de código abierto para la transformación de datos, ideal para modelar datos en almacenes de datos (data warehouses). Permite a los profesionales de datos que conocen SQL transformar datos de manera más eficiente. En un nivel más granular, dbt proporciona un marco de desarrollo que combina SQL modular con las mejores prácticas de ingeniería de software, creando una experiencia de transformación de datos más eficiente, rápida y confiable.

*   **SQL Modular:** Descompone el código SQL en partes más pequeñas y reutilizables para facilitar su mantenimiento, prueba y reutilización.

*   **Mejores Prácticas:** Integra control de versiones, documentación, DevOps y otras prácticas recomendadas.

**Puntos Clave:**

*   DBT es *solo* una herramienta de transformación. No gestiona el movimiento de datos fuera del almacén al que se conecta. Forma parte del componente "transformar" en los procesos ETL (Extract, Transform, Load) y ELT (Extract, Load, Transform). Requiere combinarse con otras herramientas para crear pipelines ETL/ELT completos.

*   Creada para mejorar el flujo de trabajo de los analistas de datos, incorporando prácticas de ingeniería de software.

*   Originalmente de código abierto (dbt Core), ahora también existe una versión comercial (dbt Cloud) con funcionalidades adicionales.

*   DBT Core es la base del código y es gratuita. dbt Cloud ofrece un IDE, programación de tareas y otras características.

**Características Importantes:**

1.  **Computación:** DBT no realiza los cálculos, sino que utiliza la capacidad de cómputo de tu almacén de datos (ej. AWS Redshift).

2.  **SQL:** Cada modelo en dbt (excepto los modelos Python) se escribe y compila como una sentencia SQL SELECT, incluso si se usa Jinja (un lenguaje de plantillas).

3.  **Creación de Objetos:** DBT se encarga de la creación de objetos de la base de datos (tablas, vistas, etc.), eliminando la necesidad de crearlos manualmente.


## 2). ¿Qué es un "Analytics Engineer" (Ingeniero de Analítica)?

El término "Ingeniero de Analítica" se utiliza a menudo en el contexto de dbt para describir a sus usuarios.  Este rol combina aspectos del Ingeniero de Datos tradicional y del Analista de Datos, proporcionando datasets limpios y modelados a los usuarios de negocio.  

Mientras que los Analistas de Datos se centran en el análisis de datos y los Ingenieros de Datos en la construcción de infraestructura y la gestión de datos (extracción, carga y transformación), el Ingeniero de Analítica utiliza dbt para unir estos dos mundos, aplicando sus habilidades en SQL.

Si bien el concepto de combinar estas responsabilidades no es nuevo, dbt proporciona las herramientas para que sea mucho más eficiente.  Este nuevo título ha generado mucha atención, aumentando el conocimiento de la marca y creando una comunidad de usuarios de dbt.

Aunque dbt se promociona mucho entre los Analistas de Datos, también es una excelente herramienta para Ingenieros de Datos.  Su capacidad para modelar datos utilizando SQL y Python la convierte en una herramienta valiosa para cualquier persona en este rol.  Tanto dbt Core (código abierto) como dbt Cloud (comercial) ofrecen opciones para diferentes necesidades y niveles de experiencia.

## 3). El Rol de dbt en el "Modern Data Stack" (Arquitectura Moderna de Datos)

En la actualidad, el enfoque ELT (Extract, Load, Transform) se ha vuelto predominante en el diseño de almacenes de datos, especialmente en la nube, debido al poder de las bases de datos analíticas modernas como Snowflake, Synapse, Databricks, BigQuery y MotherDuck. Estas plataformas ofrecen velocidad, escalabilidad y la capacidad de manejar transformaciones a nivel de base de datos.

**Ventajas de ELT:**

*   **Minimiza la latencia de red:** Al cargar los datos en bruto primero, se evita la transferencia repetida de grandes volúmenes de datos, ahorrando tiempo y recursos.

*   **Flexibilidad y eficiencia:** Si se producen errores o cambian los requisitos, se pueden ajustar las transformaciones sin necesidad de recargar los datos desde el origen.

*   **Almacenamiento económico:** El bajo costo del almacenamiento en la nube permite guardar una copia de los datos en bruto sin grandes costos, facilitando la reutilización para múltiples proyectos.

**Pasos de un Almacén de Datos ELT con dbt:**

1.  **Definición del Cargador de Datos:** Seleccionar una herramienta para la ingesta de datos desde las fuentes al almacén (ej. Fivetran, Azure Data Factory, AWS Glue). DBT no cubre esta etapa, pero es crucial para su funcionamiento.

2.  **Carga de Datos en Bruto:** Ingestar los datos sin modificar en el almacén (data warehouse o data lake).  Es importante que los datos en bruto residan en el mismo sistema donde dbt realizará las transformaciones.

3.  **Snapshot de Datos en Bruto:** Extraer una copia de los datos en bruto para trabajar con ellos sin modificar los originales. Este paso puede combinarse con transformaciones iniciales y lógica incremental.

4.  **Transformación de Datos:**  Etapa central de dbt.  Aquí se normaliza/desnormaliza, limpia y modela la data para análisis, machine learning, etc.

5.  **Validación de Datos:**  DBT incorpora pruebas para asegurar la precisión de los datos y la correcta aplicación del modelo.

6.  **Despliegue:**  DBT Cloud facilita la automatización del despliegue mediante CI/CD.  DBT Core se puede integrar con otras herramientas como GitHub Actions.

7.  **Documentación:**  DBT genera automáticamente documentación a partir de descripciones y metadatos, simplificando el mantenimiento y la comprensión del proyecto.

8.  **Mejores Prácticas de Ingeniería de Software:**  DBT integra control de versiones, alertas y logging.

9.  **Entrega de Datos Transformados:**  Finalmente, los datos transformados se ponen a disposición de los usuarios de negocio y otros equipos de datos.


DBT, aunque se centra en la transformación, se integra en un ecosistema más amplio. 


## 4). Habilidades Necesarias para Usar dbt

DBT es un framework que requiere ciertas habilidades para su uso efectivo. Si bien es relativamente fácil de aprender, especialmente para aquellos con experiencia en datos, es importante comprender las habilidades clave que contribuyen al éxito de un Ingeniero de Analítica.

A continuación, se detallan las habilidades técnicas principales, junto con una puntuación de experiencia (1-5, donde 5 indica la mayor necesidad de experiencia previa):

**1. SQL (Puntuación: 4/5):** La habilidad más importante.  Se requiere un manejo cómodo de sentencias `SELECT`.  Si bien no es necesario un conocimiento avanzado de SQL para comenzar,  se recomienda familiarizarse con CTEs (Common Table Expressions) y funciones de ventana para un uso más efectivo de dbt.

**2. Jinja (Puntuación: 2/5):** Jinja es un lenguaje de plantillas utilizado en Python.  Extiende las capacidades de SQL, permitiendo operaciones más complejas.  Si bien la experiencia previa con Python es útil, no es esencial, ya que los conceptos básicos de Jinja son fáciles de aprender.  Este libro dedica un capítulo completo a Jinja.

**3. YAML (Puntuación: 2/5):**  YAML se utiliza para la configuración del proyecto dbt.  Es un lenguaje legible y fácil de aprender, por lo que no se requiere experiencia previa. 

**4. Python (Puntuación: 1/5):**  DBT soporta Python para scripts y plugins personalizados.  Si bien no es esencial para la mayoría de los casos de uso, puede ser útil para ciertas funcionalidades. Este libro abordará la creación de modelos Python con dbt.

**5. Modelado de Datos (Puntuación: 1/5 o 4/5):**  Es importante comprender las diferentes metodologías de modelado de datos (Data Vault, Dimensional, etc.) y tener un plan.  La puntuación de experiencia varía según la responsabilidad en el diseño del modelo. Si el diseño lo proporciona otro miembro del equipo, la necesidad de experiencia es menor (1/5). Si lideras el diseño e implementación, la experiencia es crucial (4/5).

**6. Control de Versiones (Puntuación: 2/5):**  Es fundamental comprender los conceptos básicos del control de versiones (ej. Git) para trabajar en entornos colaborativos. DBT está diseñado para integrarse con sistemas de control de versiones.  Si bien la experiencia previa es útil, dbt Cloud facilita la configuración y el uso del control de versiones.


## 5). Beneficios de dbt

1.  **Optimizado para la Transformación y Analítica de Datos:** Ofrece características como gestión de dependencias, construcciones incrementales de modelos y pruebas de datos, optimizando el rendimiento de los procesos de transformación.

2.  **Diseñado para Usuarios de SQL:**  Facilita el aprendizaje y uso para Analistas e Ingenieros de Datos, incluso sin experiencia en otros lenguajes de programación.

3.  **Código Abierto y Fuerte Comunidad:**  El acceso al código fuente y una comunidad activa facilitan la búsqueda de ayuda y recursos. El canal de Slack de dbt es un ejemplo de esto.

4.  **Entorno Colaborativo:**  Incluye funciones como control de versiones, documentación y pruebas,  promoviendo la colaboración efectiva entre analistas e ingenieros de datos.

5.  **Flexible y Compatible:** Funciona con una amplia variedad de fuentes de datos y bases de datos de destino, ideal para organizaciones que necesitan integrar datos de múltiples sistemas.

# 2. ¿Como utilizar DBT?

## 1). Instalar DBT Core y DBT Duck db

In [1]:
pip install dbt-core dbt-duckdb

Collecting dbt-duckdb
  Downloading dbt_duckdb-1.9.0-py3-none-any.whl.metadata (24 kB)
Downloading dbt_duckdb-1.9.0-py3-none-any.whl (62 kB)
Installing collected packages: dbt-duckdb
Successfully installed dbt-duckdb-1.9.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


## 2). Cambiar al directorio en donde quiero iniciar el proyecto

In [2]:
import os

# Cambiar el directorio de trabajo a dos niveles arriba
os.chdir(os.path.join(os.getcwd(), "../.."))

# Verificar el nuevo directorio de trabajo
print("El nuevo directorio de trabajo es:", os.getcwd())

El nuevo directorio de trabajo es: /home/juan/UCCuyo/BaseDeDatos2024


## 3). En la terminal poner el comando "dbt init"

![image.png](attachment:image.png)

## 4). Elegir el nombre del proyecto DBT

![image.png](attachment:image.png)

## 5). Elegir la base de datos a utilizar:
 
 En este caso, vamos a usar DuckDB, pero podríamos utilizar también Postgres

 ![image.png](attachment:image.png)

**Nota**: Según la última linea de código, el archivo "profiles.yml" fue creado en "/home/juan/.dbt/profiles.yml#

```bash
00:01:04  Profile ml_transformations written to /home/juan/.dbt/profiles.yml using target's sample configuration. Once updated, you'll be able to start developing with dbt.
```

## 6). Crear una base de datos "DuckDB"

In [4]:
import duckdb 

base = duckdb.connect('mercado_libre.duckdb')

In [5]:
base.sql('''
SELECT *
FROM information_schema.tables
''')

┌───────────────┬──────────────┬────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog │ table_schema │ table_name │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar    │   varchar    │  varchar   │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├───────────────┴──────────────┴────────────┴────────────┴──────────────────────────────┴──────────────────────┴───────────────────────────┴──────────────────────────┴────────────────────────┴────────────────────┴──────────┴─────

In [6]:
base.close()

## 7). Cargar datos a la base: 

### a). Autenticarse en Mercadolibre (Con lo que vimos en la clase de ingesta)

In [8]:
import os
from dotenv import load_dotenv

load_dotenv()


CLIENT_ID = os.getenv('CLIENT_ID')
CLIENT_SECRET = os.getenv('CLIENT_SECRET')
REFRESH_TOKEN = os.getenv('REFRESH_TOKEN')  

payload = {
    "grant_type": "refresh_token",
    "client_id": CLIENT_ID,
    "client_secret": CLIENT_SECRET,
    "refresh_token": REFRESH_TOKEN
}

response = requests.post("https://api.mercadolibre.com/oauth/token", data=payload)

oauth_response = response.json()

ACCESS_TOKEN = oauth_response['access_token']
USER_ID = oauth_response['user_id']

### b). Descargar datos desde Mercado Libre con DLT

In [20]:
from dlt.sources.rest_api import RESTAPIConfig, rest_api_source
from dlt.sources.helpers.rest_client.paginators import OffsetPaginator
import dlt

def transform_variations_data(file):
    file['variations_data'] = None
    return file

def extract_ml_query_to_duckdb(query, dataset_name, ACCESS_TOKEN):

    pipeline = dlt.pipeline(
        pipeline_name="mercado_libre",
        destination="duckdb",
        dataset_name=dataset_name,
    )


    meli_config: RESTAPIConfig = {
        "client": {
            "base_url": "https://api.mercadolibre.com",
            "headers": {
                "Authorization": f"Bearer {ACCESS_TOKEN}"
            },

            "paginator": OffsetPaginator(limit=50, offset=0, total_path='paging.total', maximum_offset=1000),


        },

        "resources": [
            {
                "name": "search",
                "endpoint": {
                    "path": "sites/MLA/search",  
                    "params": {
                        'q': f'{query}'
                    },
                    "data_selector": "results"
                },
                "processing_steps":[
                    {'map': transform_variations_data}
                ]
            },
            {
            "name": "seller",
            "endpoint":{
                'path':'users/{user_id}',
                'params':{
                    'user_id':{
                        'type':'resolve',
                        'resource':'search',
                        'field':'seller.id'
                    }
                }
                
            }
            }

        ],
    }


    # Crea la fuente de la API de MercadoLibre
    meli_source = rest_api_source(meli_config)

    # Ejecuta el pipeline para cargar los datos
    load_info = pipeline.run(meli_source)

    # Imprime información sobre la carga
    print(load_info)

In [21]:
extract_ml_query_to_duckdb('laptop', 'laptop', ACCESS_TOKEN)

Pipeline mercado_libre load step completed in 2.08 seconds
1 load package(s) were loaded to destination duckdb and into dataset laptop
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/mercado_libre.duckdb location to store data
Load package 1730421812.1861982 is LOADED and contains no failed jobs


In [23]:
extract_ml_query_to_duckdb('Mini PC', 'mini_pc', ACCESS_TOKEN)

Pipeline mercado_libre load step completed in 2.27 seconds
1 load package(s) were loaded to destination duckdb and into dataset mini_pc
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/mercado_libre.duckdb location to store data
Load package 1730423180.2282407 is LOADED and contains no failed jobs


In [24]:
extract_ml_query_to_duckdb('Computadora de Escritorio', 'pc', ACCESS_TOKEN)

Pipeline mercado_libre load step completed in 2.25 seconds
1 load package(s) were loaded to destination duckdb and into dataset pc
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/mercado_libre.duckdb location to store data
Load package 1730423395.639414 is LOADED and contains no failed jobs


### c). Analizar los datos extraídos

In [71]:
base = duckdb.connect('mercado_libre.duckdb')

In [None]:
base.sql('''
SELECT *
FROM information_schema.tables
WHERE table_schema='laptop'
''')

┌───────────────┬──────────────┬──────────────────────────────────────────────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog │ table_schema │                      table_name                      │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar    │   varchar    │                       varchar                        │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├───────────────┼──────────────┼──────────────────────────────────────────────────────┼────────────┼───

In [34]:
base.sql('''
SELECT *
FROM laptop.search                                               
''')

┌───────────────┬──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬───────────┬──────────────────────────────┬────────────────────┬─────────────────┬──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬─────────────┬─────────┬─────────────┬───────────────┬────────────────────────────────────────────────────────────────┬─────────────┬───────────────┬───────────┬────────────────┬──────────────────────┬────────────────────┬──────────────────────────────────┬────────────────────────────────────┬──────────────────────────────────┬─────────────────────────┬─────────────────────────────────┬────────────────────────────┬──────────────────┬───────────────────

Esta tabla contiene los contenidos de las publicaciones. Va a ser nuestra tabla "raw" principal

In [35]:
base.sql('''
SELECT *
FROM laptop.search__attributes                                               
''')

┌────────────────────┬──────────────────────────────┬──────────┬───────────────┬────────────────────┬──────────────────────┬──────────────────┬─────────────┬────────────────┬───────────────┬────────────────┬──────────────────────┬────────────────────┬────────────────────────────────┐
│         id         │             name             │ value_id │  value_name   │ attribute_group_id │ attribute_group_name │      source      │ value_type  │ _dlt_parent_id │ _dlt_list_idx │    _dlt_id     │ value_struct__number │ value_struct__unit │ value_struct__number__v_double │
│      varchar       │           varchar            │ varchar  │    varchar    │      varchar       │       varchar        │      int64       │   varchar   │    varchar     │     int64     │    varchar     │        int64         │      varchar       │             double             │
├────────────────────┼──────────────────────────────┼──────────┼───────────────┼────────────────────┼──────────────────────┼──────────────────┼──

Esta tabla contiene Información sobre los atributos de los productos. La vamos a utilizar

In [36]:
base.sql('''
SELECT *
FROM laptop.search__attributes__values                                             
''')

┌──────────┬───────────────┬──────────────────┬────────────────┬───────────────┬────────────────┬────────────────┬──────────────┬──────────────────────────┐
│    id    │     name      │      source      │ _dlt_parent_id │ _dlt_list_idx │    _dlt_id     │ struct__number │ struct__unit │ struct__number__v_double │
│ varchar  │    varchar    │      int64       │    varchar     │     int64     │    varchar     │     int64      │   varchar    │          double          │
├──────────┼───────────────┼──────────────────┼────────────────┼───────────────┼────────────────┼────────────────┼──────────────┼──────────────────────────┤
│ 27222    │ EXO           │                1 │ y2aFiuP69UZ3jA │             0 │ FAkcqiQvWGCjkg │           NULL │ NULL         │                     NULL │
│ 283165   │ Gris          │                1 │ qjrcSESk/xdr5w │             0 │ si5WvA857BO6tw │           NULL │ NULL         │                     NULL │
│ NULL     │ 7797678020029 │  385122562515662 │ HRrO4NUv0v

Esta tabla contiene información redundante, no la vamos a utilizar

In [37]:
base.sql('''
SELECT *
FROM laptop.search__sale_price__conditions__context_restrictions                                             
''')

┌─────────────────────┬────────────────┬───────────────┬────────────────┐
│        value        │ _dlt_parent_id │ _dlt_list_idx │    _dlt_id     │
│       varchar       │    varchar     │     int64     │    varchar     │
├─────────────────────┼────────────────┼───────────────┼────────────────┤
│ channel_marketplace │ GCY1SBkSzYYtlA │             0 │ TNGSzS9yWP+I4g │
│ channel_marketplace │ nZOsXziZMoAYDA │             0 │ SpiM5dkzCUb93w │
│ channel_marketplace │ jSo+pMlakVKXiQ │             0 │ 7LMerbTXUN+knw │
│ channel_marketplace │ 5TRAVuk7+KTsLQ │             0 │ 0JCJDjK5Qj6/jA │
│ channel_marketplace │ Qi1t+JCrYETfsQ │             0 │ 1GrCILA8ueyLdQ │
│ channel_marketplace │ UkUV61jkYLl8bQ │             0 │ 8E1WKxvozqGTeQ │
│ channel_marketplace │ LECj9DmSQTRTfQ │             0 │ Aaj+UVwDQJSCdg │
│ channel_marketplace │ KZdY/mahSG38VQ │             0 │ YH6vJ0BjrYb6qQ │
│ channel_marketplace │ sqiQ1Nd1YF7HgA │             0 │ Fwrrs6EakfoIIQ │
│ channel_marketplace │ 4U0Em/DzWAaMAA

Esta tabla tiene información que no es útil

In [None]:
base.sql('''
SELECT *
FROM laptop.search__shipping__tags                                             
''')

┌─────────────────────────┬────────────────┬───────────────┬────────────────┐
│          value          │ _dlt_parent_id │ _dlt_list_idx │    _dlt_id     │
│         varchar         │    varchar     │     int64     │    varchar     │
├─────────────────────────┼────────────────┼───────────────┼────────────────┤
│ mandatory_free_shipping │ GCY1SBkSzYYtlA │             0 │ TLy7mhrSUsoYiA │
│ self_service_in         │ nZOsXziZMoAYDA │             0 │ HS3FRBeeb5sKpg │
│ mandatory_free_shipping │ nZOsXziZMoAYDA │             1 │ r2at+ejt2fnkTQ │
│ self_service_in         │ jSo+pMlakVKXiQ │             0 │ DR0dDp2OsPIOxQ │
│ mandatory_free_shipping │ jSo+pMlakVKXiQ │             1 │ Ths2gupu3KaqiA │
│ self_service_in         │ 5TRAVuk7+KTsLQ │             0 │ w4UVtGCakihqLg │
│ mandatory_free_shipping │ 5TRAVuk7+KTsLQ │             1 │ NwYxEde+/+OmFw │
│ fulfillment             │ Qi1t+JCrYETfsQ │             0 │ MRvvcgIl6xpo0g │
│ self_service_in         │ Qi1t+JCrYETfsQ │             1 │ BCt

Esta tabla tiene Información sobre envíos que no es necesaria. No la vamos a utilizar

In [40]:
base.sql('''
SELECT *
FROM laptop.seller                                             
''')

┌────────────┬────────────────────────────┬────────────┬──────────────────┬────────────────┬───────────┬─────────┬──────────────────────────────────────────────────────────────┬─────────────────────────────┬────────────────────────────────────────┬─────────────────────────────────────────┬────────────────────────────────────────┬─────────────────────┬────────────────────┬────────────────┐
│     id     │          nickname          │ country_id │  address__city   │ address__state │ user_type │ site_id │                          permalink                           │ seller_reputation__level_id │ seller_reputation__power_seller_status │ seller_reputation__transactions__period │ seller_reputation__transactions__total │ status__site_status │    _dlt_load_id    │    _dlt_id     │
│   int64    │          varchar           │  varchar   │     varchar      │    varchar     │  varchar  │ varchar │                           varchar                            │           varchar           │         

Esta tabla contiene información de los vendedores. La vamos a utilizar

En conclusión, solamente vamos a utilizar las tablas

1. search

2. search__attributes

3. seller

Corroboramos que esas tablas existan para las otras búsquedas:

In [43]:
base.sql('''
SELECT DISTINCT table_schema 
FROM information_schema.tables
''')

┌──────────────┐
│ table_schema │
│   varchar    │
├──────────────┤
│ laptop       │
│ mini_pc      │
│ pc           │
└──────────────┘

In [44]:
base.sql('''
SELECT *
FROM information_schema.tables
WHERE table_name in ('search','search__attributes', 'seller')
''')

┌───────────────┬──────────────┬────────────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog │ table_schema │     table_name     │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar    │   varchar    │      varchar       │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├───────────────┼──────────────┼────────────────────┼────────────┼──────────────────────────────┼──────────────────────┼───────────────────────────┼──────────────────────────┼────────────────────────┼─────

In [None]:
mini_pc.search__attributes 

Las 3 tablas existen para las 3 búsquedas

In [73]:
base.close()

Cerramos la conexión  

## 6). Configurar el archivo "profiles.yml"

Agregar el Path de la base de datos duckdb al Profiles

```yaml
ml_transformations:
  outputs:
    dev:
      type: duckdb
      path: /home/juan/UCCuyo/BaseDeDatos2024/mercado_libre.duckdb
      threads: 1

    prod:
      type: duckdb
      path: prod.duckdb
      threads: 4

  target: dev
```


## 7).. Testear que DBT se pueda conectar a la base de datos

### a). Ir al path del proyecto de DBT

```powershell
01-bases-de-datos-py3.11juan@BOOK-NFF0K06361:~/UCCuyo/BaseDeDatos2024$ cd ml_transformations
01-bases-de-datos-py3.11juan@BOOK-NFF0K06361:~/UCCuyo/BaseDeDatos2024/ml_transformations$ 
```

### b). Ejecutar "dbt debug" para ver si se conectó exitosamente (Asegurarme que no haya ninguna conexión abierta a la base)

```powershell
01-bases-de-datos-py3.11juan@BOOK-NFF0K06361:~/UCCuyo/BaseDeDatos2024/ml_transformations$ dbt debug
01:22:27  Running with dbt=1.8.0
01:22:28  dbt version: 1.8.0
01:22:28  python version: 3.11.0rc1
01:22:28  python path: /home/juan/.cache/pypoetry/virtualenvs/01-bases-de-datos-dkH_pZ-u-py3.11/bin/python
01:22:28  os info: Linux-5.15.146.1-microsoft-standard-WSL2-x86_64-with-glibc2.35
01:22:28  Using profiles dir at /home/juan/.dbt
01:22:28  Using profiles.yml file at /home/juan/.dbt/profiles.yml
01:22:28  Using dbt_project.yml file at /home/juan/UCCuyo/BaseDeDatos2024/ml_transformations/dbt_project.yml
01:22:28  adapter type: duckdb
01:22:28  adapter version: 1.9.0
01:22:28  Configuration:
01:22:28    profiles.yml file [OK found and valid]
01:22:28    dbt_project.yml file [OK found and valid]
01:22:28  Required dependencies:
01:22:28   - git [OK found]

01:22:28  Connection:
01:22:28    database: mercado_libre
01:22:28    schema: main
01:22:28    path: /home/juan/UCCuyo/BaseDeDatos2024/mercado_libre.duckdb
01:22:28    config_options: None
01:22:28    extensions: None
01:22:28    settings: {}
01:22:28    external_root: .
01:22:28    use_credential_provider: None
01:22:28    attach: None
01:22:28    filesystems: None
01:22:28    remote: None
01:22:28    plugins: None
01:22:28    disable_transactions: False
01:22:28  Registered adapter: duckdb=1.9.0
01:22:28    Connection test: [OK connection ok]

01:22:28  All checks passed!
```

## 8). Modificar el Archivo "schema.yml" para poder leer las tablas generadas en el proceso de ingesta creando "Sources":

### a). ¿Qué son las Fuentes (Sources) en dbt?

En dbt, una *source* hace referencia a las bases de datos, esquemas y tablas en tu base de datos conectada desde donde dbt puede leer datos. Se definen en archivos YAML y se referencian en la creación de modelos.  Esto facilita la reutilización, el mantenimiento y la consistencia del código.

**Definición de Sources:**

Las *sources* se definen en archivos `sources.yml` bajo la clave `sources:`. Un archivo `sources.yml` básico incluye:

*   `version: 2`: Versión del archivo `sources.yml`.  Actualmente, la versión 2 es la única soportada.
*   `sources:`: Lista de sources.
    *   `name:`: Nombre de la *source*. **Obligatorio**.
    *   `database:`: Nombre de la base de datos.
    *   `schema:`: Nombre del esquema.
    *   `tables:`: Lista de tablas.
        *   `name:`: Nombre de la tabla. **Obligatorio**.

**Propiedades Adicionales:**

Además de las propiedades básicas, se pueden agregar:

*   `description:`: Descripción de la *source* o tabla.  Útil para la documentación.
*   `freshness:`: Configuraciones para verificar la frescura de los datos.
*   `tests:`: Pruebas para validar la calidad de los datos.


**Beneficios de Usar Sources:**

*   **Reutilización:** Define las *sources* una sola vez y úsalas en múltiples modelos.
*   **Mantenimiento:** Separa la ubicación de los datos del código dbt, facilitando las actualizaciones.
*   **Consistencia:** Centraliza la información de conexión, asegurando la uniformidad en el proyecto.
*   **Lineaje:** Influye en el orden de ejecución de los modelos (DAGs de dbt).

**Referenciando Sources en Modelos:**

Se utiliza la función Jinja `source()` para referenciar las *sources* en los modelos:

```sql
{{ source('nombre_de_la_source', 'nombre_de_la_tabla') }}
```

**Ejemplo:**

```sql
SELECT * FROM {{ source('Producto', 'items') }}
```

**Solución de Problemas:**

Si se producen errores al referenciar *sources*, verificar:

*   Que la *source* exista en el archivo `sources.yml`.
*   Que la *source* exista en la base de datos.
*   Que el usuario de dbt tenga acceso a la *source*.
*   Que las mayúsculas y minúsculas coincidan entre el código y el archivo `sources.yml`.
*   La correcta indentación en el archivo YAML.


El uso de *sources* es una práctica recomendada en dbt para un desarrollo más eficiente, mantenible y consistente.


```yaml
version: 2

sources:
  - name: laptop
    schema: laptop
    tables:
      - name: search
        description: "Información cruda sobre las búsquedas realizadas para laptops proveniente de la API de Mercado Libre."
      - name: search_attributes
        description: "Atributos adicionales asociados a las búsquedas de laptops, provenientes de la API de Mercado Libre."
      - name: sellers
        description: "Información sobre los vendedores de laptops obtenida de la API de Mercado Libre."

  - name: mini_pc
    schema: mini_pc
    tables:
      - name: search
        description: "Información cruda sobre las búsquedas realizadas para mini PCs proveniente de la API de Mercado Libre."
      - name: search_attributes
        description: "Atributos adicionales asociados a las búsquedas de mini PCs, provenientes de la API de Mercado Libre."
      - name: sellers
        description: "Información sobre los vendedores de mini PCs obtenida de la API de Mercado Libre."

  - name: pc
    schema: pc
    tables:
      - name: search
        description: "Información cruda sobre las búsquedas realizadas para PCs proveniente de la API de Mercado Libre."
      - name: search_attributes
        description: "Atributos adicionales asociados a las búsquedas de PCs, provenientes de la API de Mercado Libre."
      - name: sellers
        description: "Información sobre los vendedores de PCs obtenida de la API de Mercado Libre."
```

### b). ¿Qué son los modelos (Models) en dbt?


En DBT, un **modelo** es un archivo SQL que contiene la lógica de transformación de datos que queres aplicar a tus tablas en el Data Warehouse. En esencia, un modelo define cómo transformar, limpiar o preparar los datos para análisis y reportes.
---

#### Características Principales de un Modelo en DBT

1. **Archivo SQL**: Cada modelo en DBT es un archivo `.sql` que contiene una consulta SQL que transforma los datos en el almacén de datos.

2. **Materialización**: DBT materializa los modelos en el almacén de datos como:
   
   - **Vista (`view`)**: Almacena el SQL como una vista.
   
   - **Tabla (`table`)**: Ejecuta la consulta y almacena el resultado como una tabla permanente.
   
   - **Incremental (`incremental`)**: Solo actualiza los datos nuevos o cambiados.
   
   - **Ephemeral**: Modelo temporal que no se materializa en el almacén, sino que es usado por otros modelos.

3. **Dependencias**: DBT permite a los modelos referenciar otros modelos mediante la función `ref`, que gestiona dependencias entre ellos. Por ejemplo:

   ```sql
   -- modelo_ventas.sql
   select *
   from {{ ref('modelo_clientes') }}
   ```

   Aquí, `modelo_ventas` depende de `modelo_clientes`, y DBT sabe en qué orden ejecutarlos.

4. **Facilita el Versionado y el Linaje**: Al definir cada transformación en su propio archivo, puedes visualizar el linaje de datos, ver qué modelos alimentan a otros, y versionar cada transformación.

5. **Mejora la Escalabilidad y Reusabilidad**: Separar la lógica en modelos hace que sea fácil reutilizar, actualizar o extender transformaciones en el tiempo sin afectar otros elementos.

### c). Arquitectura de Datos: Bronze, Silver y Gold

La arquitectura **Bronze, Silver y Gold** es un enfoque común para la organización y transformación de datos dentro de un **Data Lakehouse** o un **Modern Data Stack**. Esta estructura permite mover los datos desde su forma más cruda hasta un formato listo para el análisis y consumo por usuarios de negocio.

### 1. Capa Bronze (Bronze Layer)
- **Propósito**: 
  - Almacenar los datos en su forma más cruda, tal como llegan de las fuentes.
- **Características**:
  - Datos sin procesar, sin modificaciones, que incluyen errores y duplicados.
  - Preserva toda la información posible para futuros análisis.
- **Ejemplos**:
  - Logs de eventos, archivos CSV originales, datos crudos extraídos de APIs.

### 2. Capa Silver (Silver Layer)
- **Propósito**: 
  - Limpieza y normalización de los datos para que estén listos para transformaciones más avanzadas.
- **Características**:
  - Datos sin duplicados, con valores nulos manejados y columnas estandarizadas.
  - Realiza unificación y limpieza inicial de los datos.
- **Ejemplos**:
  - Datos de ventas sin errores, con nombres de columnas estandarizados.

### 3. Capa Gold (Gold Layer)
- **Propósito**: 
  - Producir vistas enriquecidas listas para el análisis de negocio.
- **Características**:
  - Los datos se transforman en métricas agregadas y cálculos avanzados.
  - Diseñados para ser consumidos directamente en dashboards, reportes y aplicaciones de BI.
- **Ejemplos**:
  - Resúmenes de ventas por región y trimestre, etc.

### Ventajas de la Arquitectura Bronze, Silver y Gold
- **Trazabilidad y Auditoría**: Cada capa preserva un nivel de transformación, facilitando la trazabilidad de los datos.
- **Eficiencia**: Al dividir los datos en capas, se optimiza el procesamiento y se minimizan recalculaciones innecesarias.
- **Modularidad**: Cada capa tiene un propósito específico, lo que facilita la reutilización y el mantenimiento.

### Comparación con dbt
- **Bronze**: Equivalente a la definición de **sources** en dbt, donde los datos se toman directamente de las fuentes.

- **Silver**: Similar a los **modelos de staging**, donde los datos se limpian y normalizan.

- **Gold**: Equivalente a los **data marts**, donde los datos se preparan para el consumo final y análisis de negocio.

## 9). Seleccionar las columnas relevantes

### a). Seleccionar las columnas de "Search"

In [None]:
base = duckdb.connect('mercado_libre.duckdb')

In [49]:
base.sql('''
SELECT *
FROM laptop.search
LIMIT 1
''')

┌───────────────┬───────────────────────────────────────────────────────────────────────┬───────────┬──────────────────────────────┬────────────────────┬─────────────────┬───────────────────────────────────────────────────────────────────────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬─────────────┬─────────┬─────────────┬───────────────┬────────────────────────────────────────────────────────────────┬─────────────┬───────────────┬───────────┬────────────────┬──────────────────────┬────────────────────┬──────────────────────────────────┬────────────────────────────────────┬──────────────────────────────────┬─────────────────────────┬─────────────────────────────────┬────────────────────────────┬──────────────────┬──────────────────────────────────────┬────────────────────────────────────┬────────────────────┬───────────────────┬─────────────────────┬──────────────────┬──────────────

Las columnas relevantes son:
1. id
2. title
3. condtion
4. catalog_product_id
5. listing_type_id
6. category_id
7. domain_id
8. price
9. original_price
10. sale_price__price_id
11. sale_price__amount 
12. available_quantity 
13. seller__id
14. seller__nickname
15. _dlt_load_id
15. _dlt_id

In [50]:
base.close()

### b). Seleccionar las columnas de "Search Attributes"

In [63]:
base = duckdb.connect('mercado_libre.duckdb')

In [66]:
base.sql('''
SELECT *
FROM laptop.search__attributes
LIMIT 5
''')

┌────────────────┬──────────────────────────────┬──────────┬───────────────┬────────────────────┬──────────────────────┬──────────────────┬────────────┬────────────────┬───────────────┬────────────────┬──────────────────────┬────────────────────┬────────────────────────────────┐
│       id       │             name             │ value_id │  value_name   │ attribute_group_id │ attribute_group_name │      source      │ value_type │ _dlt_parent_id │ _dlt_list_idx │    _dlt_id     │ value_struct__number │ value_struct__unit │ value_struct__number__v_double │
│    varchar     │           varchar            │ varchar  │    varchar    │      varchar       │       varchar        │      int64       │  varchar   │    varchar     │     int64     │    varchar     │        int64         │      varchar       │             double             │
├────────────────┼──────────────────────────────┼──────────┼───────────────┼────────────────────┼──────────────────────┼──────────────────┼────────────┼────────

Son la columnas "id" y "name" las mismas?

In [68]:
base.sql('''
SELECT id, name, count(*)
FROM laptop.search__attributes
GROUP BY ALL
ORDER BY 1, 2
''')

┌────────────────────┬──────────────────────────────┬──────────────┐
│         id         │             name             │ count_star() │
│      varchar       │           varchar            │    int64     │
├────────────────────┼──────────────────────────────┼──────────────┤
│ ALPHANUMERIC_MODEL │ Modelo alfanumérico          │          820 │
│ BRAND              │ Marca                        │         1098 │
│ CABLE_LENGTH       │ Largo del cable              │            2 │
│ COLOR              │ Color                        │          623 │
│ DETAILED_MODEL     │ Modelo detallado             │          261 │
│ GTIN               │ Código universal de producto │          627 │
│ ITEM_CONDITION     │ Condición del ítem           │         1098 │
│ LINE               │ Línea                        │         1006 │
│ MAIN_COLOR         │ Color principal              │          533 │
│ MODEL              │ Modelo                       │         1098 │
│ PACKAGE_LENGTH     │ Largo del p

Si, son las mismas, por lo tanto, tiene sentido solo incluir una de ellas.

Tiene sentido incorporar "attribute_group_id"?

In [69]:

base.sql('''
SELECT attribute_group_id, count(*)
FROM laptop.search__attributes
GROUP BY ALL
ORDER BY 1, 2
''')

┌────────────────────┬──────────────┐
│ attribute_group_id │ count_star() │
│      varchar       │    int64     │
├────────────────────┼──────────────┤
│                    │            4 │
│ OTHERS             │        11504 │
└────────────────────┴──────────────┘

Las columnas que se van a utilizar son:

1. id
2. value_name
3. _dlt_parent_id
4. _dlt_id 

### c). Seleccionar las columnas de "Seller"



In [74]:
base = duckdb.connect('mercado_libre.duckdb')

In [None]:
base.sql('''
SELECT * EXCLUDE(permalink)
FROM laptop.seller
LIMIT 1
''')

┌───────────┬──────────┬────────────┬───────────────┬────────────────┬───────────┬─────────┬──────────────────────────────────────────┬─────────────────────────────┬────────────────────────────────────────┬─────────────────────────────────────────┬────────────────────────────────────────┬─────────────────────┬────────────────────┬────────────────┐
│    id     │ nickname │ country_id │ address__city │ address__state │ user_type │ site_id │                permalink                 │ seller_reputation__level_id │ seller_reputation__power_seller_status │ seller_reputation__transactions__period │ seller_reputation__transactions__total │ status__site_status │    _dlt_load_id    │    _dlt_id     │
│   int64   │ varchar  │  varchar   │    varchar    │    varchar     │  varchar  │ varchar │                 varchar                  │           varchar           │                varchar                 │                 varchar                 │                 int64                  │       varc

Todas las columnas a utilizar son importantes excepto "permalink". A esta columna la podemos excluir con:

```sql
SELECT * EXCLUDE(permalink)
FROM laptop.seller
```

In [79]:
base.close()

## 11. Crear los Modelos "Silver"

#### a). Crear una carpeta con el nombre "silver" dentro de la carpeta "models"

#### b). Modificar el archivo "dbt_project.yml"

Agregar:
```yaml
    silver:
      +schema: silver
```

Cuando configurás `+schema: silver` para una carpeta o grupo de modelos, le estás diciendo a dbt que todos los modelos que se encuentren en esa carpeta deben ser materializados en el esquema silver.

### c). Crear los modelos en .sql:


#### `search.sql`
```sql
-- Modelo 1: Unión de las tablas 'search' de los esquemas laptop, mini_pc y pc
{{ config(materialized='table') }}

WITH laptop_search AS (
    SELECT id, title, condition, catalog_product_id, listing_type_id, category_id, domain_id, price, original_price, 
           sale_price__price_id, sale_price__amount, available_quantity, seller__id, seller__nickname, _dlt_load_id, _dlt_id, 'laptop' AS product_type
    FROM {{ source('laptop', 'search') }}
),
mini_pc_search AS (
    SELECT id, title, condition, catalog_product_id, listing_type_id, category_id, domain_id, price, original_price, 
           sale_price__price_id, sale_price__amount, available_quantity, seller__id, seller__nickname, _dlt_load_id, _dlt_id, 'mini_pc' AS product_type
    FROM {{ source('mini_pc', 'search') }}
),
pc_search AS (
    SELECT id, title, condition, catalog_product_id, listing_type_id, category_id, domain_id, price, original_price, 
           sale_price__price_id, sale_price__amount, available_quantity, seller__id, seller__nickname, _dlt_load_id, _dlt_id, 'pc' AS product_type
    FROM {{ source('pc', 'search') }}
)

SELECT id, title, condition, catalog_product_id, listing_type_id, category_id, domain_id, price, original_price, 
       sale_price__price_id, sale_price__amount, available_quantity, seller__id, seller__nickname, _dlt_load_id, _dlt_id, product_type 
FROM laptop_search
UNION ALL
SELECT id, title, condition, catalog_product_id, listing_type_id, category_id, domain_id, price, original_price, 
       sale_price__price_id, sale_price__amount, available_quantity, seller__id, seller__nickname, _dlt_load_id, _dlt_id, product_type 
FROM mini_pc_search
UNION ALL
SELECT id, title, condition, catalog_product_id, listing_type_id, category_id, domain_id, price, original_price, 
       sale_price__price_id, sale_price__amount, available_quantity, seller__id, seller__nickname, _dlt_load_id, _dlt_id, product_type 
FROM pc_search

```

#### `search_attributes.sql`

```SQL
-- Modelo 2: Unión de las tablas 'search__attributes' de los esquemas laptop, mini_pc y pc
{{ config(materialized='view') }}

WITH laptop_search_attributes AS (
    SELECT id, value_name, _dlt_parent_id, _dlt_id, 'laptop' AS product_type
    FROM {{ source('laptop', 'search__attributes') }}
),
mini_pc_search_attributes AS (
    SELECT id, value_name, _dlt_parent_id, _dlt_id, 'mini_pc' AS product_type
    FROM {{ source('mini_pc', 'search__attributes') }}
),
pc_search_attributes AS (
    SELECT id, value_name, _dlt_parent_id, _dlt_id, 'pc' AS product_type
    FROM {{ source('pc', 'search__attributes') }}
)

SELECT id, value_name, _dlt_parent_id, _dlt_id, product_type FROM laptop_search_attributes
UNION ALL
SELECT id, value_name, _dlt_parent_id, _dlt_id, product_type FROM mini_pc_search_attributes
UNION ALL
SELECT id, value_name, _dlt_parent_id, _dlt_id, product_type FROM pc_search_attributes
```

#### `seller.sql`

```sql
-- Modelo 3: Unión de las tablas 'seller' de los esquemas laptop, mini_pc y pc
{{ config(materialized='view') }}

WITH laptop_seller AS (
    SELECT * EXCLUDE(permalink), 'laptop' AS product_type
    FROM {{ source('laptop', 'seller') }}
),
mini_pc_seller AS (
    SELECT  * EXCLUDE(permalink), 'mini_pc' AS product_type
    FROM {{ source('mini_pc', 'seller') }}
),
pc_seller AS (
    SELECT * EXCLUDE(permalink), 'pc' AS product_type
    FROM {{ source('pc', 'seller') }}
)

SELECT * FROM laptop_seller
UNION ALL
SELECT * FROM mini_pc_seller
UNION ALL
SELECT * FROM pc_seller
```

### d). Ejecutar el código de DBT para crear los modelos

### Comandos de DBT:

| Comando         | Descripción                                                                                  |
|-----------------|----------------------------------------------------------------------------------------------|
| `dbt init`      | Inicializa un nuevo proyecto DBT.                                                            |
| `dbt run`       | Ejecuta y materializa los modelos en la base de datos.                                       |
| `dbt test`      | Ejecuta las pruebas de datos para verificar calidad y consistencia.                          |
| `dbt build`     | Ejecuta `run` y `test` en un solo paso para construir y validar.                             |
| `dbt seed`      | Carga archivos CSV en tablas de la base de datos.                                            |
| `dbt snapshot`  | Crea snapshots para un seguimiento histórico de los datos.                                   |
| `dbt docs`      | Genera y visualiza documentación interactiva del proyecto.                                   |
| `dbt debug`     | Verifica la configuración del proyecto y la conexión a la base de datos.                     |
| `dbt compile`   | Compila modelos SQL en archivos SQL puros.                                                   |
| `dbt clean`     | Limpia archivos generados, incluyendo `target`.                                              |


#### `search.sql`
```powershell
01-bases-de-datos-py3.11juan@BOOK-NFF0K06361:~/UCCuyo/BaseDeDatos2024/ml_transformations$ dbt run --select search
03:20:55  Running with dbt=1.8.0
03:20:56  Registered adapter: duckdb=1.9.0
03:20:56  Found 3 models, 4 data tests, 9 sources, 416 macros
03:20:56  
03:20:56  Concurrency: 1 threads (target='dev')
03:20:56  
03:20:56  1 of 1 START sql table model main_silver.search ................................ [RUN]
03:20:57  1 of 1 OK created sql table model main_silver.search ........................... [OK in 0.27s]
03:20:57  
03:20:57  Finished running 1 table model in 0 hours 0 minutes and 0.68 seconds (0.68s).
03:20:57  
03:20:57  Completed successfully
03:20:57  
03:20:57  Done. PASS=1 WARN=0 ERROR=0 SKIP=0 TOTAL=1
01-bases-de-datos-py3.11juan@BOOK-NFF0K06361:~/UCCuyo/BaseDeDatos2024/ml_transformations$ 
```

#### `search_attributes.sql`
```powershell
01-bases-de-datos-py3.11juan@BOOK-NFF0K06361:~/UCCuyo/BaseDeDatos2024/ml_transformations$ dbt run --select search_attributes
15:29:34  Running with dbt=1.8.0
15:29:34  Registered adapter: duckdb=1.9.0
15:29:35  Found 4 models, 4 data tests, 9 sources, 416 macros
15:29:35  
15:29:35  Concurrency: 1 threads (target='dev')
15:29:35  
15:29:35  1 of 1 START sql view model main_silver.search_attributes ...................... [RUN]
15:29:36  1 of 1 OK created sql view model main_silver.search_attributes ................. [OK in 0.37s]
15:29:36  
15:29:36  Finished running 1 view model in 0 hours 0 minutes and 0.80 seconds (0.80s).
15:29:36  
15:29:36  Completed successfully
15:29:36  
15:29:36  Done. PASS=1 WARN=0 ERROR=0 SKIP=0 TOTAL=1
```
#### `seller.sql`

```powershell
01-bases-de-datos-py3.11juan@BOOK-NFF0K06361:~/UCCuyo/BaseDeDatos2024/ml_transformations$ dbt run --select seller
15:45:22  Running with dbt=1.8.0
15:45:22  Registered adapter: duckdb=1.9.0
15:45:23  Found 5 models, 4 data tests, 9 sources, 416 macros
15:45:23  
15:45:24  Concurrency: 1 threads (target='dev')
15:45:24  
15:45:24  1 of 1 START sql view model main_silver.seller ................................. [RUN]
15:45:24  1 of 1 OK created sql view model main_silver.seller ............................ [OK in 0.30s]
15:45:24  
15:45:24  Finished running 1 view model in 0 hours 0 minutes and 1.02 seconds (1.02s).
15:45:24  
15:45:24  Completed successfully
15:45:24  
15:45:24  Done. PASS=1 WARN=0 ERROR=0 SKIP=0 TOTAL=1
```

### f). Verificar que los modelos "Silver" se hayan creado Correctamente

In [None]:
base = duckdb.connect('mercado_libre.duckdb')

In [None]:
base.sql('''
SELECT DISTINCT table_schema
FROM information_schema.tables
''')

┌──────────────┐
│ table_schema │
│   varchar    │
├──────────────┤
│ main         │
│ main_silver  │
│ laptop       │
│ mini_pc      │
│ pc           │
└──────────────┘

In [None]:
base.sql('''
SELECT *
FROM main_silver.search
limit 2
''')

┌───────────────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬───────────┬────────────────────┬─────────────────┬─────────────┬───────────────┬───────────┬────────────────┬──────────────────────┬────────────────────┬────────────────────┬────────────┬──────────────────┬────────────────────┬────────────────┬──────────────┐
│      id       │                                                          title                                                          │ condition │ catalog_product_id │ listing_type_id │ category_id │   domain_id   │   price   │ original_price │ sale_price__price_id │ sale_price__amount │ available_quantity │ seller__id │ seller__nickname │    _dlt_load_id    │    _dlt_id     │ product_type │
│    varchar    │                                                         varchar                                                         │  varchar  │      varchar       │     varchar     │   varchar

In [None]:
base.sql('''
SELECT count(*)
FROM main_silver.search
''')

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│         3292 │
└──────────────┘

In [None]:
base.sql('''
SELECT *
FROM main_silver.search_attributes
LIMIT 2
''')

┌─────────┬────────────┬────────────────┬────────────────┬──────────────┐
│   id    │ value_name │ _dlt_parent_id │    _dlt_id     │ product_type │
│ varchar │  varchar   │    varchar     │    varchar     │   varchar    │
├─────────┼────────────┼────────────────┼────────────────┼──────────────┤
│ BRAND   │ EXO        │ GCY1SBkSzYYtlA │ y2aFiuP69UZ3jA │ laptop       │
│ COLOR   │ Gris       │ GCY1SBkSzYYtlA │ qjrcSESk/xdr5w │ laptop       │
└─────────┴────────────┴────────────────┴────────────────┴──────────────┘

In [None]:
base.sql('''
SELECT COUNT(*)
FROM main_silver.search_attributes
''')

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│        25564 │
└──────────────┘

In [None]:
base.sql('''
SELECT *
FROM main_silver.seller
LIMIT 2
''')

┌───────────┬────────────────────────────┬────────────┬───────────────┬────────────────┬───────────┬─────────┬─────────────────────────────┬────────────────────────────────────────┬─────────────────────────────────────────┬────────────────────────────────────────┬─────────────────────┬────────────────────┬────────────────┬──────────────┐
│    id     │          nickname          │ country_id │ address__city │ address__state │ user_type │ site_id │ seller_reputation__level_id │ seller_reputation__power_seller_status │ seller_reputation__transactions__period │ seller_reputation__transactions__total │ status__site_status │    _dlt_load_id    │    _dlt_id     │ product_type │
│   int64   │          varchar           │  varchar   │    varchar    │    varchar     │  varchar  │ varchar │           varchar           │                varchar                 │                 varchar                 │                 int64                  │       varchar       │      varchar       │    varchar  

In [None]:
base.sql('''
SELECT COUNT(*)
FROM main_silver.seller
LIMIT 2
''')

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│         3292 │
└──────────────┘

In [None]:
base.close()

## 12). Crear los Modelos "Gold"

#### a). Crear una carpeta con el nombre "gold" dentro de la carpeta "models"

#### b). Modificar el archivo "dbt_project.yml"

```yaml
    gold:
      +schema: gold
```

### c). Crear el modelo en .sql:


```sql
WITH productos_con_procesador_i7 AS 
(
SELECT 
    _dlt_parent_id

FROM {{ ref('search_attributes')}} a 
WHERE id = 'PROCESSOR_LINE'
AND value_name = 'Core i7'
)


SELECT 
    a.id product_id,
    a.title,
    seller__nickname as vendedor,
    a.product_type as tipo_de_producto,
    seller_reputation__power_seller_status as reputacion,
    condition,
    address__state as provincia,
    available_quantity as cantidad_disponible,
    price as precio


FROM {{ ref('search')}} a 
LEFT JOIN {{ ref('seller')}} b ON a.seller__id = b.id

WHERE a._dlt_id IN (SELECT * FROM productos_con_procesador_i7)
```

### d). Ejecutar el código de DBT para crear los modelos
```powershell
01-bases-de-datos-py3.11juan@BOOK-NFF0K06361:~/UCCuyo/BaseDeDatos2024/ml_transformations$ dbt run --select publicaciones_con_i7
16:19:34  Running with dbt=1.8.0
16:19:34  Registered adapter: duckdb=1.9.0
16:19:35  Found 6 models, 4 data tests, 9 sources, 416 macros
16:19:35  
16:19:35  Concurrency: 1 threads (target='dev')
16:19:35  
16:19:35  1 of 1 START sql view model main_gold.publicaciones_con_i7 ..................... [RUN]
16:19:36  1 of 1 OK created sql view model main_gold.publicaciones_con_i7 ................ [OK in 0.31s]
16:19:36  
16:19:36  Finished running 1 view model in 0 hours 0 minutes and 0.94 seconds (0.94s).
16:19:36  
16:19:36  Completed successfully
16:19:36  
16:19:36  Done. PASS=1 WARN=0 ERROR=0 SKIP=0 TOTAL=1
```


## 14). Subir la base a MotherDuck

In [118]:
import os 
from dotenv import load_dotenv
load_dotenv()

motherduck_token = os.getenv('MOTHER_DUCK_TOKEN')

nombre_bd_motherduck = 'mercado_libre'

ruta_bd_local = 'mercado_libre.duckdb'

con = duckdb.connect(f"md:?motherduck_token={motherduck_token}")

# Crea la base de datos en MotherDuck a partir de la base de datos local
con.execute(f"CREATE DATABASE {nombre_bd_motherduck} FROM '{ruta_bd_local}'")

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

<duckdb.duckdb.DuckDBPyConnection at 0x7f1f2a3e3d70>

# 3. Extra

## Extensión de VSCODE 

![image.png](attachment:image.png)

## Lineage

![image-2.png](attachment:image-2.png)

## 2). Funcionalidades Extra de DBT:

## 3). Proyecto desde 0

In [1]:
import requests

url = "https://data.alpaca.markets/v1beta3/crypto/us/bars?symbols=BTC%2FUSD%2CLTC%2FUSD&timeframe=1Min&start=2024-11-01&limit=1000&sort=asc"

headers = {"accept": "application/json"}

response = requests.get(url, headers=headers)

print(response.text)

{"bars":{"BTC/USD":[{"c":70185.09,"h":70185.09,"l":70185.09,"n":0,"o":70185.09,"t":"2024-11-01T00:00:00Z","v":0,"vw":0},{"c":70229.17,"h":70229.17,"l":70229.17,"n":0,"o":70229.17,"t":"2024-11-01T00:03:00Z","v":0,"vw":0},{"c":70308.255,"h":70308.255,"l":70269.155,"n":0,"o":70269.155,"t":"2024-11-01T00:05:00Z","v":0,"vw":0},{"c":70326,"h":70341.9995,"l":70326,"n":0,"o":70341.9995,"t":"2024-11-01T00:07:00Z","v":0,"vw":0},{"c":70321.8335,"h":70321.8335,"l":70321.8335,"n":0,"o":70321.8335,"t":"2024-11-01T00:08:00Z","v":0,"vw":0},{"c":70281.435,"h":70281.435,"l":70281.435,"n":0,"o":70281.435,"t":"2024-11-01T00:09:00Z","v":0,"vw":0},{"c":70241.4,"h":70297.595,"l":70241.4,"n":0,"o":70289.85,"t":"2024-11-01T00:10:00Z","v":0,"vw":0},{"c":70262.388,"h":70262.388,"l":70262.388,"n":0,"o":70262.388,"t":"2024-11-01T00:12:00Z","v":0,"vw":0},{"c":70363.8415,"h":70363.8415,"l":70350.205,"n":0,"o":70350.205,"t":"2024-11-01T00:14:00Z","v":0,"vw":0},{"c":70341.05,"h":70356.265,"l":70341.05,"n":0,"o":70356.