# ¿Qué es ETL?

ELT (Extract, Load, Transform) es un enfoque moderno para la gestión de datos que implica tres fases:

1. **Extracción:** Se obtienen los datos de diversas fuentes sin modificar su estructura.

2. **Carga:** Los datos se cargan directamente en un Data Warehouse o Data Lake sin transformación previa.

3. **Transformación:** Se limpian, transforman y preparan para el análisis dentro del Data Warehouse, aprovechando su capacidad de procesamiento.

Este proceso es más rápido y escalable que ETL, ya que permite manejar grandes volúmenes de datos y realizar transformaciones más complejas en plataformas de nube. Se utiliza principalmente para mover datos de manera eficiente en entornos de análisis modernos.

## ETL vs ELT

| Aspecto          | ETL                              | ELT                              |
|------------------|----------------------------------|----------------------------------|
| **Orden**        | Extracción → Transformación → Carga | Extracción → Carga → Transformación |
| **Lugar de la transformación** | Servidor intermedio                | Data Warehouse                   |
| **Velocidad**    | Más lento para grandes volúmenes | Más rápido y escalable           |
| **Complejidad**  | Más complejo de configurar       | Más sencillo y flexible          |
| **Casos de uso** | Sistemas on-premise, requisitos de calidad previos | Plataformas en la nube, grandes volúmenes de datos |
| **Escalabilidad**| Limitada                         | Alta, ideal para entornos de nube|
| **Por qué se utiliza** | Se usa cuando la limpieza y transformación previas son críticas antes de cargar los datos en el destino final | Se utiliza para mover grandes volúmenes de datos rápidamente, aprovechando la potencia de procesamiento de la nube |


## ¿Cuando conviene usar ETL?

- **Calidad y estructura previas:** Se requiere limpiar y validar los datos antes de almacenarlos.

- **Infraestructura on-premise:** Limitaciones de capacidad de procesamiento en el destino.

- **Cumplimiento y regulaciones:** Es necesario anonimizar o enmascarar datos sensibles antes de la carga.

- **Volúmenes de datos pequeños o medianos:** Menor complejidad y costo.

- **Flujos de trabajo de BI tradicionales:** Consistencia con procesos ya configurados.

- **Transformaciones complejas:** Involucran cálculos o integración con sistemas externos antes de cargar los datos.

## ¿Cuando conviene usar ELT?

- **Grandes volúmenes de datos:** Carga rápida y escalable en entornos de nube.

- **Transformación en la nube:** Se aprovecha la capacidad de procesamiento del Data Warehouse.

- **Flexibilidad y agilidad:** Permite transformar datos de diferentes maneras después de la carga.

- **Datos semiestructurados o sin estructura:** Se cargan directamente para luego darles formato.

- **Análisis en tiempo real:** Transformaciones más rápidas para obtener resultados rápidamente.

- **Integración con herramientas modernas:** Alineado con arquitecturas de análisis modernas y plataformas en la nube.

# ¿Qué es DLT?

La biblioteca dlt es una librería de Python de código abierto que simplifica la carga de datos al automatizar tareas complejas como la creación de esquemas, la normalización de datos, la carga incremental, etc. Al igual que dbt democratizó la capa T (Transformación) del proceso ELT para los usuarios de SQL, dlt democratiza el aspecto EL (Extracción/Carga) del manejo de datos con Python.

![image.png](attachment:image.png)

Sirve para resolver 3 problemas comunes que surgen al construir un ELT:

1. **Evolución del esquema**: La evolución del esquema es la capacidad de adaptarse automáticamente a los cambios en la estructura de los datos de origen, como agregar, eliminar o modificar columnas, sin necesidad de ajustes manuales. **DLT** detecta estos cambios y actualiza el esquema de forma automática, asegurando que la carga y transformación de los datos sigan funcionando sin interrupciones. 

2. **Carga Incremental**: La **carga incremental** es una técnica utilizada en *pipelines* de datos que se enfoca en procesar únicamente los datos nuevos o actualizados desde la última carga, en lugar de reimportar todo el conjunto de datos cada vez. Esto hace que el proceso sea más eficiente, rápido y menos costoso en términos de tiempo y recursos, ya que minimiza el volumen de datos a transferir y procesar. Es especialmente útil en sistemas con grandes volúmenes de datos, donde la carga completa sería lenta y consumidora de recursos.

3. **Rendimiento**: DLT ofrece varios mecanismos y opciones de configuración para gestionar el rendimiento y escalar los pipelines:

    - **Ejecución paralela**: Procesos de extracción, normalización y carga se ejecutan en paralelo.
    
    - **Pools de hilos y ejecución asíncrona**: Fuentes y recursos se ejecutan de forma paralela.
    
    - **Buffer de memoria, tamaños de archivos intermedios y opciones de compresión**: Optimización del uso de memoria y almacenamiento.
    
    - **Escalabilidad mediante iteradores y segmentación (chunking)**: Manejo de grandes volúmenes de datos de forma eficiente al dividirlos en partes más pequeñas.


In [1]:
import os

# Cambiar el directorio de trabajo a dos niveles arriba
os.chdir(os.path.join(os.getcwd(), "../.."))

# Verificar el nuevo directorio de trabajo
print("El nuevo directorio de trabajo es:", os.getcwd())

El nuevo directorio de trabajo es: /home/juan/UCCuyo/BaseDeDatos2024


In [2]:
pip install "dlt[duckdb]"

Note: you may need to restart the kernel to use updated packages.


# pipeline con datos hardcodeados 

## Carga Incremental desde Postgres

In [5]:
from dlt.sources.credentials import ConnectionStringCredentials

from dlt.sources.sql_database import sql_database, sql_table, Table

import dlt

import pendulum

credentials = ConnectionStringCredentials(
    "postgresql://postgres:1234@localhost:5432/gtfs"
)

In [10]:
positions = sql_table(credentials=credentials, 
                        schema='realtime',
                        table='positions',
                        incremental=dlt.sources.incremental('header_timestamp', pendulum.parse('2022-01-01T00:00:00Z'))
                        )

OperationalError: (psycopg2.OperationalError) connection to server at "localhost" (127.0.0.1), port 5432 failed: Connection refused
	Is the server running on that host and accepting TCP/IP connections?

(Background on this error at: https://sqlalche.me/e/20/e3q8)

In [13]:
pipeline = dlt.pipeline(pipeline_name='realtime_positions',
                        destination=dlt.destinations.duckdb('gtfs.duckdb'),
                        dataset_name='realtime'
)


In [18]:
info = pipeline.run(positions)
print(info)

Pipeline realtime_positions load step completed in 17.57 seconds
1 load package(s) were loaded to destination duckdb and into dataset realtime
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/gtfs.duckdb location to store data
Load package 1729547246.9663546 is LOADED and contains no failed jobs


In [16]:
trip_updates = sql_table(credentials=credentials, 
                        schema='realtime',
                        table='trip_updates',
                        incremental=dlt.sources.incremental('header_timestamp', pendulum.parse('2022-01-01T00:00:00Z'))
                        )


In [17]:
info_tripup = pipeline.run(trip_updates)
print(info_tripup)

Pipeline realtime_positions load step completed in 3 minutes and 25.16 seconds
1 load package(s) were loaded to destination duckdb and into dataset realtime
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/gtfs.duckdb location to store data
Load package 1729541112.7264192 is LOADED and contains no failed jobs


In [7]:
import duckdb

con = duckdb.connect('gtfs.duckdb')



In [8]:
con.sql('''
SELECT *
FROM information_schema.tables
''')

┌───────────────┬──────────────┬────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog │ table_schema │ table_name │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar    │   varchar    │  varchar   │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├───────────────┴──────────────┴────────────┴────────────┴──────────────────────────────┴──────────────────────┴───────────────────────────┴──────────────────────────┴────────────────────────┴────────────────────┴──────────┴─────

In [6]:
con.close()

# Pipeline desde REST API (GTFS)

In [4]:
pip install gtfs-realtime-bindings


Collecting gtfs-realtime-bindings
  Downloading gtfs-realtime-bindings-1.0.0.tar.gz (6.2 kB)
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: gtfs-realtime-bindings
  Building wheel for gtfs-realtime-bindings (setup.py) ... [?25ldone
[?25h  Created wheel for gtfs-realtime-bindings: filename=gtfs_realtime_bindings-1.0.0-py3-none-any.whl size=5988 sha256=08c4c324a61cbdc40b5c37f7e0bc854464a8ccf597228811f13c712e48c40638
  Stored in directory: /home/juan/.cache/pip/wheels/de/77/98/c97c7fb5e3a7359e3f83c9c4a62115d3700e9b5445854ca122
Successfully built gtfs-realtime-bindings
Installing collected packages: gtfs-realtime-bindings
Successfully installed gtfs-realtime-bindings-1.0.0
Note: you may need to restart the kernel to use updated packages.


In [30]:
import json

params = {

    'client_id': client_id,

    'client_secret': client_secret,

    'json':1
}

url_positions = "https://apitransporte.buenosaires.gob.ar/colectivos/vehiclePositions"

In [31]:
%%time
response = requests.get(url_positions, params=params)

json_data = json.loads(response.content)

CPU times: user 259 ms, sys: 139 ms, total: 398 ms
Wall time: 8.47 s


In [32]:
json_data

{'_entity': [{'_alert': None,
   '_id': '1',
   '_is_deleted': False,
   '_trip_update': None,
   '_vehicle': {'_congestion_level': 0,
    '_current_status': 2,
    '_current_stop_sequence': 36,
    '_occupancy_status': 0,
    '_position': {'_bearing': 0,
     '_latitude': -34.69203,
     '_longitude': -58.6912,
     '_odometer': 43862,
     '_speed': 0,
     'extensionObject': None},
    '_stop_id': '6539111782',
    '_timestamp': 1729802492,
    '_trip': {'_direction_id': 1,
     '_route_id': '1391',
     '_schedule_relationship': 0,
     '_start_date': '20241024',
     '_start_time': '17:00:00',
     '_trip_id': '91266-1',
     'extensionObject': None},
    '_vehicle': {'_id': '1822',
     '_label': '3139-923',
     '_license_plate': None,
     'extensionObject': None},
    'extensionObject': None},
   'extensionObject': None},
  {'_alert': None,
   '_id': '2',
   '_is_deleted': False,
   '_trip_update': None,
   '_vehicle': {'_congestion_level': 0,
    '_current_status': 2,
    '_c

In [5]:
from google.transit import gtfs_realtime_pb2
from google.protobuf.json_format import MessageToDict
import requests


client_id     = '3e72d2097b8840c88e8cf32b88755e23'
client_secret = 'cA3c7C7F9d894eD4AC77da761287d70E'

params = {

    'client_id': client_id,

    'client_secret': client_secret
}

url_positions = "https://apitransporte.buenosaires.gob.ar/colectivos/vehiclePositions"


def download_and_convert_gtfs_realtime_to_json(url, params):
    # Descargar el archivo Protobuf desde la API
    response = requests.get(url, params=params)

    if response.status_code != 200:
        print(f"Error al descargar los datos: {response.status_code}")
        return None

    # Crear una instancia del mensaje FeedMessage de GTFS Realtime
    feed = gtfs_realtime_pb2.FeedMessage()

    # Deserializar el archivo Protobuf desde la respuesta
    feed.ParseFromString(response.content)

    # Convertir el mensaje Protobuf a JSON
    feed_json = MessageToDict(feed, preserving_proto_field_name=True)

    return feed_json

In [6]:
%%time
# Ejemplo de uso
json_data = download_and_convert_gtfs_realtime_to_json(url_positions, params)

CPU times: user 353 ms, sys: 0 ns, total: 353 ms
Wall time: 5.69 s


In [7]:
json_data

{'header': {'gtfs_realtime_version': '1.0', 'timestamp': '1729864437'},
 'entity': [{'id': '1',
   'vehicle': {'trip': {'trip_id': '91205-1',
     'start_time': '10:30:00',
     'start_date': '20241025',
     'route_id': '1390'},
    'position': {'latitude': -34.6591,
     'longitude': -58.66387,
     'odometer': 60692.0,
     'speed': 6.944444},
    'current_stop_sequence': 34,
    'timestamp': '1729864360',
    'stop_id': '6410101343',
    'vehicle': {'id': '1822', 'label': '3139-923'}}},
  {'id': '2',
   'vehicle': {'trip': {'trip_id': '91349-1',
     'start_time': '10:30:00',
     'start_date': '20241025',
     'route_id': '1393',
     'direction_id': 1},
    'position': {'latitude': -34.68314,
     'longitude': -58.66316,
     'odometer': 35221.0},
    'current_stop_sequence': 14,
    'timestamp': '1729864354',
    'stop_id': '6568108986',
    'vehicle': {'id': '1828', 'label': '3120-921'}}},
  {'id': '3',
   'vehicle': {'position': {'latitude': -34.70561,
     'longitude': -58.67

In [8]:
import dlt 

# Create dlt pipeline with duckdb as a destination
pipeline = dlt.pipeline(
    pipeline_name="positions_from_json",
    destination='duckdb', 
    dataset_name="positions_json_data",
)

In [12]:
@dlt.resource
def json_resource(json_data):
    for record in json_data:
        yield record

In [14]:
pipeline.run(json_resource(json_data.get('entity')))

LoadInfo(pipeline=<dlt.pipeline.pipeline.Pipeline object at 0x7f1b470f5810>, metrics={'1729864485.3914738': [{'started_at': DateTime(2024, 10, 25, 13, 54, 47, 271079, tzinfo=Timezone('UTC')), 'finished_at': DateTime(2024, 10, 25, 13, 54, 49, 325753, tzinfo=Timezone('UTC')), 'job_metrics': {'json_resource.c5a0c1bff8.insert_values': LoadJobMetrics(job_id='json_resource.c5a0c1bff8.insert_values', file_path='/home/juan/.dlt/pipelines/positions_from_json/load/normalized/1729864485.3914738/started_jobs/json_resource.c5a0c1bff8.0.insert_values', table_name='json_resource', started_at=DateTime(2024, 10, 25, 13, 54, 47, 306974, tzinfo=Timezone('UTC')), finished_at=DateTime(2024, 10, 25, 13, 54, 48, 952335, tzinfo=Timezone('UTC')), state='completed', remote_url=None)}}]}, destination_type='dlt.destinations.duckdb', destination_displayable_credentials='duckdb:////home/juan/UCCuyo/BaseDeDatos2024/positions_from_json.duckdb', destination_name='duckdb', environment=None, staging_type=None, staging_n

In [11]:
import duckdb 

con = duckdb.connect('positions_from_json.duckdb')

In [12]:
con.sql('''
SELECT *
FROM information_schema.tables
''')

┌───────────────┬──────────────┬────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog │ table_schema │ table_name │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar    │   varchar    │  varchar   │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├───────────────┴──────────────┴────────────┴────────────┴──────────────────────────────┴──────────────────────┴───────────────────────────┴──────────────────────────┴────────────────────────┴────────────────────┴──────────┴─────

In [17]:
con.sql('''
SELECT *
FROM positions_json_data.json_resource
''')

┌─────────┬────────────────────┬────────────────┬─────────┬────────────────────────┬───────────────────────────┬───────────────────────────┬─────────────────────────┬─────────────────────────────┬──────────────────────────────┬─────────────────────────────┬──────────────────────────┬────────────────────────────────┬────────────────────┬──────────────────┬──────────────────────┬─────────────────────────┬─────────────────────────────┬─────────────────────────┐
│  value  │    _dlt_load_id    │    _dlt_id     │   id    │ vehicle__trip__trip_id │ vehicle__trip__start_time │ vehicle__trip__start_date │ vehicle__trip__route_id │ vehicle__position__latitude │ vehicle__position__longitude │ vehicle__position__odometer │ vehicle__position__speed │ vehicle__current_stop_sequence │ vehicle__timestamp │ vehicle__stop_id │ vehicle__vehicle__id │ vehicle__vehicle__label │ vehicle__trip__direction_id │ vehicle__current_status │
│ varchar │      varchar       │    varchar     │ varchar │        varchar

In [19]:
json_data.get('entity')[0]

{'id': '1',
 'vehicle': {'trip': {'trip_id': '91205-1',
   'start_time': '10:30:00',
   'start_date': '20241025',
   'route_id': '1390'},
  'position': {'latitude': -34.6591,
   'longitude': -58.66387,
   'odometer': 60692.0,
   'speed': 6.944444},
  'current_stop_sequence': 34,
  'timestamp': '1729864360',
  'stop_id': '6410101343',
  'vehicle': {'id': '1822', 'label': '3139-923'}}}

In [20]:
con.sql('''
SELECT *
FROM positions_json_data.json_resource
WHERE id='1'
''')

┌─────────┬────────────────────┬────────────────┬─────────┬────────────────────────┬───────────────────────────┬───────────────────────────┬─────────────────────────┬─────────────────────────────┬──────────────────────────────┬─────────────────────────────┬──────────────────────────┬────────────────────────────────┬────────────────────┬──────────────────┬──────────────────────┬─────────────────────────┬─────────────────────────────┬─────────────────────────┐
│  value  │    _dlt_load_id    │    _dlt_id     │   id    │ vehicle__trip__trip_id │ vehicle__trip__start_time │ vehicle__trip__start_date │ vehicle__trip__route_id │ vehicle__position__latitude │ vehicle__position__longitude │ vehicle__position__odometer │ vehicle__position__speed │ vehicle__current_stop_sequence │ vehicle__timestamp │ vehicle__stop_id │ vehicle__vehicle__id │ vehicle__vehicle__label │ vehicle__trip__direction_id │ vehicle__current_status │
│ varchar │      varchar       │    varchar     │ varchar │        varchar

## Descarga de REST API de Mercado Libre:

Para conectarte a la API de MercadoLibre y obtener estos parámetros, debes seguir el flujo de autenticación OAuth 2.0. A continuación, te explico cómo obtener cada uno de ellos:

### 1. **Client ID y Client Secret**
   - Regístrate como desarrollador en [MercadoLibre Developers](https://developers.mercadolibre.com.ar/) e inicia sesión.
   - Crea una aplicación en la sección de "Mis aplicaciones".
   - Al crear la aplicación, recibirás el `client_id` y el `client_secret`.

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

![image-4.png](attachment:image-4.png)

![image-6.png](attachment:image-6.png)

### 2. **Authorization Code**
   - Necesitas redirigir al usuario a una URL para que autorice tu aplicación. La URL de autorización tiene esta estructura:
     ```
     https://auth.mercadolibre.com.ar/authorization?response_type=code&client_id=CLIENT_ID&redirect_uri=REDIRECT_URI
     ```
   - Reemplaza `CLIENT_ID` y `REDIRECT_URI` con tus valores.
   - Cuando el usuario acepte, será redirigido al `redirect_uri` que hayas configurado, y se te proporcionará un `authorization_code` como parámetro en la URL. Por ejemplo:
     ```
     https://tusitio.com/callback?code=AUTHORIZATION_CODE
     ```
   - Este `code` será tu `authorization_code`.

In [23]:
from dotenv import load_dotenv
import requests
import os

load_dotenv()


CLIENT_ID = os.getenv('CLIENT_ID')
CLIENT_SECRET = os.getenv('CLIENT_SECRET')
REDIRECT_URI = os.getenv('REDIRECT_URI')

In [24]:
url = f'https://auth.mercadolibre.com.ar/authorization?response_type=code&client_id={CLIENT_ID}&redirect_uri={REDIRECT_URI}'

In [25]:
print(url)

https://auth.mercadolibre.com.ar/authorization?response_type=code&client_id=7233897966382357&redirect_uri=https://uccuyo.edu.ar/


![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)


### 3. **Redirect URI**
   - Este es el URI donde deseas que MercadoLibre redirija al usuario después de autorizar tu aplicación.
   - Debes especificar este URI al registrar tu aplicación en MercadoLibre.


![image.png](attachment:image.png)

Tambien tienen que guardar este authorization token en su .env

![image.png](attachment:image.png)

### 4. **Refresh Token**
   - Una vez que tengas el `authorization_code`, puedes intercambiarlo por un token de acceso y un token de actualización (`refresh_token`).
   - Haz una solicitud POST al endpoint de MercadoLibre:
     ```
     POST https://api.mercadolibre.com/oauth/token
     ```
     Con los siguientes parámetros en el cuerpo de la solicitud:
     - `grant_type`: "authorization_code"
     - `client_id`: tu `client_id`
     - `client_secret`: tu `client_secret`
     - `code`: tu `authorization_code`
     - `redirect_uri`: tu `redirect_uri`
   - La respuesta incluirá el `access_token` y el `refresh_token`.

### Ejemplo de solicitud en Python
```python
import requests

url = "https://api.mercadolibre.com/oauth/token"
payload = {
    "grant_type": "authorization_code",
    "client_id": "CLIENT_ID",
    "client_secret": "CLIENT_SECRET",
    "code": "AUTHORIZATION_CODE",
    "redirect_uri": "REDIRECT_URI"
}

response = requests.post(url, data=payload)

if response.status_code == 200:
    data = response.json()
    access_token = data['access_token']
    refresh_token = data['refresh_token']
    print("Access Token:", access_token)
    print("Refresh Token:", refresh_token)
else:
    print("Error:", response.json())
```



In [22]:
from dotenv import load_dotenv
import requests
import os

load_dotenv()


CLIENT_ID = os.getenv('CLIENT_ID')
CLIENT_SECRET = os.getenv('CLIENT_SECRET')
AUTHORIZATION_CODE = os.getenv('AUTHORIZATION_CODE')
REDIRECT_URI = os.getenv('REDIRECT_URI')

url = "https://api.mercadolibre.com/oauth/token"
payload = {
    "grant_type": "authorization_code",
    "client_id": CLIENT_ID,
    "client_secret": CLIENT_SECRET,
    "code": AUTHORIZATION_CODE,
    "redirect_uri": REDIRECT_URI
}

response = requests.post(url, data=payload)

if response.status_code == 200:
    data = response.json()
    access_token = data['access_token']
    refresh_token = data['refresh_token']
    print("Access Token:", access_token)
    print("Refresh Token:", refresh_token)
else:
    print("Error:", response.json())

Error: {'message': 'Error validating grant. Your authorization code or refresh token may be expired or it was already used', 'error': 'invalid_grant', 'status': 400, 'cause': []}


## Guardar el Refresh Token en .env:

![image-3.png](attachment:image-3.png)

### 5. **Refrescar el Access Token usando el Refresh Token**
   - Una vez que tengas el `refresh_token`, puedes usarlo para obtener un nuevo `access_token` cuando el anterior expire.
   - Usa la siguiente solicitud POST:
     ```
     POST https://api.mercadolibre.com/oauth/token
     ```
     Con estos parámetros:
     - `grant_type`: "refresh_token"
     - `client_id`: tu `client_id`
     - `client_secret`: tu `client_secret`
     - `refresh_token`: tu `refresh_token`

Esta es la forma de obtener todos los parámetros necesarios para conectarte a la API de MercadoLibre sin tener que estar generando en Authorization Code desde la APP

Una vez que tengan guardados en el .env estas variables:
1. CLIENT_ID
2. CLIENT_SECRET 

3. REFRESH_TOKEN 

Se pueden utilizar para generar un Access Token cada vez que se quiera 

In [23]:
import os
from dotenv import load_dotenv
import requests
import pandas as pd
import math
import dlt
import os
from datetime import datetime

load_dotenv()


CLIENT_ID = os.getenv('CLIENT_ID')
CLIENT_SECRET = os.getenv('CLIENT_SECRET')
REFRESH_TOKEN = os.getenv('REFRESH_TOKEN')  

payload = {
    "grant_type": "refresh_token",
    "client_id": CLIENT_ID,
    "client_secret": CLIENT_SECRET,
    "refresh_token": REFRESH_TOKEN
}

response = requests.post("https://api.mercadolibre.com/oauth/token", data=payload)

oauth_response = response.json()

ACCESS_TOKEN = oauth_response['access_token']
USER_ID = oauth_response['user_id']

In [5]:
import requests

# Parámetros de búsqueda
site_id = 'MLA'  # Ejemplo para Argentina
query = 'laptop'  # Ejemplo de búsqueda

# URL de búsqueda
url = f"https://api.mercadolibre.com/sites/{site_id}/search?q={query}"

# Realizar la solicitud GET
response = requests.get(url)

if response.status_code == 200:
    data = response.json()
    results = data.get('results', [])
    if results:
        for item in results[:5]:  # Mostrar solo los primeros 5 resultados
            print(f"ID: {item['id']}, Título: {item['title']}, Precio: {item['price']}")
    else:
        print("No se encontraron resultados.")
else:
    print("Error:", response.json())


ID: MLA1424712885, Título: Notebook Exo Smart T38 Intel N4020 4gb Ssd128gb Windows 11 Color Gris, Precio: 384999
ID: MLA1426346197, Título: Notebook Hp Intel Core I3 N305, Ddr4 8gb Ram, 256gb Ssd, Windows 11, Patalla 14  Hd, Moonlight Blue, Precio: 805999
ID: MLA1459751602, Título: Notebook Samsung Galaxy Book3 Pro 14 Intel Core I5 12 Núcleos 16gb Color Graphite, Precio: 1999999
ID: MLA1852464206, Título: Notebook Lenovo Ideapad 1 4gb 128gb 14 Intel Celeron W11 Color Plateado, Precio: 454399
ID: MLA1456671523, Título: Notebook Asus Vivobook 14 Intel Core I3 1215u, 8gb De Ram, 128gb Ssd, Full Hd,  Windows 11 Home, Precio: 704999


180214913

## Request con DLT

In [124]:
import os
import dlt

from dlt.sources.rest_api import RESTAPIConfig, rest_api_source
from dlt.sources.helpers.rest_client.paginators import OffsetPaginator

pipeline = dlt.pipeline(
    pipeline_name="test_pipeline",
    destination="duckdb",
    dataset_name="test",
)

meli_config: RESTAPIConfig = {
    "client": {
        "base_url": "https://api.mercadolibre.com",
        "headers": {
            "Authorization": f"Bearer {access_token}"
        },


    },

    "resources": [
        {
            "name": "search",
            "endpoint": {
                "path": "sites/MLA/search",  
                "params": {
                    'q': 'laptop'
                },
            },
            
        },
    ],
}


# Crea la fuente de la API de MercadoLibre
meli_source = rest_api_source(meli_config)

# Ejecuta el pipeline para cargar los datos
load_info = pipeline.run(meli_source)

# Imprime información sobre la carga
print(pipeline.last_trace.last_normalize_info)
print(load_info)



Normalized data for the following tables:
- search: 50 row(s)
- search__sale_price__conditions__context_restrictions: 38 row(s)
- search__shipping__tags: 101 row(s)
- search__attributes: 574 row(s)
- search__attributes__values: 575 row(s)
- search__variation_filters: 3 row(s)
- search__variations_data___184592793353__attributes: 1 row(s)
- search__variations_data___184918624229__attributes: 2 row(s)
- search__variations_data___180952409470__attributes: 2 row(s)

Load package 1729878612.9451807 is NORMALIZED and NOT YET LOADED to the destination and contains no failed jobs
Pipeline test_pipeline load step completed in 1.10 seconds
1 load package(s) were loaded to destination duckdb and into dataset test
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/test_pipeline.duckdb location to store data
Load package 1729878612.9451807 is LOADED and contains no failed jobs


In [102]:
con_test = duckdb.connect('test_pipeline.duckdb')

In [103]:
con_test.sql('''
SELECT *
FROM information_schema.tables
'''
)

┌───────────────┬──────────────┬──────────────────────────────────────────────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog │ table_schema │                      table_name                      │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar    │   varchar    │                       varchar                        │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├───────────────┼──────────────┼──────────────────────────────────────────────────────┼────────────┼───

In [53]:
con_test.sql('''
SELECT *
FROM test.search
'''
)

┌───────────────┬───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬───────────┬──────────────────────────────┬────────────────────┬─────────────────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬─────────────┬─────────┬─────────────┬───────────────┬────────────────────────────────────────────────────────────────┬─────────────┬───────────────┬─────────┬────────────────┬──────────────────────┬────────────────────┬─────────────────────────────

In [75]:
con_test.sql('''
SELECT *
FROM test.search__variations_data___184592793353__attributes
'''
)

┌─────────┬──────────────────────────────┬────────────┬───────────────┬────────────────┬───────────────┬────────────────┐
│   id    │             name             │ value_name │  value_type   │ _dlt_parent_id │ _dlt_list_idx │    _dlt_id     │
│ varchar │           varchar            │  varchar   │    varchar    │    varchar     │     int64     │    varchar     │
├─────────┼──────────────────────────────┼────────────┼───────────────┼────────────────┼───────────────┼────────────────┤
│ GTIN    │ Código universal de producto │ string     │ 7797678018668 │ A6mqb6WOGxuN0w │             0 │ y+3ic9pf3Ts7cg │
│ GTIN    │ Código universal de producto │ string     │ 7797678018668 │ /raIBPWRs+530Q │             0 │ SZdDcegksq54iw │
└─────────┴──────────────────────────────┴────────────┴───────────────┴────────────────┴───────────────┴────────────────┘

In [80]:
con_test.sql('''
SELECT *
FROM test.search
WHERE _dlt_id='A6mqb6WOGxuN0w'
'''
)

┌───────────────┬─────────────────────────────────────────────────────────────┬───────────┬──────────────────────────────┬────────────────────┬─────────────────┬────────────────────────────────────────────────────────────┬────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬─────────────┬─────────┬─────────────┬───────────────┬────────────────────────────────────────────────────────────────┬─────────────┬───────────────┬────────┬────────────────┬──────────────────────┬────────────────────┬──────────────────────────────────┬────────────────────────────────────┬──────────────────────────────────┬─────────────────────────┬─────────────────────────────────┬────────────────────────────┬──────────────────┬────────────────────────────────────────────────────┬─────────────────────────────────────────┬───────────────────────────────────┬────────────────────────────────────────────┬────────────────────────────────────┬──────────────

In [115]:
for i in data.get('results'):
    if i.get('id')=='MLA1446778725':
        json_25 = i

In [111]:
for k in json_25.keys():
    print(k)

id
title
condition
thumbnail_id
catalog_product_id
listing_type_id
sanitized_title
permalink
buying_mode
site_id
category_id
domain_id
thumbnail
currency_id
order_backend
price
original_price
sale_price
available_quantity
official_store_id
use_thumbnail_id
accepts_mercadopago
variation_filters
shipping
stop_time
seller
attributes
variations_data
installments
winner_item_id
catalog_listing
discounts
promotions
inventory_id


In [117]:
json_25.get('variations_data')

{'184592793353': {'thumbnail': 'http://http2.mlstatic.com/D_716463-MLU75318989912_032024-O.jpg',
  'ratio': '1.21',
  'name': 'Gris',
  'pictures_qty': 3,
  'price': 275999,
  'user_product_id': 'MLAU732475028',
  'attributes': [{'id': 'GTIN',
    'name': 'Código universal de producto',
    'value_name': 'string',
    'value_type': '7797678018668'}],
  'attribute_combinations': None}}

In [25]:
def transform_variations_data(file):
    file['variations_data'] = None
    return file

In [119]:

json_25_copy = json_25.copy()

json_25a = transform_variations_data(json_25_copy)

json_25a.get('variations_data')

# processing_steps

In [125]:
import os
import dlt

from dlt.sources.rest_api import RESTAPIConfig, rest_api_source
from dlt.sources.helpers.rest_client.paginators import OffsetPaginator
import dlt
from dlt.sources.rest_api import rest_api_source

pipeline = dlt.pipeline(
    pipeline_name="test_pipeline2",
    destination="duckdb",
    dataset_name="test",
)

meli_config: RESTAPIConfig = {
    "client": {
        "base_url": "https://api.mercadolibre.com",
        "headers": {
            "Authorization": f"Bearer {access_token}"
        },


    },

    "resources": [
        {
            "name": "search",
            "endpoint": {
                "path": "sites/MLA/search",  
                "params": {
                    'q': 'laptop'
                },
                 "data_selector": "results"
            },
            "processing_steps":[
                {'map': transform_variations_data}
            ]
        },
    ],
}


# Crea la fuente de la API de MercadoLibre
meli_source = rest_api_source(meli_config)

# Ejecuta el pipeline para cargar los datos
load_info = pipeline.run(meli_source)

# Imprime información sobre la carga
print(pipeline.last_trace.last_normalize_info)
print(load_info)



Normalized data for the following tables:
- _dlt_pipeline_state: 1 row(s)
- search: 50 row(s)
- search__sale_price__conditions__context_restrictions: 38 row(s)
- search__shipping__tags: 101 row(s)
- search__attributes: 574 row(s)
- search__attributes__values: 575 row(s)
- search__variation_filters: 3 row(s)

Load package 1729878643.8931527 is NORMALIZED and NOT YET LOADED to the destination and contains no failed jobs
Pipeline test_pipeline2 load step completed in 1.23 seconds
1 load package(s) were loaded to destination duckdb and into dataset test
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/test_pipeline2.duckdb location to store data
Load package 1729878643.8931527 is LOADED and contains no failed jobs


### Paginación

La fuente de la API REST intentará manejar la paginación automáticamente. Esto se logra detectando los detalles de paginación a partir de la primera respuesta de la API.

En algunos casos especiales, puede que necesites especificar la configuración de la paginación explícitamente.

Para especificar la configuración de la paginación, usa el campo `paginator` en las configuraciones del cliente o del endpoint. Puedes usar un diccionario con un alias de cadena en el campo `type` junto con los parámetros requeridos, o usar una instancia de una clase de paginador.

#### Ejemplo

Supongamos que la respuesta de la API para `https://api.example.com/posts` contiene un campo `next` con la URL de la siguiente página:

```json
{
    "data": [
        {"id": 1, "title": "Post 1"},
        {"id": 2, "title": "Post 2"},
        {"id": 3, "title": "Post 3"}
    ],
    "pagination": {
        "next": "https://api.example.com/posts?page=2"
    }
}
```

Puedes configurar la paginación para el recurso `posts` de la siguiente manera:

```json
{
    "path": "posts",
    "paginator": {
        "type": "json_link",
        "next_url_path": "pagination.next"
    }
}
```

Alternativamente, puedes usar la instancia del paginador directamente:

```python
from dlt.sources.helpers.rest_client.paginators import JSONLinkPaginator

# ...

{
    "path": "posts",
    "paginator": JSONLinkPaginator(
        next_url_path="pagination.next"
    ),
}
```

#### Nota

Actualmente, la paginación solo es compatible con solicitudes GET. Para manejar la paginación en solicitudes POST, necesitas implementar un paginador personalizado.


| Tipo         | Clase del Paginador             | Descripción                                                                                                                                                                                                                                             | Parámetros                                                                                                                                                                                                                                                                                                                                                                                                                    |
|--------------|--------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| `json_link`  | `JSONLinkPaginator`            | El enlace a la siguiente página se encuentra en el cuerpo (JSON) de la respuesta.                                                                                                                                                                      | `next_url_path` (str) - La ruta JSONPath hacia la URL de la siguiente página.                                                                                                                                                                                                                                                                                                          |
| `header_link`| `HeaderLinkPaginator`          | Los enlaces a la siguiente página se encuentran en los encabezados de la respuesta.                                                                                                                                                                    | `links_next_key` (str) - El nombre del encabezado que contiene los enlaces. Por defecto es "next".                                                                                                                                                                                                                                                                                    |
| `offset`     | `OffsetPaginator`              | La paginación se basa en un parámetro de desplazamiento (`offset`), con el conteo total de elementos ya sea en el cuerpo de la respuesta o proporcionado explícitamente.                                                                               | `limit` (int) - El número máximo de elementos a recuperar en cada solicitud. <br> `offset` (int) - El desplazamiento inicial para la primera solicitud. Por defecto es 0. <br> `offset_param` (str) - El nombre del parámetro de consulta para especificar el desplazamiento. Por defecto es "offset". <br> `limit_param` (str) - El nombre del parámetro para el límite. Por defecto es "limit". <br> `total_path` (str) - Una expresión JSONPath para el número total de elementos. <br> `maximum_offset` (int) - Valor máximo opcional de desplazamiento. Limita la paginación incluso sin el total. <br> `stop_after_empty_page` (bool) - Si la paginación debe detenerse cuando una página no contiene resultados. Por defecto es True. |
| `page_number`| `PageNumberPaginator`          | La paginación se basa en un parámetro de número de página, con el conteo total de páginas ya sea en el cuerpo de la respuesta o proporcionado explícitamente.                                                                                          | `base_page` (int) - El número de la página inicial. Por defecto es 0. <br> `page_param` (str) - El nombre del parámetro de consulta para el número de página. Por defecto es "page". <br> `total_path` (str) - Una expresión JSONPath para el número total de páginas. <br> `maximum_page` (int) - Número máximo de página opcional. Detiene la paginación al alcanzar esta página. <br> `stop_after_empty_page` (bool) - Si la paginación debe detenerse cuando una página no contiene resultados. Por defecto es True.  |
| `cursor`     | `JSONResponseCursorPaginator`  | La paginación se basa en un parámetro de cursor, con el valor del cursor en el cuerpo de la respuesta (JSON).                                                                                                                                          | `cursor_path` (str) - La ruta JSONPath hacia el valor del cursor. Por defecto es "cursors.next". <br> `cursor_param` (str) - El nombre del parámetro de consulta para el cursor. Por defecto es "after".                                                                                                                                                                             |
| `single_page`| `SinglePagePaginator`          | La respuesta se interpretará como una respuesta de una sola página, ignorando posibles metadatos de paginación.                                                                                                                                       | N/A                                                                                                                                                                                                                                                                                                                                                                                                                           |
| `auto`       | `None`                         | Especifica explícitamente que la fuente debe detectar automáticamente el método de paginación.                                                                                                                                                       | N/A                                                                                                                                                                                                                                                                                                                                                                                                                           |

Espero que esta tabla te sea útil para entender los diferentes tipos de paginadores en DLT y cómo configurar sus parámetros en un archivo de configuración.

In [126]:
import os
import dlt

from dlt.sources.rest_api import RESTAPIConfig, rest_api_source
from dlt.sources.helpers.rest_client.paginators import OffsetPaginator
import dlt
from dlt.sources.rest_api import rest_api_source

pipeline = dlt.pipeline(
    pipeline_name="test_pipeline3",
    destination="duckdb",
    dataset_name="test",
)


meli_config: RESTAPIConfig = {
    "client": {
        "base_url": "https://api.mercadolibre.com",
        "headers": {
            "Authorization": f"Bearer {access_token}"
        },

        "paginator": OffsetPaginator(limit=50, offset=0, total_path='paging.total', maximum_offset=1000),


    },

    "resources": [
        {
            "name": "search",
            "endpoint": {
                "path": "sites/MLA/search",  
                "params": {
                    'q': 'laptop'
                },
                 "data_selector": "results"
            },
            "processing_steps":[
                {'map': transform_variations_data}
            ]
        },

    ],
}


# Crea la fuente de la API de MercadoLibre
meli_source = rest_api_source(meli_config)

# Ejecuta el pipeline para cargar los datos
load_info = pipeline.run(meli_source)

# Imprime información sobre la carga
print(pipeline.last_trace.last_normalize_info)
print(load_info)

Normalized data for the following tables:
- _dlt_pipeline_state: 1 row(s)
- search: 997 row(s)
- search__sale_price__conditions__context_restrictions: 799 row(s)
- search__shipping__tags: 1964 row(s)
- search__attributes: 10363 row(s)
- search__attributes__values: 10370 row(s)
- search__variation_filters: 444 row(s)

Load package 1729878730.653667 is NORMALIZED and NOT YET LOADED to the destination and contains no failed jobs
Pipeline test_pipeline3 load step completed in 3.19 seconds
1 load package(s) were loaded to destination duckdb and into dataset test
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/test_pipeline3.duckdb location to store data
Load package 1729878730.653667 is LOADED and contains no failed jobs


In [127]:
con_test3 = duckdb.connect('test_pipeline3.duckdb')

In [128]:
con_test3.sql('''
SELECT *
FROM information_schema.tables
''')

┌────────────────┬──────────────┬──────────────────────────────────────────────────────┬────────────┬──────────────────────────────┬──────────────────────┬───────────────────────────┬──────────────────────────┬────────────────────────┬────────────────────┬──────────┬───────────────┬───────────────┐
│ table_catalog  │ table_schema │                      table_name                      │ table_type │ self_referencing_column_name │ reference_generation │ user_defined_type_catalog │ user_defined_type_schema │ user_defined_type_name │ is_insertable_into │ is_typed │ commit_action │ TABLE_COMMENT │
│    varchar     │   varchar    │                       varchar                        │  varchar   │           varchar            │       varchar        │          varchar          │         varchar          │        varchar         │      varchar       │ varchar  │    varchar    │    varchar    │
├────────────────┼──────────────┼──────────────────────────────────────────────────────┼────────────

In [130]:
con_test3.sql('''
SELECT *
FROM test.search
''')


┌───────────────┬────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬───────────┬──────────────────────────────┬────────────────────┬─────────────────┬──────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┬─────────────┬─────────┬─────────────┬───────────────┬────────────────────────────────────────────────────────────────┬─────────────┬───────────────┬─────────┬────────────────┬──────────────────────┬────────────────────┬──────────────────────────────────┬────────────────────────────────────┬──────────────────────────────────┬─────────────────────────┬─────────────────────────────────┬────────────────────────────┬──────────────────┬─────────────────────────────────┬─────────

# Endpoints "Child"

In [29]:
import requests

# Reemplaza con el USER_ID del vendedor
user_id = "608846165"
url = f"https://api.mercadolibre.com/users/{user_id}"

headers = {
    "Authorization": f"Bearer {ACCESS_TOKEN}"
}

response = requests.get(url, headers=headers)

if response.status_code == 200:
    seller_info = response.json()
    print(seller_info)
else:
    print(f"Error: {response.status_code}, {response.json()}")


{'id': 608846165, 'nickname': 'MERCADOLIBRE ELECTRONICA_AR', 'country_id': 'AR', 'address': {'city': 'Villa Celina', 'state': 'AR-B'}, 'user_type': 'brand', 'site_id': 'MLA', 'permalink': 'http://perfil.mercadolibre.com.ar/MERCADOLIBRE+ELECTRONICA_AR', 'seller_reputation': {'level_id': '5_green', 'power_seller_status': 'platinum', 'transactions': {'period': 'historic', 'total': 862988}}, 'status': {'site_status': 'active'}}


In [16]:
data.get('results')[0].get('seller').get('id')


180214913

In [28]:
import os
import dlt

from dlt.sources.rest_api import RESTAPIConfig, rest_api_source
from dlt.sources.helpers.rest_client.paginators import OffsetPaginator
import dlt
from dlt.sources.rest_api import rest_api_source

pipeline = dlt.pipeline(
    pipeline_name="test_pipeline4",
    destination="duckdb",
    dataset_name="test",
)


meli_config: RESTAPIConfig = {
    "client": {
        "base_url": "https://api.mercadolibre.com",
        "headers": {
            "Authorization": f"Bearer {ACCESS_TOKEN}"
        },

        "paginator": OffsetPaginator(limit=50, offset=0, total_path='paging.total', maximum_offset=100),


    },

    "resources": [
        {
            "name": "search",
            "endpoint": {
                "path": "sites/MLA/search",  
                "params": {
                    'q': 'laptop'
                },
                 "data_selector": "results"
            },
            "processing_steps":[
                {'map': transform_variations_data}
            ]
        },
        {
        "name": "seller",
        "endpoint":{
            'path':'users/{user_id}',
            'params':{
                'user_id':{
                    'type':'resolve',
                    'resource':'search',
                    'field':'seller.id'
                }
            }
            
        }
        }

    ],
}


# Crea la fuente de la API de MercadoLibre
meli_source = rest_api_source(meli_config)

# Ejecuta el pipeline para cargar los datos
load_info = pipeline.run(meli_source)

# Imprime información sobre la carga
print(pipeline.last_trace.last_normalize_info)
print(load_info)

Normalized data for the following tables:
- _dlt_pipeline_state: 1 row(s)
- search: 100 row(s)
- search__sale_price__conditions__context_restrictions: 81 row(s)
- search__shipping__tags: 201 row(s)
- search__attributes: 1151 row(s)
- search__attributes__values: 1155 row(s)
- search__variation_filters: 5 row(s)
- seller: 100 row(s)

Load package 1729885886.9182086 is NORMALIZED and NOT YET LOADED to the destination and contains no failed jobs
Pipeline test_pipeline4 load step completed in 1.24 seconds
1 load package(s) were loaded to destination duckdb and into dataset test
The duckdb destination used duckdb:////home/juan/UCCuyo/BaseDeDatos2024/Clases/05_Ingesta/test_pipeline4.duckdb location to store data
Load package 1729885886.9182086 is LOADED and contains no failed jobs


In [31]:
import duckdb

con_test4 = duckdb.connect('test_pipeline4.duckdb')

In [32]:
con_test4.sql('''
SELECT *
FROM test.seller
''')

┌────────────┬─────────────────────────────┬────────────┬──────────────────────┬────────────────┬───────────┬─────────┬───────────────────────────────────────────────────────────────┬─────────────────────────────┬────────────────────────────────────────┬─────────────────────────────────────────┬────────────────────────────────────────┬─────────────────────┬────────────────────┬────────────────┐
│     id     │          nickname           │ country_id │    address__city     │ address__state │ user_type │ site_id │                           permalink                           │ seller_reputation__level_id │ seller_reputation__power_seller_status │ seller_reputation__transactions__period │ seller_reputation__transactions__total │ status__site_status │    _dlt_load_id    │    _dlt_id     │
│   int64    │           varchar           │  varchar   │       varchar        │    varchar     │  varchar  │ varchar │                            varchar                            │           varchar   