# 📌 Laboratorio: Dataflow Qwik Start - Templates

## 🎯 Objetivo General
Este laboratorio muestra cómo usar una plantilla predefinida de **Dataflow** para recibir datos en tiempo real desde **Pub/Sub**, procesarlos automáticamente y almacenarlos en una tabla de **BigQuery**. 

💡 **Contexto empresarial**: Similar a una caja registradora digital que registra transacciones en tiempo real y las carga automáticamente a un libro contable digital, optimizando procesos financieros sin intervención manual.

### Objetivos del Laboratorio
- Activar la **Dataflow API**.
- Crear un **dataset** y una tabla en **BigQuery**, y un **bucket** en **Cloud Storage**.
- Ejecutar un pipeline de **Dataflow** usando una plantilla.
- Consultar los datos procesados en **BigQuery**.

Para más información, consulta la [Documentación de Dataflow](https://cloud.google.com/dataflow/docs), [Documentación de BigQuery](https://cloud.google.com/bigquery/docs), y [Documentación de Pub/Sub](https://cloud.google.com/pubsub/docs).

## 🔧 Tarea 1: Activar y Reiniciar la API de Dataflow

### Pasos
1. En la consola de **Google Cloud**, busca **Dataflow API** en la barra superior.
2. Haz clic en **Dataflow API** > **Manage**.
3. Selecciona **Disable API** y confirma.
4. Luego, haz clic en **Enable** para reactivar la API.

💡 **Propósito**: Reiniciar la API asegura que el servicio esté correctamente configurado, como verificar que un sistema contable esté listo antes de procesar transacciones.

💡 **Beneficio empresarial**: Garantiza que el pipeline funcione sin errores, similar a validar un software contable antes de usarlo.

## 📊 Tarea 2: Crear Dataset, Tabla y Bucket

### Crear un Dataset en BigQuery
Crea un dataset llamado `taxirides` para almacenar datos de viajes:


In [None]:
bq mk taxirides

💡 **Propósito**: El dataset es como un libro contable digital que organiza los registros de viajes.

💡 **Analogía contable**: Similar a crear un nuevo archivo para registrar transacciones financieras.

### Crear una Tabla en BigQuery
Crea una tabla `realtime` en el dataset `taxirides` con un esquema específico:


In [None]:
bq mk \
  --time_partitioning_field timestamp \
  --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer \
  -t taxirides.realtime

| Parte del Comando | Qué Hace (Analogía Contable) |
|-------------------|-----------------------------|
| `--time_partitioning_field timestamp` | Divide los datos por fecha y hora, como organizar un libro contable por días. |
| `--schema ...` | Define las columnas (ej. `ride_id`, `timestamp`), como las columnas de un registro financiero. |
| `-t taxirides.realtime` | Especifica la tabla `realtime` en el dataset `taxirides`. |

💡 **Propósito**: Define la estructura para almacenar datos de viajes, como configurar un libro diario con columnas para transacciones.

💡 **Beneficio empresarial**: Permite consultas rápidas y organizadas, ideal para reportes financieros o auditorías.

### Crear un Bucket en Cloud Storage
1. Define el nombre del bucket (usa el **Project ID** o un nombre único):


In [None]:
export BUCKET_NAME="NombreDelBucket"

2. Crea el bucket:


In [None]:
gsutil mb gs://$BUCKET_NAME/

💡 **Propósito**: El bucket actúa como una carpeta temporal para archivos intermedios, como un archivador para documentos financieros antes de registrarlos.

💡 **Beneficio empresarial**: Proporciona almacenamiento escalable y seguro para datos en tránsito.

Para más información, consulta la [Documentación de BigQuery](https://cloud.google.com/bigquery/docs) y [Documentación de Cloud Storage](https://cloud.google.com/storage/docs).

## 🖱️ Tarea 3: Alternativa Gráfica (Opcional)

Si prefieres la interfaz web, puedes crear el dataset, la tabla y el bucket desde la consola de **Google Cloud**:
1. **BigQuery**: Ve a **BigQuery > Create Dataset**, configura `taxirides`, y crea la tabla `realtime` con el esquema especificado.
2. **Cloud Storage**: Ve a **Cloud Storage > Buckets > Create**, especifica el nombre del bucket.

💡 **Nota**: Omití esta tarea si realizaste la Tarea 2 con comandos en **Cloud Shell**.

💡 **Contexto empresarial**: Usar la interfaz web es como configurar un sistema contable manualmente, mientras que los comandos automatizan el proceso.

## 🔄 Tarea 4: Ejecutar el Pipeline con Dataflow

Ejecuta un pipeline usando una plantilla predefinida para conectar **Pub/Sub** a **BigQuery** (reemplaza `Region`, `Bucket Name`, y `ProjectID` con valores específicos, ej. `us-central1`, `my-project-bucket`, `my-project-id`):


In [None]:
gcloud dataflow jobs run iotflow \
  --gcs-location gs://dataflow-templates-Region/latest/PubSub_to_BigQuery \
  --region Region \
  --worker-machine-type e2-medium \
  --staging-location gs://Bucket_Name/temp \
  --parameters inputTopic=projects/pubsub-public-data/topics/taxirides-realtime,outputTableSpec=ProjectID:taxirides.realtime

| Elemento | Descripción |
|----------|-------------|
| `gcloud dataflow jobs run` | Ejecuta un trabajo en **Dataflow**. |
| `iotflow` | Nombre del trabajo. |
| `--gcs-location` | Ruta a la plantilla **PubSub_to_BigQuery**. |
| `--region` | Región donde se ejecuta el pipeline. |
| `--worker-machine-type` | Tipo de máquina para el procesamiento. |
| `--staging-location` | Bucket para archivos temporales. |
| `--parameters` | Define la fuente (**Pub/Sub**) y destino (**BigQuery**). |

💡 **Propósito**: Configura un flujo automatizado que procesa datos en tiempo real desde **Pub/Sub** y los carga en **BigQuery**.

💡 **Analogía contable**: Como un sistema que registra transacciones de una caja registradora en tiempo real y las carga directamente al libro contable.

💡 **Beneficio empresarial**: Automatiza la captura y procesamiento de datos financieros, reduciendo errores y acelerando reportes.

Para monitorear, ve a **Google Cloud Console > Dataflow > Jobs**.

## 🔍 Tarea 5: Consultar los Datos en BigQuery

Consulta los datos cargados en la tabla `realtime`:


In [None]:
SELECT * FROM `ProjectID.taxirides.realtime` LIMIT 1000

💡 **Propósito**: Recupera los últimos 1000 registros de viajes, como revisar los últimos comprobantes financieros en un sistema contable.

💡 **Beneficio empresarial**: Permite analizar datos en tiempo real para reportes financieros o auditorías rápidas.

Para más información, consulta la [Documentación de BigQuery](https://cloud.google.com/bigquery/docs).

## 📘 Tarea 6: Evaluación Final

1. **¿Dataflow permite procesamiento por lotes?**
   - ✅ **Verdadero** — Soporta **batch** y **streaming**.

2. **¿Qué plantilla se usó para ejecutar el pipeline?**
   - ✅ **Pub/Sub to BigQuery**

💡 **Contexto empresarial**: Estas preguntas refuerzan la comprensión de **Dataflow** como una herramienta para automatizar procesos contables en tiempo real o por lotes.

## 📋 Cuadro Resumen Final

| Elemento | Descripción |
|----------|-------------|
| **Dataflow API** | Servicio para automatizar procesamiento ETL en tiempo real o por lotes. |
| **BigQuery dataset y tabla** | Estructura para guardar y consultar datos, como libros contables digitales. |
| **Cloud Storage bucket** | Almacenamiento temporal para archivos en tránsito. |
| **Pub/Sub** | Sistema de mensajería en tiempo real, como una caja registradora. |
| **Pipeline** | Flujo automatizado que extrae, transforma y carga datos en **BigQuery**. |
| **Comando bq mk** | Crea datasets y tablas, definiendo su estructura. |
| **Plantilla Dataflow** | **Pub/Sub to BigQuery** para datos en tiempo real. |
| **Consulta SQL** | `SELECT * FROM taxirides.realtime LIMIT 1000` para revisar registros. |

💡 **Conclusión empresarial**: Este laboratorio automatiza la captura y análisis de datos en tiempo real, ideal para procesar transacciones financieras y generar reportes instantáneos.

## 🚀 Conclusión

Este laboratorio te permitió:
1. Activar la **Dataflow API**.
2. Crear un **dataset** y tabla en **BigQuery**, y un **bucket** en **Cloud Storage**.
3. Ejecutar un pipeline de **Dataflow** con la plantilla **Pub/Sub to BigQuery**.
4. Consultar datos procesados en **BigQuery**.

💡 **Beneficio empresarial**: Automatiza procesos ETL para datos financieros, como registrar transacciones en tiempo real, optimizando eficiencia y reduciendo errores.

Para más información, consulta la [Documentación de Dataflow](https://cloud.google.com/dataflow/docs), [Documentación de BigQuery](https://cloud.google.com/bigquery/docs), [Documentación de Pub/Sub](https://cloud.google.com/pubsub/docs), y [Documentación de Cloud Storage](https://cloud.google.com/storage/docs).