# üß™ Laboratorio: Inicio R√°pido con Plantillas de Dataflow

**Google Cloud Dataflow** es un servicio serverless para procesar datos en tiempo real o por lotes, utilizando pipelines escalables. En este laboratorio, crear√°s un pipeline de streaming utilizando la plantilla **Pub/Sub to BigQuery**, que lee mensajes JSON desde un tema de **Pub/Sub** y los inserta en una tabla de **BigQuery**. Este enfoque es ideal para procesar datos en tiempo real, como transacciones financieras o registros de auditor√≠a.

üí° **Beneficio empresarial**: **Dataflow** permite a las empresas procesar grandes vol√∫menes de datos financieros en tiempo real, como registros de transacciones, asegurando an√°lisis r√°pidos, escalabilidad y cumplimiento normativo con m√≠nima configuraci√≥n manual.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Google Cloud Dataflow](https://cloud.google.com/dataflow/docs) y la [Documentaci√≥n de Google Cloud BigQuery](https://cloud.google.com/bigquery/docs).

## üéØ Objetivo principal
- Crear un pipeline de streaming utilizando la plantilla **Pub/Sub to BigQuery**, que:
  1. Lee mensajes JSON desde un tema de **Pub/Sub** (mensajer√≠a en tiempo real).
  2. Inserta los mensajes en una tabla de **BigQuery** (base de datos anal√≠tica).

## üß≠ Actividades
- ‚úîÔ∏è Crear un dataset y tabla en **BigQuery**.
- ‚úîÔ∏è Crear un bucket en **Cloud Storage**.
- ‚úîÔ∏è Configurar y ejecutar un pipeline de streaming con **Dataflow**.

## üß© Tarea 1: Reiniciar la API de Dataflow

Para asegurar que la **API de Dataflow** est√© habilitada y operativa:

1. En la barra superior de b√∫squeda de **Google Cloud Console**, escribe `Dataflow API`.
2. Haz clic en el resultado y selecciona **Manage**.
3. Haz clic en **Disable API** y confirma.
4. Luego, haz clic en **Enable API** para reactivarla.

**Explicaci√≥n**:
- Reiniciar la API asegura que **Dataflow** est√© correctamente habilitado en el proyecto.

üí° **Contexto empresarial**: Habilitar la API es como activar un m√≥dulo de software contable para procesar transacciones autom√°ticamente.

‚úÖ **Verificaci√≥n**: Haz clic en **Check my progress** para validar.

## üóÇÔ∏è Tarea 2: Crear dataset, tabla en BigQuery y bucket con Cloud Shell

En esta tarea, preparar√°s los recursos necesarios usando comandos en **Cloud Shell**.

### Paso 2.1: Crear dataset en BigQuery

1. En **Cloud Shell**, ejecuta:

In [None]:
bq mk taxirides

**Desglose del comando**:
- `bq`: Herramienta de l√≠nea de comandos para **BigQuery**.
- `mk`: Comando para crear ("make").
- `taxirides`: Nombre del dataset.

**Explicaci√≥n**:
- El dataset `taxirides` ser√° el contenedor para la tabla que almacenar√° los datos del pipeline.

üí° **Contexto empresarial**: Un dataset es como una carpeta en un sistema contable donde se organizan los registros financieros.

### Paso 2.2: Crear tabla en BigQuery

1. Ejecuta:

In [None]:
bq mk \
--time_partitioning_field timestamp \
--schema ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer -t taxirides.realtime

**Desglose del comando**:
| **Parte** | **Significado** |
|-----------|-----------------|
| `bq mk` | Crear una tabla en **BigQuery**. |
| `--time_partitioning_field timestamp` | Particiona los datos por el campo `timestamp` para optimizar consultas. |
| `--schema ...` | Define el esquema con columnas y tipos de datos: `ride_id:string`, `point_idx:integer`, `latitude:float`, `longitude:float`, `timestamp:timestamp`, `meter_reading:float`, `meter_increment:float`, `ride_status:string`, `passenger_count:integer`. |
| `-t taxirides.realtime` | Crea la tabla `realtime` dentro del dataset `taxirides`. |

**Ejemplo de campo**:
- `ride_id:string`: Identificador √∫nico del viaje (texto).
- `latitude:float`: Coordenada de latitud (decimal).

**Explicaci√≥n**:
- La tabla `realtime` almacenar√° los datos de los viajes de taxi en tiempo real, con particionamiento por tiempo para mejorar el rendimiento de las consultas.

üí° **Contexto empresarial**: Crear una tabla es como definir un libro contable con columnas espec√≠ficas para registrar transacciones financieras.

### Paso 2.3: Crear un bucket en Cloud Storage

1. Guarda el nombre del bucket como variable (reemplaza `your-project-id` con tu ID de proyecto):

In [None]:
export BUCKET_NAME="your-project-id"

2. Crea el bucket:

In [None]:
gsutil mb gs://$BUCKET_NAME/

**Desglose del comando**:
- `gsutil`: Herramienta de l√≠nea de comandos para **Cloud Storage**.
- `mb`: Comando para crear un bucket ("make bucket").
- `gs://$BUCKET_NAME/`: Ruta del bucket usando la variable definida.

**Explicaci√≥n**:
- El bucket almacenar√° archivos temporales generados por el pipeline de **Dataflow**.

üí° **Contexto empresarial**: Un bucket es como un archivo digital donde se guardan documentos financieros temporales durante el procesamiento.

## üñ±Ô∏è Tarea 3 (Alternativa): Crear todo usando Google Cloud Console

Si prefieres usar la interfaz gr√°fica en lugar de comandos:

### BigQuery
1. Ve a **Navigation menu** > **BigQuery**.
2. Haz clic en **‚ãÆ** junto al nombre del proyecto > **Create dataset**.
3. Configura:
   - **ID**: `taxirides`
   - **Region**: `us`
4. Crea la tabla `realtime`:
   - Haz clic en el dataset `taxirides` > **Create table**.
   - Usa la opci√≥n **Edit as text** para ingresar el esquema:
     ```
     ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
     ```
   - Habilita **Time partitioning** > selecciona el campo `timestamp`.

### Cloud Storage
1. Ve a **Navigation menu** > **Storage** > **Buckets** > **Create bucket**.
2. Configura:
   - **Name**: Usa el mismo nombre que tu ID de proyecto.
   - Mant√©n la configuraci√≥n por defecto.
3. Haz clic en **Create**.

**Explicaci√≥n**:
- Esta alternativa es √∫til para usuarios que prefieren interfaces gr√°ficas sobre comandos.

üí° **Contexto empresarial**: Usar la consola es como configurar un sistema contable mediante men√∫s en lugar de scripts, facilitando la adopci√≥n para equipos no t√©cnicos.

## üöÄ Tarea 4: Ejecutar el pipeline de Dataflow

En esta tarea, ejecutar√°s un pipeline de streaming utilizando la plantilla **Pub/Sub to BigQuery**.

1. En **Cloud Shell**, ejecuta:

In [None]:
gcloud dataflow jobs run iotflow \
--gcs-location gs://dataflow-templates-"Region"/latest/PubSub_to_BigQuery \
--region "Region" \
--worker-machine-type e2-medium \
--staging-location gs://$BUCKET_NAME/temp \
--parameters inputTopic=projects/pubsub-public-data/topics/taxirides-realtime,outputTableSpec="PROJECT_ID:taxirides.realtime"

**Desglose del comando**:
| **Parte** | **Significado** |
|-----------|-----------------|
| `gcloud dataflow jobs run iotflow` | Crea un trabajo de **Dataflow** llamado `iotflow`. |
| `--gcs-location ...` | Ubicaci√≥n de la plantilla p√∫blica **Pub/Sub to BigQuery**. Reemplaza `Region` con la regi√≥n de tu proyecto (por ejemplo, `us-central1`). |
| `--region` | Regi√≥n donde se ejecutar√° el pipeline (por ejemplo, `us-central1`). |
| `--worker-machine-type e2-medium` | Tipo de m√°quina para procesar los datos. |
| `--staging-location` | Ubicaci√≥n temporal en el bucket para archivos intermedios. |
| `--parameters` | Especifica el tema de **Pub/Sub** (`inputTopic`) y la tabla de **BigQuery** (`outputTableSpec`). Reemplaza `PROJECT_ID` con tu ID de proyecto. |

**Explicaci√≥n**:
- El pipeline lee datos de un tema p√∫blico de **Pub/Sub** (`taxirides-realtime`) y los inserta en la tabla `taxirides.realtime` en **BigQuery**.

üí° **Contexto empresarial**: Este pipeline es como un sistema automatizado que registra transacciones financieras en tiempo real en un libro contable digital.

## üîç Tarea 5: Consultar los datos en BigQuery

En esta tarea, verificar√°s los datos insertados por el pipeline.

1. Ve a **BigQuery** en **Google Cloud Console**.
2. Ejecuta la siguiente consulta SQL:

In [None]:
SELECT * FROM `your-project-id.taxirides.realtime` LIMIT 1000

**Explicaci√≥n**:
- Muestra los primeros 1000 registros de la tabla `realtime`, que contienen los datos de los viajes de taxi procesados por el pipeline.

üí° **Contexto empresarial**: Esta consulta es como revisar un informe financiero para confirmar que las transacciones se han registrado correctamente.

## ‚ùì Tarea 6: Preguntas de repaso

| **Pregunta** | **Respuesta** |
|--------------|---------------|
| ¬øGoogle Cloud Dataflow permite procesamiento por lotes? | ‚úÖ Verdadero |
| ¬øCu√°l fue la plantilla usada en el laboratorio? | ‚úÖ Pub/Sub to BigQuery |

## üöÄ Resumen

| **Concepto** | **Explicaci√≥n contable simplificada** |
|--------------|--------------------------------------|
| **Dataflow** | Sistema automatizado que procesa transacciones financieras en tiempo real o por lotes. |
| **Pub/Sub** | Cola de mensajes que recibe datos financieros en tiempo real, como transacciones. |
| **BigQuery** | Base de datos anal√≠tica que almacena registros financieros para an√°lisis. |
| **Pipeline** | Proceso automatizado que traslada datos financieros de una fuente a un destino. |

üí° **Conclusi√≥n empresarial**: La plantilla **Pub/Sub to BigQuery** de **Dataflow** permite a las empresas procesar y almacenar datos en tiempo real, como registros de transacciones, de forma escalable y eficiente. Esto asegura an√°lisis r√°pidos, cumplimiento normativo y optimizaci√≥n de costos operativos.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Google Cloud Dataflow](https://cloud.google.com/dataflow/docs) y la [Documentaci√≥n de Google Cloud BigQuery](https://cloud.google.com/bigquery/docs).