# üß™ Laboratorio: Inicio R√°pido con Dataflow en Python

**Apache Beam** es un modelo de programaci√≥n de c√≥digo abierto para construir pipelines de procesamiento de datos, tanto en tiempo real como por lotes. **Google Cloud Dataflow** ejecuta estos pipelines en la nube, proporcionando escalabilidad y facilidad de uso. En este laboratorio, crear√°s un pipeline de conteo de palabras utilizando **Apache Beam** con Python y lo ejecutar√°s localmente y en **Dataflow**.

üí° **Beneficio empresarial**: **Dataflow** permite a las empresas procesar grandes vol√∫menes de datos, como registros financieros o transacciones, de manera eficiente y escalable, reduciendo costos operativos y automatizando tareas de an√°lisis.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Google Cloud Dataflow](https://cloud.google.com/dataflow/docs) y la [Documentaci√≥n de Apache Beam](https://beam.apache.org/documentation/).

## üéØ Objetivos
- ü™£ Crear un bucket en **Cloud Storage**.
- üêç Instalar el **Apache Beam SDK** para Python.
- ‚öôÔ∏è Ejecutar un pipeline de conteo de palabras localmente y en **Dataflow**.

## üîπ Tarea 1: Crear un Bucket en Cloud Storage

Un bucket en **Cloud Storage** es un espacio de almacenamiento en la nube para archivos temporales y resultados del pipeline.

1. Ve a **Navigation menu** ‚ò∞ > **Cloud Storage** > **Buckets**.
2. Haz clic en **Create bucket**.
3. Configura:
   - **Name**: Asigna un nombre √∫nico (por ejemplo, `mi-nombre-bucket`). ‚ö†Ô∏è El nombre es p√∫blico, no incluyas datos sensibles.
   - **Location type**: `Multi-region`.
   - **Location**: `us (Estados Unidos)`.
4. Haz clic en **Create**.
5. Si aparece el mensaje "Public access will be prevented", haz clic en **Confirm**.

**Explicaci√≥n**:
- El bucket almacenar√° archivos temporales y resultados generados por el pipeline de **Dataflow**.

üí° **Contexto empresarial**: Un bucket es como un archivo digital donde se guardan documentos contables durante el procesamiento de datos financieros.

## üî∏ Tarea 2: Instalar Apache Beam SDK para Python

En esta tarea, configurar√°s un entorno de Python con el **Apache Beam SDK** para ejecutar pipelines.

### Paso 2.1: Ejecutar Python 3.9 con Docker

1. En **Cloud Shell**, ejecuta:

In [None]:
docker run -it -e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID python:3.9 /bin/bash

**Desglose del comando**:
| **Parte** | **Significado** |
|-----------|-----------------|
| `docker run` | Ejecuta un contenedor (entorno aislado). |
| `-it` | Habilita interacci√≥n con el contenedor. |
| `-e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID` | Pasa el ID del proyecto como variable para autenticaci√≥n en Google Cloud. |
| `python:3.9` | Usa la imagen base de Python 3.9. |
| `/bin/bash` | Abre una terminal dentro del contenedor. |

**Explicaci√≥n**:
- Este comando inicia un contenedor con Python 3.9, necesario para instalar y usar el **Apache Beam SDK**.

üí° **Contexto empresarial**: Usar un contenedor es como configurar una estaci√≥n de trabajo contable con todas las herramientas necesarias instaladas.

### Paso 2.2: Instalar Apache Beam SDK

1. Dentro del contenedor, ejecuta:

In [None]:
pip install 'apache-beam[gcp]'==2.42.0

**Desglose del comando**:
- `pip`: Gestor de paquetes de Python.
- `'apache-beam[gcp]'`: Instala **Apache Beam** con soporte para Google Cloud.
- `==2.42.0`: Especifica la versi√≥n exacta del SDK.

**Explicaci√≥n**:
- El SDK permite definir y ejecutar pipelines de datos con **Apache Beam**.
- Ignora cualquier advertencia de dependencias.

üí° **Contexto empresarial**: Instalar el SDK es como adquirir un software contable especializado para procesar transacciones.

### Paso 2.3: Ejecutar ejemplo local de conteo de palabras

1. Ejecuta:

In [None]:
python -m apache_beam.examples.wordcount --output OUTPUT_FILE

**Explicaci√≥n**:
- Este comando ejecuta un pipeline de ejemplo que cuenta palabras en un archivo de texto.
- Usa el **DirectRunner** (ejecuci√≥n local) por defecto.
- Ignora el mensaje: `INFO:root:Missing pipeline option (runner). Executing pipeline using the default runner: DirectRunner.`

2. Verifica el archivo de salida:
   - Lista los archivos generados:

In [None]:
ls

   - Visualiza el contenido del archivo de salida (reemplaza `<nombre del archivo>` con el nombre real):

In [None]:
cat <nombre del archivo>

**Resultado esperado**:
- Ver√°s un conteo de palabras, por ejemplo:
  ```
  word1: 2
  word2: 4
  ```

**Explicaci√≥n**:
- El pipeline cuenta cu√°ntas veces aparece cada palabra en un texto.

üí° **Contexto empresarial**: Este pipeline es como un informe que cuenta la frecuencia de transacciones por categor√≠a, ejecutado localmente para pruebas.

## üî∏ Tarea 3: Ejecutar un pipeline en Dataflow (en la nube)

En esta tarea, ejecutar√°s el mismo pipeline de conteo de palabras, pero en **Dataflow** para procesamiento en la nube.

1. Define la variable de entorno para el bucket:

In [None]:
BUCKET=gs://<nombre-del-bucket>

**Explicaci√≥n**:
- `BUCKET` almacena la ruta completa del bucket (por ejemplo, `gs://mi-nombre-bucket`).
- El prefijo `gs://` indica que es una ubicaci√≥n en **Cloud Storage**.

2. Ejecuta el pipeline en **Dataflow**:

In [None]:
python -m apache_beam.examples.wordcount --project $DEVSHELL_PROJECT_ID \
  --runner DataflowRunner \
  --staging_location $BUCKET/staging \
  --temp_location $BUCKET/temp \
  --output $BUCKET/results/output \
  --region "us-central1"

**Desglose del comando**:
| **Parte** | **Significado** |
|-----------|-----------------|
| `python -m apache_beam.examples.wordcount` | Ejecuta el pipeline de conteo de palabras. |
| `--project $DEVSHELL_PROJECT_ID` | Especifica el proyecto de Google Cloud. |
| `--runner DataflowRunner` | Usa **Dataflow** como motor de ejecuci√≥n en la nube. |
| `--staging_location $BUCKET/staging` | Carpeta para archivos temporales de preparaci√≥n. |
| `--temp_location $BUCKET/temp` | Carpeta para archivos intermedios. |
| `--output $BUCKET/results/output` | Carpeta donde se guardan los resultados. |
| `--region "us-central1"` | Regi√≥n donde se ejecuta el pipeline. |

**Explicaci√≥n**:
- Este comando ejecuta el pipeline en la nube, utilizando los recursos escalables de **Dataflow**.
- Espera hasta que aparezca el mensaje: `JOB_MESSAGE_DETAILED: Workers have started successfully.`

üí° **Contexto empresarial**: Ejecutar en **Dataflow** es como procesar un gran volumen de transacciones financieras en un sistema centralizado en la nube.

## üî∏ Tarea 4: Verificar si el pipeline finaliz√≥ con √©xito

1. Ve a **Navigation menu** ‚ò∞ > **Dataflow**.
2. Busca el trabajo llamado `wordcount`.
3. Verifica el estado:
   - Inicialmente estar√° como **Running**.
   - Haz clic para ver detalles.
   - Cuando aparezca como **Succeeded**, el pipeline ha finalizado correctamente.
4. Verifica los resultados en **Cloud Storage**:
   - Ve a tu bucket.
   - Confirma que existan las carpetas `staging`, `temp`, y `results`.
   - En la carpeta `results`, abre un archivo para ver los conteos de palabras.

**Explicaci√≥n**:
- Los resultados en **Cloud Storage** confirman que el pipeline proces√≥ los datos correctamente.

üí° **Contexto empresarial**: Verificar el pipeline es como revisar un informe contable para confirmar que todas las transacciones se procesaron correctamente.

## üìã Tarea 5: Pregunta de repaso

| **Pregunta** | **Respuesta** |
|--------------|---------------|
| ¬øLa ubicaci√≥n temporal (`temp_location`) de Dataflow debe ser una URL v√°lida de Cloud Storage? | ‚úÖ Verdadero (True) |

## üöÄ Resumen

| **Concepto** | **Explicaci√≥n contable simplificada** |
|--------------|--------------------------------------|
| **Apache Beam** | Framework para definir procesos autom√°ticos de an√°lisis financiero. |
| **Dataflow** | Sistema en la nube que ejecuta procesos financieros a gran escala. |
| **Cloud Storage** | Archivo digital para guardar documentos financieros durante el procesamiento. |
| **Pipeline** | Proceso automatizado que analiza datos financieros, como conteos de transacciones. |

üí° **Conclusi√≥n empresarial**: **Dataflow** con **Apache Beam** permite a las empresas automatizar el procesamiento de datos financieros, como conteos o res√∫menes de transacciones, con escalabilidad y eficiencia. Esto reduce costos operativos y facilita an√°lisis r√°pidos para la toma de decisiones.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Google Cloud Dataflow](https://cloud.google.com/dataflow/docs) y la [Documentaci√≥n de Apache Beam](https://beam.apache.org/documentation/).