# 📌 Laboratorio: Dataflow Qwik Start - Python

## 🌐 Descripción General
**Apache Beam SDK** es un modelo de programación de código abierto para crear canalizaciones (pipelines) de datos. En **Google Cloud**, puedes definir pipelines con **Apache Beam** y ejecutarlos en **Dataflow**. Este laboratorio te guía para configurar un entorno de desarrollo en Python, instalar **Apache Beam**, y ejecutar un pipeline remotamente.

💡 **Contexto empresarial**: Similar a configurar un sistema automatizado que procesa transacciones financieras, como facturas o registros de ventas, y genera reportes consolidados en tiempo récord.

### Objetivos del Laboratorio
- Crear un **bucket** en **Cloud Storage** para almacenar resultados.
- Instalar el **Apache Beam SDK** para Python.
- Ejecutar un pipeline de **Dataflow** remotamente.

Para más información, consulta la [Documentación de Dataflow](https://cloud.google.com/dataflow/docs) y [Documentación de Apache Beam](https://beam.apache.org/documentation/).

## 🔧 Requisitos Previos y Configuración Inicial

### Antes de Comenzar
- Usa un entorno real de **Google Cloud** con credenciales temporales.
- No pauses el laboratorio una vez iniciado.
- Usa la cuenta estudiantil proporcionada, no una cuenta personal.
- Abre el navegador en modo incógnito para evitar conflictos.

### Iniciar el Laboratorio
1. Haz clic en **Start Lab** en la plataforma del laboratorio.
2. Copia las credenciales temporales (**usuario** y **contraseña**).
3. Haz clic en **Open Google Cloud Console**.
4. Inicia sesión, acepta los términos y condiciones, y no configures recuperación ni autenticación en dos pasos.

### Activar Cloud Shell
**Cloud Shell** es una máquina virtual con herramientas preinstaladas para desarrolladores.

#### Pasos
1. Haz clic en **Activate Cloud Shell** en la consola.
2. Acepta los permisos.

#### Comandos Opcionales
Verifica la cuenta y el proyecto activos, y configura la región (reemplaza `REGION` con un valor específico, ej. `us-central1`):


In [None]:
gcloud auth list
gcloud config list project
gcloud config set compute/region REGION

💡 **Propósito**: Confirma el proyecto y la región, como verificar el libro contable y la sucursal antes de procesar transacciones.

### Verificar la API de Dataflow
1. Busca **Dataflow API** en la barra de búsqueda de la consola.
2. Haz clic en **Manage**.
3. Deshabilita y vuelve a habilitar la API.

💡 **Propósito**: Asegura que el servicio esté activo, como validar un sistema contable antes de usarlo.

💡 **Beneficio empresarial**: Garantiza que el pipeline funcione sin errores, optimizando procesos financieros.

Para más información, consulta la [Documentación de Cloud Shell](https://cloud.google.com/shell/docs).

## 📁 Tarea 1: Crear un Bucket de Cloud Storage

### Pasos
1. Ve a **Cloud Storage > Buckets** en el menú de navegación.
2. Haz clic en **Create bucket**.
3. Configura:
   - **Name**: Un nombre único (ej. `nombre-bucket`).
   - **Location type**: Multi-region.
   - **Location**: `us`.
4. Confirma la prevención de acceso público.

### Comando Equivalente
Crea el bucket desde **Cloud Shell** (reemplaza `nombre-bucket` con un nombre único):


In [None]:
gsutil mb gs://nombre-bucket/

💡 **Propósito**: El bucket almacena resultados del pipeline, como una carpeta temporal para documentos financieros antes de procesarlos.

💡 **Beneficio empresarial**: Proporciona almacenamiento escalable y seguro para datos intermedios.

Para más información, consulta la [Documentación de Cloud Storage](https://cloud.google.com/storage/docs).

## 🛠️ Tarea 2: Instalar Apache Beam SDK para Python

### Paso 1: Ejecutar Python 3.9 desde Docker
Inicia un contenedor con Python 3.9:


In [None]:
docker run -it -e DEVSHELL_PROJECT_ID=$DEVSHELL_PROJECT_ID python:3.9 /bin/bash

💡 **Propósito**: Crea un entorno aislado con Python 3.9, como configurar un software contable específico para un proyecto.

### Paso 2: Instalar Apache Beam
Instala el SDK con soporte para Google Cloud:


In [None]:
pip install 'apache-beam[gcp]'==2.42.0

💡 **Propósito**: Prepara el entorno para desarrollar pipelines, como instalar un módulo de análisis financiero.

### Paso 3: Ejecutar Ejemplo Localmente
Prueba el ejemplo `wordcount` (reemplaza `OUTPUT_FILE` con un nombre, ej. `output.txt`):


In [None]:
python -m apache_beam.examples.wordcount --output OUTPUT_FILE

Verifica los resultados:


In [None]:
ls
cat OUTPUT_FILE

💡 **Propósito**: Ejecuta un pipeline localmente para contar palabras, como probar un sistema contable con datos de muestra.

💡 **Analogía contable**: Similar a contar transacciones por categoría (ej. ingresos por producto) antes de procesarlas a gran escala.

💡 **Beneficio empresarial**: Valida el entorno antes de ejecutar pipelines complejos, asegurando precisión en análisis financieros.

## 🔄 Tarea 3: Ejecutar la Canalización de Dataflow Remotamente

### Paso 1: Definir Variable BUCKET
Configura la variable del bucket (reemplaza `nombre-del-bucket` con el nombre creado):


In [None]:
BUCKET=gs://nombre-del-bucket

💡 **Propósito**: Define la ubicación del bucket, como especificar la carpeta donde se guardarán los reportes financieros.

### Paso 2: Ejecutar el Pipeline
Ejecuta el pipeline `wordcount` en **Dataflow** (reemplaza `REGION` con un valor, ej. `us-central1`):


In [None]:
python -m apache_beam.examples.wordcount --project $DEVSHELL_PROJECT_ID \
  --runner DataflowRunner \
  --staging_location $BUCKET/staging \
  --temp_location $BUCKET/temp \
  --output $BUCKET/results/output \
  --region REGION

| Parámetro | Función |
|-----------|---------|
| `--project` | ID del proyecto activo. |
| `--runner DataflowRunner` | Ejecuta el pipeline en **Dataflow**. |
| `--staging_location` | Carpeta temporal para archivos del entorno. |
| `--temp_location` | Almacena archivos temporales del proceso. |
| `--output` | Directorio para resultados. |
| `--region` | Región de ejecución. |

💡 **Propósito**: Ejecuta el pipeline remotamente, procesando datos a gran escala, como consolidar transacciones de múltiples sucursales.

💡 **Analogía contable**: Como configurar un sistema automático para procesar y resumir miles de registros financieros en la nube.

💡 **Beneficio empresarial**: Automatiza el análisis de datos, reduciendo tiempo y costos en reportes financieros.

Espera el mensaje: **“JOB_MESSAGE_DETAILED: Workers have started successfully.”**

## 🔍 Tarea 4: Verificar el Éxito del Job

### Pasos
1. Ve a **Dataflow** en el menú de navegación.
2. Busca el job `wordcount`.
3. Verifica que el estado sea **Succeeded**.
4. Ve a **Cloud Storage > Buckets**.
5. Abre el bucket y revisa las carpetas `results` y `staging`.
6. Abre un archivo en `results` para ver el conteo de palabras.

💡 **Propósito**: Confirma que el pipeline procesó los datos correctamente, como revisar un informe financiero para validar su precisión.

💡 **Beneficio empresarial**: Garantiza resultados confiables para análisis financieros o auditorías.

## ✅ Tarea 5: Pregunta de Verificación

**Pregunta**: La ubicación temporal de **Dataflow** (`temp_location`) debe ser una URL válida de **Cloud Storage**.
- ✅ **Verdadero**

💡 **Contexto empresarial**: Esto asegura que los datos intermedios se almacenen correctamente, como guardar documentos temporales en un archivador seguro.

## 📋 Cuadro Resumen Final

| Elemento | Descripción |
|----------|-------------|
| **Producto principal** | Dataflow + Apache Beam |
| **Lenguaje usado** | Python |
| **Objetivo** | Crear y ejecutar un pipeline de procesamiento de datos |
| **Almacenamiento** | Google Cloud Storage (bucket) |
| **Entorno** | Cloud Shell + contenedor Docker con Python 3.9 |
| **Herramientas** | gcloud, docker, pip, Apache Beam SDK |
| **Ejecución** | Local (DirectRunner) y Remota (DataflowRunner) |
| **Resultado** | Archivo con conteo de palabras |

💡 **Conclusión empresarial**: Este laboratorio automatiza el procesamiento de datos, como consolidar transacciones financieras, optimizando eficiencia y costos.

## 🚀 Conclusión

Este laboratorio te permitió:
1. Crear un **bucket** en **Cloud Storage**.
2. Instalar **Apache Beam SDK** en un entorno Docker.
3. Ejecutar un pipeline de **Dataflow** remotamente.
4. Verificar los resultados en **Cloud Storage**.

💡 **Beneficio empresarial**: Automatiza procesos ETL para datos financieros, como procesar registros de ventas en tiempo real, reduciendo errores y acelerando reportes.

Para más información, consulta la [Documentación de Dataflow](https://cloud.google.com/dataflow/docs), [Documentación de Apache Beam](https://beam.apache.org/documentation/), y [Documentación de Cloud Storage](https://cloud.google.com/storage/docs).