# 📌 Laboratorio: Dataproc – Inicio Rápido desde la Consola

## 🌐 Introducción General
**Dataproc** es un servicio gestionado de **Google Cloud** que permite ejecutar clústeres de **Apache Spark** y **Apache Hadoop** de forma rápida, sencilla y rentable. Operaciones que antes tomaban horas o días ahora se completan en segundos o minutos.

💡 **Contexto empresarial**: Similar a contratar una oficina contable externa para procesar grandes volúmenes de transacciones financieras de forma eficiente, escalable y sin costos fijos innecesarios.

### Objetivos del Laboratorio
- Crear un clúster de **Dataproc** desde la consola de **Google Cloud**.
- Ejecutar un **Spark job** básico para calcular el valor de π (pi).
- Modificar la cantidad de **worker nodes** en el clúster.

Para más información, consulta la [Documentación de Dataproc](https://cloud.google.com/dataproc/docs).

## 🔧 Configuración y Requisitos

### Antes de Iniciar
- Este laboratorio está cronometrado y no se puede pausar.
- Usa una cuenta temporal de **Google Cloud** con credenciales proporcionadas.
- Utiliza una ventana de incógnito (recomendado) para evitar conflictos con cuentas personales.
- **No uses cuentas personales** para evitar cargos inesperados.

### Inicio de Sesión
1. Haz clic en **Start Lab** en la plataforma del laboratorio.
2. Copia el **Username** y **Password** proporcionados.
3. Inicia sesión en la consola de **Google Cloud**.
4. Acepta los términos y condiciones sin configurar recuperación ni autenticación en dos pasos.

💡 **Propósito**: Garantizar un entorno seguro y controlado, como preparar un sistema contable temporal para una auditoría.

## 🛠️ Tarea 1: Confirmar API y Permisos

### Habilitar la API de Dataproc
1. Ve a **Navigation menu > APIs & Services > Library**.
2. Busca **Cloud Dataproc**.
3. Si no está habilitada, haz clic en **Enable**.

### Asignar Permisos de Almacenamiento
1. Ve a **Navigation menu > IAM & Admin > IAM**.
2. Edita la cuenta `compute@developer.gserviceaccount.com`.
3. Agrega el rol **Storage Admin**.
4. Guarda los cambios.

💡 **Contexto empresarial**: Habilitar la API y asignar permisos es como autorizar a un equipo contable para acceder a los registros financieros almacenados.

## 🚀 Tarea 2: Crear un Clúster

### Pasos
1. Ve a **Navigation menu > View all products > Dataproc > Clusters**.
2. Haz clic en **Create Cluster > Cluster on Compute Engine**.
3. Configura los siguientes campos:
   - **Name**: `example-cluster`
   - **Region**: Selecciona la región asignada
   - **Zone**: Selecciona la zona asignada
   - **Primary disk type (Manager)**: Standard Persistent Disk
   - **Machine Series (Manager)**: E2
   - **Machine Type (Manager)**: `e2-standard-2`
   - **Primary disk size (Manager)**: 30 GB
   - **Number of Worker Nodes**: 2
   - **Primary disk type (Workers)**: Standard Persistent Disk
   - **Machine Series (Workers)**: E2
   - **Machine Type (Workers)**: `e2-standard-2`
   - **Primary disk size (Workers)**: 30 GB
   - **Internal IP only**: Desmarcar
4. Haz clic en **Create**.

### Comando Equivalente
Para crear el clúster desde **Cloud Shell** (reemplaza `REGION` y `ZONE` con valores específicos, ej. `us-central1`, `us-central1-a`):


In [None]:
gcloud dataproc clusters create example-cluster \
    --region=REGION \
    --zone=ZONE \
    --master-machine-type=e2-standard-2 \
    --master-disk-type=pd-standard \
    --master-disk-size=30GB \
    --num-workers=2 \
    --worker-machine-type=e2-standard-2 \
    --worker-disk-type=pd-standard \
    --worker-disk-size=30GB \
    --no-address

💡 **Propósito**: Crear un clúster es como montar una oficina contable temporal para procesar grandes volúmenes de datos financieros, escalable según necesidades.

💡 **Beneficio empresarial**: Optimiza costos al usar recursos solo cuando se necesitan, como contratar personal temporal para una auditoría masiva.

## 🛠️ Tarea 3: Ejecutar un Spark Job

### Pasos
1. Ve a **Jobs** en el menú izquierdo de **Dataproc**.
2. Haz clic en **Submit Job**.
3. Configura los siguientes campos:
   - **Region**: Selecciona la región asignada
   - **Cluster**: `example-cluster`
   - **Job type**: Spark
   - **Main class or jar**: `org.apache.spark.examples.SparkPi`
   - **Jar files**: `file:///usr/lib/spark/examples/jars/spark-examples.jar`
   - **Arguments**: `1000`
4. Haz clic en **Submit**.

### Comando Equivalente
Para enviar el job desde **Cloud Shell**:


In [None]:
gcloud dataproc jobs submit spark \
    --region=REGION \
    --cluster=example-cluster \
    --class=org.apache.spark.examples.SparkPi \
    --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \
    -- 1000

💡 **Propósito**: Este job usa el método de Monte Carlo para estimar π, distribuyendo el cálculo entre los **worker nodes**. Es como dividir un cálculo contable complejo entre varios contadores para mayor rapidez.

💡 **Beneficio empresarial**: Procesa grandes volúmenes de datos (ej. transacciones financieras) en paralelo, reduciendo el tiempo de análisis.

## 🔍 Tarea 4: Ver el Resultado del Job

### Pasos
1. Haz clic en el **Job ID** en el listado de jobs.
2. Activa la opción **LINE WRAP ON**.
3. Busca la estimación de π en el resultado.

💡 **Contexto empresarial**: Verificar el resultado es como revisar un informe financiero generado automáticamente para confirmar su precisión.

## ⚙️ Tarea 5: Modificar el Número de Workers

### Pasos
1. Ve a **Clusters** y selecciona `example-cluster`.
2. Ve a la pestaña **Configuration > Edit**.
3. Cambia **Worker Nodes** a 4.
4. Haz clic en **Save**.

### Comando Equivalente
Para actualizar el número de workers desde **Cloud Shell**:


In [None]:
gcloud dataproc clusters update example-cluster \
    --region=REGION \
    --num-workers=4

💡 **Propósito**: Aumentar los workers es como contratar más contadores para acelerar un proceso contable intensivo.

💡 **Beneficio empresarial**: Escala recursos según la carga de trabajo, optimizando costos y rendimiento.

### Rerun del Job (Opcional)
1. Ve a **Jobs > Submit Job**.
2. Repite los pasos de la Tarea 3 para enviar el mismo job.

💡 **Beneficio**: Comparar el rendimiento con más workers es como evaluar la eficiencia de un equipo contable ampliado.

## ✅ Tarea 6: Preguntas de Repaso

1. **¿Qué tipo de Dataproc job se ejecutó en el laboratorio?**
   - ✅ **Spark**

2. **Dataproc ayuda a procesar, transformar y comprender grandes cantidades de datos.**
   - ✅ **Verdadero**

💡 **Contexto empresarial**: Estas preguntas refuerzan la comprensión de **Dataproc** como una herramienta para procesar datos financieros masivos de forma eficiente.

## 📋 Analogía Contable
**Dataproc** es como una oficina contable externa y temporal que contratas para cálculos masivos (ej. liquidación de impuestos con grandes volúmenes de datos). Beneficios:
- **Ahorro de costos**: Solo pagas por el tiempo de uso.
- **Escalabilidad**: Añades más trabajadores según necesidad.
- **Herramientas estándar**: Usa **Spark** y **Hadoop**, como software contable conocido.

💡 **Ejemplo**: Procesar transacciones de un año completo en minutos, en lugar de días, para una auditoría.

## 📊 Cuadro Resumen Final

| Elemento Clave | Descripción |
|----------------|-------------|
| **Servicio** | Google Cloud Dataproc |
| **Objetivo** | Crear clúster, ejecutar Spark job, modificar workers |
| **Herramienta** | Apache Spark sobre Dataproc |
| **Tipo de Job** | Cálculo de π con Monte Carlo |
| **Ventaja** | Rapidez, bajo costo, escalabilidad |
| **Perspectiva contable** | Oficina temporal para cálculos complejos |
| **Rol de Workers** | Ejecutan cálculos en paralelo |

💡 **Conclusión empresarial**: **Dataproc** permite procesar grandes volúmenes de datos financieros de forma rápida y escalable, optimizando costos y recursos.

## 🚀 Conclusión

Este laboratorio te permitió:
1. Crear un clúster en **Dataproc** desde la consola.
2. Ejecutar un **Spark job** para calcular π.
3. Escalar el clúster modificando el número de **worker nodes**.

💡 **Beneficio empresarial**: Automatiza y acelera el procesamiento de datos financieros, como consolidar transacciones o generar reportes, con costos optimizados.

Para más información, consulta la [Documentación de Dataproc](https://cloud.google.com/dataproc/docs).