# 🧪 Laboratorio: Dataproc – Qwik Start (Consola)

**Google Cloud Dataproc** es un servicio administrado para crear y gestionar clusters de **Apache Spark** y **Apache Hadoop** en la nube. Permite procesar grandes volúmenes de datos de forma rápida, escalable y a bajo costo, ideal para análisis financieros, auditorías masivas o reportes contables.

💡 **Beneficio empresarial**: **Dataproc** permite a las empresas procesar datos financieros masivos, como transacciones o registros contables, en minutos, con la flexibilidad de escalar recursos según la demanda y pagar solo por el tiempo de uso, optimizando costos operativos.

Para más información, consulta la [Documentación de Google Cloud Dataproc](https://cloud.google.com/dataproc/docs).

## 📚 Concepto clave: ¿Qué es Dataproc?

| **Servicio** | **Explicación para perfiles de negocios** |
|--------------|------------------------------------------|
| **Google Cloud Dataproc** | Servicio que crea clusters de **Apache Spark** y **Apache Hadoop** en la nube para procesar grandes volúmenes de datos rápidamente. Permite encender un cluster en minutos, escalarlo (más o menos nodos) y apagarlo cuando no se usa, pagando solo por el tiempo activo. |

💡 **Contexto empresarial**: **Dataproc** es como un equipo contable automatizado que puede crecer o reducirse según la carga de trabajo, procesando grandes volúmenes de transacciones de forma eficiente y económica.

## 🔧 Configuración previa y requisitos

Antes de crear un cluster, asegúrate de que la **API de Dataproc** esté habilitada y que la cuenta de servicio tenga los permisos necesarios.

### Paso 1: Verificar que la API de Dataproc esté habilitada

1. Ve a **Navigation menu** ☰ > **APIs & Services** > **Library**.
2. Busca **Cloud Dataproc API** y ábrela.
3. Si aparece **Enable**, haz clic para activarla. Si aparece **Disable**, ya está activa.

**Explicación**:
- Habilitar la API permite que **Dataproc** funcione en el proyecto.

💡 **Contexto empresarial**: Activar la API es como habilitar un módulo en un sistema contable para procesar datos financieros.

### Paso 2: Conceder permisos de almacenamiento al service account

1. Ve a **Navigation menu** ☰ > **IAM & Admin** > **IAM**.
2. Busca la cuenta `compute@developer.gserviceaccount.com` y haz clic en ✏️ (editar).
3. Haz clic en **+ ADD ANOTHER ROLE** > selecciona **Storage Admin**.
4. Haz clic en **Save** 💾.

**Explicación**:
- El rol **Storage Admin** permite al cluster leer y escribir en **Cloud Storage**, necesario para almacenar logs, archivos temporales y resultados.

💡 **Contexto empresarial**: Esto es como otorgar permisos a un equipo contable para acceder a un archivo digital donde se guardan registros financieros.

## 🟠 Tarea 1: Crear un cluster

En esta tarea, crearás un cluster de **Dataproc** para procesar datos con **Apache Spark**.

1. Ve a **Navigation menu** ☰ > **View all products** > **Dataproc** > **Clusters** > **Create cluster**.
2. Selecciona **Cluster on Compute Engine**.
3. Configura:

| **Campo** | **Valor** |
|-----------|-----------|
| **Name** | `example-cluster` |
| **Region** | `us-central1` |
| **Zone** | `us-central1-a` |
| **Primary disk type (Master)** | `Standard Persistent Disk` |
| **Machine Series (Master)** | `E2` |
| **Machine Type (Master)** | `e2-standard-2` |
| **Disk size (Master)** | `30 GB` |
| **Number of Worker Nodes** | `2` |
| **Machine Type (Workers)** | `e2-standard-2` |
| **Disk size (Workers)** | `30 GB` |
| **Internal IP only** | ❌ Desmarcar |

4. Haz clic en **Create**.

**Resultado esperado**:
- El estado del cluster pasará de **Provisioning** a **Running**.

**Conceptos clave**:
- **Master node**: Coordina las tareas del cluster.
- **Worker nodes**: Ejecutan las tareas de procesamiento de **Spark** o **Hadoop**.
- **E2**: Familia de máquinas virtuales balanceadas en precio y rendimiento.
- **Región/Zona**: Define la ubicación física de los recursos, impactando la latencia y el cumplimiento normativo.

💡 **Contexto empresarial**: Crear un cluster es como montar un equipo contable que procesa grandes volúmenes de datos financieros, con un líder (master) y trabajadores (workers) que dividen las tareas.

## 🟠 Tarea 2: Enviar un job Spark

En esta tarea, enviarás un job de **Apache Spark** para calcular el valor de π usando el método Monte Carlo.

1. En la barra lateral de **Dataproc**, selecciona **Jobs** > **Submit job**.
2. Configura:

| **Campo** | **Valor** |
|-----------|-----------|
| **Region** | Misma que el cluster (`us-central1`) |
| **Cluster** | `example-cluster` |
| **Job type** | `Spark` |
| **Main class or jar** | `org.apache.spark.examples.SparkPi` |
| **Jar files** | `file:///usr/lib/spark/examples/jars/spark-examples.jar` |
| **Arguments** | `1000` |

3. Haz clic en **Submit** ▶️.

**Desglose de parámetros**:
| **Elemento** | **¿Qué es?** | **Uso práctico** |
|--------------|--------------|------------------|
| `org.apache.spark.examples.SparkPi` | Clase Java incluida con Spark que calcula π. | Define la lógica ejecutada. |
| `file:///usr/lib/spark/.../spark-examples.jar` | Ruta local en cada nodo hacia el JAR de ejemplos. | Contiene la clase anterior. |
| `Arguments 1000` | Número de puntos aleatorios (iteraciones). | Más iteraciones = mayor precisión, más carga de cómputo. |

**Explicación**:
- El job **SparkPi** utiliza el método Monte Carlo, generando 1000 puntos aleatorios en un cuadrado que circunscribe un círculo de radio 1. La proporción de puntos dentro del círculo aproxima π/4, y **Spark** paraleliza el cálculo entre los workers.
- El estado del job pasará de **Running** a **Succeeded** ✔️.

💡 **Contexto empresarial**: Enviar un job es como asignar una tarea a un equipo contable para calcular un indicador financiero, distribuyendo el trabajo para mayor eficiencia.

## 🟠 Tarea 3: Ver la salida del job

1. En la lista de jobs, haz clic en el **Job ID**.
2. Activa **LINE WRAP ON** o desplaza a la derecha.
3. Verás una salida similar a:
   ```
   Pi is roughly 3.141592...
   ```

**Explicación**:
- La salida muestra el valor aproximado de π calculado por el job.

💡 **Contexto empresarial**: Ver la salida es como revisar el resultado de un cálculo financiero, como un indicador de rentabilidad, generado por el equipo contable.

## 🟠 Tarea 4: Aumentar la cantidad de workers

En esta tarea, escalarás el cluster para aumentar su capacidad de procesamiento.

1. Ve a **Navigation menu** ☰ > **Dataproc** > **Clusters** > selecciona `example-cluster`.
2. En la pestaña **Configuration**, haz clic en **Edit** ✏️.
3. Cambia **Worker nodes** de `2` a `4` > **Save**.
4. El cluster se actualizará, añadiendo 2 VMs adicionales.

**Explicación**:
- Escalar el número de workers aumenta el paralelismo, reduciendo el tiempo de procesamiento para trabajos con grandes volúmenes de datos.
- Para probar el impacto, repite el job de la **Tarea 2** con los mismos parámetros.

💡 **Contexto empresarial**: Escalar el cluster es como contratar más contadores durante un cierre fiscal para procesar datos más rápido.

## 🟠 Tarea 5: Preguntas de repaso

| **Pregunta** | **Respuesta** |
|--------------|---------------|
| ¿Qué tipo de job se envía en este lab? | ✅ Spark |
| Dataproc ayuda a procesar, transformar y entender grandes volúmenes de datos. | ✅ Verdadero |

## 🚀 Resumen

| **Concepto** | **Explicación contable simplificada** |
|--------------|--------------------------------------|
| **Dataproc** | Sistema que crea equipos contables automatizados para procesar grandes volúmenes de datos financieros. |
| **Cluster** | Grupo de máquinas (master y workers) que trabajan juntas para procesar datos. |
| **Spark** | Herramienta que distribuye tareas de cálculo, como resúmenes financieros, entre múltiples máquinas. |
| **Escalabilidad** | Capacidad de añadir o quitar contadores (workers) según la carga de trabajo, optimizando costos. |

💡 **Conclusión empresarial**: **Dataproc** permite a las empresas procesar grandes volúmenes de datos financieros, como transacciones o auditorías, de forma rápida y escalable. La capacidad de encender, escalar y apagar clusters reduce costos y asegura cumplimiento normativo, ideal para cierres fiscales o análisis masivos.

Para más información, consulta la [Documentación de Google Cloud Dataproc](https://cloud.google.com/dataproc/docs).