# 📌 Laboratorio: Dataproc – Inicio Rápido desde la Línea de Comandos

## 🌐 Introducción General
**Dataproc** es un servicio gestionado de **Google Cloud** que permite ejecutar clústeres de **Apache Spark** y **Apache Hadoop** de forma rápida, sencilla y rentable. Este laboratorio te guía en el uso de **Cloud Shell** para crear un clúster, ejecutar un **Spark job** y escalar recursos.

💡 **Contexto empresarial**: Como contratar un equipo contable temporal para procesar grandes volúmenes de transacciones financieras de forma eficiente, escalable y sin costos fijos innecesarios.

### Objetivos del Laboratorio
- Crear un clúster de **Dataproc** usando comandos en **Cloud Shell**.
- Ejecutar un **Spark job** para calcular π (pi).
- Modificar la cantidad de **worker nodes** para escalar el clúster.

Para más información, consulta la [Documentación de Dataproc](https://cloud.google.com/dataproc/docs).

## 🔧 Configuración Inicial

### Iniciar el Laboratorio
1. Haz clic en **Start Lab** en la plataforma del laboratorio.
2. Copia las credenciales temporales (**Username** y **Password**) proporcionadas.
3. Inicia sesión en la **Google Cloud Console** con esas credenciales.
4. Acepta los términos y condiciones sin configurar recuperación ni autenticación en dos pasos.

💡 **Propósito**: Usar credenciales temporales asegura un entorno seguro, como preparar un sistema contable aislado para una auditoría.

### Activar Cloud Shell
**Cloud Shell** es una máquina virtual con herramientas preinstaladas para interactuar con **Google Cloud** mediante comandos.

#### Pasos
1. Haz clic en **Activate Cloud Shell** en la consola.
2. Autoriza el uso de las credenciales temporales.

#### Comandos Útiles
Verifica la cuenta y el proyecto activos:

In [None]:
gcloud auth list
gcloud config list project

💡 **Propósito**: Confirma que estás trabajando con el proyecto correcto, como verificar el libro contable antes de procesar transacciones.

Para más información, consulta la [Documentación de Cloud Shell](https://cloud.google.com/shell/docs).

## 🚀 Tarea 1: Crear un Clúster

### Paso 1: Establecer la Región
Configura la región para los recursos del clúster (reemplaza `REGION` con el valor asignado, ej. `us-central1`):

In [None]:
gcloud config set dataproc/region REGION

💡 **Propósito**: Define la ubicación geográfica del clúster, optimizando latencia como elegir una sucursal cercana para procesar datos financieros.

### Paso 2: Obtener PROJECT_ID y PROJECT_NUMBER
Configura el proyecto y obtén sus identificadores:

In [None]:
PROJECT_ID=$(gcloud config get-value project) && \
gcloud config set project $PROJECT_ID
PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format='value(projectNumber)')

💡 **Propósito**: Asegura que los comandos se ejecuten en el proyecto correcto, como seleccionar el libro contable adecuado.

### Paso 3: Asignar Permisos de Almacenamiento
Otorga el rol **Storage Admin** a la cuenta de servicio de **Compute Engine**:

In [None]:
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member=serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com \
  --role=roles/storage.admin

💡 **Propósito**: Permite que el clúster acceda a datos almacenados, como autorizar a un equipo contable a revisar registros financieros.

### Paso 4: Habilitar Acceso Privado
Configura la subred para acceso privado a servicios de Google:

In [None]:
gcloud compute networks subnets update default --region=REGION --enable-private-ip-google-access

💡 **Propósito**: Permite comunicación segura sin IPs públicas, como proteger datos financieros en una red interna.

### Paso 5: Crear el Clúster
Crea un clúster con 2 workers y máquinas `e2-standard-4`:

In [None]:
gcloud dataproc clusters create example-cluster \
  --worker-boot-disk-size 500 \
  --worker-machine-type=e2-standard-4 \
  --master-machine-type=e2-standard-4

💡 **Propósito**: Monta una oficina contable temporal para procesar datos masivos, como consolidar transacciones de múltiples sucursales.

💡 **Beneficio empresarial**: Optimiza costos al usar recursos escalables solo cuando se necesitan.

## 🛠️ Tarea 2: Enviar un Trabajo a Spark

Ejecuta un **Spark job** para estimar π usando el método de Monte Carlo:

In [None]:
gcloud dataproc jobs submit spark --cluster example-cluster \
  --class org.apache.spark.examples.SparkPi \
  --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

💡 **Propósito**: Este comando lanza un cálculo distribuido entre los **worker nodes**, como dividir un análisis financiero complejo entre varios contadores.

💡 **Analogía contable**: Ejecutar este job es como realizar 1000 cálculos contables automáticos para obtener un promedio, como estimar el valor promedio de transacciones.

💡 **Beneficio empresarial**: Procesa grandes volúmenes de datos (ej. registros financieros) en minutos, acelerando auditorías o reportes.

## ⚙️ Tarea 3: Actualizar el Clúster

### Aumentar Trabajadores a 4
Escala el clúster a 4 workers:

In [None]:
gcloud dataproc clusters update example-cluster --num-workers 4

💡 **Propósito**: Aumentar los workers es como contratar más contadores para acelerar una liquidación masiva.

💡 **Beneficio empresarial**: Escala recursos según la carga de trabajo, optimizando costos y rendimiento.

### Reducir Trabajadores a 2
Reduce el clúster a 2 workers:

In [None]:
gcloud dataproc clusters update example-cluster --num-workers 2

💡 **Propósito**: Reducir workers es como disminuir el personal temporal tras completar un proyecto contable.

💡 **Beneficio empresarial**: Minimiza costos al liberar recursos no necesarios.

## ✅ Tarea 4: Preguntas de Comprensión

1. **Los clústeres pueden crearse y escalarse rápidamente con diferentes tipos de máquina virtual, tamaños de disco y cantidad de nodos.**
   - ✅ **Verdadero**

💡 **Contexto empresarial**: Esta pregunta refuerza la flexibilidad de **Dataproc** para adaptarse a necesidades contables cambiantes, como procesar mayores volúmenes de datos durante cierres fiscales.

## 📋 Cuadro Resumen Final

| Elemento | Descripción |
|----------|-------------|
| **Servicio principal** | Google Cloud Dataproc |
| **Objetivo** | Crear clúster, ejecutar Spark job, modificar trabajadores |
| **Duración estimada** | 30 minutos |
| **Requisitos** | Navegador web, cuenta temporal |
| **Herramienta** | Cloud Shell + gcloud CLI |
| **Comando clave 1** | `gcloud dataproc clusters create` |
| **Comando clave 2** | `gcloud dataproc jobs submit spark` |
| **Comando clave 3** | `gcloud dataproc clusters update` |
| **Analogía contable** | Equipo contable automatizado y escalable |
| **Resultado** | Estimación de π (Pi) |

💡 **Conclusión empresarial**: **Dataproc** permite procesar datos financieros masivos de forma rápida y escalable, optimizando costos y recursos.

## 🚀 Conclusión

Este laboratorio te permitió:
1. Crear un clúster en **Dataproc** usando **Cloud Shell**.
2. Ejecutar un **Spark job** para calcular π.
3. Escalar el clúster modificando el número de **worker nodes**.

💡 **Beneficio empresarial**: Automatiza y acelera el procesamiento de datos financieros, como consolidar transacciones o generar reportes, con costos optimizados.

Para más información, consulta la [Documentación de Dataproc](https://cloud.google.com/dataproc/docs) y [Documentación de Cloud Shell](https://cloud.google.com/shell/docs).