# üìå Laboratorio: Dataproc ‚Äì Inicio R√°pido desde la L√≠nea de Comandos

## üåê Introducci√≥n General
**Dataproc** es un servicio gestionado de **Google Cloud** que permite ejecutar cl√∫steres de **Apache Spark** y **Apache Hadoop** de forma r√°pida, sencilla y rentable. Este laboratorio te gu√≠a en el uso de **Cloud Shell** para crear un cl√∫ster, ejecutar un **Spark job** y escalar recursos.

üí° **Contexto empresarial**: Como contratar un equipo contable temporal para procesar grandes vol√∫menes de transacciones financieras de forma eficiente, escalable y sin costos fijos innecesarios.

### Objetivos del Laboratorio
- Crear un cl√∫ster de **Dataproc** usando comandos en **Cloud Shell**.
- Ejecutar un **Spark job** para calcular œÄ (pi).
- Modificar la cantidad de **worker nodes** para escalar el cl√∫ster.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Dataproc](https://cloud.google.com/dataproc/docs).

## üîß Configuraci√≥n Inicial

### Iniciar el Laboratorio
1. Haz clic en **Start Lab** en la plataforma del laboratorio.
2. Copia las credenciales temporales (**Username** y **Password**) proporcionadas.
3. Inicia sesi√≥n en la **Google Cloud Console** con esas credenciales.
4. Acepta los t√©rminos y condiciones sin configurar recuperaci√≥n ni autenticaci√≥n en dos pasos.

üí° **Prop√≥sito**: Usar credenciales temporales asegura un entorno seguro, como preparar un sistema contable aislado para una auditor√≠a.

### Activar Cloud Shell
**Cloud Shell** es una m√°quina virtual con herramientas preinstaladas para interactuar con **Google Cloud** mediante comandos.

#### Pasos
1. Haz clic en **Activate Cloud Shell** en la consola.
2. Autoriza el uso de las credenciales temporales.

#### Comandos √ötiles
Verifica la cuenta y el proyecto activos:

In [None]:
gcloud auth list
gcloud config list project

üí° **Prop√≥sito**: Confirma que est√°s trabajando con el proyecto correcto, como verificar el libro contable antes de procesar transacciones.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Cloud Shell](https://cloud.google.com/shell/docs).

## üöÄ Tarea 1: Crear un Cl√∫ster

### Paso 1: Establecer la Regi√≥n
Configura la regi√≥n para los recursos del cl√∫ster (reemplaza `REGION` con el valor asignado, ej. `us-central1`):

In [None]:
gcloud config set dataproc/region REGION

üí° **Prop√≥sito**: Define la ubicaci√≥n geogr√°fica del cl√∫ster, optimizando latencia como elegir una sucursal cercana para procesar datos financieros.

### Paso 2: Obtener PROJECT_ID y PROJECT_NUMBER
Configura el proyecto y obt√©n sus identificadores:

In [None]:
PROJECT_ID=$(gcloud config get-value project) && \
gcloud config set project $PROJECT_ID
PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format='value(projectNumber)')

üí° **Prop√≥sito**: Asegura que los comandos se ejecuten en el proyecto correcto, como seleccionar el libro contable adecuado.

### Paso 3: Asignar Permisos de Almacenamiento
Otorga el rol **Storage Admin** a la cuenta de servicio de **Compute Engine**:

In [None]:
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member=serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com \
  --role=roles/storage.admin

üí° **Prop√≥sito**: Permite que el cl√∫ster acceda a datos almacenados, como autorizar a un equipo contable a revisar registros financieros.

### Paso 4: Habilitar Acceso Privado
Configura la subred para acceso privado a servicios de Google:

In [None]:
gcloud compute networks subnets update default --region=REGION --enable-private-ip-google-access

üí° **Prop√≥sito**: Permite comunicaci√≥n segura sin IPs p√∫blicas, como proteger datos financieros en una red interna.

### Paso 5: Crear el Cl√∫ster
Crea un cl√∫ster con 2 workers y m√°quinas `e2-standard-4`:

In [None]:
gcloud dataproc clusters create example-cluster \
  --worker-boot-disk-size 500 \
  --worker-machine-type=e2-standard-4 \
  --master-machine-type=e2-standard-4

üí° **Prop√≥sito**: Monta una oficina contable temporal para procesar datos masivos, como consolidar transacciones de m√∫ltiples sucursales.

üí° **Beneficio empresarial**: Optimiza costos al usar recursos escalables solo cuando se necesitan.

## üõ†Ô∏è Tarea 2: Enviar un Trabajo a Spark

Ejecuta un **Spark job** para estimar œÄ usando el m√©todo de Monte Carlo:

In [None]:
gcloud dataproc jobs submit spark --cluster example-cluster \
  --class org.apache.spark.examples.SparkPi \
  --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

üí° **Prop√≥sito**: Este comando lanza un c√°lculo distribuido entre los **worker nodes**, como dividir un an√°lisis financiero complejo entre varios contadores.

üí° **Analog√≠a contable**: Ejecutar este job es como realizar 1000 c√°lculos contables autom√°ticos para obtener un promedio, como estimar el valor promedio de transacciones.

üí° **Beneficio empresarial**: Procesa grandes vol√∫menes de datos (ej. registros financieros) en minutos, acelerando auditor√≠as o reportes.

## ‚öôÔ∏è Tarea 3: Actualizar el Cl√∫ster

### Aumentar Trabajadores a 4
Escala el cl√∫ster a 4 workers:

In [None]:
gcloud dataproc clusters update example-cluster --num-workers 4

üí° **Prop√≥sito**: Aumentar los workers es como contratar m√°s contadores para acelerar una liquidaci√≥n masiva.

üí° **Beneficio empresarial**: Escala recursos seg√∫n la carga de trabajo, optimizando costos y rendimiento.

### Reducir Trabajadores a 2
Reduce el cl√∫ster a 2 workers:

In [None]:
gcloud dataproc clusters update example-cluster --num-workers 2

üí° **Prop√≥sito**: Reducir workers es como disminuir el personal temporal tras completar un proyecto contable.

üí° **Beneficio empresarial**: Minimiza costos al liberar recursos no necesarios.

## ‚úÖ Tarea 4: Preguntas de Comprensi√≥n

1. **Los cl√∫steres pueden crearse y escalarse r√°pidamente con diferentes tipos de m√°quina virtual, tama√±os de disco y cantidad de nodos.**
   - ‚úÖ **Verdadero**

üí° **Contexto empresarial**: Esta pregunta refuerza la flexibilidad de **Dataproc** para adaptarse a necesidades contables cambiantes, como procesar mayores vol√∫menes de datos durante cierres fiscales.

## üìã Cuadro Resumen Final

| Elemento | Descripci√≥n |
|----------|-------------|
| **Servicio principal** | Google Cloud Dataproc |
| **Objetivo** | Crear cl√∫ster, ejecutar Spark job, modificar trabajadores |
| **Duraci√≥n estimada** | 30 minutos |
| **Requisitos** | Navegador web, cuenta temporal |
| **Herramienta** | Cloud Shell + gcloud CLI |
| **Comando clave 1** | `gcloud dataproc clusters create` |
| **Comando clave 2** | `gcloud dataproc jobs submit spark` |
| **Comando clave 3** | `gcloud dataproc clusters update` |
| **Analog√≠a contable** | Equipo contable automatizado y escalable |
| **Resultado** | Estimaci√≥n de œÄ (Pi) |

üí° **Conclusi√≥n empresarial**: **Dataproc** permite procesar datos financieros masivos de forma r√°pida y escalable, optimizando costos y recursos.

## üöÄ Conclusi√≥n

Este laboratorio te permiti√≥:
1. Crear un cl√∫ster en **Dataproc** usando **Cloud Shell**.
2. Ejecutar un **Spark job** para calcular œÄ.
3. Escalar el cl√∫ster modificando el n√∫mero de **worker nodes**.

üí° **Beneficio empresarial**: Automatiza y acelera el procesamiento de datos financieros, como consolidar transacciones o generar reportes, con costos optimizados.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Dataproc](https://cloud.google.com/dataproc/docs) y [Documentaci√≥n de Cloud Shell](https://cloud.google.com/shell/docs).