# üöÄ Laboratorio: Inicio R√°pido con Dataproc (por L√≠nea de Comandos)

**Google Cloud Dataproc** es un servicio administrado que permite crear y gestionar cl√∫steres de **Apache Spark** y **Apache Hadoop** en la nube, facilitando el procesamiento de grandes vol√∫menes de datos de manera r√°pida y econ√≥mica. Este laboratorio te guiar√° a trav√©s de la creaci√≥n de un cl√∫ster, la ejecuci√≥n de un trabajo **Spark**, y la modificaci√≥n de la cantidad de nodos, todo desde la l√≠nea de comandos.

üí° **Beneficio empresarial**: **Dataproc** permite a las empresas procesar grandes cantidades de datos financieros, como transacciones o auditor√≠as, en minutos, con la capacidad de escalar recursos din√°micamente para optimizar costos y cumplir con normativas.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Google Cloud Dataproc](https://cloud.google.com/dataproc/docs).

## üìå Objetivos
- ‚úÖ Crear un cl√∫ster de **Dataproc** usando la l√≠nea de comandos.
- ‚úÖ Ejecutar un trabajo simple con **Apache Spark**.
- ‚úÖ Modificar la cantidad de nodos trabajadores en el cl√∫ster.

## üß† ¬øQu√© es Google Cloud Dataproc?

- **Dataproc** es un servicio totalmente administrado para crear y gestionar cl√∫steres de **Apache Spark** y **Apache Hadoop**.
- Reduce el tiempo de procesamiento de datos de horas o d√≠as a minutos o segundos.
- Escalable: permite aumentar o reducir nodos seg√∫n las necesidades de procesamiento.

üí° **Contexto empresarial**: **Dataproc** es como un equipo contable automatizado que puede procesar grandes vol√∫menes de transacciones r√°pidamente y ajustarse al tama√±o del trabajo, pagando solo por los recursos utilizados.

## üõ†Ô∏è Comandos √∫tiles (opcional)

Antes de comenzar, puedes verificar la configuraci√≥n de tu entorno:

1. Lista la cuenta activa:

In [None]:
gcloud auth list

**Explicaci√≥n**:
- Muestra la cuenta activa (marcada con un asterisco `*`).

2. Muestra el ID del proyecto activo:

In [None]:
gcloud config list project

**Explicaci√≥n**:
- Confirma el proyecto activo en **Cloud Shell**.

üí° **Contexto empresarial**: Estos comandos son como verificar las credenciales y el proyecto contable antes de procesar datos financieros.

## ‚úÖ Tarea 1: Crear un cl√∫ster Dataproc

En esta tarea, crear√°s un cl√∫ster de **Dataproc** desde **Cloud Shell**.

### Paso 1.1: Establecer la regi√≥n

1. Ejecuta:

In [None]:
gcloud config set dataproc/region REGION

**Explicaci√≥n**:
- Define la regi√≥n donde se crear√° el cl√∫ster (reemplaza `REGION` con, por ejemplo, `us-central1`).
- La regi√≥n agrupa recursos geogr√°ficamente para mejorar la eficiencia y cumplir con normativas.

üí° **Contexto empresarial**: Esto es como elegir la sucursal donde operar√° un equipo contable, optimizando la latencia.

### Paso 1.2: Obtener el ID y n√∫mero del proyecto

1. Guarda el ID del proyecto:

In [None]:
PROJECT_ID=$(gcloud config get-value project) && \
gcloud config set project $PROJECT_ID

**Explicaci√≥n**:
- Guarda el ID del proyecto en la variable `PROJECT_ID` y lo establece como activo.

2. Guarda el n√∫mero del proyecto:

In [None]:
PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format='value(projectNumber)')

**Explicaci√≥n**:
- Obtiene el n√∫mero del proyecto (diferente del ID) para usarlo en la configuraci√≥n de permisos.

üí° **Contexto empresarial**: Esto es como confirmar los detalles de la empresa antes de configurar un sistema contable.

### Paso 1.3: Otorgar permisos de almacenamiento al servicio

1. Ejecuta:

In [None]:
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member=serviceAccount:$PROJECT_NUMBER-compute@developer.gserviceaccount.com \
  --role=roles/storage.admin

**Explicaci√≥n**:
- Otorga el rol **Storage Admin** a la cuenta de servicio de **Compute Engine**, permitiendo al cl√∫ster leer y escribir en **Cloud Storage**.

üí° **Contexto empresarial**: Esto es como dar permisos a un equipo contable para acceder a un archivo digital de registros financieros.

### Paso 1.4: Habilitar acceso privado a Google

1. Ejecuta:

In [None]:
gcloud compute networks subnets update default --region=REGION --enable-private-ip-google-access

**Explicaci√≥n**:
- Habilita el acceso privado a servicios de Google (como **Cloud Storage**) sin usar IPs p√∫blicas, aumentando la seguridad.

üí° **Contexto empresarial**: Esto es como configurar una red interna segura para que el equipo contable acceda a documentos sin exponerlos al exterior.

### Paso 1.5: Crear el cl√∫ster

1. Ejecuta:

In [None]:
gcloud dataproc clusters create example-cluster \
  --worker-boot-disk-size 500 \
  --worker-machine-type=e2-standard-4 \
  --master-machine-type=e2-standard-4

**Desglose del comando**:
| **Parte** | **Significado** |
|-----------|-----------------|
| `gcloud dataproc clusters create` | Crea un cl√∫ster **Dataproc**. |
| `example-cluster` | Nombre del cl√∫ster. |
| `--worker-boot-disk-size 500` | Tama√±o del disco de cada nodo trabajador (500 GB). |
| `--worker-machine-type=e2-standard-4` | Tipo de m√°quina para los nodos trabajadores (balanceada en precio/rendimiento). |
| `--master-machine-type=e2-standard-4` | Tipo de m√°quina para el nodo maestro. |

**Resultado esperado**:
- El cl√∫ster se crea tras unos minutos, mostrando: `Created [... example-cluster]`.

**Explicaci√≥n**:
- El cl√∫ster incluye un nodo maestro (coordinador) y nodos trabajadores que ejecutan tareas de **Spark** o **Hadoop**.

üí° **Contexto empresarial**: Crear un cl√∫ster es como formar un equipo contable automatizado, con un l√≠der (maestro) y trabajadores que procesan datos financieros en paralelo.

## ‚úÖ Tarea 2: Ejecutar un trabajo Spark

En esta tarea, enviar√°s un trabajo **Spark** para calcular el valor de œÄ usando el m√©todo Monte Carlo.

1. Ejecuta:

In [None]:
gcloud dataproc jobs submit spark --cluster example-cluster \
  --class org.apache.spark.examples.SparkPi \
  --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

**Desglose del comando**:
| **Parte** | **Significado** |
|-----------|-----------------|
| `gcloud dataproc jobs submit spark` | Env√≠a un trabajo de tipo **Spark**. |
| `--cluster example-cluster` | Especifica el cl√∫ster donde se ejecuta. |
| `--class org.apache.spark.examples.SparkPi` | Clase Java que calcula œÄ. |
| `--jars file:///usr/lib/spark/...` | Ruta al archivo JAR que contiene el c√≥digo. |
| `-- 1000` | N√∫mero de iteraciones (puntos aleatorios) para el c√°lculo. |

**Resultado esperado**:
- La salida muestra: `Pi is roughly 3.14118528`.

**Explicaci√≥n**:
- El trabajo **SparkPi** usa el m√©todo Monte Carlo, generando 1000 puntos aleatorios para aproximar œÄ. **Spark** distribuye el c√°lculo entre los nodos trabajadores.

üí° **Contexto empresarial**: Enviar un trabajo **Spark** es como asignar un c√°lculo financiero (por ejemplo, un indicador de rentabilidad) a un equipo contable que lo procesa en paralelo.

## ‚úÖ Tarea 3: Actualizar el cl√∫ster

En esta tarea, escalar√°s el cl√∫ster para ajustar su capacidad de procesamiento.

### Paso 3.1: Aumentar la cantidad de nodos trabajadores

1. Ejecuta:

In [None]:
gcloud dataproc clusters update example-cluster --num-workers 4

**Explicaci√≥n**:
- Cambia el n√∫mero de nodos trabajadores a 4, aumentando la capacidad de procesamiento.

üí° **Contexto empresarial**: Esto es como contratar m√°s contadores durante un cierre fiscal para acelerar el procesamiento de datos.

### Paso 3.2: Reducir la cantidad de nodos

1. Ejecuta:

In [None]:
gcloud dataproc clusters update example-cluster --num-workers 2

**Explicaci√≥n**:
- Reduce los nodos trabajadores a 2, optimizando costos cuando la carga de trabajo es menor.

üí° **Contexto empresarial**: Esto es como reducir el equipo contable una vez finalizado un proyecto intensivo, ahorrando recursos.

## üß™ Tarea 4: Evaluaci√≥n de comprensi√≥n

| **Pregunta** | **Respuesta** |
|--------------|---------------|
| ¬øLos cl√∫steres pueden escalarse r√°pidamente usando distintos tipos de m√°quinas, discos y nodos? | ‚úÖ S√≠ (True) |

## üöÄ Resumen

| **Concepto** | **Explicaci√≥n contable simplificada** |
|--------------|--------------------------------------|
| **Dataproc** | Sistema automatizado para procesar grandes vol√∫menes de datos financieros, como transacciones o auditor√≠as. |
| **Cl√∫ster** | Equipo contable digital con un l√≠der (nodo maestro) y trabajadores (nodos) que procesan datos en paralelo. |
| **Spark** | Herramienta que distribuye c√°lculos financieros entre m√∫ltiples m√°quinas para mayor rapidez. |
| **Escalabilidad** | Capacidad de ajustar el tama√±o del equipo contable seg√∫n la carga de trabajo, optimizando costos. |

üí° **Conclusi√≥n empresarial**: **Dataproc** permite a las empresas procesar datos financieros masivos de forma r√°pida y escalable, con la flexibilidad de ajustar recursos din√°micamente. Esto reduce costos operativos, acelera an√°lisis y asegura cumplimiento normativo, ideal para cierres fiscales o auditor√≠as masivas.

Para m√°s informaci√≥n, consulta la [Documentaci√≥n de Google Cloud Dataproc](https://cloud.google.com/dataproc/docs).