# Enviar Aplicaciones de Apache Spark Lab

En este laboratorio, aprenderás cómo enviar aplicaciones de Apache Spark desde un script de Python. Este ejercicio es sencillo, gracias a Docker Compose.

## Objetivos de aprendizaje

En este laboratorio, tú:

- Instalarás un Master y Worker de Spark utilizando Docker Compose
- Crearás un script de Python que contenga un trabajo de Spark
- Enviarás el trabajo al clúster directamente desde Python (Nota: aprenderás cómo enviar un trabajo desde la línea de comandos en el laboratorio de Kubernetes)

## Requisitos previos

```
**Nota**: Si estás ejecutando este laboratorio dentro del entorno del Laboratorio de Skills Network, todos los requisitos previos ya están instalados para ti

```

Los únicos requisitos previos para este laboratorio son:

- La herramienta de línea de comandos _wget_
- Un entorno de desarrollo de Python

# Iniciar el Maestro de Spark

En el lado derecho de estas instrucciones, encontrarás el IDE en la nube. Selecciona la pestaña _Lab_. Luego, en la barra de menú, selecciona _Terminal_ \> _Nuevo Terminal_.

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/images/NewTerminal.png)

2. Ingresa los siguientes comandos en el terminal para descargar el entorno de Spark:

```bash
wget https://archive.apache.org/dist/spark/spark-3.3.3/spark-3.3.3-bin-hadoop3.tgz && tar xf spark-3.3.3-bin-hadoop3.tgz && rm -rf spark-3.3.3-bin-hadoop3.tgz

```

> Este proceso puede tardar un poco. Descarga Spark como un archivo comprimido y luego lo descomprime en el directorio actual.

3. Ejecuta los siguientes comandos para configurar `JAVA_HOME` (preinstalado en el entorno) y `SPARK_HOME` (que acabas de descargar):

```bash
export JAVA_HOME=/usr/lib/jvm/java-1.11.0-openjdk-amd64export SPARK_HOME=/home/project/spark-3.3.3-bin-hadoop3

```

4. Ejecuta el siguiente comando para crear un archivo de configuración para el maestro:

```bash
touch /home/project/spark-3.3.3-bin-hadoop3/conf/spark-defaults.conf

```

5. Haga clic en el botón de abajo para comenzar el proceso de configuración del Spark Master.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">Open&nbsp;<strong style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px; margin: 0px; box-sizing: border-box;">spark-defaults.conf</strong>&nbsp;in IDE</span>

6. Pegue el siguiente contenido en el archivo `spark-defaults.conf`. Esto configurará el número de núcleos y la cantidad de memoria que el Master asignará a los trabajadores.

```bash
spark.executor.memory 4g
spark.executor.cores 2

```

7. Navega al directorio `SPARK_HOME`:

```bash
cd $SPARK_HOME

```

8. Ejecuta el maestro de Spark ejecutando el siguiente comando:

```bash
./sbin/start-master.sh

```

9. Una vez que se inicie correctamente, haga clic en el botón de abajo para verificar que el Maestro está funcionando como se espera.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">Spark Master</span>

Si la aplicación se ha iniciado correctamente, verá una página como la que se muestra a continuación.

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/yAkQovkEjJYMKrA-XyiqRQ/spark%20master.jpg)

10. Copie la URL del Maestro como se muestra en la imagen y anótela en un editor de texto, como el Bloc de notas, en su computadora.

# Iniciar el trabajador

1. Haz clic en `Terminal` en el menú y luego en `New Terminal` para abrir una nueva ventana de terminal.

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/images/NewTerminal.png)

2. Una vez que la terminal se abra en la parte inferior de la ventana, ejecuta los siguientes comandos para configurar `JAVA_HOME` y `SPARK_HOME`:

```bash
export JAVA_HOME=/usr/lib/jvm/java-1.11.0-openjdk-amd64
export SPARK_HOME=/home/project/spark-3.3.3-bin-hadoop3
```

3. Navega al directorio `SPARK_HOME`:

```bash
cd $SPARK_HOME
```

4. Ejecuta el trabajador de Spark ejecutando el siguiente comando. Recuerda reemplazar el marcador `yourname` en el comando a continuación con tu nombre tal como aparece en la URL del maestro de Spark que anotaste en el paso anterior.

```bash
./sbin/start-worker.sh spark://theiadocker-yourname:7077 --cores 1 --memory 1g
```

5. Una vez que se inicie correctamente, haz clic en el botón de abajo para verificar que el Worker está funcionando como se espera.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">Spark Master</span>

Deberías ver que el Worker ahora está registrado con el Master.

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/zYVs9FiWKEir2iinaXrEzw/spark-worker.jpg)

# Crear código y enviar

1. Haz clic en `Terminal` en el menú y selecciona `Nuevo Terminal` para abrir una nueva ventana de terminal.

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/images/NewTerminal.png)

2. Una vez que se abra la terminal en la parte inferior de la ventana, ejecuta el siguiente comando para crear el archivo de Python:

```bash
touch submit.py
```

Se crea un nuevo archivo de Python llamado `submit.py`.

3. Abre el archivo en el editor de archivos haciendo clic en el botón de abajo o siguiendo la guía visual en la imagen.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">Open&nbsp;<strong style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px; margin: 0px; box-sizing: border-box;">submit.py</strong>&nbsp;in IDE</span>

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/images/edit_submitpy.png)

4. Pega el siguiente código en el archivo y guárdalo. Recuerda reemplazar el marcador `yourname` en el código a continuación con tu nombre tal como aparece en la URL del maestro de Spark.

```python
import findspark
findspark.init()
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
from pyspark.sql.types import StructField, StructType, IntegerType, StringType

spark = SparkSession.builder \
    .master('spark://theiadocker-yourname:7077') \
    .config('spark.executor.cores', '1') \
    .config('spark.executor.memory', '512m') \
    .getOrCreate()

df = spark.createDataFrame(
    [
        (1, "foo"),
        (2, "bar"),
    ],
    StructType(
        [
            StructField("id", IntegerType(), False),
            StructField("txt", StringType(), False),
        ]
    ),
)
print(df.dtypes)

print("\nDataFrame:")
df.show()
```

3. Ejecuta los siguientes comandos para configurar `JAVA_HOME` y `SPARK_HOME`:

```bash
export JAVA_HOME=/usr/lib/jvm/java-1.11.0-openjdk-amd64
export SPARK_HOME=/home/project/spark-3.3.3-bin-hadoop3
```

4. Instala los paquetes necesarios para configurar el entorno de Spark.

```bash
pip3 install findspark
```

5. Escribe el siguiente comando en la terminal para ejecutar el script de Python:

```bash
python3 submit.py
```

Verás la salida como a continuación:

```bash
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/01/27 23:50:53 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
[('id', 'int'), ('txt', 'string')]
+---+---+                                                                       
| id|txt|
+---+---+
|  1|foo|
|  2|bar|
+---+---+
```

# Experimenta tú mismo

Por favor, echa un vistazo a la interfaz de usuario del Maestro y Trabajador de Apache Spark.

1. Haz clic en el botón de abajo para lanzar el `Spark Master`. Alternativamente, haz clic en el botón de Skills Network a la izquierda. Esto abrirá la “Caja de herramientas de Skills Network.” Luego, haz clic en `Other` seguido de `Launch Application`. Desde allí, puedes ingresar el número de puerto como `8080` y lanzar la aplicación.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">Spark Master</span>

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/images/Launch_Application--new_IDE.png)

2. Esto te llevará a la interfaz de administración del Maestro de Spark (si tu bloqueador de ventanas emergentes no interfiere).

![](https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/nWC79kDOSPta7AdpAn24_A/submit-success.jpg)

3. Ten en cuenta que puedes ver todos los trabajadores registrados (uno en este caso) y todos los trabajos en ejecución o completados (también uno en este caso).

> Nota: Debido a las limitaciones del entorno del laboratorio, no puedes hacer clic en los enlaces dentro de la interfaz. En un entorno de producción típico, estos enlaces serían funcionales.

4. Haz clic en el botón de abajo para abrir el `Spark Worker` en 8081. Alternativamente, haz clic en el botón de Skills Network a la izquierda, esto abrirá la “Caja de herramientas de Skills Network.” Luego, haz clic en `Other` seguido de `Launch Application`. Desde allí, deberías poder ingresar el número de puerto como `8081` y lanzar la aplicación.

 <span class="plugin-text" style="scrollbar-color: rgb(69, 74, 77) rgb(32, 35, 36); padding: 0px 0px 0px 2px; margin: 0px; box-sizing: border-box; display: inline;">Spark Worker</span>

Deberías poder encontrar tu trabajo en ejecución actualmente listado aquí.

# Resumen

En este laboratorio, has aprendido a configurar un clúster experimental de Apache Spark utilizando Docker Compose. Ahora puedes enviar un trabajo de Spark directamente desde código Python. En el siguiente laboratorio de Kubernetes, aprenderás a enviar trabajos de Spark desde la línea de comandos también.