### Despliegue de Aplicaciones Spark

El despliegue de aplicaciones Spark implica la ejecución de jobs en un entorno distribuido, ya sea en un clúster local (on-premise) o en la nube. Spark es una herramienta poderosa para el procesamiento de grandes volúmenes de datos, y su correcto despliegue es clave para garantizar eficiencia y escalabilidad.

### 2. Estructura de Proyectos Spark con Scala
Un proyecto Spark en Scala sigue una estructura organizada para facilitar el desarrollo y el despliegue:

- **src/main/scala**: Contiene el código fuente de la aplicación.

- **src/test/scala**: Incluye pruebas unitarias y de integración.

- **build.sbt**: Archivo de configuración para SBT (Scala Build Tool).

- **project**: Configuraciones adicionales de plugins y dependencias.

- **resources**: Archivos de configuración, como application.conf o log4j.properties.

**Ejemplo de estructura**:

In [None]:
mi-proyecto-spark/
├── build.sbt
├── src/
│   ├── main/
│   │   ├── scala/
│   │   │   └── com/
│   │   │       └── ejemplo/
│   │   │           └── MiApp.scala
│   │   └── resources/
│   │       └── application.conf
│   └── test/
│       └── scala/
│           └── com/
│               └── ejemplo/
│                   └── MiAppTest.scala
└── project/
    └── plugins.sbt


### 3. Trabajando con SBT para Despliegues
SBT (Scala Build Tool) es la herramienta estándar para compilar y empaquetar aplicaciones Spark en Scala. Algunos comandos útiles:

- **Compilar**: sbt compile

- **Ejecutar pruebas**: sbt test

- **Empaquetar**: sbt package (genera un archivo JAR).

- **Crear un JAR con dependencias**: Usar plugins como sbt-assembly.

**Ejemplo de build.sbt**:

In [None]:
name := "mi-proyecto-spark"
version := "1.0"
scalaVersion := "2.12.15"
libraryDependencies += "org.apache.spark" %% "spark-core" % "3.2.1"

### 4. ¿Dónde Podemos Desplegar Aplicaciones de Spark?
Las aplicaciones Spark pueden desplegarse en diversos entornos:

- **On-premise**: Clústeres locales con Hadoop YARN, Apache Mesos o Spark Standalone.

- **Cloud**: Plataformas como AWS EMR, Google Dataproc, Azure HDInsight o Databricks.

- **Kubernetes**: Spark también puede ejecutarse en clústeres de Kubernetes.

### 5. Spark-Submit
spark-submit es la herramienta principal para enviar aplicaciones Spark a un clúster. Permite especificar:

- El archivo JAR de la aplicación.

- Configuraciones como memoria, núcleos y modo de ejecución.

- El Cluster Manager a utilizar.

**Ejemplo**:

In [None]:
spark-submit \
  --class com.ejemplo.MiApp \
  --master yarn \
  --deploy-mode cluster \
  --executor-memory 4G \
  --num-executors 10 \
  mi-proyecto-spark_2.12-1.0.jar

**Explicación**:

**1.** **spark-submit**
Es el comando que se usa para enviar aplicaciones de Apache Spark a un clúster.

**2** **--class com.ejemplo.MiApp**
Especifica la clase principal de la aplicación (MiApp) dentro del paquete com.ejemplo.

**3.** **--master yarn**
Define el gestor de clúster que usará Spark.

- yarn indica que la aplicación se ejecutará en un clúster de Hadoop con YARN como gestor de recursos.
  
**4.** **--deploy-mode cluster**
Define el modo de despliegue:

- cluster: El driver de la aplicación se ejecuta dentro de uno de los nodos del clúster.
- (Alternativa: client, donde el driver se ejecuta en la máquina local desde donde se ejecuta spark-submit).
  
**5** **--executor-memory 4G**
Asigna 4 GB de memoria a cada ejecutor en el clúster.

**6.** **--num-executors 10**
Especifica el número de ejecutores que se iniciarán en el clúster. Aquí se están asignando 10 ejecutores.

**7.** **mi-proyecto-spark_2.12-1.0.jar**
Es el archivo JAR que contiene la aplicación Spark.

- 2.12 indica la versión de Scala utilizada.
- 1.0 es la versión del proyecto.

#### Resumen:
Este comando lanza una aplicación Spark en un clúster Hadoop con YARN, ejecutándose en modo cluster, con 10 ejecutores y 4 GB de RAM por ejecutor. El código principal está en la clase com.ejemplo.MiApp, dentro del archivo mi-proyecto-spark_2.12-1.0.jar.