# Partición

Uno de los atributos mas importante de spark es su capacidad para el procesamiento distribuido de datos ... podemos configurar nuestros scrips para que sigan nuestros parametros de funcionamiento.

# Funciones

In [None]:
from pyspark.sql import SparkSession

# Crear una sesión de Spark
spark = SparkSession.builder.appName("EjemploDataFrame").getOrCreate()
spark.sparkContext.setLogLevel('ERROR')

In [None]:
ordenes_path = '../resources/ordenes.csv'
ordenes = spark.read.csv(ordenes_path)

## Cambiar directamente

In [None]:
# Incrementar particiones para más paralelismo
ordenes = ordenes.repartition(10)  # Redistribuye a 10 particiones

# Reducir particiones si los datos son pequeños
ordenes = ordenes.coalesce(2)  # Combina particiones para eficiencia

## Ajustar los recursos para el contexto en general

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("MiAplicacion") \
    .config("spark.executor.memory", "4g") \
    .config("spark.executor.cores", "2") \
    .config("spark.executor.instances", "4") \
    .config("spark.driver.memory", "2g") \
    .config("spark.driver.cores", "2") \
    .config("spark.driver.maxResultSize", "1g") \
    .config("spark.master", "spark://<master-url>:7077") \
    .config("spark.submit.deployMode", "cluster") \
    .config("spark.sql.shuffle.partitions", "200") \
    .config("spark.sql.autoBroadcastJoinThreshold", "-1") \
    .config("spark.network.timeout", "800s") \
    .config("spark.rpc.askTimeout", "600s") \
    .config("spark.executor.heartbeatInterval", "60s") \
    .config("spark.eventLog.enabled", "true") \
    .config("spark.eventLog.dir", "hdfs://<path-to-logs>") \
    .config("spark.dynamicAllocation.enabled", "true") \
    .config("spark.dynamicAllocation.minExecutors", "1") \
    .config("spark.dynamicAllocation.maxExecutors", "10") \
    .config("spark.dynamicAllocation.initialExecutors", "4") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.shuffle.targetPostShuffleInputSize", "134217728") \
    .config("spark.memory.fraction", "0.6") \
    .config("spark.memory.storageFraction", "0.5") \
    .getOrCreate()


# Elementos y Configuraciones de Apache Spark

## 1. **Driver**
- **¿Qué es?**  
  El Driver es el cerebro de una aplicación Spark. Actúa como el coordinador principal, gestionando la planificación de tareas, la comunicación con los ejecutores y recopilando resultados.  
  **Configuración principal:**
  - `spark.driver.memory`: Define cuánta memoria puede usar el Driver.
  - `spark.driver.cores`: Cantidad de núcleos de CPU asignados al Driver.

---

## 2. **Master**
- **¿Qué es?**  
  El Master es el gestor principal del clúster. Coordina los recursos disponibles y asigna ejecutores para las aplicaciones.  
  **Configuración principal:**
  - `spark.master`: Define el tipo de clúster (local, standalone, YARN, Kubernetes, etc.).

---

## 3. **Executors**
- **¿Qué son?**  
  Los ejecutores son los trabajadores que realizan el procesamiento real de datos en Spark. Ejecutan tareas y almacenan datos intermedios en memoria o disco.  
  **Configuración principal:**
  - `spark.executor.instances`: Número de ejecutores a usar.
  - `spark.executor.cores`: Cantidad de núcleos asignados por ejecutor.
  - `spark.executor.memory`: Memoria disponible por ejecutor.

---

## 4. **Spark SQL**
- **¿Qué es?**  
  Spark SQL es el módulo de Spark para trabajar con datos estructurados mediante consultas SQL. Permite optimización automática y manejo eficiente de tablas.  
  **Configuración principal:**
  - `spark.sql.shuffle.partitions`: Número de particiones para operaciones de shuffle en SQL.
  - `spark.sql.autoBroadcastJoinThreshold`: Tamaño máximo de tablas para usar joins con difusión.

---

## 5. **Shuffle**
- **¿Qué es?**  
  Shuffle es el proceso de redistribuir datos entre ejecutores. Ocurre en operaciones como `groupBy`, `join` o `reduceByKey`. Es uno de los pasos más costosos en Spark.  
  **Configuración principal:**
  - `spark.shuffle.compress`: Comprime los datos de shuffle.
  - `spark.shuffle.service.enabled`: Habilita un servicio externo para manejar shuffle en clústeres con asignación dinámica.

---

## 6. **Event Log**
- **¿Qué es?**  
  El Event Log almacena eventos de ejecución (tareas, etapas, errores) para análisis y monitoreo. Es útil para depurar problemas.  
  **Configuración principal:**
  - `spark.eventLog.enabled`: Habilita el registro de eventos.
  - `spark.eventLog.dir`: Directorio donde se almacenan los registros de eventos.

---

## 7. **Dynamic Allocation**
- **¿Qué es?**  
  Ajusta automáticamente el número de ejecutores según la carga de trabajo. Ayuda a optimizar el uso de recursos en clústeres compartidos.  
  **Configuración principal:**
  - `spark.dynamicAllocation.enabled`: Activa la asignación dinámica.
  - `spark.dynamicAllocation.minExecutors`: Número mínimo de ejecutores.
  - `spark.dynamicAllocation.maxExecutors`: Número máximo de ejecutores.

---

## 8. **Storage y Cache**
- **¿Qué es?**  
  Spark almacena datos en memoria para acelerar operaciones repetitivas. También puede escribir datos en disco si hay limitaciones de memoria.  
  **Configuración principal:**
  - `spark.storage.memoryFraction`: Porcentaje de memoria para almacenamiento en caché.
  - `spark.memory.fraction`: Porcentaje total de memoria asignado a la ejecución y el almacenamiento.

---

## 9. **Cluster Manager**
- **¿Qué es?**  
  Es el sistema encargado de gestionar los recursos del clúster y asignarlos a las aplicaciones Spark. Ejemplos: YARN, Mesos, Kubernetes o el propio gestor Standalone de Spark.  
  **Configuración principal:**
  - `spark.deploy.mode`: Define si el Driver se ejecuta en el clúster (`cluster`) o en la máquina cliente (`client`).

---

## 10. **Task Scheduler**
- **¿Qué es?**  
  Se encarga de dividir las tareas y distribuirlas entre los ejecutores disponibles. Administra la ejecución y recuperación en caso de fallos.  
  **Configuración principal:**
  - `spark.task.cpus`: Define cuántos núcleos se requieren por tarea.
  - `spark.scheduler.mode`: Define si las tareas tienen prioridad (FIFO o FAIR).

---

## 11. **Broadcast**
- **¿Qué es?**  
  Es un mecanismo para enviar pequeñas cantidades de datos a todos los ejecutores. Es útil para evitar replicar información en cada tarea.  
  **Configuración principal:**
  - `spark.broadcast.blockSize`: Tamaño de los bloques para la transmisión de datos.

---

## 12. **Checkpointing**
- **¿Qué es?**  
  Es el proceso de guardar datos intermedios en un almacenamiento persistente para tolerancia a fallos y evitar cálculos repetidos.  
  **Configuración principal:**
  - `spark.checkpoint.dir`: Directorio donde se almacenan los checkpoints.

---

## 13. **Metrics y Monitoreo**
- **¿Qué es?**  
  Spark proporciona métricas para monitorear el rendimiento y el estado del clúster. Estas métricas pueden ser visualizadas en la interfaz de Spark UI o exportadas a sistemas externos.  
  **Configuración principal:**
  - `spark.metrics.conf`: Archivo para definir métricas personalizadas.
  - `spark.ui.port`: Puerto para acceder a la interfaz web de Spark.

---

# Conclusión
Apache Spark es un sistema flexible y poderoso para procesamiento distribuido. Cada elemento y configuración está diseñado para maximizar la eficiencia y escalabilidad en diversas aplicaciones.
