# Introducción a Apache Spark


Apache Spark es un motor de procesamiento de datos distribuido diseñado para ser rápido y general. Se utiliza principalmente para tareas de Big Data como análisis en batch, streaming, Machine Learning y procesamiento de gráficos.

Spark permite dividir grandes volúmenes de datos en múltiples particiones y procesarlos en paralelo a través de un clúster.
    

## Arquitectura General de Spark


La arquitectura de Spark se compone de los siguientes elementos:

- **Driver Program**: el programa principal que ejecuta tu código Spark. Crea la `SparkSession`, genera el DAG, y coordina las tareas.
- **Cluster Manager**: gestiona los recursos del clúster (YARN, Kubernetes, Mesos o Spark Standalone).
- **Workers**: nodos que ejecutan las tareas en paralelo.
- **Executors**: procesos que corren en los Workers y ejecutan el código.

Spark divide un trabajo en múltiples **stages** que contienen múltiples **tasks**. Estos se planifican en un **DAG (Directed Acyclic Graph)** de operaciones.
    

## Iniciar una SparkSession

In [None]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("PySpark01") \
    .getOrCreate()

spark

## Leer y mostrar un DataFrame simple

In [None]:
data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["name", "age"]

df = spark.createDataFrame(data, columns)
df.show()

## ¿Qué sucede en el fondo?


Cada operación en Spark construye un DAG de transformaciones. Cuando se ejecuta una acción como `.show()` o `.collect()`, Spark planifica y ejecuta tareas distribuidas.

Puedes visualizar el plan de ejecución con `.explain()`:
    

In [None]:
df.explain(True)

| Plan                       | ¿Qué muestra?                                                   |
| -------------------------- | --------------------------------------------------------------- |
| **Parsed Logical Plan**    | Tu código interpretado como operaciones lógicas                 |
| **Analyzed Logical Plan**  | Añade tipos de datos, validación de columnas                    |
| **Optimized Logical Plan** | Aplicación del Catalyst Optimizer (filtros, proyecciones, etc.) |
| **Physical Plan**          | Lo que Spark realmente ejecuta (por etapas y workers)           |

_.explain(mode="...")_ para más control

Modos disponibles:
- "simple": (por defecto) solo el plan físico
- "extended": todos los niveles (parsed, analyzed, optimized, physical)
- "codegen": código Java generado por Spark (útil para perf tuning avanzado)
- "cost": incluye costos estimados de cada etapa (experimental)
- "formatted": versión tabulada y más legible del extended

In [None]:
df.explain(mode="formatted")

La salidad de la función `explain()` se lee de abajo hacia arriba

## Detener la SparkSession inciada

Finalmente debemos detener la sesión de Spark. Eso significa que liberamos todos los recursos asignados a nuestra sesión de Spark (memoria, conexiones, pojects, etc.)

In [None]:
spark.stop()