In [13]:
# Importa la clase SparkSession del módulo pyspark.sql.
# SparkSession es la entrada principal para usar la API de Spark SQL.
# Proporciona un entorno unificado para trabajar con estructuras de datos, ejecutar consultas SQL y más.
from pyspark.sql import SparkSession

# Importa la clase SparkContext del módulo pyspark.
# SparkContext es el núcleo de cualquier aplicación de Spark y actúa como una interfaz para acceder al cluster de Spark.
# Es responsable de la comunicación entre la aplicación y los nodos ejecutores.
from pyspark import SparkContext

## Configuración e Inicio de una Sesión de Spark

In [14]:
# Crear una sesión de Spark utilizando la clase SparkSession.
# La sesión de Spark es la entrada principal para trabajar con DataFrames y la API de Spark SQL.
spark  = SparkSession \
          .builder \
          .appName("Demo Spark") \
          .getOrCreate()

### Explicación del Código: Crear una Sesión de Spark

#### Detalle de cada línea:

1. **`SparkSession`:**  
   Representa el punto de entrada principal para trabajar con Apache Spark. Facilita el uso de DataFrames y la API de Spark SQL.

2. **`.builder`:**  
   Inicia la configuración para una nueva sesión de Spark. Es el lugar donde se definen las propiedades iniciales, como el nombre de la aplicación y otros ajustes opcionales.

3. **`.appName("Demo_Spark")`:**  
   Especifica un nombre para la aplicación. Este nombre se usa para identificar la aplicación en las herramientas de administración y monitorización de Spark, como su interfaz web.

4. **`.getOrCreate()`:**  
   - Si ya existe una sesión de Spark activa en el contexto, la reutiliza.  
   - Si no hay una sesión activa, crea una nueva con las configuraciones definidas previamente.

### Notas adicionales:
- Este código es esencial para inicializar el entorno de trabajo en Spark y comenzar a procesar datos.
- Configuraciones adicionales, como la asignación de memoria, recursos o la URL del cluster, pueden incluirse en la fase de construcción (`builder`).
- El nombre definido en `.appName()` es útil para identificar las aplicaciones en entornos con múltiples trabajos Spark en ejecución.