## Spark SQL

### 1. ¿Qué es Spark SQL?

**Spark SQL** es un módulo de Apache Spark que permite ejecutar consultas SQL sobre datos estructurados. Está diseñado para trabajar con DataFrames y Datasets, proporcionando una interfaz unificada para el procesamiento de datos.

**Características principales:**

- **Compatibilidad con SQL**: Soporta consultas SQL estándar.

- **Optimización**: Utiliza el optimizador Catalyst para mejorar el rendimiento de las consultas.

- **Integración**: Funciona con DataFrames y Datasets, permitiendo combinar SQL con código en Scala, Java, Python o R.

- **Fuentes de datos**: Puede leer y escribir datos desde y hacia múltiples formatos (CSV, JSON, Parquet, Hive, etc.).

### 2. Ejecución de consultas SQL sobre DataFrames

**Spark SQL** permite ejecutar consultas SQL directamente sobre DataFrames, lo que facilita el análisis de datos para usuarios familiarizados con SQL.

**Pasos para ejecutar una consulta SQL:**

**1.** Crear un DataFrame.

**2.** Registrar el DataFrame como una vista temporal.

**3.** Ejecutar la consulta SQL sobre la vista.

**Ejemplo:**

In [None]:
// Crear un DataFrame
val df = spark.read
  .option("header", "true")
  .csv("ruta/al/archivo.csv")

// Registrar el DataFrame como una vista temporal
df.createOrReplaceTempView("personas")

// Ejecutar una consulta SQL
val resultado = spark.sql("SELECT * FROM personas WHERE edad > 30")
resultado.show()

### 3. Ventajas de usar SQL con Spark

**1.** Facilidad de uso: Los usuarios familiarizados con SQL pueden trabajar con Spark sin necesidad de aprender un nuevo lenguaje.

**2.** Optimización automática: Spark SQL utiliza el optimizador Catalyst para mejorar el rendimiento de las consultas.

**3.** Integración con DataFrames: Permite combinar SQL con operaciones de DataFrames en el mismo código.

**4.** Escalabilidad: Las consultas SQL se ejecutan de manera distribuida en un clúster.

### 4. Sintaxis básica de Spark SQL

Spark SQL soporta la mayoría de las cláusulas SQL estándar. Aquí están las más comunes:

**SELECT**:  

- Selecciona columnas específicas.

In [None]:
SELECT nombre, edad FROM personas

**FROM**:  

- Especifica la tabla o vista sobre la que se ejecuta la consulta.

In [None]:
SELECT * FROM personas

**WHERE**:  

- Filtra filas basadas en una condición.

In [None]:
SELECT * FROM personas WHERE edad > 30

**GROUP BY**:  

- Agrupa filas basadas en una o más columnas.

In [None]:
SELECT ciudad, COUNT(*) FROM personas GROUP BY ciudad

**JOIN**:

- Combina filas de dos o más tablas basadas en una condición.

In [None]:
SELECT p.nombre, c.ciudad 
FROM personas p 
JOIN ciudades c ON p.ciudad_id = c.id

**Funciones SQL comunes**  

- Agregación: COUNT(), SUM(), AVG(), MIN(), MAX().

In [None]:
SELECT AVG(edad) FROM personas

- Manipulación de cadenas: CONCAT(), SUBSTRING(), UPPER(), LOWER().- 

In [None]:
SELECT CONCAT(nombre, ' ', apellido) AS nombre_completo FROM personas

- Funciones de fecha: YEAR(), MONTH(), DAY(), DATE_ADD(), DATEDIFF().

In [None]:
SELECT YEAR(fecha_nacimiento) AS año_nacimiento FROM personas

### 5. Vistas temporales y tablas

**Vistas temporales**:  

- Son vistas que existen solo durante la sesión de Spark.

- Se crean a partir de DataFrames y permiten ejecutar consultas SQL.

- Cómo registrar un DataFrame como una vista temporal:

In [None]:
df.createOrReplaceTempView("personas")

- Ejecución de consultas SQL sobre vistas:

In [None]:
val resultado = spark.sql("SELECT * FROM personas WHERE edad > 30")
resultado.show()

**Tablas persistentes**:

- Son tablas que se almacenan en un catálogo (por ejemplo, Hive) y persisten más allá de la sesión de Spark.

- Se crean usando saveAsTable.

- Cómo registrar un DataFrame como una tabla persistente:

In [None]:
df.write.saveAsTable("personas_persistentes")

- Ejecución de consultas SQL sobre tablas:

In [None]:
val resultado = spark.sql("SELECT * FROM personas_persistentes WHERE edad > 30")
resultado.show()