[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Introducción a *Spark SQL*.

In [None]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Intro a Spark SQL").getOrCreate()
sc = spark.sparkContext

Prácticamente todas las operaciones de *Apache Spark* para datos estructurados pueden ser realizadas mediante consultas de *SQL*. De forma similar a las *API*s de *Java*, *Python*, *R* y *Scala*, *Apache Spark* puede calcular la estrategia más conveniente para ejecutar una consulta de *SQL*.

Las consultas de *Spark SQL* siempre regresan [*dataframes* y *datasets*](https://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes).

*Apache Spark* extiende las funcionalidades de [*Apache Hive*](https://spark.apache.org/docs/latest/sql-programming-guide.html) y es capaz de [leer tablas de *Hive*](https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html).

La referencia de programación de *Spark SQL* puede ser consultada en la siguiente liga:

* https://spark.apache.org/docs/latest/sql-ref.html

## Tablas temporales.

Una tabla temporal es una estructura tabular que se crea en memoria a partir de un *dataframe* y que se crea mediante el método ```df.createOrRepalceTempView()```.

``` python
df.createOrRepalceTempView(<nombre>)
```

Donde:

* ```<nombre>``` es el nombre de la tabla temporal a la que se podrá hacer referencia en la consulta tal como se hace en una tabla de una base de datos.

**Ejemplo:**

In [None]:
df = spark.read.parquet("data/data_covid.parquet")

In [None]:
df.toPandas()

In [None]:
df.createOrReplaceTempView("COVID_NACIONAL")

## Ejecución de consultas *SQL*.

El método ```spark.sql()``` pemite ejecutar una consulta sobre una o más tablas temporales.

```
spark.sql(<Consulta>)
```

In [None]:
spark.sql('SELECT Nacional from COVID_NACIONAL')

In [None]:
spark.sql('SELECT Nacional, index from COVID_NACIONAL').show()

## Las funciones de *Spark SQL*.

*Spark SQL* [es compatible](https://spark.apache.org/docs/latest/sql-ref-ansi-compliance.html) con el estándar *ANSI SQL* y además lo extiende mendiante un conjunto de funciones las cuales pueden ser consultadas desde la siguiente liga:

* https://spark.apache.org/docs/latest/api/sql/


**Ejemplo:**

In [None]:
spark.sql("""
           SELECT AGUASCALIENTES, index
           FROM COVID_NACIONAL 
           WHERE index 
              BETWEEN timestamp"2021-01-01"
                  AND timestamp"2021-01-20" 
           """).show()

In [None]:
spark.sql("""
           (SELECT AGUASCALIENTES, index
           FROM COVID_NACIONAL 
           WHERE index 
              BETWEEN timestamp"2021-01-01"
                  AND timestamp"2021-01-20")
           """).createOrReplaceTempView("AGS_ENERO");

In [None]:
spark.sql("""
           SELECT avg(AGUASCALIENTES)
           FROM
           (SELECT AGUASCALIENTES, index
           FROM COVID_NACIONAL 
           WHERE index 
              BETWEEN timestamp"2021-01-01"
                  AND timestamp"2021-01-20") 
           """).show()

In [None]:
spark.sql("""
           SELECT avg(AGUASCALIENTES)
           FROM AGS_ENERO 
           """).show()

In [None]:
spark.stop()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2023.</p>