[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Introducción a *Spark SQL*.

In [1]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Intro a Spark SQL").getOrCreate()
sc = spark.sparkContext

Prácticamente todas las operaciones de *Apache Spark* para datos estructurados pueden ser realizadas mediante consultas de *SQL*. De forma similar a las *API*s de *Java*, *Python*, *R* y *Scala*, *Apache Spark* puede calcular la estrategia más conveniente para ejecutar una consulta de *SQL*.

Las consultas de *Spark SQL* siempre regresan [*dataframes* y *datasets*](https://spark.apache.org/docs/latest/sql-programming-guide.html#datasets-and-dataframes).

*Apache Spark* extiende las funcionalidades de [*Apache Hive*](https://spark.apache.org/docs/latest/sql-programming-guide.html) y es capaz de [leer tablas de *Hive*](https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html).

La referencia de programación de *Spark SQL* puede ser consultada en la siguiente liga:

* https://spark.apache.org/docs/latest/sql-ref.html

## Tablas temporales.

Una tabla temporal es una estructura tabular que se crea en memoria a partir de un *dataframe* y que se crea mediante el método ```df.createOrRepalceTempView()```.

``` python
df.createOrRepalceTempView(<nombre>)
```

Donde:

* ```<nombre>``` es el nombre de la tabla temporal a la que se podrá hacer referencia en la consulta tal como se hace en una tabla de una base de datos.

**Ejemplo:**

In [4]:
df = spark.read.parquet("data/data_covid.parquet")

In [5]:
df.createOrReplaceTempView("COVID_NACIONAL")

## Ejecución de consultas *SQL*.

El método ```spark.sql()``` pemite ejecutar una consulta sobre una o más tablas temporales.

```
spark.sql(<Consulta>)
```

In [10]:
spark.sql('SELECT Nacional from COVID_NACIONAL')

DataFrame[Nacional: bigint]

In [12]:
spark.sql('SELECT Nacional, index from COVID_NACIONAL').show()

+--------+-------------------+
|Nacional|              index|
+--------+-------------------+
|       0|2020-02-26 00:00:00|
|       4|2020-02-27 00:00:00|
|       2|2020-02-28 00:00:00|
|       2|2020-02-29 00:00:00|
|       2|2020-03-01 00:00:00|
|       5|2020-03-02 00:00:00|
|       9|2020-03-03 00:00:00|
|      10|2020-03-04 00:00:00|
|      11|2020-03-05 00:00:00|
|       6|2020-03-06 00:00:00|
|       7|2020-03-07 00:00:00|
|       8|2020-03-08 00:00:00|
|       5|2020-03-09 00:00:00|
|      17|2020-03-10 00:00:00|
|      39|2020-03-11 00:00:00|
|      41|2020-03-12 00:00:00|
|      66|2020-03-13 00:00:00|
|      52|2020-03-14 00:00:00|
|      37|2020-03-15 00:00:00|
|      77|2020-03-16 00:00:00|
+--------+-------------------+
only showing top 20 rows



## Las funciones de *Spark SQL*.

*Spark SQL* [es compatible](https://spark.apache.org/docs/latest/sql-ref-ansi-compliance.html) con el estándar *ANSI SQL* y además lo extiende mendiante un conjunto de funciones las cuales pueden ser consultadas desde la siguiente liga:

* https://spark.apache.org/docs/latest/api/sql/


**Ejemplo:**

In [23]:
spark.sql('SELECT avg(AGUASCALIENTES) from COVID_NACIONAL;').show()

+-------------------+
|avg(AGUASCALIENTES)|
+-------------------+
|  82.84905660377359|
+-------------------+



In [None]:
spark.stop()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>