[![pythonista](img/pythonista.png)](https://www.pythonista.io)

# Tablas en línea.

Una tabla en línea corresponde a una tabla que se crea medainte una expresión.
* https://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-inline-table.html

In [None]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("with").getOrCreate()
ct = spark.sparkContext
%load_ext sparksql_magic

In [None]:
(spark.read.parquet('data/data_covid.parquet')
     .createOrReplaceTempView("COVID_NACIONAL"))

## Creación de tablas mediante ```VALUES```.

```VALUES``` permite definir una tabla mediane el uso de tuplas.Cada elemento de la tupla corresponde a un campo de un registro.

Una expresión como la siguiente: 
```
SELECT <cols>
FROM VALUES
    (<x_11>, <x_12>, ... <x_1n>),
    (<x_21>, <x_22>, ... <x_2n>),
    ...
    ...
    (<x_m1>, <x_m2>, ... <x_mn>);
```
Generaría una tabla como la siguiente.

|col_1|col_2|...| col_n|
|:---:|:---:|:---:|:---:|
|x_11|x12|...|x1n|
|x_21|x22|...|x2n|
|...|...|...|...|
|x_m1|x_m2|...|x_mn|

In [None]:
%%sparksql
SELECT * 
FROM VALUES 
    ("uno", 1), 
    ("dos", 2), 
    ("tres", null);

* La siguiente celda no conitene tuplas del mismo tamaño, por lo que se producirá un error.

In [None]:
%%sparksql
SELECT * 
FROM VALUES 
    ("uno", 1, "one"), 
    ("dos", 2)
    ("tres", null, "three");

### Nombrado de las columnas.


Una definición de tabla como la siguiente:
```
SELECT <cols>
FROM VALUES
    (<x_11>, <x_12>, ..., <x_1n>),
    (<x_21>, <x_22>, ..., <x_2n>),
    ...
    ...
    (<x_m1>, <x_m2>, ..., <x_mn>)
AS (<nombre_1>, <nombre_2>, ..., <nombre_n>); 
```

Generaría una tabla como la siguiente.

|nombre_1|nombre_2|...|nombre_n|
|:---:|:---:|:---:|:---:|
|x_11|x12|...|x1n|
|x_21|x22|...|x2n|
|...|...|...|...|
|x_m1|x_m2|...|x_mn|

In [None]:
%%sparksql
SELECT *
FROM VALUES 
    ("uno", 1), 
    ("dos", 2), 
    ("tres", null)
AS (primero, segundo);

## Expresiones de tablas comunes.

Una de las ventajas de usar *Apache Spark* es que es posible guardar como una tabla temporal cualquier dataframe resultante de una consulta *SQL*. 

Sin embargo, *SQL* permite crear dentro de una sola consulta múltiples tablas efímeras, las cuales pueden ser referenciadas desde un ``` FROM```. 

* https://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-cte.html

### La declaración ```WITH```.

La declaración `WITH` me permite crear una tablas comunes que serán usadas como fuente de datos para otras expresiones.

```
WITH <tabla>(<nombres_de_columnas>)
AS (SELECT <expresión_1>)
SELECT <expresión_2>
FROM <tabla>;
```

In [None]:
%%sparksql
WITH tabla_nombres(nombres) 
AS (SELECT *
    FROM VALUES
        ('Juan'),
        ('Luis'),
        ('Maria'))
SELECT * 
FROM tabla_nombres;

In [None]:
%%sparksql
WITH datos_nacionales(fecha, contagios_nacionales)
AS (SELECT 
        Index, 
        Nacional
    FROM COVID_NACIONAL)
SELECT contagios_nacionales
FROM datos_nacionales;

In [None]:
%%sparksql
SELECT contagios_nacionales
FROM datos_nacionales;

In [None]:
%%sparksql
WITH datos_nacionales(fecha, contagios_nacionales)
AS (SELECT 
        Index, 
        Nacional
    FROM COVID_NACIONAL)
SELECT 
    avg(contagios_nacionales) AS promedio_nacional
FROM datos_nacionales;

In [None]:
spark.stop()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2023.</p>