[![pythonista](img/pythonista.png)](https://www.pythonista.io)

# Bases de datos y tablas permanentes.

https://spark.apache.org/docs/3.1.2/sql-ref-syntax-ddl.html

In [None]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("DDL").getOrCreate()
ct = spark.sparkContext

In [None]:
(spark.read.parquet('data/data_covid.parquet')
     .createOrReplaceTempView("COVID_NACIONAL"))

## Estructuras.

* **Bases de datos**. Son estructuras que contienen tablas.  En realidad no es otra cosa más que carpetas que contiene archivos partcionados que representan tablas. La base de datos por defecto de *Spark* es ```default```.
* **Tablas**. Son estructuras basadas en *dataframes*. 
    * Temporales. Son dataframes que existen exclusivamente en memoria.
    * Permanentes. Los dataframes son guardadas como una colección de archivos que son escritos de forma consecutiva en un formato específico (*CSV*, *parquet*, *JSON*, etc.)
* **Vistas**. Son consultas *SQL* que no contienen tablas, pero sí el resultado de estas.

## *DDL*.

El "Lenguaje de Definción de Datos" es un conjuto de declaraciones y cláusulas que permiten crear, gestionar,l modifca e incluso eliminar las bases de datos, tablas y vistas.

* ```CREATE```
* ```ALTER```
* ```DROP```
* ```DESCRIBE```
* ```SHOW```
* ```USE```

### La declaración ```SHOW```.

Esta declaración permite enlistar los elementos existentes tanto de bases de datos, com o de tablas y vistas.

```
SHOW <estructura> FROM <est_cont>
```

Donde:

* ```<estructura>``` puede ser:
   * ```DATABASES```
   * ```TABLES```
   * ```VIEWS```
   * ```FUNCTIONS```
 * ```<est_cont>``` la estructura que contiene a los elementos a enumerar.

In [None]:
spark.sql('''SHOW DATABASES;
            ''').toPandas()

### La declaración ```DESCRIBE```.

Esta declaración permite mostrar los metadatos de una estructura en partiicular.

```
DESCRIBE <estructura> <nombre> FROM <est_cont>
```

Donde:

* ```<estructura>``` es el tipo de estructura, la cual puede ser:
   * ```DATABASES```
   * ```TABLES```
   * ```VIEWS```
   * ```FUNCTIONS```
 * ```<est_cont>``` la estructura que contiene a los elementos a enumerar.

In [None]:
spark.sql('''DESCRIBE DATABASE default;
            ''').toPandas()

In [None]:
spark.sql('''DESCRIBE DATABASE default;
            ''').toPandas().iloc[2]['info_value']

In [None]:
spark.sql('''SHOW TABLES;
            ''').toPandas()

In [None]:
spark.sql('''DESCRIBE TABLE COVID_NACIONAL;
            ''').toPandas()

In [None]:
spark.sql('''SHOW TABLES FROM default;
            ''').toPandas()

### La declaración ```CREATE```.

https://spark.apache.org/docs/3.0.0-preview/sql-ref-syntax-ddl-create-database.html

In [None]:
spark.sql('''CREATE DATABASE nueva_db;
            ''')

### La declaración ```USE DATABASE```.

In [None]:
spark.sql('''USE DATABASE nueva_db;
            ''')

In [None]:
spark.sql('''SHOW TABLES FROM nueva_db;
            ''').toPandas()

## Creación de Tablas.

https://spark.apache.org/docs/latest/sql-ref-syntax-ddl-create-table.html

In [None]:
spark.sql('''CREATE TABLE covid USING parquet
             AS SELECT * FROM COVID_NACIONAL;
    ''')

In [None]:
spark.sql('''SHOW TABLES FROM nueva_db;
            ''').toPandas()

In [None]:
spark.sql('''CREATE TABLE covid_vacio LIKE covid USING CSV;''')

In [None]:
spark.sql('''SELECT * FROM covid_vacio;''').toPandas()

In [None]:
spark.sql('''SHOW TABLES FROM nueva_db;''').toPandas()

In [None]:
spark.sql('''USE default''')

In [None]:
spark.sql('''SELECT * FROM covid
            ''').toPandas()

In [None]:
spark.sql('''SELECT * FROM nueva_db.covid
            ''').toPandas()

In [None]:
spark.sql('''CREATE TABLE nueva_db.persona (nombre STRING, edad INT) USING CSV;''');

In [None]:
spark.sql('''SHOW TABLES FROM nueva_db;''').toPandas()

In [None]:
spark.sql('''INSERT INTO nueva_db.persona VALUES
    ('Zen Hui', 25),
    ('Anil B', 18),
    ('Shone S', 16),
    ('Mike A', 25),
    ('John A', 18),
    ('Jack N', 16);''')

In [None]:
spark.sql('''SELECT * FROM nueva_db.persona;''').toPandas()

In [None]:
spark.sql('''DESCRIBE TABLE nueva_db.persona;''').toPandas()

In [None]:
spark.sql('''DROP TABLE nueva_db.persona;''')

In [None]:
spark.sql('''SHOW TABLES FROM nueva_db;''').toPandas()

In [None]:
spark.sql('''DROP DATABASE nueva_db;''')

In [None]:
spark.sql('''DROP DATABASE nueva_db CASCADE;''')

In [None]:
spark.sql('''SHOW DATABASES;''').toPandas()

## Vistas.

Una vista no es otra cosa más que una consulta *SQL* a la que se le asigna un nombre y que puede ser referenciada por ```FROM```.

https://spark.apache.org/docs/latest/sql-ref-syntax-ddl-create-view.html

In [None]:
spark.sql('''CREATE DATABASE IF NOT EXISTS nueva_db;''')

In [None]:
spark.sql('''USE nueva_db;''')

In [None]:
spark.sql('''CREATE TABLE covid USING parquet
             AS SELECT * FROM COVID_NACIONAL;
    ''')

In [None]:
spark.sql('''CREATE OR REPLACE VIEW promedio AS
            SELECT 
                Index, 
                Nacional /32 AS promedio
            FROM nueva_db.covid;
            ''')

In [None]:
spark.sql('''SELECT * FROM promedio;''').show()

In [None]:
!rm -rf spark-warehouse

In [None]:
spark.stop()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2023.</p>