[![pythonista](img/pythonista.png)](https://www.pythonista.io)

# Ejemplos de *DQL*.

Se utilizará el data set [*Chicago Taxi Trips*](https://data.cityofchicago.org/Transportation/Taxi-Trips/wrvz-psew)

In [None]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("Intro a Dataframes").getOrCreate()
ct = spark.sparkContext

In [None]:
df = spark.read.parquet('data/data_covid.parquet')
df.createOrReplaceTempView("COVID_NACIONAL")

### Uso de ```SELECT``` ... ```FROM```.

In [None]:
spark.sql('''SELECT *
             FROM COVID_NACIONAL''').toPandas()

### Selección de columnas específicas.

In [None]:
spark.sql('''SELECT AGUASCALIENTES, Nacional
             FROM COVID_NACIONAL''').toPandas()

## Operaciones con columnas.

In [None]:
spark.sql('''SELECT (Nacional / 32)
             FROM COVID_NACIONAL''').toPandas()

### Funciones

https://spark.apache.org/docs/latest/api/sql/index.html

In [None]:
spark.sql('''SELECT AVG(AGUASCALIENTES)
             FROM COVID_NACIONAL''').toPandas()

## Uso de ```AS```.

In [None]:
spark.sql('''SELECT AGUASCALIENTES AS Ags, 
                    (Nacional / 32) as Promedio
             FROM COVID_NACIONAL''').toPandas()

Uso del punto (```.```) para elementos en una tablas.

In [None]:
spark.sql('''SELECT COV.AGUASCALIENTES
             FROM COVID_NACIONAL as COV''').toPandas()

### Selección de columnas de más de una tabla.

In [None]:
spark.sql('''SELECT (Nacional /32) as promedio
             FROM COVID_NACIONAL''').createOrReplaceTempView('Promedio_Nacional')

In [None]:
spark.sql('''SELECT c.Nacional, p.promedio
             FROM COVID_NACIONAL as c, Promedio_Nacional as p''').toPandas()

## Uso de ```LIMIT```.

* La siguiente delcaración regresará los ```20``` primeros registros resultantes de la búsqueda en la columna ```Nacional```.

In [None]:
spark.sql('''SELECT Nacional
             FROM COVID_NACIONAL
             LIMIT 20
             ''').toPandas()

## Uso de ```WHERE```.

In [None]:
spark.sql('''SELECT Index, Aguascalientes
             FROM COVID_NACIONAL
             WHERE AGUASCALIENTES > (Nacional/32)
             ''').toPandas()

### Uso de ```AND```.

In [None]:
spark.sql('''SELECT Index, Aguascalientes
             FROM COVID_NACIONAL
                 WHERE AGUASCALIENTES > (Nacional/32) 
                     AND AGUASCALIENTES > 100
             ''').toPandas()

### Uso de ```OR```.

In [None]:
spark.sql('''SELECT Index, Aguascalientes
             FROM COVID_NACIONAL
                 WHERE AGUASCALIENTES > (Nacional/32) OR AGUASCALIENTES = 0
             ''').toPandas()

### Uso de ```BETWEEN```.

In [None]:
spark.sql('''SELECT Index, Aguascalientes
             FROM COVID_NACIONAL
             WHERE Aguascalientes BETWEEN 100 AND 500
             ''').toPandas()

In [None]:
spark.sql('''SELECT Index, Aguascalientes
             FROM COVID_NACIONAL
             WHERE Index BETWEEN '2021-01-01' AND '2021-01-15'
             ''').toPandas()

## Uso de ```ORDER BY```.

In [None]:
spark.sql('''SELECT Index, Aguascalientes, Nacional
             FROM COVID_NACIONAL
             WHERE Index BETWEEN '2021-01-01' AND '2021-01-15'
             ORDER BY Nacional ASC
             ''').toPandas()

In [None]:
spark.sql('''SELECT Index, Aguascalientes, Nacional
             FROM COVID_NACIONAL
             WHERE Index BETWEEN '2021-01-01' AND '2021-01-15'
             ORDER BY Nacional DESC
             ''').toPandas()

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2023.</p>