## Overview

This notebook will show you how to create and query a table or DataFrame that you uploaded to DBFS. [DBFS](https://docs.databricks.com/user-guide/dbfs-databricks-file-system.html) is a Databricks File System that allows you to store data for querying inside of Databricks. This notebook assumes that you have a file already inside of DBFS that you would like to read from.

This notebook is written in **Python** so the default cell type is Python. However, you can use different languages by using the `%LANGUAGE` syntax. Python, Scala, SQL, and R are all supported.

In [0]:
# Ubicación y tipo de archivo
file_location = "/FileStore/tables/mnm_dataset.csv"
file_type = "csv"

# opciones CSV
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# Las opciones aplicadas son para archivos CSV. Para otros tipos de archivos, estos serán ignorados.
df = spark.read.format(file_type) \
    .option("inferSchema", infer_schema) \
    .option("header", first_row_is_header) \
    .option("sep", delimiter) \
    .load(file_location)

display(df)

State,Color,Count
TX,Red,20
NV,Blue,66
CO,Blue,79
OR,Blue,71
WA,Yellow,93
WY,Blue,16
CA,Yellow,53
WA,Green,60
OR,Green,71
TX,Green,68


In [0]:
# Crear una vista o tabla

temp_table_name = "mnm_dataset_csv"

df.createOrReplaceTempView(temp_table_name)

In [0]:
%sql

/* Consulta la tabla temporal creada en una celda SQL */

select * from `mnm_dataset_csv`

State,Color,Count
TX,Red,20
NV,Blue,66
CO,Blue,79
OR,Blue,71
WA,Yellow,93
WY,Blue,16
CA,Yellow,53
WA,Green,60
OR,Green,71
TX,Green,68


In [0]:
# Con esto registrado como una vista temporal, solo estará disponible para este portátil en particular. Si desea que otros usuarios puedan consultar esta tabla, también puede crear una tabla desde DataFrame.
# Una vez guardada, esta tabla persistirá en los reinicios del clúster y permitirá que varios usuarios en diferentes portátiles consulten estos datos.
# Para hacerlo, elija el nombre de su tabla y descomente la línea inferior.

# permanent_table_name = "mnm_dataset_csv"

# df.write.format("parquet").saveAsTable(permanent_table_name)

In [0]:
# Importar las bibliotecas necesarias.
# Ya que estamos usando Python, importe SparkSession y funciones relacionadas
# del módulo PySpark.
import sys
from pyspark.sql import SparkSession
from pyspark.sql.functions import count

if __name__ == "__main__":
#     if len(sys.argv) != 2:
#         print("Usage: mnmcount <file>", file=sys.stderr)
#         sys.exit(-1)

    # Cree una SparkSession utilizando las API de SparkSession.
    # Si no existe, cree una instancia. Allá
    # solo puede ser una SparkSession por JVM.
    spark = (SparkSession
        .builder
        .appName("PythonMnMCount")
        .getOrCreate())
        
    # Obtener el nombre de archivo del conjunto de datos de M&M a partir de los argumentos de la línea de comandos
    mnm_file = sys.argv[1]

    # Lea el archivo en un Spark DataFrame usando el CSV
    # formato infiriendo el esquema y especificando que el
    # El archivo contiene un encabezado, que proporciona nombres de columna para comas.
    # campos separados.
    mnm_df = (spark.read.format("csv")
        .option("header", "true")
        .option("inferSchema", "true")
#         .load(df))
        .csv(file_location))

    # Usamos las API de alto nivel de DataFrame. Nota
    # que no usamos RDD en absoluto. Porque algunos de Spark
    # funciones devuelven el mismo objeto, podemos encadenar llamadas a funciones.
    # 1. Seleccione del DataFrame los campos "Estado", "Color" y "Recuento"
    # 2. Ya que queremos agrupar cada estado y su recuento de colores M&M,
    # usamos groupBy()
    # 3. Recuentos agregados de todos los colores y groupBy() State and Color
    # 4 orderBy() en orden descendente
    count_mnm_df = (mnm_df
        .select("State", "Color", "Count")
        .groupBy("State", "Color")
        .agg(count("Count").alias("Total"))
        .orderBy("Total", ascending=False))

    # Muestra las agregaciones resultantes para todos los estados y colores;
    # un recuento total de cada color por estado.
    # Note show() es una acción, que desencadenará lo anterior
    # consulta a ejecutar.
    count_mnm_df.show(n=60, truncate=False)
    print("Total Rows = %d" % (count_mnm_df.count()))

+-----+------+-----+
|State|Color |Total|
+-----+------+-----+
|CA   |Yellow|1807 |
|WA   |Green |1779 |
|OR   |Orange|1743 |
|TX   |Green |1737 |
|TX   |Red   |1725 |
|CA   |Green |1723 |
|CO   |Yellow|1721 |
|CA   |Brown |1718 |
|CO   |Green |1713 |
|NV   |Orange|1712 |
|TX   |Yellow|1703 |
|NV   |Green |1698 |
|AZ   |Brown |1698 |
|WY   |Green |1695 |
|CO   |Blue  |1695 |
|NM   |Red   |1690 |
|AZ   |Orange|1689 |
|NM   |Yellow|1688 |
|NM   |Brown |1687 |
|UT   |Orange|1684 |
|NM   |Green |1682 |
|UT   |Red   |1680 |
|AZ   |Green |1676 |
|NV   |Yellow|1675 |
|NV   |Blue  |1673 |
|WA   |Red   |1671 |
|WY   |Red   |1670 |
|WA   |Brown |1669 |
|NM   |Orange|1665 |
|WY   |Blue  |1664 |
|WA   |Yellow|1663 |
|WA   |Orange|1658 |
|CA   |Orange|1657 |
|NV   |Brown |1657 |
|CA   |Red   |1656 |
|CO   |Brown |1656 |
|UT   |Blue  |1655 |
|AZ   |Yellow|1654 |
|TX   |Orange|1652 |
|AZ   |Red   |1648 |
|OR   |Blue  |1646 |
|UT   |Yellow|1645 |
|OR   |Red   |1645 |
|CO   |Orange|1642 |
|TX   |Brown 

In [0]:
# Si bien el código anterior se agregó y contó para todos
# los estados, ¿qué pasa si solo queremos ver los datos de
# un solo estado, por ejemplo, CA?
# 1. Seleccione de todas las filas en el DataFrame
# 2. Filtra solo el estado de CA
# 3. groupBy() Estado y Color como lo hicimos arriba
# 4. Agrega los conteos para cada color
# 5. orderBy() en orden descendente
# Encuentre el conteo agregado para California filtrando
ca_count_mnm_df = (mnm_df
    .select("State", "Color", "Count")
    .where(mnm_df.State == "CA")
    .groupBy("State", "Color")
    .agg(count("Count").alias("Total"))
    .orderBy("Total", ascending=False))

# Muestre la agregación resultante para California.
# Como arriba, show() es una acción que disparará la ejecución del
# cálculo completo.
ca_count_mnm_df.show(n=10, truncate=False)

+-----+------+-----+
|State|Color |Total|
+-----+------+-----+
|CA   |Yellow|1807 |
|CA   |Green |1723 |
|CA   |Brown |1718 |
|CA   |Orange|1657 |
|CA   |Red   |1656 |
|CA   |Blue  |1603 |
+-----+------+-----+



i. Otras operaciones de agregación como el Max con otro tipo de ordenamiento
(descendiente).

In [0]:
from pyspark.sql import functions as f
ca_count_mnm_df.select(f.max("Total")).show()

+----------+
|max(Total)|
+----------+
|      1807|
+----------+



ii. Hacer un ejercicio como el “where” de CA que aparece en el libro pero
indicando más opciones de estados (p.e. NV, TX, CA, CO).

In [0]:
where_mnm_df = (mnm_df
    .select("State", "Color", "Count")
    .where((mnm_df.State == "NV") | (mnm_df.State == "TX")
         | (mnm_df.State == "CA") | (mnm_df.State == "CO"))
    .groupBy("State", "Color")
    .agg(count("Count")
    .alias("Total"))
    .orderBy("Total"))

where_mnm_df.show(n=10)

+-----+------+-----+
|State| Color|Total|
+-----+------+-----+
|   CA|  Blue| 1603|
|   NV|   Red| 1610|
|   TX|  Blue| 1614|
|   CO|   Red| 1624|
|   TX| Brown| 1641|
|   CO|Orange| 1642|
|   TX|Orange| 1652|
|   CA|   Red| 1656|
|   CO| Brown| 1656|
|   CA|Orange| 1657|
+-----+------+-----+
only showing top 10 rows



iii. Hacer un ejercicio donde se calculen en una misma operación el Max, Min,
Avg, Count. Revisar el API (documentación) donde encontrarán este ejemplo:
ds.agg(max($"age"), avg($"salary"))
ds.groupBy().agg(max($"age"), avg($"salary"))
NOTA: $ es un alias de col()

In [0]:
from pyspark.sql import functions as col
where_mnm_df.select(col.max("Total"), col.min("Total"), col.avg("Total"), col.count("Total")).show()

+----------+----------+------------------+------------+
|max(Total)|min(Total)|        avg(Total)|count(Total)|
+----------+----------+------------------+------------+
|      1807|      1603|1679.6666666666667|          24|
+----------+----------+------------------+------------+



iv. Hacer también ejercicios en SQL creando tmpView

In [0]:
%sql
select max(Count) as `Max` from `mnm_dataset_csv` where `Color` = "Yellow"

Max
100


In [0]:
count_mnm_df = (mnm_df
 .select("State", "Color", "Count")
 .groupBy("State", "Color")
 .agg(count("Count")
 .alias("Total"))
 .orderBy("Total", ascending=False))

In [0]:
%sql
-- SELECT State, Color, Count, sum(Count) AS Total
-- FROM mnm_df
-- GROUP BY State, Color, Count
-- ORDER BY Total DESC