# Uso práctico de Spark


In [0]:
from pyspark.sql import functions as f

## 1 - Carga de datos

Lea los datos dispoibles en la siguiente ubicación:

In [0]:
df = spark.read.format("json").load("wasbs://sid@yjtgeneral.blob.core.windows.net/cafeteria")

df.printSchema()

Si conocemos el esquema podemos fijarlo nosotros mismos

In [0]:
from pyspark.sql.types import StructType, StructField, StringType, LongType, BooleanType, ArrayType

schema = StructType([
    StructField("paid", StructType([
        StructField("createdOn", StringType(), True),
        StructField("paymentMethodValue", ArrayType(
            StructType([
                StructField("_id", StringType(), True),
                StructField("approbationNumber", StringType(), True),
                StructField("cashBox", StringType(), True),
                StructField("createdOn", StringType(), True),
                StructField("internalId", StringType(), True),
                StructField("paymentMethod", StringType(), True),
                StructField("tip", LongType(), True),
                StructField("value", LongType(), True)
            ])
        ), True)
    ]), True),
    StructField("products", ArrayType(
        StructType([
            StructField("_id", StringType(), True),
            StructField("avgCost", LongType(), True),
            StructField("categoryId", StringType(), True),
            StructField("categoryName", StringType(), True),
            StructField("name", StringType(), True),
            StructField("price", LongType(), True),
            StructField("quantity", LongType(), True),
            StructField("total", LongType(), True)
        ])
    ), True),
    StructField("table", StructType([
        StructField("idInternal", StringType(), True),
        StructField("name", StringType(), True)
    ]), True)
])

df = spark.read.format("json") \
    .schema(schema) \
    .load("wasbs://sid@yjtgeneral.blob.core.windows.net/cafeteria")

El esquema puede inferirse de una muestra de los datos con  `samplingRatio`

In [0]:
df = spark.read.format("json").option("samplingRatio", 0.1).load("wasbs://sid@yjtgeneral.blob.core.windows.net/cafeteria")

## 2 - Exploración

Imprimir el esquema

Contar el número total de registros

Visualizar las primeras filas

## Filtros, agregaciones y casts

Crear un DataFrame de ventas a nivel de producto utilizando `explode()`

Calcular cuál fue el valor vendido de cada producto

Almacenar una tabla en que cada fila represente un producto sin repetir 

¿Cómo debería particionarse esta tabla?

In [0]:
df.write.mode("overwrite").saveAsTable("ventas_cafeteria")


Almacenar una tabla con las ventas que incluya un id del producto, la fecha y la cantidad.

¿Cómo debería particionarse esta tabla?

Crear un dataframe con las ventas de julio.

## 3 - Joins

Leer las tablas de productos y ventas. Juntarlas y calcular el valor de las ventas por mes.

Identificar todos los productos que se vendieron cada mes pero no se vendieron en julio

## 4 - Ventanas

Mostrar el top 3 de los productos más vendidos cada mes

## 5 - Aproximaciones


Cuántos clientes han visitado la cafetería cada mes

Cuánto es lo minimos valor del 20% de las facturas más grandes

# Explore el dataset para encontrar `insights`