### Agrupaciones y Funciones de agregación

In [0]:
generation = "mod4gen13"

In [0]:
df = spark.read.csv(f"/mnt/{generation}/input/sales_info.csv", inferSchema=True, header=True)

In [0]:
df.printSchema()

In [0]:
df.display()

In [0]:
# Agrupación por empresa
df.groupBy("Company")

Del objeto `GroupedData` se pueden utilizar varios métodos.

In [0]:
# Media
df.groupBy("Company").mean().display()

In [0]:
# Conteo
df.groupBy("Company").count().display()

In [0]:
# Máximos
df.groupBy("Company").max().display()

In [0]:
# Mínimo
df.groupBy("Company").min().display()

In [0]:
# Suma
df.groupBy("Company").sum().display()

No todos los métodos necesitan una llamada groupby, en su lugar, se puede llamar al método generalizado `.agg()`, que llamará al agregado de todas las filas en la columna especificada del DataFrame. 

Se pueden tomar argumentos como una sola columna o crear múltiples llamadas agregadas a la vez usando notación de diccionario.

In [0]:
# Ventas máximas
df.agg({"Sales":"max"}).display()

In [0]:
# También se podría haber hecho esto con en el groupBy por objeto
grouped = df.groupBy("Company")

In [0]:
grouped.agg({"Sales":"max"}).display()

### Funciones

Hay una variedad de funciones que puede importar desde pyspark.sql.functions.

Consulte la documentación para ver la lista completa disponible:
https://spark.apache.org/docs/3.1.1/api/python/reference/pyspark.sql.html#functions

In [0]:
from pyspark.sql.functions import countDistinct, avg, stddev

In [0]:
df.select(countDistinct("Sales")).display()

A menudo querrá cambiar el nombre, use el método .alias() para esto:

In [0]:
df.select(countDistinct("Sales").alias("Distinct Sales")).display()

In [0]:
df.select(avg("Sales")).display()

In [0]:
df.select(stddev("Sales")).display()

Spark devuelve una alta precisión reflejada en la catidad de dígitos. Se utiliza la función `format_number` para arreglar eso.

In [0]:
from pyspark.sql.functions import format_number

In [0]:
sales_std = df.select(stddev("Sales").alias("std"))

In [0]:
sales_std.display()

In [0]:
sales_std.select(format_number("std", 2)).display()   # format_number("column name", decimal places)

#### Order By

Puede ordenar fácilmente con el método orderBy

In [0]:
# OrderBy ascendente
df.orderBy("Sales").display()

In [0]:
# OrderBy descendente
df.orderBy(df["Sales"].desc()).display()