Semelhante à cláusula GROUP BY do SQL

**BIBLIOTECAS**

In [0]:
import pyspark.sql.functions as F
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType

**CRIANDO UM DATAFRAME PYSPARK**

In [0]:
dados = [
         ("Anderson", "Vendas", "SP", 1500.00, 34, 1000.00),
         ("Kennedy", "Vendas", "CE", 1200.00, 56, 2000.00),
         ("Bruno", "Vendas", "SP", 1100.00, 30, 2300.00),
         ("Maria", "Financas", "CE", 3600.00, 24, 2300.00),
         ("Eduardo", "Financas", "CE", 4500.00, 40, 2400.00),
         ("Mendes", "Financas", "RS", 8000.00, 36, 1900.00),
         ("Kethlyn", "Financas", "RS", 1200.00, 53, 1500.00),
         ("Thiago", "Marketing", "GO", 1100.00, 25, 1800.00),
         ("Carla", "Marketing", "GO", 2600.00, 50, 2100.00)
]

schema = ["Nome", "Departamento", "Estado", "Salario", "Idade", "Bonus"]
df = spark.createDataFrame(data=dados, schema=schema)
df.printSchema()
#df.show()
display(df)

Nome,Departamento,Estado,Salario,Idade,Bonus
Anderson,Vendas,SP,1500.0,34,1000.0
Kennedy,Vendas,CE,1200.0,56,2000.0
Bruno,Vendas,SP,1100.0,30,2300.0
Maria,Financas,CE,3600.0,24,2300.0
Eduardo,Financas,CE,4500.0,40,2400.0
Mendes,Financas,RS,8000.0,36,1900.0
Kethlyn,Financas,RS,1200.0,53,1500.0
Thiago,Marketing,GO,1100.0,25,1800.0
Carla,Marketing,GO,2600.0,50,2100.0


**FUNÇÃO SOMA "SUM()"**

Mostrar a soma dos salários por departamento

In [0]:
#df.groupby(F.col("Departamento")).sum("Salario").show()
display(df.groupby(F.col("Departamento")).sum("Salario"))

Departamento,sum(Salario)
Vendas,3800.0
Financas,17300.0
Marketing,3700.0


**FUNÇÃO CONTAR "COUNT()"**

Conta quantas linhas existem na tabela agrupadas pela coluna Departamento

In [0]:
#df.groupby(F.col("Departamento")).count().show()
display(df.groupby(F.col("Departamento")).count())

Departamento,count
Vendas,3
Financas,4
Marketing,2


**FUNÇÃO MÍNIMO "MIN()"**

Retorna o menor valor daquele agrupamento

In [0]:
#df.groupby(F.col("Departamento")).min("Salario").show()
df.groupby(F.col("Departamento")).min("Salario").display()

Departamento,min(Salario)
Vendas,1100.0
Financas,1200.0
Marketing,1100.0


**FUNÇÃO MAXIMO "MAX()"**

Retorna o maior valor daquele agrupamento

In [0]:
#df.groupby(F.col("Departamento")).max("Salario").show()
df.groupby(F.col("Departamento")).max("Salario").display()

Departamento,max(Salario)
Vendas,1500.0
Financas,8000.0
Marketing,2600.0


**FUNÇÃO MEDIA "MEAN()"**

Retorna o media do valor daquele agrupamento

In [0]:
#df.groupby(F.col("Departamento")).mean("Salario").show()
df.groupby(F.col("Departamento")).mean("Salario").display()

Departamento,avg(Salario)
Vendas,1266.6666666666667
Financas,4325.0
Marketing,1850.0


**FUNÇÃO MEDIA "AVG()"**

Retorna o media do valor daquele agrupamento

In [0]:
#df.groupby(F.col("Departamento")).avg("Salario").show()
df.groupby(F.col("Departamento")).avg("Salario").display()

Departamento,avg(Salario)
Vendas,1266.6666666666667
Financas,4325.0
Marketing,1850.0


**FUNÇÃO GROUP BY POR MULTIPLAS COLUNAS "GROUPBY()"**

In [0]:
#df.groupBy(F.col("Departamento"), F.col("Estado")).sum("Salario", "Bonus").show()
df.groupBy(F.col("Departamento"), F.col("Estado")).sum("Salario", "Bonus").display()

Departamento,Estado,sum(Salario),sum(Bonus)
Vendas,SP,2600.0,3300.0
Vendas,CE,1200.0,2000.0
Financas,CE,8100.0,4700.0
Financas,RS,9200.0,3400.0
Marketing,GO,3700.0,3900.0


**FUNÇÃO AGREGATE "AGG()"**

Permite agregar mais de uma função

In [0]:
(df.groupBy(F.col("Departamento")).agg(
            F.sum("Salario").alias("Soma_Salario"),
            F.mean("Salario").alias("Media_Salario"),
            F.avg("Salario").alias("Media_Salario2"),
            F.sum("Bonus").alias("Soma_Bonus"),
            F.max("Bonus").alias("Maior_Bonus"),
            F.min("Bonus").alias("Menor_Bonus")
            ).display()
)

Departamento,Soma_Salario,Media_Salario,Media_Salario2,Soma_Bonus,Maior_Bonus,Menor_Bonus
Vendas,3800.0,1266.6666666666667,1266.6666666666667,5300.0,2300.0,1000.0
Financas,17300.0,4325.0,4325.0,8100.0,2400.0,1500.0
Marketing,3700.0,1850.0,1850.0,3900.0,2100.0,1800.0


**FILTRANDO DATAFRAME AGRUPADO "WHERE()"**

In [0]:
(df.groupBy(F.col("Departamento")).agg(
            F.sum("Salario").alias("Soma_Salario"),
            F.round(F.mean("Salario"), 2).alias("Media_Salario"),
            F.round(F.avg("Salario"), 2).alias("Media_Salario2"),
            F.sum("Bonus").alias("Soma_Bonus"),
            F.max("Bonus").alias("Maior_Bonus"),
            F.min("Bonus").alias("Menor_Bonus")
            ).where(F.col("Soma_Salario") >= 3800).display()
)

Departamento,Soma_Salario,Media_Salario,Media_Salario2,Soma_Bonus,Maior_Bonus,Menor_Bonus
Vendas,3800.0,1266.67,1266.67,5300.0,2300.0,1000.0
Financas,17300.0,4325.0,4325.0,8100.0,2400.0,1500.0
