Semelhante à cláusula GROUP BY do SQL

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DoubleType
import pyspark.sql.functions as F

In [0]:
#Criando DataFrames no PySpark

dados = [
         ("Anderson", "Vendas", "SP", 1500.00, 34, 1000.00),
         ("Kennedy", "Vendas", "CE", 1200.00, 56, 2000.00),
         ("Bruno", "Vendas", "SP", 1100.00, 30, 2300.00),
         ("Maria", "Finanças", "CE", 3600.00, 24, 2300.00),
         ("Eduardo", "Finanças", "CE", 4500.00, 40, 2400.00),
         ("Mendes", "Finanças", "RS", 8000.00, 36, 1900.00),
         ("Kethlyn", "Finanças", "RS", 1200.00, 53, 1500.00),
         ("Thiago", "Marketing", "GO", 1100.00, 25, 1800.00),
         ("Carla", "Marketing", "GO", 2600.00, 50, 2100.00)
]
esquema = ["nomes", "departamento", "estado", "salario", "idade", "bonus"]

df = spark.createDataFrame(data = dados, schema = esquema,)
df.display()
df.printSchema()

nomes,departamento,estado,salario,idade,bonus
Anderson,Vendas,SP,1500.0,34,1000.0
Kennedy,Vendas,CE,1200.0,56,2000.0
Bruno,Vendas,SP,1100.0,30,2300.0
Maria,Finanças,CE,3600.0,24,2300.0
Eduardo,Finanças,CE,4500.0,40,2400.0
Mendes,Finanças,RS,8000.0,36,1900.0
Kethlyn,Finanças,RS,1200.0,53,1500.0
Thiago,Marketing,GO,1100.0,25,1800.0
Carla,Marketing,GO,2600.0,50,2100.0


SUM() - Mostrar a soma dos salários por departamento

In [0]:
df.groupBy(F.col("departamento")).sum("salario").display()

departamento,sum(salario)
Vendas,3800.0
Finanças,17300.0
Marketing,3700.0


COUNT() - CONTAGEM

In [0]:
#CONTA QUANTAS LINHAS EXISTEM NA TABELA AGRUPADAS PELA COLUNA departamento
df.groupBy(F.col("departamento")).count().display()

departamento,count
Vendas,3
Finanças,4
Marketing,2


MIN() - RETORNA O MENOR VALOR DAQUELE AGRUPAMENTO

In [0]:
df.groupBy(F.col("departamento")).min("salario").show()

MAX() - RETORNA O MAIOR VALOR DAQUELE AGRUPAMENTO

In [0]:
df.groupBy(F.col("departamento")).max("salario").show()

MEAN() - RETORNA A MÉDIA DE UM AGRUPAMENTO

In [0]:
df.groupBy(F.col("departamento")).avg("salario").show()

GROUP BY() com múltiplas colunas

In [0]:
df.groupBy(F.col("departamento"), F.col("estado")).sum("salario", "bonus").show()

AGG() - PERMITE AGREGAR MAIS DE UMA FUNÇÃO

In [0]:
(df.groupBy(F.col("departamento")).agg(
            F.sum("salario").alias("soma_salario"),
            F.mean("salario").alias("media_salario"),
            F.avg("salario").alias("media2_salario"),
            F.sum("bonus").alias("soma_bonus"),
            F.max("bonus").alias("maior_bonus"),
            F.min("bonus").alias("menor_bonus")
            ).display()
)

departamento,soma_salario,media_salario,media2_salario,soma_bonus,maior_bonus,menor_bonus
Vendas,3800.0,1266.6666666666667,1266.6666666666667,5300.0,2300.0,1000.0
Finanças,17300.0,4325.0,4325.0,8100.0,2400.0,1500.0
Marketing,3700.0,1850.0,1850.0,3900.0,2100.0,1800.0


Filtrando DataFrame Agrupado

In [0]:
(df.groupBy(F.col("departamento")).agg(
            F.sum("salario").alias("soma_salario"),https://community.cloud.databricks.com/?o=2405766590045004#
            F.mean("salario").alias("media_salario"),
            F.avg("salario").alias("media2_salario"),
            F.sum("bonus").alias("soma_bonus"),
            F.max("bonus").alias("maior_bonus"),
            F.min("bonus").alias("menor_bonus")
            ).where(F.col("soma_salario") >= 3800).display()
)

departamento,soma_salario,media_salario,media2_salario,soma_bonus,maior_bonus,menor_bonus
Vendas,3800.0,1266.6666666666667,1266.6666666666667,5300.0,2300.0,1000.0
Finanças,17300.0,4325.0,4325.0,8100.0,2400.0,1500.0
