## Funções de Agregação

O PySpark oferece uma ampla variedade de funções para manipulação, transformação e análise de dados em DataFrames e SQL. Essas funções estão organizadas em diferentes categorias, facilitando operações como agregações, manipulação de strings, datas, arrays, mapas, além de permitir a criação de funções definidas pelo usuário (UDFs).

### Principais Categorias de Funções no PySpark

- **Funções de Agregação:** `sum`, `avg`, `count`, `min`, `max`, entre outras, para sumarizar dados.
- **Funções Matemáticas:** Operações matemáticas como `abs`, `round`, `sqrt`, `exp`, `log`.
- **Funções de String:** Manipulação de textos com `concat`, `substr`, `lower`, `upper`, `trim`, `regexp_replace`.
- **Funções de Data e Timestamp:** Conversão e manipulação de datas e horários, como `current_date`, `date_add`, `datediff`, `year`, `month`, `dayofweek`.
- **Funções de Arrays e Mapas:** Operações sobre arrays e mapas, como `size`, `array_contains`, `explode`, `map_keys`.
- **Funções de Estruturas (Struct):** Acesso e manipulação de campos em structs.
- **Funções de Conversão:** Conversão de tipos de dados, como `cast`, `to_date`, `to_timestamp`.
- **Funções Condicionais:** `when`, `otherwise`, `coalesce`, `ifnull`.
- **Funções de Janela (Window):** Operações sobre janelas de dados, como `row_number`, `rank`, `dense_rank`, `lead`, `lag`.
- **Funções de Hash e Criptografia:** `md5`, `sha1`, `crc32`.
- **Funções de JSON, CSV e XML:** Manipulação e extração de dados desses formatos.
- **Funções de UDF (User-Defined Functions):** Permite criar funções personalizadas em Python para aplicar sobre os dados.

Para uma lista completa e detalhada, consulte a [documentação oficial do PySpark](https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/functions.html).

In [0]:

Items = spark.read. \
    format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("/Volumes/workspace/default/tutorial/bike-store/order_items.csv")

display(Items)

In [0]:
display(Items.groupBy("list_price").count())

In [0]:

# Soma de vendas por id de produtos
display(Items.groupBy("product_id").sum("list_price"))


In [0]:
# Salvando resultado em um df 
resultado = Items.groupBy("product_id").sum("list_price")
display(resultado)

In [0]:
# Média de Vendas por produto
display(Items.groupBy("product_id").avg("list_price"))

In [0]:
# Valores mínimos e máximos
display(Items.groupBy("product_id").min("list_price"))
display(Items.groupBy("product_id").max("list_price"))

In [0]:
# Mostra detalhes estatísticos de todo df
# count: Número de registros não nulos.
# mean (média): Valor médio da coluna.
# stddev (desvio padrão): Desvio padrão da coluna.
# min (mínimo): Valor mínimo na coluna.
# 25%: Primeiro quartil (25% dos dados estão abaixo desse valor).
# 50% (mediana): Valor que separa a metade inferior e superior dos dados.
# 75%: Terceiro quartil (75% dos dados estão abaixo desse valor).
# max (máximo): Valor máximo na coluna.
display(Items.summary())

##Agregações em SQL

As funções de agregação em SQL permitem resumir e analisar grandes volumes de dados de forma eficiente. Com elas, é possível calcular totais, médias, contagens, valores mínimos e máximos, entre outras estatísticas, agrupando informações conforme necessário. No contexto do PySpark SQL, essas funções são essenciais para transformar dados brutos em insights valiosos, facilitando a tomada de decisões baseada em dados.

In [0]:

Items = spark.read. \
    format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("/Volumes/workspace/default/tutorial/bike-store/order_items.csv")

Items.createOrReplaceTempView("Items")

In [0]:
%sql 
select * from Items

In [0]:
%sql 
-- agregações 
select 
  min(list_price)   as minimo,
  max(list_price)   as maximo,
  avg(list_price)   as media,
  sum(list_price)   as soma ,
  count(list_price) as contagem
from Items

In [0]:
%sql 
--- Se eu quisese fazer todas agregações por alguma coluna vamos fazer por product_id?

select 
  product_id,
  sum(list_price) as TotalVendas,
  avg(list_price) as MediaVendas,
  count(list_price) as Qnt
from Items
group by product_id
order by TotalVendas desc



In [0]:
%sql 
--- Avaliando por outra coluna item_id por exemplo 
select 
  item_id,
  sum(list_price) as TotalVendas,
  avg(list_price) as MediaVendas,
  count(list_price) as Qnt
from Items
group by item_id
order by TotalVendas desc


In [0]:
#como salvar resultado em um Df ?
resultado = spark.sql("""
select 
  item_id,
  sum(list_price) as TotalVendas,
  avg(list_price) as MediaVendas,
  count(list_price) as Qnt
from Items
group by item_id order by TotalVendas desc
""")

display(resultado)

In [0]:
# Vamos treinar mais com datas?
ordens = spark.read. \
    format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("/Volumes/workspace/default/tutorial/bike-store/orders.csv")

ordens.createOrReplaceTempView("ordens")

In [0]:
%sql
select * from ordens

In [0]:
%sql
-- Quantas vendas por ano  e depois vamos fazer por ano e mes 
select 
  year(order_date) as Ano,
  count(order_id) as qnt
  from ordens
group by Ano
order by Ano

In [0]:
%sql
select 
  year(order_date) as Ano,
  month(order_date) as mes,
  count(order_id) as qnt
from ordens
group by Ano, mes
order by Ano, mes