# Agregação no Apache Spark

O Apache Spark fornece uma variedade de funções para realizar operações de agregação em DataFrames. Essas operações são úteis para resumir dados, calcular estatísticas e criar janelas temporais para análises avançadas.

## Funções de Agregação

As funções de agregação permitem realizar operações em colunas de dados:

| Função                          | Descrição                                                | Exemplo de Caso de Uso                    |
|---------------------------------|----------------------------------------------------------|-------------------------------------------|
| `avg(col)`                      | Calcula a média dos valores em uma coluna                | Calcular a média de pontuações.           |
| `sum(col)`                      | Calcula a soma dos valores em uma coluna                 | Calcular a soma de vendas.                |
| `min(col)`                      | Encontra o valor mínimo em uma coluna                   | Encontrar a idade mínima dos funcionários. |
| `max(col)`                      | Encontra o valor máximo em uma coluna                   | Encontrar a idade máxima dos funcionários. |
| `count(col)`                    | Conta o número de registros não nulos em uma coluna      | Contar o número de vendas válidas.        |
| `first(col, ignorenulls=False)` | Retorna o primeiro valor não nulo em uma coluna          | Obter o primeiro registro de uma coluna.  |
| `last(col, ignorenulls=False)`  | Retorna o último valor não nulo em uma coluna            | Obter o último registro de uma coluna.    |

## Funções de Janela (Window Functions)

As funções de janela permitem realizar cálculos em janelas temporais de dados:

| Função                          | Descrição                                                | Exemplo de Caso de Uso                    |
|---------------------------------|----------------------------------------------------------|-------------------------------------------|
| `row_number()`                  | Atribui um número de linha a cada registro na janela    | Atribuir uma classificação a registros.   |
| `rank()`                        | Atribui uma classificação aos registros na janela       | Classificar registros em uma janela.      |
| `dense_rank()`                  | Atribui uma classificação densa aos registros na janela  | Classificar registros, tratando empates.  |
| `percent_rank()`                | Calcula a classificação percentual dos registros na janela | Determinar a posição relativa dos registros. |
| `lead(col, offset, default)`    | Retorna o valor de uma coluna adiante na janela           | Analisar valores futuros em séries temporais. |
| `lag(col, offset, default)`     | Retorna o valor de uma coluna anterior na janela         | Analisar valores passados em séries temporais. |
| `first_value(col)`              | Retorna o primeiro valor de uma coluna na janela         | Obter o valor inicial em uma janela.        |
| `last_value(col)`               | Retorna o último valor de uma coluna na janela           | Obter o valor final em uma janela.          |

## Funções de Classificação (Sort Functions)

As funções de classificação permitem classificar registros em ordem crescente ou decrescente com base em uma ou mais colunas:

| Função                          | Descrição                                                | Exemplo de Caso de Uso                    |
|---------------------------------|----------------------------------------------------------|-------------------------------------------|
| `asc(col)`                      | Classifica em ordem crescente com base na coluna         | Classificar funcionários por nome.        |
| `desc(col)`                     | Classifica em ordem decrescente com base na coluna       | Classificar vendas em ordem decrescente.   |

## Funções de Agrupamento (Grouping Functions)

As funções de agrupamento permitem realizar operações em grupos de dados:

| Função                          | Descrição                                                | Exemplo de Caso de Uso                    |
|---------------------------------|----------------------------------------------------------|-------------------------------------------|
| `grouping(col)`                 | Verifica se uma coluna está em um grupo                   | Identificar colunas agregadas em uma consulta. |
| `grouping_id()`                 | Retorna um ID que representa os grupos de agregação      | Calcular estatísticas personalizadas em grupos. |
