# 🎯 Aula 3 - Funções agregadas no Pandas 🎯

# Funções Agregadas Básicas

Funções agregadas são essenciais no Pandas para sumarização, análise e interpretação de grandes conjuntos de dados. Elas ajudam a condensar informações, facilitando o entendimento de tendências, padrões e discrepâncias. As principais são: soma, máximo, mínimo, contagem e média. Como conversamos sobre média na seção anterior, aqui focaremos nas outras funções agregadas.

A sumarização de dados é um passo crucial na análise de dados. Ela permite transformar dados brutos em informações compreensíveis, resumindo características importantes dos dados e fornecendo insights valiosos.

## Soma
A função `.sum()` calcula a soma total dos elementos de uma série ou coluna de um DataFrame. É amplamente utilizada em dados numéricos para obter totais, como a soma de vendas, despesas ou contagens.

Por exemplo, se quisermos calcular o valor total de vendas em uma loja durante um dia:

```python
import pandas as pd
# Criando o DataFrame
df = pd.DataFrame({'Vendas': [100, 150, 48, 140 200, 250]})

# Calculando a soma
total_vendas = df['Vendas'].sum()
print("Total de Vendas:", total_vendas)
```

## Máximo

A função `.max()` identifica o maior valor em uma série ou coluna. É crucial para análises que necessitam identificar picos ou valores máximos, como o preço mais alto alcançado por um produto ou a maior pontuação em um teste.

Consideremos o dataframe do exemplo anterior. Podemos calcular o maior valor contido nele utilizando:

```python
df['Vendas'].max()
```

## Mínimo

A função `.min()` encontra o menor valor em uma série ou coluna. É utilizada para determinar mínimos em diversos contextos, como o menor preço de um produto, a menor pontuação em uma avaliação, ou o valor mínimo em um conjunto de dados.

Ainda no exemplo anterior, para encontrarmos o valor mínimo, escrevemos o seguinte código:

```python
df['Vendas'].min()
```

## Contagem

A função `.count()` é usada para contar o número de itens em um conjunto de dados. Em bancos de dados, por exemplo, é frequentemente usada para contar o número de linhas em uma tabela que correspondem a um critério específico.

Usando o dataframe do exemplo anterior, podemos encontrar a contagem de vendas utilizando o código:

```python
df['Vendas'].count()
```

## Primeiro e Último

A função first retorna o primeiro item de um conjunto de dados ordenados. A definição de "primeiro" pode depender do contexto ou da ordenação aplicada ao conjunto de dados. Seu uso geralmente envolve descobrir a primeira vez que um dado evento aconteceu.

De forma semelhante à função first, a função last retorna o último item de um conjunto de dados. Este também depende da forma como os dados estão ordenados ou estruturados. Ela pode ser usada, por exemplo, para encontrar a última ocorrência de um evento num conjunto de dados.

Para vermos a primeira e a última venda no dataframe anterior, podemos escrever:

```python
df['Vendas'].first()
df['Vendas'].last()
```

## Agrupamento com *groupby*
O `.groupby()` é uma técnica que permite agrupar dados com base em categorias e aplicar funções agregadas a cada grupo. Isso é particularmente útil para análises segmentadas e comparativas, como calcular médias, somas ou outros agregados por categorias específicas.
Consideremos o seguinte exemplo para o cálculo da média de vendas por categoria:

```python
df = pd.DataFrame({'Categoria': ['A', 'B', 'A', 'B'], 'Vendas': [100, 200, 150, 250]})
df.groupby('Categoria')['Vendas'].mean()
```

![Output do Group By](https://s3-sa-east-1.amazonaws.com/lcpi/ead7770b-3443-413a-9dbc-84ef159ac6ba.png.png)

**Figura 1 -** *Output da função .groupby usando a média como métrica de agregação no Pandas* (Fonte da imagem: do autor, utilizando o Jupyter Notebook)


## Referências
[Documentação Pandas](https://pandas.pydata.org/docs/)

[Referencia para funções agregadas](https://sparkbyexamples.com/pandas/pandas-aggregate-functions-with-examples/)