# 02 — Pandas: groupby, pivot, agregações

Objetivo: dominar o núcleo de análise (equivalente a medidas e agregações do Power BI).

Tempo: ~25–30 min

In [None]:
from pathlib import Path

def find_repo_root(start: Path | None = None) -> Path:
    """Sobe diretórios até encontrar uma 'marca' do repositório (README.md + pasta data)."""
    cur = (start or Path.cwd()).resolve()
    for _ in range(10):
        if (cur / "README.md").exists() and (cur / "data").exists():
            return cur
        cur = cur.parent
    # fallback: assume cwd
    return Path.cwd().resolve()

ROOT = find_repo_root()
DATA_DIR = ROOT / "data"
SAMPLE_DIR = DATA_DIR / "sample"

print("ROOT:", ROOT)
print("SAMPLE_DIR:", SAMPLE_DIR)

In [None]:
import pandas as pd

sales = pd.read_csv(SAMPLE_DIR / "sales.csv")
customers = pd.read_csv(SAMPLE_DIR / "customers.csv")

display(sales.head())
display(customers.head())

## 1) `groupby` + `agg`

Padrão: agrupar por dimensões e agregar métricas (sum, mean, count...).

In [None]:
import pandas as pd

# Receita total por região
rev_by_region = (
    sales.groupby("region", as_index=False)
         .agg(revenue_total=("revenue","sum"), pedidos=("order_id","nunique"))
         .sort_values("revenue_total", ascending=False)
)

rev_by_region

## 2) Multi-agrupamento e métricas

Ex.: região + categoria.

In [None]:
rev_region_cat = (
    sales.groupby(["region","category"], as_index=False)
         .agg(revenue_total=("revenue","sum"), pedidos=("order_id","nunique"), ticket_medio=("revenue","mean"))
         .sort_values(["region","revenue_total"], ascending=[True, False])
)

rev_region_cat.head(10)

## 3) Pivot (tabela dinâmica)

Para quem vem de Excel/Power BI, isso é bem familiar.

In [None]:
pivot = pd.pivot_table(
    sales,
    index="region",
    columns="category",
    values="revenue",
    aggfunc="sum",
    fill_value=0
)

pivot

## Exercícios

1- Calcule receita total por `product`.
2- Faça um pivot com `index=date` e `columns=region` para ver evolução por data.
3- Crie uma tabela com `top 3 produtos` por categoria (use `sort_values` + `groupby().head(3)`).

In [None]:
# Escreva suas respostas aqui
