## 🎓 **Aula sobre: Pandas GroupBy**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida           | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                 | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões            | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação              | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais  | Opcional       | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **GroupBy:** operação “Split-Apply-Combine” para agrupar dados.  
> - **split:** divide em grupos por chave.  
> - **apply:** aplica função a cada grupo.  
> - **combine:** junta os resultados em um DataFrame ou Series.  
> - **agg / transform / filter:** modos de aplicar agregações, transformações e filtragens.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
O **GroupBy** funciona em três etapas:  
1. **Split:** separa o DataFrame em sub-frames por valores de coluna (chave).  
2. **Apply:** executa uma função (soma, média, custom…) em cada sub-frame.  
3. **Combine:** une os resultados mantendo a estrutura de índice.

<br>

#### **🔗 Analogia de Data Science**  
Imagine um armazém com caixas etiquetadas por cidade.  
- **Split:** você separa todas as caixas por cidade.  
- **Apply:** conta itens dentro de cada caixa (por cidade).  
- **Combine:** monta um quadro com “cidade vs total de itens”.

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Soma e Média por Grupo**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'cidade': ['SP','RJ','SP','MG','RJ','MG'],
    'vendas': [100,150,200,120,130,80]
})
# Soma de vendas por cidade
sum_vendas = df.groupby('cidade')['vendas'].sum()
# Média de vendas por cidade
mean_vendas = df.groupby('cidade')['vendas'].mean()
print(sum_vendas)
print(mean_vendas)


In [1]:
# Pratique seu código aqui!

import pandas as pd
df = pd.DataFrame({
    'cidade': ['SP','RJ','SP','MG','RJ','MG'],
    'vendas': [100,150,200,120,130,80]
})

sum_vendas = df.groupby('cidade')['vendas'].sum()
mena_vendas = df.groupby('cidade')['vendas'].mean()

print(sum_vendas)
print("\n")
print(mena_vendas)

cidade
MG    200
RJ    280
SP    300
Name: vendas, dtype: int64


cidade
MG    100.0
RJ    140.0
SP    150.0
Name: vendas, dtype: float64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas como pd.”  
  import pandas as pd

  # “Crie DataFrame com vendas por cidade.”  
  df = pd.DataFrame({...})

  # “GroupBy cidade e some vendas.”  
  sum_vendas = df.groupby('cidade')['vendas'].sum()

  # “GroupBy cidade e calcule média.”  
  mean_vendas = df.groupby('cidade')['vendas'].mean()

  # “Exiba soma e média.”  
  print(sum_vendas)
  print(mean_vendas)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo            | Expressão                        | Saída                  | O que faz?              |
  |:----------------:|:---------------------------------|:-----------------------|:------------------------|
  | 1                | `sum_vendas`                     | MG:200; RJ:280; SP:300 | Soma por cidade         |
  | 2                | `mean_vendas`                    | MG:100; RJ:140; SP:150 | Média por cidade        |
  | 3                | –                                | imprime                | Saída final             |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Separe todas as caixas por etiqueta “cidade”, conte o valor total em cada pilha para soma, depois divida pelo número de caixas para média.

* **Cenário de Mercado:**  
  Em **BI de vendas**, agrupar vendas por região para relatórios mensais, identificando áreas de alto e baixo desempenho muito rapidamente.

* **Boas Práticas:**  
  - **Afirmação:** “Defina `as_index=False` se quiser o resultado como DataFrame.”  
    - **Porquê:** Mantém coluna de chave visível em vez de virar índice.  
    - **Analogia:** É como deixar etiquetas coladas nas caixas mesmo após contagem.


#### **Nível Intermediário: Multipla Agregação e Filtragem**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'categoria': ['A','A','B','B','C','C'],
    'valor': [10,15,10,20,5,25]
})
# Múltiplas agregações
agg = df.groupby('categoria')['valor'].agg(['sum','mean','max'])
# Filtra categorias com soma > 20
filtered = agg[agg['sum'] > 20]
print(agg)
print(filtered)


In [10]:
# Pratique seu código aqui!

import pandas as pd
df = pd.DataFrame({
    'categoria': ['A','A','B','B','C','C'],
    'valor': [5,10,10,20,40,30]
})

agg = df.groupby('categoria')['valor'].agg(['sum', 'mean', 'max'])
filtered = agg[agg['sum'] > 20]

print(agg)
print("\n")
print(filtered)
print("\n")
filtered


           sum  mean  max
categoria                
A           15   7.5   10
B           30  15.0   20
C           70  35.0   40


           sum  mean  max
categoria                
B           30  15.0   20
C           70  35.0   40




Unnamed: 0_level_0,sum,mean,max
categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
B,30,15.0,20
C,70,35.0,40


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame com categorias e valores.”  
  df = pd.DataFrame({...})

  # “GroupBy categoria e aplique sum, mean e max.”  
  agg = df.groupby('categoria')['valor'].agg(['sum','mean','max'])

  # “Filtre grupos cujo sum > 20.”  
  filtered = agg[agg['sum'] > 20]

  # “Mostre agregações e filtragem.”  
  print(agg)
  print(filtered)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo       | Expressão                   | Saída                     | O que faz?                         |
  |:-----------:|:----------------------------|:--------------------------|:-----------------------------------|
  | 1           | `agg`                        | tabela com sum, mean, max | Agrega múltiplas estatísticas     |
  | 2           | `filtered`                   | somente A e C             | Filtra sum >20                     |
  | 3           | –                            | imprime                   | Saída final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como ter uma tabela de desempenho por time com pontos, média de gols e maior goleada, depois escolher apenas times com pontos altos.

* **Cenário de Mercado:**  
  Em **analytics de clientes**, agrupar por segmento e calcular múltiplos KPIs (gasto total, ticket médio, maior compra) para segmentação eficaz.

* **Boas Práticas:**  
  - **Afirmação:** “Use `agg` para clareza e performance.”  
    - **Porquê:** Executa uma passada só nos dados para todas as funções.  
    - **Analogia:** É como cortar vários ingredientes de uma vez em uma única tigela.


#### **Nível Avançado: Transform e Apply em GroupBy**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'grupo': ['X','X','Y','Y','Y'],
    'valor': [1,2,3,4,5]
})
# Transform: z-score por grupo
z = df.groupby('grupo')['valor'].transform(lambda x: (x - x.mean())/x.std())
# Apply: retornar DataFrame customizado
custom = df.groupby('grupo').apply(lambda g: pd.Series({
    'sum': g['valor'].sum(),
    'count': g['valor'].count()
}))
print(z)
print(custom)


In [16]:
# Pratique seu código aqui!

import pandas as pd
df = pd.DataFrame({
    'grupo': ['X','X','Y','Y','Y'],
    'valor': [1,2,3,4,5]
})

print(df)
print("\n")

z = df.groupby('grupo')['valor'].transform(lambda x: (x-x.mean())/x.std())

custom = df.groupby('grupo').apply(lambda g: pd.Series({
    'sum': g['valor'].sum(),
    'count': g['valor'].count()
}))

print(z)
print("\n")
print(custom)

  grupo  valor
0     X      1
1     X      2
2     Y      3
3     Y      4
4     Y      5


0   -0.707107
1    0.707107
2   -1.000000
3    0.000000
4    1.000000
Name: valor, dtype: float64


       sum  count
grupo            
X        3      2
Y       12      3


  custom = df.groupby('grupo').apply(lambda g: pd.Series({


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame com grupos X e Y.”  
  df = pd.DataFrame({...})

  # “Transform: calcule z-score dentro de cada grupo.”  
  z = df.groupby('grupo')['valor'].transform(lambda x: (x-x.mean())/x.std())

  # “Apply: retorne sum e count por grupo como Series.”  
  custom = df.groupby('grupo').apply(lambda g: pd.Series({
      'sum': g['valor'].sum(),
      'count': g['valor'].count()
  }))

  # “Exiba resultados.”  
  print(z)
  print(custom)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo        | Expressão           | Saída                        | O que faz?                            |
  |:------------:|:--------------------|:-----------------------------|:--------------------------------------|
  | 1            | `z`                  | Série de z-scores            | Normaliza por grupo                  |
  | 2            | `custom`             | DataFrame sum/count          | Retorna estatísticas custom por grupo |
  | 3            | –                    | imprime                      | Saída final                           |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Transform é como padronizar notas em cada sala de aula; apply é como criar relatório com totais e contagens de cada sala.

* **Cenário de Mercado:**  
  Em **engenharia de features**, usar transform para normalizar dados dentro de cada categoria antes de modelagem.

* **Boas Práticas:**  
  - **Afirmação:** “Prefira `transform` para manter alinhamento original.”  
    - **Porquê:** `apply` pode alterar índice e shape.


#### **Nível DEUS (1/3): GroupBy em MultiIndex com Níveis Múltiplos**


In [None]:
import pandas as pd
arrays = [['Loja1','Loja1','Loja2','Loja2'], [2020,2021,2020,2021]]
idx = pd.MultiIndex.from_arrays(arrays, names=('loja','ano'))
df2 = pd.DataFrame({'vendas':[100,120,80,90]}, index=idx)
# Soma vendas por loja e ano
multi = df2.groupby(level=['loja','ano']).sum()
print(multi)


In [21]:
# Pratique seu código aqui!

import pandas as pd

arrays = [['Loja1','Loja1','Loja2','Loja2'], [2020,2021,2020,2021]]
idx = pd.MultiIndex.from_arrays(arrays, names=('loja', 'ano'))
print(idx)
print("\n")

df2 = pd.DataFrame({'vendas': [100, 120, 80, 90]}, index=idx)
print(df2)
print("\n")

multi = df2.groupby(level=['loja', 'ano']).sum()
print(multi)


MultiIndex([('Loja1', 2020),
            ('Loja1', 2021),
            ('Loja2', 2020),
            ('Loja2', 2021)],
           names=['loja', 'ano'])


            vendas
loja  ano         
Loja1 2020     100
      2021     120
Loja2 2020      80
      2021      90


            vendas
loja  ano         
Loja1 2020     100
      2021     120
Loja2 2020      80
      2021      90


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie MultiIndex de loja e ano.”  
  idx = pd.MultiIndex.from_arrays(...)

  # “Monte DataFrame com vendas.”  
  df2 = pd.DataFrame({...}, index=idx)

  # “GroupBy níveis loja e ano e some.”  
  multi = df2.groupby(level=['loja','ano']).sum()

  # “Mostre resultado.”  
  print(multi)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo   | Expressão                      | Saída             | O que faz?                        |
  |:-------:|:-------------------------------|:------------------|:----------------------------------|
  | 1       | `multi`                        | MultiIndex DF     | Agrega em níveis especificados    |
  | 2       | –                              | imprime           | Saída final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como contar vendas de cada loja por ano, mantendo hierarquia de pastas “loja/ano”.

* **Cenário de Mercado:**  
  Em **relatórios financeiros**, agrupar por departamento e trimestre para análise detalhada.

* **Boas Práticas:**  
  - **Afirmação:** “Use `level` para granularidade exata.”  
    - **Porquê:** Evita redefinir índices manualmente.


#### **Nível DEUS (2/3): Rolling GroupBy (janelamento por grupo)**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'grupo': ['A','A','A','B','B','B'],
    'valor': [1,2,3,4,5,6]
})
# Z-score rolante de janela 2 por grupo
roll = df.groupby('grupo')['valor'].rolling(window=2).mean().reset_index(level=0, drop=True)
print(roll)


In [26]:
# Pratique seu código aqui!

import pandas as pd
df = pd.DataFrame({
    'grupo': ['A','A','A','B','B','B'],
    'valor': [1,2,3,4,5,6]
})


print(df)
print("\n")

roll = df.groupby('grupo')['valor'].rolling(window=2).mean().reset_index(level=0, drop=True)
print(roll)


  grupo  valor
0     A      1
1     A      2
2     A      3
3     B      4
4     B      5
5     B      6


0    NaN
1    1.5
2    2.5
3    NaN
4    4.5
5    5.5
Name: valor, dtype: float64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame com grupos A e B.”  
  df = pd.DataFrame({...})

  # “GroupBy e rolling window 2 para media rolante.”  
  roll = df.groupby('grupo')['valor'].rolling(window=2).mean().reset_index(level=0, drop=True)

  # “Mostre médias rolantes.”  
  print(roll)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão               | Saída            | O que faz?                    |
  |:-----:|:------------------------|:-----------------|:------------------------------|
  | 1     | `roll`                  | Série de médias  | Média rolante por grupo      |
  | 2     | –                       | imprime          | Saída final                   |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como calcular média das duas últimas temperaturas registradas para cada sensor em lotes.


#### **Nível DEUS (3/3): GroupBy com `.pipe()` em Pipeline Complexo**


In [None]:
import pandas as pd
def sum_group(df):
    return df.groupby('grupo')['valor'].sum().reset_index(name='total')
def add_ratio(df):
    df['ratio'] = df['total'] / df['total'].sum()
    return df

df = pd.DataFrame({'grupo': ['X','X','Y','Y'], 'valor':[10,20,30,40]})
result = (df
          .pipe(sum_group)
          .pipe(add_ratio))
print(result)


In [27]:
# Pratique seu código aqui!

import pandas as pd
def sum_group(df):
  return df.groupby('grupo')['valor'].sum().reset_index(name='total')
def add_ratio(df):
  df['ratio'] = df['total']/ df['total'].sum()
  return df

df = pd.DataFrame({'grupo': ['X','X','Y','Y'], 'valor':[10,20,30,40]})
result = (df
          .pipe(sum_group)
          .pipe(add_ratio))
print(result)


  grupo  total  ratio
0     X     30    0.3
1     Y     70    0.7


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Defina sum_group para agregar soma por grupo.”  
  def sum_group(df): …

  # “Defina add_ratio para calcular proporções.”  
  def add_ratio(df): …

  # “Crie DataFrame com grupos e valores.”  
  df = pd.DataFrame({...})

  # “Aplique pipeline: soma e depois razãoporcentual.”  
  result = df.pipe(sum_group).pipe(add_ratio)

  # “Mostre resultado.”  
  print(result)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Expressão                 | Saída              | O que faz?                           |
  |:--------:|:--------------------------|:-------------------|:-------------------------------------|
  | 1        | `pipe(sum_group)`         | DF com total       | Soma agregada                        |
  | 2        | `pipe(add_ratio)`         | DF com ratio       | Ratio de participação no total       |
  | 3        | –                         | imprime            | Saída final                          |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pipeline é linha de montagem: na primeira estação soma itens, na segunda calcula participação de cada grupo.

* **Cenário de Mercado:**  
  Em **marketing analytics**, agrupar gastos por campanha e depois calcular porcentagem de budget por campanha.

* **Boas Práticas:**  
  - **Afirmação:** “Encadeie GroupBy + pipe para legibilidade.”  
    - **Porquê:** Separa lógica de agregação e pós-processamento.


### 3. 🕸️ Profundezas e Conexões

<br>

GroupBy do Pandas inspira APIs em **SQL** (`GROUP BY`), **dplyr** (`summarise`), e **Spark** (`.groupBy()`), possibilitando operações em larga escala e integração direta com pipelines de big data.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Carregue `/mnt/data/exemplo.csv` e agrupe por coluna `categoria`, calculando soma e média de `valor`.  
2. Aplique múltiplas agregações (`sum`, `min`, `max`) em colunas numéricas de um DataFrame complexo.  
3. Filtre grupos cujo total de vendas seja maior que 500 com `filter()`.  
4. Use `transform()` para padronizar (`z-score`) valores dentro de cada grupo.  
5. Monte pipeline com `pipe()` que agrupa por `regiao`, soma `vendas` e acrescenta coluna `pct = vendas / vendas.sum()`.

<br>

#### **❓ Pergunta de Verificação**
Como escolher entre `agg()`, `transform()` e `apply()` para diferentes necessidades de GroupBy?

<br>

---
<br>


### **Resposta Rápida**

Use `.agg()` para **resumir** grupos com estatísticas, `.transform()` para **manter o shape original com valores transformados**, e `.apply()` para aplicar **funções arbitrárias** com **máxima flexibilidade**, mas com menor performance.

---

### **Analogia do Dia**

Imagine que você está analisando dados de vendas por loja:

* `.agg()` é como calcular o **total ou média de cada loja** → você gera **um resumo por grupo**
* `.transform()` é como **anotar a média da loja em cada linha da loja**
* `.apply()` é como dizer: “faça algo **customizado por loja**, talvez até retorne um DataFrame novo por grupo”

---

### **Análise Técnica Detalhada**

---

#### 1. 🔢 `.agg()` → **Agregação (reduz o grupo)**

```python
df.groupby("loja")["vendas"].agg("sum")
```

✅ Ideal para:

* Estatísticas **resumidas** (soma, média, contagem...)
* Várias métricas ao mesmo tempo:

```python
df.groupby("loja").agg({
    "vendas": ["sum", "mean"],
    "clientes": "count"
})
```

📉 Reduz os grupos → **resultado menor**

---

#### 2. 🔄 `.transform()` → **Transformação por grupo (mantém forma)**

```python
df["média_da_loja"] = df.groupby("loja")["vendas"].transform("mean")
```

✅ Ideal para:

* Normalização ou preenchimento por grupo
* Criar **colunas auxiliares com estatísticas por grupo**
* **Mantém o número de linhas** original!

---

#### 3. 🧠 `.apply()` → **Função customizada (poder total)**

```python
df.groupby("loja").apply(lambda grupo: grupo.head(1))
```

✅ Ideal para:

* Operações complexas por grupo (ex: retornar múltiplas colunas, aplicar `rank`, usar `rolling`, etc.)
* Combinar várias operações em uma

⚠️ **Mais lento**, pois aplica função **linha a linha ou grupo a grupo**
⚠️ Pode **mudar a forma** do resultado (linhas e colunas)

---

### **Nota de Rodapé para Novatos**

* **GroupBy**: Técnica para agrupar dados com base em uma coluna (ex: cidade, loja).
* **agg()**: Agrega (resume) valores em uma única linha por grupo.
* **transform()**: Aplica função a cada grupo e retorna uma **Series do mesmo tamanho** do original.
* **apply()**: Executa uma função arbitrária por grupo, podendo alterar forma e estrutura do resultado.

---

### **Aplicação Prática e Boas Práticas**

✅ **Ciência de dados com Pandas**:

* `.agg()` → Relatórios, dashboards, resumo por categorias
* `.transform()` → Criação de novas colunas normalizadas por grupo (ex: z-score, média local)
* `.apply()` → Pré-processamento específico (ex: pegar top 2 por grupo, aplicar modelo per grupo)

💡 Boas práticas:

```python
# Usando transform para padronizar vendas por loja
df["vendas_zscore"] = (
    df["vendas"] - df.groupby("loja")["vendas"].transform("mean")
) / df.groupby("loja")["vendas"].transform("std")
```

---

### **Resumo da Lição**

Escolha `.agg()` para **resumir**, `.transform()` para **recalcular mantendo a forma**, e `.apply()` quando precisar de **controle total** — mas com consciência de custo de performance.

---
