# Aula 06 - Pandas Intermediário: GroupBy, Merge e Transformações
**Curso:** Programação para Ciência de Dados  
**Aluno:** [Seu Nome Aqui]  
**Data:** [Data Atual]

## Instruções
1. Complete todos os exercícios marcados com `# === SEU CÓDIGO AQUI ===`
2. Execute as células de teste para verificar suas respostas
3. **Tempo estimado total:** 30 minutos

## Critérios de Avaliação
- **Conteúdo (100%):** Testes automáticos

## Objetivo
Consolidar conhecimentos de groupby, merge, pivot e transformações.

In [None]:
# === CONFIGURAÇÃO INICIAL ===

!pip install --upgrade pip --quiet
!pip cache purge
!pip install otter-grader --no-cache-dir -q
!mkdir -p tests

print("Ambiente configurado!")

In [None]:
%%writefile tests/q1.py
OK_FORMAT = True

test = {
    "name": "q1",
    "points": 3,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Retorna DataFrame
>>> import pandas as pd
>>> df = pd.DataFrame({'produto': ['A', 'B'], 'quantidade': [10, 20], 'preco': [5, 10]})
>>> resultado = analisar_vendas_por_produto(df)
>>> isinstance(resultado, pd.DataFrame)
True
""",
                    "hidden": False,
                    "locked": False
                },
                {
                    "code": r"""
>>> # Teste 2: Colunas corretas
>>> import pandas as pd
>>> df = pd.DataFrame({'produto': ['A', 'B'], 'quantidade': [10, 20], 'preco': [5, 10]})
>>> resultado = analisar_vendas_por_produto(df)
>>> 'total_vendido' in resultado.columns and 'ticket_medio' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
%%writefile tests/q2.py
OK_FORMAT = True

test = {
    "name": "q2",
    "points": 3,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Merge correto
>>> import pandas as pd
>>> df1 = pd.DataFrame({'id': [1, 2], 'nome': ['A', 'B']})
>>> df2 = pd.DataFrame({'id': [1, 3], 'valor': [10, 30]})
>>> resultado = combinar_dataframes_left(df1, df2)
>>> len(resultado) == 2
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
%%writefile tests/q3.py
OK_FORMAT = True

test = {
    "name": "q3",
    "points": 2,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Pivot correto
>>> import pandas as pd
>>> df = pd.DataFrame({'categoria': ['A', 'B'], 'mes': ['Jan', 'Jan'], 'valor': [10, 20]})
>>> resultado = criar_tabela_cruzada(df)
>>> isinstance(resultado, pd.DataFrame)
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
%%writefile tests/q4.py
OK_FORMAT = True

test = {
    "name": "q4",
    "points": 2,
    "suites": [
        {
            "cases": [
                {
                    "code": r"""
>>> # Teste 1: Transformação aplicada
>>> import pandas as pd
>>> df = pd.DataFrame({'categoria': ['A', 'A', 'B'], 'valor': [10, 20, 30]})
>>> resultado = normalizar_por_grupo(df)
>>> 'valor_normalizado' in resultado.columns
True
""",
                    "hidden": False,
                    "locked": False
                }
            ],
            "scored": True,
            "setup": "",
            "teardown": "",
            "type": "doctest"
        }
    ]
}

In [None]:
import otter
import pandas as pd
import numpy as np

grader = otter.Notebook()

print("✓ Otter Grader carregado")
print("✓ Pandas importado")
print(f"✓ Versão Pandas: {pd.__version__}")

# Exercício 1: Análise Completa com GroupBy

## Descrição
Dado um DataFrame com vendas contendo:
- produto: nome do produto
- quantidade: unidades vendidas
- preco: preço unitário

Agrupe por produto e calcule:
1. total_vendido: quantidade total vendida
2. receita_total: soma de (quantidade × preço)
3. ticket_medio: receita_total / total_vendido

## Exemplo
```python
df = pd.DataFrame({
    'produto': ['Mouse', 'Mouse', 'Teclado'],
    'quantidade': [10, 5, 8],
    'preco': [50, 50, 120]
})

analisar_vendas_por_produto(df)
#          total_vendido  receita_total  ticket_medio
# produto                                             
# Mouse              15            750          50.0
# Teclado             8            960         120.0
```

## Dicas
- Primeiro calcule uma coluna 'receita' = quantidade × preco
- Use groupby().agg() com dicionário para múltiplas agregações
- Ticket médio = receita total / quantidade total

**Tempo estimado:** 10 minutos

In [None]:
def analisar_vendas_por_produto(df):
    """
    Analisa vendas agrupadas por produto.

    Args:
        df (pd.DataFrame): DataFrame com 'produto', 'quantidade', 'preco'

    Returns:
        pd.DataFrame: Análise por produto
    """
    # === SEU CÓDIGO AQUI ===



    # === FIM DO SEU CÓDIGO ===

In [None]:
# Criar DataFrame de vendas
df_vendas = pd.DataFrame({
    'produto': ['Mouse', 'Teclado', 'Monitor', 'Mouse', 'Teclado', 'Mouse', 'Monitor'],
    'quantidade': [10, 5, 2, 15, 8, 5, 3],
    'preco': [45.00, 120.00, 890.00, 50.00, 115.00, 45.00, 900.00]
})

print("=== TESTE Q1 ===")
print("\n=== DADOS ORIGINAIS ===")
print(df_vendas)

# Analisar vendas
analise = analisar_vendas_por_produto(df_vendas)

print("\n=== ANÁLISE POR PRODUTO ===")
print(analise)

print("\n=== INSIGHTS ===")
print(f"Produto mais vendido: {analise['total_vendido'].idxmax()}")
print(f"Quantidade: {analise['total_vendido'].max():.0f} unidades")

print(f"\nProduto com maior receita: {analise['receita_total'].idxmax()}")
print(f"Receita: R$ {analise['receita_total'].max():,.2f}")

print(f"\nProduto com maior ticket médio: {analise['ticket_medio'].idxmax()}")
print(f"Ticket: R$ {analise['ticket_medio'].max():,.2f}")

grader.check("q1")

# Exercício 2: Merge com Left Join

## Descrição
Você tem dois DataFrames:
- df_clientes: id, nome, cidade
- df_compras: id, total_compras, ultima_compra

Nem todos os clientes fizeram compras.

Faça um LEFT JOIN para manter TODOS os clientes,
preenchendo com 0 os clientes sem compras.

## Exemplo
```python
df1 = pd.DataFrame({
    'id': [1, 2, 3],
    'nome': ['Ana', 'Bruno', 'Carlos']
})
df2 = pd.DataFrame({
    'id': [1, 3],
    'total_compras': [500, 300]
})

combinar_dataframes_left(df1, df2)
#    id    nome  total_compras
# 0   1     Ana          500.0
# 1   2   Bruno            0.0
# 2   3  Carlos          300.0
```

## Dicas
- Use pd.merge() com how='left'
- Use fillna(0) para preencher valores faltantes

**Tempo estimado:** 8 minutos

In [None]:
def combinar_dataframes_left(df_clientes, df_compras):
    """
    Faz left join e preenche valores faltantes com 0.

    Args:
        df_clientes (pd.DataFrame): DataFrame de clientes
        df_compras (pd.DataFrame): DataFrame de compras

    Returns:
        pd.DataFrame: DataFrames combinados
    """
    # === SEU CÓDIGO AQUI ===



    # === FIM DO SEU CÓDIGO ===

In [None]:
# Criar DataFrames de exemplo
df_clientes = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'nome': ['Ana Silva', 'Bruno Costa', 'Carlos Souza', 'Diana Lima', 'Eduardo Santos'],
    'cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo', 'Curitiba']
})

df_compras = pd.DataFrame({
    'id': [1, 3, 5],
    'total_compras': [1500.00, 890.00, 2300.00],
    'numero_pedidos': [5, 3, 8]
})

print("=== TESTE Q2 ===")
print("\n=== CLIENTES ===")
print(df_clientes)

print("\n=== COMPRAS ===")
print(df_compras)

# Combinar com left join
df_completo = combinar_dataframes_left(df_clientes, df_compras)

print("\n=== DADOS COMBINADOS (LEFT JOIN) ===")
print(df_completo)

print("\n=== ANÁLISE ===")
print(f"Total de clientes: {len(df_completo)}")
print(f"Clientes com compras: {(df_completo['total_compras'] > 0).sum()}")
print(f"Clientes sem compras: {(df_completo['total_compras'] == 0).sum()}")

print("\n=== CLIENTES SEM COMPRAS ===")
sem_compras = df_completo[df_completo['total_compras'] == 0][['nome', 'cidade']]
print(sem_compras)

grader.check("q2")

# Exercício 3: Pivot Table Avançada

## Descrição
Dado DataFrame com vendas mensais:
- categoria: categoria do produto
- mes: mês da venda
- valor: valor da venda

Crie uma pivot table com:
- Categorias nas linhas
- Meses nas colunas
- Soma dos valores nas células
- Total por linha e coluna (margins=True)

## Exemplo
```python
df = pd.DataFrame({
    'categoria': ['Eletrônicos', 'Livros', 'Eletrônicos'],
    'mes': ['Jan', 'Jan', 'Fev'],
    'valor': [1000, 200, 1500]
})

criar_tabela_cruzada(df)
#                 Fev    Jan     All
# Eletrônicos  1500.0 1000.0  2500.0
# Livros          NaN  200.0   200.0
# All          1500.0 1200.0  2700.0
```

## Dicas
- Use pivot_table() com margins=True
- aggfunc='sum' para somar valores

**Tempo estimado:** 7 minutos

In [None]:
def criar_tabela_cruzada(df):
    """
    Cria pivot table com totais.

    Args:
        df (pd.DataFrame): DataFrame com 'categoria', 'mes', 'valor'

    Returns:
        pd.DataFrame: Pivot table com margins
    """
    # === SEU CÓDIGO AQUI ===



    # === FIM DO SEU CÓDIGO ===

In [None]:
# Criar DataFrame de vendas mensais
df_vendas_mes = pd.DataFrame({
    'categoria': ['Eletrônicos', 'Livros', 'Roupas', 'Eletrônicos', 'Livros',
                  'Roupas', 'Eletrônicos', 'Livros', 'Roupas'],
    'mes': ['Jan', 'Jan', 'Jan', 'Fev', 'Fev', 'Fev', 'Mar', 'Mar', 'Mar'],
    'valor': [15000, 3500, 4200, 18000, 4100, 3800, 16500, 3900, 4500]
})

print("=== TESTE Q3 ===")
print("\n=== DADOS ORIGINAIS ===")
print(df_vendas_mes)

# Criar pivot table
pivot = criar_tabela_cruzada(df_vendas_mes)

print("\n=== TABELA CRUZADA (Categoria × Mês) ===")
print(pivot)

print("\n=== INSIGHTS ===")
# Remover linha/coluna de total para análise
pivot_sem_total = pivot.drop('Total').drop('Total', axis=1)

print(f"Categoria com maior venda total: {pivot.loc[pivot_sem_total.sum(axis=1).idxmax()].name}")
print(f"Mês com maior venda total: {pivot_sem_total.sum(axis=0).idxmax()}")

# Encontrar célula com maior valor
max_val = pivot_sem_total.max().max()
max_pos = pivot_sem_total.stack().idxmax()
print(f"\nMaior venda individual: {max_pos[0]} em {max_pos[1]} = R$ {max_val:,.2f}")

grader.check("q3")

# Exercício 4: Normalização por Grupo

## Descrição
Dado DataFrame com 'categoria' e 'valor',
normalize os valores DENTRO de cada categoria.

Normalização: (valor - média_categoria) / desvio_categoria

Isso permite comparar valores de categorias diferentes.

## Exemplo
```python
df = pd.DataFrame({
    'categoria': ['A', 'A', 'B', 'B'],
    'valor': [10, 20, 100, 200]
})

normalizar_por_grupo(df)
#   categoria  valor  valor_normalizado
# 0         A     10              -1.0
# 1         A     20               1.0
# 2         B    100              -1.0
# 3         B    200               1.0
```

## Dicas
- Use groupby().transform() para aplicar função mantendo shape
- Normalização Z-score: (x - mean) / std

**Tempo estimado:** 5 minutos

In [None]:
def normalizar_por_grupo(df):
    """
    Normaliza valores dentro de cada categoria.

    Args:
        df (pd.DataFrame): DataFrame com 'categoria' e 'valor'

    Returns:
        pd.DataFrame: DataFrame com coluna normalizada
    """
    # === SEU CÓDIGO AQUI ===



    # === FIM DO SEU CÓDIGO ===

In [None]:
# Criar DataFrame de exemplo
df_produtos = pd.DataFrame({
    'categoria': ['Eletrônicos', 'Eletrônicos', 'Eletrônicos', 'Livros', 'Livros', 'Livros'],
    'produto': ['Mouse', 'Teclado', 'Monitor', 'Python Básico', 'Java Avançado', 'SQL Prático'],
    'valor': [45.00, 120.00, 890.00, 65.00, 95.00, 78.00]
})

print("=== TESTE Q4 ===")
print("\n=== DADOS ORIGINAIS ===")
print(df_produtos)

# Normalizar por grupo
df_normalizado = normalizar_por_grupo(df_produtos)

print("\n=== DADOS NORMALIZADOS ===")
print(df_normalizado)

print("\n=== VERIFICAÇÃO ===")
# Verificar que média é ~0 e std é ~1 dentro de cada categoria
for categoria in df_normalizado['categoria'].unique():
    subset = df_normalizado[df_normalizado['categoria'] == categoria]['valor_normalizado']
    print(f"\n{categoria}:")
    print(f"  Média normalizada: {subset.mean():.6f} (deve ser ~0)")
    print(f"  Desvio normalizado: {subset.std():.6f} (deve ser ~1)")

print("\n=== INTERPRETAÇÃO ===")
print("Valores positivos estão acima da média da categoria")
print("Valores negativos estão abaixo da média da categoria")
print("\nProdutos mais caros que a média de sua categoria:")
acima_media = df_normalizado[df_normalizado['valor_normalizado'] > 0][['produto', 'categoria', 'valor']]
print(acima_media)

grader.check("q4")

# Resumo

Nesta prática você trabalhou com:
- GroupBy com múltiplas agregações e cálculos
- Merge com diferentes tipos de joins
- Pivot tables com totais (margins)
- Transform para normalização por grupo

**Pontuação total:** 10 pontos

Continue praticando!