# 03 — Pandas: merge/join/concat (modelagem de dados)

Objetivo: juntar tabelas (fato + dimensão) e preparar dataset para EDA/ML.

Tempo: ~20–30 min

In [None]:
from pathlib import Path

def find_repo_root(start: Path | None = None) -> Path:
    """Sobe diretórios até encontrar uma 'marca' do repositório (README.md + pasta data)."""
    cur = (start or Path.cwd()).resolve()
    for _ in range(10):
        if (cur / "README.md").exists() and (cur / "data").exists():
            return cur
        cur = cur.parent
    # fallback: assume cwd
    return Path.cwd().resolve()

ROOT = find_repo_root()
DATA_DIR = ROOT / "data"
SAMPLE_DIR = DATA_DIR / "sample"

print("ROOT:", ROOT)
print("SAMPLE_DIR:", SAMPLE_DIR)

In [None]:
import pandas as pd

sales = pd.read_csv(SAMPLE_DIR / "sales.csv")
customers = pd.read_csv(SAMPLE_DIR / "customers.csv")

display(sales.head())
display(customers.head())

## 1) `merge` (join)

Vamos adicionar `segment` (B2C/B2B) na tabela de vendas.

In [None]:
import pandas as pd

df = sales.merge(customers, on="customer_id", how="left")

df[["order_id","customer_id","segment","region","revenue"]].head()

## 2) Checando qualidade após join

Sempre verifique se houve perda (ex.: chaves sem match).

In [None]:
missing_segment = df["segment"].isna().sum()
missing_segment

## 3) Concat (empilhar / juntar colunas)

Útil para juntar períodos ou múltiplas fontes com o mesmo schema.

In [None]:
# Exemplo: simular "2 períodos" e empilhar
df1 = sales.copy()
df1["periodo"] = "P1"

df2 = sales.sample(frac=0.2, random_state=42).copy()
df2["periodo"] = "P2"

stacked = pd.concat([df1, df2], ignore_index=True)

stacked["periodo"].value_counts()

## Exercícios

1- Faça um `merge` e calcule receita total por `segment`.
2- Crie uma tabela final com `date` como datetime e `revenue` como float.
3- Simule uma tabela `products` (dimensão) e faça join por `product`.

In [None]:
# Escreva suas respostas aqui
