
# ðŸ”— Combinando Dados com Pandas

Este notebook apresenta tÃ©cnicas para combinar datasets usando **concatenaÃ§Ã£o, merge e join**, simulando situaÃ§Ãµes comuns em projetos de CiÃªncia de Dados.  
O objetivo Ã© demonstrar **domÃ­nio prÃ¡tico** de manipulaÃ§Ã£o de dados no Pandas, aplicando boas prÃ¡ticas que evitam problemas em pipelines reais.  

---

## ðŸ“Œ 1. ConcatenaÃ§Ã£o

A concatenaÃ§Ã£o empilha DataFrames ao longo de linhas ou colunas.  
Ã‰ Ãºtil quando temos **dados de perÃ­odos diferentes** ou **atributos adicionais**.

In [1]:
import pandas as pd

# Dados de vendas em dois meses
jan = pd.DataFrame({
    "id_venda": [1, 2, 3],
    "valor": [500, 700, 300]
})

fev = pd.DataFrame({
    "id_venda": [4, 5],
    "valor": [450, 800]
})

# Empilhando verticalmente (mais linhas)
vendas_total = pd.concat([jan, fev], axis=0, ignore_index=True)
print(vendas_total)

# Concatenando horizontalmente (mais colunas)
atributos = pd.DataFrame({
    "desconto": [0.1, 0.2, 0.15, 0.05, 0.0]
})

vendas_completas = pd.concat([vendas_total, atributos], axis=1)
print(vendas_completas)

   id_venda  valor
0         1    500
1         2    700
2         3    300
3         4    450
4         5    800
   id_venda  valor  desconto
0         1    500      0.10
1         2    700      0.20
2         3    300      0.15
3         4    450      0.05
4         5    800      0.00


## ðŸ“Œ 2. Merge (similar ao SQL JOIN)

O `merge` permite unir DataFrames por uma chave comum.
Ã‰ essencial para **cruzar informaÃ§Ãµes** de diferentes tabelas.

In [2]:
# Tabela de clientes
clientes = pd.DataFrame({
    "id_cliente": [1, 2, 3],
    "nome": ["Ana", "Bruno", "Carla"]
})

# Tabela de pedidos
pedidos = pd.DataFrame({
    "id_pedido": [101, 102, 103, 104],
    "id_cliente": [1, 2, 2, 4],
    "valor": [250, 400, 150, 300]
})

# INNER JOIN â†’ mantÃ©m apenas correspondÃªncias
inner = pd.merge(clientes, pedidos, on="id_cliente", how="inner")
print(inner)

# LEFT JOIN â†’ mantÃ©m todos os clientes, mesmo sem pedidos
left = pd.merge(clientes, pedidos, on="id_cliente", how="left")
print(left)

# FULL OUTER JOIN â†’ mantÃ©m todos os registros
outer = pd.merge(clientes, pedidos, on="id_cliente", how="outer", indicator=True)
print(outer)


   id_cliente   nome  id_pedido  valor
0           1    Ana        101    250
1           2  Bruno        102    400
2           2  Bruno        103    150
   id_cliente   nome  id_pedido  valor
0           1    Ana      101.0  250.0
1           2  Bruno      102.0  400.0
2           2  Bruno      103.0  150.0
3           3  Carla        NaN    NaN
   id_cliente   nome  id_pedido  valor      _merge
0           1    Ana      101.0  250.0        both
1           2  Bruno      102.0  400.0        both
2           2  Bruno      103.0  150.0        both
3           3  Carla        NaN    NaN   left_only
4           4    NaN      104.0  300.0  right_only


## ðŸ“Œ 3. Join (usando Ã­ndices)

O `join` Ã© prÃ¡tico para unir DataFrames baseados no **Ã­ndice**.

In [3]:
# Dados de usuÃ¡rios
usuarios = pd.DataFrame({
    "nome": ["Alice", "Bob", "Carol"]
}, index=[1, 2, 3])

# MÃ©tricas associadas aos mesmos Ã­ndices
metricas = pd.DataFrame({
    "tempo_online": [35, 47, 12],
    "compras": [3, 7, 1]
}, index=[1, 2, 3])

# LEFT JOIN pelos Ã­ndices
usuarios_completo = usuarios.join(metricas, how="left")
print(usuarios_completo)


    nome  tempo_online  compras
1  Alice            35        3
2    Bob            47        7
3  Carol            12        1


### âš¡ Boas PrÃ¡ticas

âœ… Sempre validar chaves antes de aplicar `merge`:

In [4]:
print(pedidos["id_cliente"].is_unique)  # Evita duplicaÃ§Ãµes inesperadas


False


âœ… Usar indicator=True no merge para entender a origem de cada linha.  
âœ… Definir ignore_index=True em concat para evitar Ã­ndices duplicados.  
âœ… Manter nomes de colunas claros ao combinar dados para evitar conflitos.  

## ðŸŽ¯ ConclusÃ£o

Este notebook mostrou diferentes formas de **combinar datasets no Pandas**:  
- `concat` para empilhar dados  
- `merge` para junÃ§Ãµes SQL-like  
- `join` baseado em Ã­ndices  
Essas tÃ©cnicas sÃ£o fundamentais para integrar informaÃ§Ãµes em anÃ¡lises e modelos de CiÃªncia de Dados.