## 🎓 **Aula sobre: Introdução ao Pandas**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                         | Tempo Estimado | Complexidade |
|---|------------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida            | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                  | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões             | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação               | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais   | Opcional       | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **Series:** 1D rotulada, combina índice e valores.  
> - **DataFrame:** 2D rotulado, colunas heterogêneas.  
> - **Index:** rótulos de linhas; **columns:** rótulos de colunas.  
> - **Leitura/Escrita:** `pd.read_csv()`, `df.to_csv()`.  
> - **Seleção:** `df.loc[]` (label) e `df.iloc[]` (posição).

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Pandas é construído sobre NumPy, oferecendo objetos *Series* (1D) e *DataFrame* (2D) com rótulos. Cada coluna de um DataFrame é uma Series, e o *index* alinha dados automaticamente em merges e operações aritméticas.

<br>

#### **🔗 Analogia de Data Science**  
Imagine uma planilha:  
- **Series** é uma única coluna nomeada.  
- **DataFrame** é toda a planilha.  
- O **index** são as etiquetas das linhas que garantem que, ao combinar planilhas, as linhas iguais se aliem corretamente.

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Criando Series e DataFrame**


In [None]:
import pandas as pd
# Series de vendas mensais
s = pd.Series([100, 150, 200], index=['Jan','Feb','Mar'])
# DataFrame de produtos
df = pd.DataFrame({
    'produto': ['A','B','C'],
    'preco': [10.5, 12.0, 9.75],
    'estoque': [100, 150, 200]
})
print(s)
print(df)


In [5]:
# Pratique seu código aqui!
import pandas as pd

s = pd.Series([100, 150, 200], index=['Jan','Feb','Mar'])
df = pd.DataFrame({
    'produto': ['A','B','C'],
    'preco': [10.5, 12.0, 9.75],
    'estoque': [100, 150, 200]
})

print(s)
print("\n")
print(df)

Jan    100
Feb    150
Mar    200
dtype: int64


  produto  preco  estoque
0       A  10.50      100
1       B  12.00      150
2       C   9.75      200


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e chame de pd.”  
  import pandas as pd

  # “Crie uma Series de vendas para Jan, Feb e Mar.”  
  s = pd.Series([100,150,200], index=['Jan','Feb','Mar'])

  # “Crie um DataFrame com colunas produto, preco e estoque.”  
  df = pd.DataFrame({…})

  # “Mostre a Series e o DataFrame.”  
  print(s)
  print(df)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão | Saída                                          | O que é?                  |
  |:-----:|:----------|:-----------------------------------------------|:--------------------------|
  | 1     | `s`       | Jan 100; Feb 150; Mar 200                      | Series 1D com índice      |
  | 2     | `df`      | produto preco estoque                          | DataFrame 3×3 heterogêneo |
  | 3     | –         | imprime `s` e `df`                             | Saída final               |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Series é como um livro de registros de um único tipo; DataFrame é uma pasta com várias colunas de diferentes tipos alinhadas pela etiqueta da linha.

* **Cenário de Mercado:**  
  Em **BI**, combinamos vendas, preços e estoques num DataFrame para dashboards em Power BI, facilitando decisões de compra.

* **Boas Práticas:**  
  - **Afirmação:** “Defina índices significativos.”  
    - **Porquê:** Facilita merges e alinhamento.  
    - **Analogia:** É como colocar etiquetas claras em pastas de arquivo.


#### **Nível Intermediário: Seleção e Filtragem de Dados**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'nome': ['Ana','Bruno','Carla','Daniel'],
    'idade': [23,35,29,40],
    'salario': [5000,7000,6500,8000]
})
# seleção label e posição
print(df.loc[1,'nome'], df.iloc[2,2])
# filtragem condicional
alto = df[df['salario'] > 6000]
print(alto)


In [9]:
# Pratique seu código aqui!

# import pandas as pd
df = pd.DataFrame({
    'nome': ['Ana','Bruno','Carla','Daniel'],
    'idade': [23,35,29,40],
    'salario': [5000,7000,6500,8000]
})

print(df.loc[1, 'nome'], df.iloc[2,2])
alto = df[df['salario'] > 6000]
print("\n")
print(alto)


Bruno 6500


     nome  idade  salario
1   Bruno     35     7000
2   Carla     29     6500
3  Daniel     40     8000


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame de nome, idade e salario.”  
  df = pd.DataFrame({…})

  # “Selecione nome da linha 1 com loc.”  
  print(df.loc[1,'nome'])

  # “Selecione salario da linha 2, coluna 2 com iloc.”  
  print(df.iloc[2,2])

  # “Filtre linhas com salario > 6000.”  
  alto = df[df['salario'] > 6000]
  print(alto)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                | Saída                                  | O que faz?                   |
  |:-----:|:-------------------------|:---------------------------------------|:-----------------------------|
  | 1     | `df.loc[1,'nome']`       | `Bruno`                                | Seleção label-based          |
  | 2     | `df.iloc[2,2]`           | `6500`                                 | Seleção position-based       |
  | 3     | `df[df['salario']>6000]` | linhas de Bruno, Carla, Daniel         | Filtragem condicional        |
  | 4     | –                        | imprime                                | Saída final                  |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Loc é buscar por etiqueta, iloc por prateleira; filtragem é usar um funil que só deixa passar salários altos.

* **Cenário de Mercado:**  
  Em **churn analysis**, filtramos clientes com `df[df['churn']==True]` para ações de retenção.

* **Boas Práticas:**  
  - **Afirmação:** “Prefira loc a iloc para clareza.”  
    - **Porquê:** Reduz erros de índice.  
    - **Analogia:** Pegar livro por título em vez de gaveta número.


#### **Nível Avançado: GroupBy e Agregações**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'departamento': ['Vendas','Vendas','RH','RH','TI'],
    'salario': [5000,6000,4000,4500,7000]
})
agr = df.groupby('departamento')['salario'].mean()
print(agr)


In [13]:
# Pratique seu código aqui!

# import pandas as pd
df = pd.DataFrame({
    'departamento': ['Vendas','Vendas','RH','RH','TI', 'Contabilidade', 'Contabilidade','Contabilidade','TI'],
    'salario': [5000,6000,4000,4500,7000,5500, 3000, 3500, 8000]
})

agr = df.groupby('departamento')['salario'].mean()
print(agr)



departamento
Contabilidade    4000.0
RH               4250.0
TI               7500.0
Vendas           5500.0
Name: salario, dtype: float64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame com departamento e salario.”  
  df = pd.DataFrame({…})

  # “Agrupe por departamento e calcule média.”  
  agr = df.groupby('departamento')['salario'].mean()

  # “Mostre resultado.”  
  print(agr)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                    | Saída                         | O que faz?               |
  |:-----:|:-----------------------------|:------------------------------|:-------------------------|
  | 1     | `df.groupby('departamento')` | GroupBy object                | Agrupa registros         |
  | 2     | `['salario'].mean()`         | Vendas:5500; RH:4250; TI:7000 | Agrega média por grupo   |
  | 3     | –                            | imprime                       | Saída final              |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  GroupBy é como colocar colegas de cada departamento numa mesa e calcular o salário médio de cada grupo.

* **Cenário de Mercado:**  
  Em **KPI tracking**, calcular média de vendas por região informa decisões de estoque.

* **Boas Práticas:**  
  - **Afirmação:** “Use `as_index=False` para preservar colunas.”  
    - **Porquê:** Facilita merges posteriores.  
    - **Analogia:** É como manter etiquetas visíveis em caixas empilhadas.


#### **Nível DEUS (1/3): Pivot Table e Melt**


In [None]:
import pandas as pd
df = pd.DataFrame({
    'Ano':[2020,2020,2021,2021],
    'Produto':['A','B','A','B'],
    'Vendas':[100,150,200,250]
})
pt = df.pivot_table(index='Ano', columns='Produto', values='Vendas', aggfunc='sum')
melt = pt.reset_index().melt(id_vars='Ano', value_name='Vendas')
print(pt)
print(melt)


In [2]:
# Pratique seu código aqui!

import pandas as pd
df = pd.DataFrame({
    'Ano':[2020,2020,2021,2021],
    'Produto':['A','B','A','B'],
    'Vendas':[100,150,200,250]
})

pt = df.pivot_table(index='Ano', columns='Produto', values='Vendas', aggfunc='sum')
melt = pt.reset_index().melt(id_vars='Ano', value_name='Vendas')
print(pt)
print("\n")
print(melt)


Produto    A    B
Ano              
2020     100  150
2021     200  250


    Ano Produto  Vendas
0  2020       A     100
1  2021       A     200
2  2020       B     150
3  2021       B     250


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame de vendas por ano e produto.”  
  df = pd.DataFrame({…})

  # “Pivot: soma vendas por Ano×Produto.”  
  pt = df.pivot_table(…)

  # “Melt: converta wide para long.”  
  melt = pt.reset_index().melt(…)

  # “Mostre pivot e melt.”  
  print(pt)
  print(melt)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão | Saída                       | O que faz?                 |
  |:-----:|:----------|:----------------------------|:---------------------------|
  | 1     | `pt`      | tabela wide Ano×Produto     | Pivot das vendas           |
  | 2     | `melt`    | DataFrame longo             | Retorno ao formato tidy     |
  | 3     | –         | imprime                     | Saída final                |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pivot é organizar em matriz, melt é empilhar novamente sob colunas.

* **Cenário de Mercado:**  
  Em **BI**, pivot para dashboards; melt para alimentar modelos estatísticos.

* **Boas Práticas:**  
  - **Afirmação:** “Use `pivot_table` com `aggfunc` correto.”  
    - **Porquê:** Evita valores duplicados.  
    - **Analogia:** É como escolher o encaixe certo para peças de Lego.


#### **Nível DEUS (2/3): Séries Temporais e Resample**


In [None]:
import pandas as pd
rng = pd.date_range('2021-01-01', periods=6, freq='D')
ts = pd.Series([2,4,6,8,10,12], index=rng)
resampled = ts.resample('2D').sum()
rolling = ts.rolling(window=3).mean()
print(resampled)
print(rolling)


In [5]:
# Pratique seu código aqui!

# import pandas as pd

rng = pd.date_range('2021-01-01', periods=6, freq='D')
ts = pd.Series([2,4,6,8,10,12], index=rng)
resampled = ts.resample('2D').sum()
rolling = ts.rolling(window=3).mean()

print(rng)
print("\n")
print(ts)
print("\n")
print(resampled)
print("\n")
print(rolling)

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06'],
              dtype='datetime64[ns]', freq='D')


2021-01-01     2
2021-01-02     4
2021-01-03     6
2021-01-04     8
2021-01-05    10
2021-01-06    12
Freq: D, dtype: int64


2021-01-01     6
2021-01-03    14
2021-01-05    22
Freq: 2D, dtype: int64


2021-01-01     NaN
2021-01-02     NaN
2021-01-03     4.0
2021-01-04     6.0
2021-01-05     8.0
2021-01-06    10.0
Freq: D, dtype: float64


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Gere datas 1–6 Jan/2021.”  
  rng = pd.date_range('2021-01-01', periods=6, freq='D')

  # “Crie Series de valores.”  
  ts = pd.Series([2,4,6,8,10,12], index=rng)

  # “Reamostre soma a cada 2 dias.”  
  resampled = ts.resample('2D').sum()

  # “Média móvel 3 dias.”  
  rolling = ts.rolling(window=3).mean()

  # “Mostre resultados.”  
  print(resampled)
  print(rolling)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo      | Expressão    | Saída                  | O que faz?                  |
  |:----------:|:-------------|:-----------------------|:----------------------------|
  | 1          | `resampled`  | soma a cada 2 dias     | Reamostragem                |
  | 2          | `rolling`    | média móvel 3 dias     | Suavização                  |
  | 3          | –            | imprime                | Saída final                 |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Resample é juntar chuva de 2 em 2 dias; rolling é média acumulada de temperatura em janela móvel.

* **Cenário de Mercado:**  
  Em **finanças**, convertendo ticks a dados semanais e calculando médias móveis para trading.

* **Boas Práticas:**  
  - **Afirmação:** “Use `freq` e `window` adequados.”  
    - **Porquê:** Evita dados enviesados.  
    - **Analogia:** Como calibrar régua para milímetros ou centímetros.


#### **Nível DEUS (3/3): Merge, Join e Concatenações**


In [None]:
import pandas as pd
df1 = pd.DataFrame({'id':[1,2,3], 'A':[10,20,30]})
df2 = pd.DataFrame({'id':[2,3,4], 'B':[200,300,400]})
merged = pd.merge(df1, df2, on='id', how='inner')
outer = pd.merge(df1, df2, on='id', how='outer', indicator=True)
concat = pd.concat([df1, df2], ignore_index=True)
print(merged)
print(outer)
print(concat)


In [7]:
# Pratique seu código aqui!

import pandas as pd
df1 = pd.DataFrame({'id':[1,2,3], 'A':[10,20,30]})
df2 = pd.DataFrame({'id':[2,3,4], 'B':[200,300,400]})
merged = pd.merge(df1, df2, on='id', how='inner')
outer = pd.merge(df1, df2, on='id', how='outer', indicator=True)
concat = pd.concat([df1, df2], ignore_index=True)

print(df1)
print("\n")
print(df2)
print("\n")
print(merged)
print("\n")
print(outer)
print("\n")
print(concat)


   id   A
0   1  10
1   2  20
2   3  30


   id    B
0   2  200
1   3  300
2   4  400


   id   A    B
0   2  20  200
1   3  30  300


   id     A      B      _merge
0   1  10.0    NaN   left_only
1   2  20.0  200.0        both
2   3  30.0  300.0        both
3   4   NaN  400.0  right_only


   id     A      B
0   1  10.0    NaN
1   2  20.0    NaN
2   3  30.0    NaN
3   2   NaN  200.0
4   3   NaN  300.0
5   4   NaN  400.0


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie df1 com id e A.”  
  df1 = pd.DataFrame({…})

  # “Crie df2 com id e B.”  
  df2 = pd.DataFrame({…})

  # “Inner merge em id.”  
  merged = pd.merge(df1, df2, on='id', how='inner')

  # “Outer merge com indicador.”  
  outer = pd.merge(df1, df2, on='id', how='outer', indicator=True)

  # “Concat vertical ignorando índices.”  
  concat = pd.concat([df1, df2], ignore_index=True)

  # “Mostre tudo.”  
  print(merged, outer, concat)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo  | Expressão                | Saída                        | O que faz?                |
  |:------:|:-------------------------|:-----------------------------|:--------------------------|
  | 1      | `merged`                 | ids 2,3 combinados           | Interseção                |
  | 2      | `outer`                  | ids 1–4 com indicador        | União com marcações       |
  | 3      | `concat`                 | 6 linhas                     | Append vertical           |
  | 4      | –                        | imprime                      | Saída final               |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Merge é cruzar convidados, outer é lista completa com fonte, concat é simplesmente unir listas.

* **Cenário de Mercado:**  
  Em **ETL**, juntar dados de CRM e ERP para análises integradas de clientes e vendas.

* **Boas Práticas:**  
  - **Afirmação:** “Escolha `how` com cuidado.”  
    - **Porquê:** Evita perda ou duplicação de dados.  
    - **Analogia:** Como selecionar o tipo de encaixe em um quebra-cabeça.


### 3. 🕸️ Profundezas e Conexões

<br>

Pandas usa NumPy para acelerar operações vetorizadas e é base para **scikit-learn**, **statsmodels** e ferramentas de visualização como **Matplotlib** e **Seaborn**.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Leia `/mnt/data/exemplo.csv` com `pd.read_csv()` e mostre as primeiras 5 linhas.  
2. Filtre linhas onde coluna `valor` > 1000 e selecione `data` e `valor`.  
3. Agrupe por `categoria` e calcule soma e média de `quantidade`.  
4. Crie pivot table de `vendas` por `regiao` e `produto`.  
5. Concatene dois DataFrames e elimine duplicatas.

<br>

#### **❓ Pergunta de Verificação**
Como o alinhamento de índices impacta operações de join e por que definir índices antes pode ser vantajoso?

<br>

---
<br>


### **Resposta Rápida**

O **alinhamento de índices** no Pandas garante que operações como **join, soma ou comparação** ocorram entre **linhas e colunas com os mesmos rótulos**, não apenas pela posição. Definir índices antes de joins pode evitar erros, **melhorar a legibilidade** e até **aumentar a performance**.

---

### **Analogia do Dia**

Pense em dois cadernos com listas de alunos.
Se você **alinhar pelos nomes** (índice), você garante que está comparando ou unindo **a mesma pessoa**, mesmo que as listas estejam em **ordem diferente**.
Se usar apenas posições (linha 0, linha 1...), pode acabar **misturando nomes e notas erradas**.

---

### **Análise Técnica Detalhada**

---

#### 🔍 1. Alinhamento automático de índices em operações

```python
import pandas as pd

a = pd.Series([10, 20, 30], index=["x", "y", "z"])
b = pd.Series([1, 2, 3], index=["z", "x", "y"])

print(a + b)
```

🔎 Resultado:

```
x    12.0
y    22.0
z    31.0
dtype: float64
```

✅ **Mesmo com ordem diferente**, o Pandas **alinha pelas labels (`x`, `y`, `z`)**

---

#### 🔄 2. Em operações de `join` (merge ou concat)

##### Exemplo com índice definido:

```python
df1 = pd.DataFrame({"nome": ["Ana", "Beto"], "idade": [30, 40]}).set_index("nome")
df2 = pd.DataFrame({"nome": ["Ana", "Beto"], "salario": [1000, 2000]}).set_index("nome")

resultado = df1.join(df2)
```

🔎 Resultado:

```
       idade  salario
nome                 
Ana       30     1000
Beto      40     2000
```

✅ Como os índices são os mesmos (`nome`), o join é **mais direto, seguro e legível**

---

#### 🧱 3. Vantagens de definir índices antecipadamente

| Vantagem            | Explicação                                                           |
| ------------------- | -------------------------------------------------------------------- |
| 🎯 **Precisão**     | Une dados com base em **identificadores reais** (rótulos)            |
| 🧠 **Legibilidade** | Evita `on="coluna"` em todo join                                     |
| ⚡ **Performance**   | Operações com índice costumam ser **mais rápidas** que com colunas   |
| 🧹 **Evita bugs**   | Reduz risco de confundir linhas equivalentes com posições diferentes |

---

### **Nota de Rodapé para Novatos**

* **Índice (`index`)**: Rótulo único de cada linha em uma `Series` ou `DataFrame`
* **Alinhamento**: Combinar dados com base nos rótulos, não apenas na posição
* **`set_index()`**: Define uma coluna como índice
* **Join**: Combinação de dois DataFrames com base em valores comuns
* **`join()` vs `merge()`**:

  * `join()`: Usa índice por padrão
  * `merge()`: Usa colunas (mais flexível, mas requer parâmetros)

---

### **Aplicação Prática e Boas Práticas**

✅ Em ciência de dados:

* Use `set_index("id")` ao unir dados com identificadores únicos (ex: CPF, nome, código)
* Use `join()` quando os dados já estiverem indexados

💡 Boas práticas:

```python
# Exemplo prático com índice para evitar erro
df_usuarios = df_usuarios.set_index("user_id")
df_compras = df_compras.set_index("user_id")
df_total = df_usuarios.join(df_compras, how="inner")
```

📈 Essa abordagem evita unir dados de usuários errados, mesmo se a ordem dos DataFrames for diferente!

---

### **Resumo da Lição**

**Alinhar e definir índices antes de joins garante que os dados certos sejam combinados**, melhora a clareza do código e pode acelerar o processamento — essencial em manipulações robustas com Pandas.

---

Vamos comparar `join()` e `merge()` no Pandas, destacando **como cada um lida com índices e colunas**. Essa tabela e exemplos vão te ajudar a escolher a melhor ferramenta para cada situação. 👇

---

### **📊 Tabela Comparativa: `join()` vs `merge()`**

| Característica             | `join()`                             | `merge()`                                |
| -------------------------- | ------------------------------------ | ---------------------------------------- |
| Base da junção             | **Índice**                           | **Coluna (por padrão)**                  |
| Requer `set_index()`?      | Sim, geralmente                      | Não, mas pode usar índices também        |
| Sintaxe mais simples       | Sim, se os índices estiverem prontos | Mais verbosa (precisa de `on=`)          |
| Suporte a múltiplas chaves | ❌ Não diretamente                    | ✅ Sim (`on=["col1", "col2"]`)            |
| Operações mais complexas   | ❌ Limitado a joins simples           | ✅ Mais flexível (left, right, etc.)      |
| Performance (dados limpos) | ⚡ Levemente mais rápida              | 🧠 Mais robusta, mas pode ser mais lenta |

---

### **🔁 Exemplo Prático com `join()`**

```python
import pandas as pd

df1 = pd.DataFrame({
    "nome": ["Ana", "Beto"],
    "idade": [30, 40]
}).set_index("nome")

df2 = pd.DataFrame({
    "nome": ["Ana", "Beto"],
    "salario": [1000, 2000]
}).set_index("nome")

resultado = df1.join(df2)
print(resultado)
```

**Saída:**

```
       idade  salario
nome                 
Ana       30     1000
Beto      40     2000
```

✅ Curto, direto, baseado no índice (`nome`).

---

### **🔗 Exemplo equivalente com `merge()`**

```python
df1 = pd.DataFrame({
    "nome": ["Ana", "Beto"],
    "idade": [30, 40]
})

df2 = pd.DataFrame({
    "nome": ["Ana", "Beto"],
    "salario": [1000, 2000]
})

resultado = pd.merge(df1, df2, on="nome")
print(resultado)
```

**Saída:**

```
   nome  idade  salario
0  Ana     30     1000
1  Beto    40     2000
```

✅ Mesmo resultado — mas **não requer `set_index()`**.

---

### **📌 Conclusão prática:**

* Use `**join()**` quando:

  * Os **índices já representam as chaves**
  * Quer código mais direto para **junções simples**
  * Trabalha com tabelas **já organizadas por ID**

* Use `**merge()**` quando:

  * Vai unir por **colunas** (sem precisar alterar índice)
  * Precisa de joins mais sofisticados (ex: múltiplas chaves)
  * Quer mais **controle sobre os tipos de junção** (`left`, `right`, `outer`, `inner`)
