## 🎓 **Aula sobre: Pandas — Concatenar, Juntar e Mesclar**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida           | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                 | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões            | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação             | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais  | Opcional      | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **concat:** une DataFrames no eixo 0 ou 1, mantendo colunas/index.  
> - **join:** método de DataFrame para juntar pelo índice (inner/left).  
> - **merge:** API similar a SQL `JOIN` por colunas-chave.  
> - **how:** define tipo de junção: `inner`, `left`, `right`, `outer`.  
> - **keys:** cria MultiIndex ao concatenar partes.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
— **concat:** empilha ou concatena colunas de DataFrames semelhantes.  
— **join:** facilita juntar DataFrames pelo índice, similar a `merge(..., left_index=True, right_index=True)`.  
— **merge:** combina tabelas por colunas-chave, controlando como casar registros.  
O parâmetro **how** decide se preserva apenas interseções (`inner`) ou inclui todas as chaves (`outer`), mantendo NaN onde não há correspondência.

<br>

#### **🔗 Analogia de Data Science**  
Imagine três planilhas de vendas:  
- **concat:** é empilhar páginas umas sobre as outras (por data) ou lado a lado (por métrica).  
- **join:** é encaixar duas planilhas que têm a mesma sequência de linhas (índice).  
- **merge:** é igual a cruzar duas planilhas por código de produto, gerando uma terceira com informação combinada.

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Usando `concat` para empilhar fatias de um dataset real**


In [None]:
import pandas as pd
import seaborn as sns

# Carrega dados reais de gorjetas
tips = sns.load_dataset('tips')

# Divida por dia da semana
df1 = tips[tips['day'].isin(['Thur','Fri'])].head(5)
df2 = tips[tips['day'].isin(['Sat','Sun'])].head(5)

# Empilhe verticalmente
concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)

print("Parte 1:\n", df1)
print("Parte 2:\n", df2)
print("Concatenado:\n", concatenado)


In [None]:
# Pratique seu código aqui!

import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')
print(tips.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


In [None]:
df1 = tips[tips['day'].isin(['Thur', 'Fri'])].head(10)
print(df1)

    total_bill   tip     sex smoker   day   time  size
77       27.20  4.00    Male     No  Thur  Lunch     4
78       22.76  3.00    Male     No  Thur  Lunch     2
79       17.29  2.71    Male     No  Thur  Lunch     2
80       19.44  3.00    Male    Yes  Thur  Lunch     2
81       16.66  3.40    Male     No  Thur  Lunch     2
82       10.07  1.83  Female     No  Thur  Lunch     1
83       32.68  5.00    Male    Yes  Thur  Lunch     2
84       15.98  2.03    Male     No  Thur  Lunch     2
85       34.83  5.17  Female     No  Thur  Lunch     4
86       13.03  2.00    Male     No  Thur  Lunch     2


In [None]:
df2 = tips[tips['day'].isin(['Sat', 'Fri'])]. head(10)
print(df2)

    total_bill   tip     sex smoker  day    time  size
19       20.65  3.35    Male     No  Sat  Dinner     3
20       17.92  4.08    Male     No  Sat  Dinner     2
21       20.29  2.75  Female     No  Sat  Dinner     2
22       15.77  2.23  Female     No  Sat  Dinner     2
23       39.42  7.58    Male     No  Sat  Dinner     4
24       19.82  3.18    Male     No  Sat  Dinner     2
25       17.81  2.34    Male     No  Sat  Dinner     4
26       13.37  2.00    Male     No  Sat  Dinner     2
27       12.69  2.00    Male     No  Sat  Dinner     2
28       21.70  4.30    Male     No  Sat  Dinner     2


In [None]:
concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)
print(concatenado)

    total_bill   tip     sex smoker   day    time  size
0        27.20  4.00    Male     No  Thur   Lunch     4
1        22.76  3.00    Male     No  Thur   Lunch     2
2        17.29  2.71    Male     No  Thur   Lunch     2
3        19.44  3.00    Male    Yes  Thur   Lunch     2
4        16.66  3.40    Male     No  Thur   Lunch     2
5        20.65  3.35    Male     No   Sat  Dinner     3
6        17.92  4.08    Male     No   Sat  Dinner     2
7        20.29  2.75  Female     No   Sat  Dinner     2
8        15.77  2.23  Female     No   Sat  Dinner     2
9        39.42  7.58    Male     No   Sat  Dinner     4
10       19.82  3.18    Male     No   Sat  Dinner     2
11       17.81  2.34    Male     No   Sat  Dinner     4
12       13.37  2.00    Male     No   Sat  Dinner     2
13       12.69  2.00    Male     No   Sat  Dinner     2
14       21.70  4.30    Male     No   Sat  Dinner     2


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e seaborn.”  
  import pandas as pd  
  import seaborn as sns  

  # “Carregue dataset de gorjetas.”  
  tips = sns.load_dataset('tips')  

  # “Pegue as 5 primeiras linhas de Thur e Fri.”  
  df1 = tips[tips['day'].isin(['Thur','Fri'])].head(5)  

  # “Pegue as 5 primeiras de Sat e Sun.”  
  df2 = tips[tips['day'].isin(['Sat','Sun'])].head(5)  

  # “Concatene df1 e df2 verticalmente.”  
  concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)  

  # “Mostre as partes e o resultado.”  
  print(df1, df2, concatenado)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo          | Expressão                          | Saída                            | O que faz?                         |
  |:--------------:|:-----------------------------------|:---------------------------------|:-----------------------------------|
  | 1              | `df1`                              | 5 linhas Thur/Fri                | Parte superior do dataset          |
  | 2              | `df2`                              | 5 linhas Sat/Sun                 | Parte inferior                    |
  | 3              | `pd.concat([df1,df2])`             | 10 linhas                        | Empilha linhas sem duplicar índice |
  | 4              | –                                  | imprime                          | Saída final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como juntar duas pilhas de relatórios de dias diferentes em uma só montanha, mantendo a ordem e renumerando as folhas.

* **Cenário de Mercado:**  
  - Em **ETL de logs**, concatena lotes diários de registros para compor um histórico contínuo.  
  - Ao processar streams, usa-se `concat` em janelas fixas para análise incremental.

* **Boas Práticas:**  
  - **Afirmação:** “Use `ignore_index=True` ao empilhar períodos.”  
    - **Porquê:** Evita índices duplicados; gera novo índice limpo.  
    - **Analogia:** É como renumerar as páginas quando junta relatórios de meses diferentes.


#### **Nível Intermediário: Juntando pelo índice com `.join()`**


In [None]:
import pandas as pd
import seaborn as sns

# Carrega dataset de flights e clima
flights = sns.load_dataset('flights').pivot(index='year', columns='month', values='passengers')
weather = sns.load_dataset('flights').groupby('year')['passengers'].sum().to_frame('total_pass')

# .join usa índice em comum (year)
juntado = flights.join(weather, how='inner')

print("Flighs (pivot):\n", flights.head())
print("Weather total:\n", weather.head())
print("Joined:\n", juntado.head())


In [None]:
# Pratique seu código aqui!
import pandas as pd
import seaborn as sns

flights = sns.load_dataset('flights')
flights.head()


Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [None]:
flights = sns.load_dataset('flights').pivot(index='year', columns='month',values='passengers')
flights.head()

month,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1949,112,118,132,129,121,135,148,148,136,119,104,118
1950,115,126,141,135,125,149,170,170,158,133,114,140
1951,145,150,178,163,172,178,199,199,184,162,146,166
1952,171,180,193,181,183,218,230,242,209,191,172,194
1953,196,196,236,235,229,243,264,272,237,211,180,201


In [None]:
weather = sns.load_dataset('flights').groupby('year')['passengers'].sum().to_frame('total_pass')
weather.head()

Unnamed: 0_level_0,total_pass
year,Unnamed: 1_level_1
1949,1520
1950,1676
1951,2042
1952,2364
1953,2700


In [None]:
juntado = flights.join(weather, how='inner')
print(juntado.head())

      Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec  total_pass
year                                                                        
1949  112  118  132  129  121  135  148  148  136  119  104  118        1520
1950  115  126  141  135  125  149  170  170  158  133  114  140        1676
1951  145  150  178  163  172  178  199  199  184  162  146  166        2042
1952  171  180  193  181  183  218  230  242  209  191  172  194        2364
1953  196  196  236  235  229  243  264  272  237  211  180  201        2700


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe seaborn e pandas.”  
  import pandas as pd  
  import seaborn as sns  

  # “Pivot de passageiros por ano×mês.”  
  flights = sns.load_dataset('flights').pivot(...)

  # “Some passageiros por ano.”  
  weather = sns.load_dataset('flights').groupby('year')['passengers'].sum().to_frame('total_pass')

  # “Junte pelo índice year.”  
  juntado = flights.join(weather, how='inner')

  # “Mostre partes e resultado.”  
  print(flights.head(), weather.head(), juntado.head())
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo     | Expressão           | Saída                          | O que faz?                          |
  |:---------:|:--------------------|:-------------------------------|:------------------------------------|
  | 1         | `flights`           | DataFrame 12×12 (ano×mês)      | Pivot tabela                        |
  | 2         | `weather`           | Series/DataFrame (ano,total)   | Total anual de passageiros          |
  | 3         | `flights.join()`    | 12×13 DataFrame                | Acrescenta coluna total_pass        |
  | 4         | –                   | imprime                        | Saída final                         |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pense em duas planilhas com o mesmo índice (ano); `join` as alinha como páginas do mesmo caderno, colocando colunas lado a lado.

* **Cenário de Mercado:**  
  Em **BI**, junta métricas mensais (pivot) com totais anuais para relatório integrado no dashboard.

* **Boas Práticas:**  
  - **Afirmação:** “Use `how='inner'` para garantir anos comuns.”  
    - **Porquê:** Evita linhas com ano faltante em uma das tabelas.  
    - **Analogia:** É como só mostrar anos para os quais existem ambos os conjuntos de dados.


#### **Nível Avançado: Mesclando com `merge()` e diferentes joins**


In [None]:
import pandas as pd
import seaborn as sns

# Dataset originales
tips = sns.load_dataset('tips')[['day','time','total_bill']].head(8)
payments = pd.DataFrame({
    'day': ['Thur','Fri','Sat','Sun','Mon'],
    'method': ['Card','Cash','Card','Cash','Card']
})

# SQL-style merges
inner = pd.merge(tips, payments, on='day', how='inner')
left = pd.merge(tips, payments, on='day', how='left')
outer = pd.merge(tips, payments, on='day', how='outer', indicator=True)

print("Tips:\n", tips)
print("Payments:\n", payments)
print("Inner Merge:\n", inner)
print("Left Merge:\n", left)
print("Outer Merge:\n", outer)


In [None]:
# Pratique seu código aqui!
import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')[['day','time','total_bill']].head(8)
tips

Unnamed: 0,day,time,total_bill
0,Sun,Dinner,16.99
1,Sun,Dinner,10.34
2,Sun,Dinner,21.01
3,Sun,Dinner,23.68
4,Sun,Dinner,24.59
5,Sun,Dinner,25.29
6,Sun,Dinner,8.77
7,Sun,Dinner,26.88


In [None]:
payments = pd.DataFrame({
    'day': ['Thur','Fri','Sat','Sun','Mon'],
    'method': ['Card','Cash','Card','Cash','Card']
})
payments

Unnamed: 0,day,method
0,Thur,Card
1,Fri,Cash
2,Sat,Card
3,Sun,Cash
4,Mon,Card


In [None]:
inner = pd.merge(tips, payments, on='day', how='inner')
inner

Unnamed: 0,day,time,total_bill,method
0,Sun,Dinner,16.99,Cash
1,Sun,Dinner,10.34,Cash
2,Sun,Dinner,21.01,Cash
3,Sun,Dinner,23.68,Cash
4,Sun,Dinner,24.59,Cash
5,Sun,Dinner,25.29,Cash
6,Sun,Dinner,8.77,Cash
7,Sun,Dinner,26.88,Cash


In [None]:
left = pd.merge(tips, payments, on='day', how='left')
left

Unnamed: 0,day,time,total_bill,method
0,Sun,Dinner,16.99,Cash
1,Sun,Dinner,10.34,Cash
2,Sun,Dinner,21.01,Cash
3,Sun,Dinner,23.68,Cash
4,Sun,Dinner,24.59,Cash
5,Sun,Dinner,25.29,Cash
6,Sun,Dinner,8.77,Cash
7,Sun,Dinner,26.88,Cash


In [None]:
outer = pd.merge(tips, payments, on='day', how='outer', indicator=True)
outer

Unnamed: 0,day,time,total_bill,method,_merge
0,Fri,,,Cash,right_only
1,Mon,,,Card,right_only
2,Sat,,,Card,right_only
3,Sun,Dinner,16.99,Cash,both
4,Sun,Dinner,10.34,Cash,both
5,Sun,Dinner,21.01,Cash,both
6,Sun,Dinner,23.68,Cash,both
7,Sun,Dinner,24.59,Cash,both
8,Sun,Dinner,25.29,Cash,both
9,Sun,Dinner,8.77,Cash,both


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Carregue primeiras 8 linhas de tips com day, time, total_bill.”  
  tips = sns.load_dataset('tips')[…].head(8)

  # “Crie DataFrame de métodos de pagamento por dia.”  
  payments = pd.DataFrame({…})

  # “Merge inner em day.”  
  inner = pd.merge(tips, payments, on='day', how='inner')

  # “Merge left em day.”  
  left = pd.merge(tips, payments, on='day', how='left')

  # “Merge outer com indicador de origem.”  
  outer = pd.merge(tips, payments, on='day', how='outer', indicator=True)

  # “Exiba tudo.”  
  print(tips, payments, inner, left, outer)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo      | Expressão                       | Saída                       | O que faz?                        |
  |:----------:|:--------------------------------|:----------------------------|:----------------------------------|
  | 1          | `inner`                         | somente dias comuns         | Intersection de chaves            |
  | 2          | `left`                          | todos de tips + métodos      | Preserva todas as linhas de tips  |
  | 3          | `outer`                         | união completa + indicador   | Inclui todas as chaves            |
  | 4          | –                               | imprime                      | Saída final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Cada tipo de `merge` é como escolher conjunto de cartões: `inner` mantém só interseção, `left` mantém todo baralho A, `outer` junta ambos com marcação de origem.

* **Cenário de Mercado:**  
  - Em **reconciliação financeira**, `inner` encontra transações correspondentes, `left` preserva lançamentos internos, `outer` mostra discrepâncias.  

* **Boas Práticas:**  
  - **Afirmação:** “Use `indicator=True` para depuração.”  
    - **Porquê:** Identifica origem dos registros após mesclagem.  
    - **Analogia:** É como usar tinta de cores diferentes para saber de qual lista veio cada item.


#### **Nível DEUS (1/3): Concatenação com MultiIndex via `keys`**


In [None]:
import pandas as pd
import seaborn as sns

df1 = sns.load_dataset('tips').query("day=='Thur'").head(3)
df2 = sns.load_dataset('tips').query("day=='Fri'").head(3)
# concat com keys cria MultiIndex
multi = pd.concat([df1, df2], keys=['Thu','Fri'])
print(multi)


In [9]:
# Pratique seu código aqui!

import pandas as pd
import seaborn as sns

df1 = sns.load_dataset("tips").query("day=='Thur'").head()
df1

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
77,27.2,4.0,Male,No,Thur,Lunch,4
78,22.76,3.0,Male,No,Thur,Lunch,2
79,17.29,2.71,Male,No,Thur,Lunch,2
80,19.44,3.0,Male,Yes,Thur,Lunch,2
81,16.66,3.4,Male,No,Thur,Lunch,2


In [10]:
df2 = sns.load_dataset('tips').query("day=='Fri'").head()
df2

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
90,28.97,3.0,Male,Yes,Fri,Dinner,2
91,22.49,3.5,Male,No,Fri,Dinner,2
92,5.75,1.0,Female,Yes,Fri,Dinner,2
93,16.32,4.3,Female,Yes,Fri,Dinner,2
94,22.75,3.25,Female,No,Fri,Dinner,2


In [12]:
multi = pd.concat([df1, df2], keys=['Thu','Fri'])
multi

Unnamed: 0,Unnamed: 1,total_bill,tip,sex,smoker,day,time,size
Thu,77,27.2,4.0,Male,No,Thur,Lunch,4
Thu,78,22.76,3.0,Male,No,Thur,Lunch,2
Thu,79,17.29,2.71,Male,No,Thur,Lunch,2
Thu,80,19.44,3.0,Male,Yes,Thur,Lunch,2
Thu,81,16.66,3.4,Male,No,Thur,Lunch,2
Fri,90,28.97,3.0,Male,Yes,Fri,Dinner,2
Fri,91,22.49,3.5,Male,No,Fri,Dinner,2
Fri,92,5.75,1.0,Female,Yes,Fri,Dinner,2
Fri,93,16.32,4.3,Female,Yes,Fri,Dinner,2
Fri,94,22.75,3.25,Female,No,Fri,Dinner,2


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Pegue 3 registros de Thur e Fri.”  
  df1 = sns.load_dataset('tips').query("day=='Thur'").head(3)  
  df2 = sns.load_dataset('tips').query("day=='Fri'").head(3)  

  # “Concatene com keys para criar MultiIndex.”  
  multi = pd.concat([df1, df2], keys=['Thu','Fri'])  

  # “Mostre resultado.”  
  print(multi)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                   | Saída                                          | O que faz?                      |
  |:-----:|:----------------------------|:-----------------------------------------------|:--------------------------------|
  | 1     | `multi`                     | DataFrame com MultiIndex (day, original_index) | Cria hierarquia de chaves       |
  | 2     | –                           | imprime                                        | Saída final                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Keys funcionam como pastas principais (Thu/Fri) e subpastas internas (índice original), organizando hierarquias.

* **Cenário de Mercado:**  
  Em **relatórios semanais**, agrupa dados por dia com labels claros no índice para facilitar agregações posteriores.

* **Boas Práticas:**  
  - **Afirmação:** “Use `keys` para rastrear origem.”  
    - **Porquê:** Facilita identificação de grupo original após concat.


#### **Nível DEUS (2/3): Join Complexo com Índices Diferentes**


In [None]:
import pandas as pd

dfA = pd.DataFrame({'keyA':[1,2,3], 'valA':[10,20,30]}).set_index('keyA')
dfB = pd.DataFrame({'keyB':[2,3,4], 'valB':[200,300,400]}).set_index('keyB')

# join equivalente a merge left_index/right_index
joined = dfA.join(dfB, how='outer')
print(joined)


In [16]:
# Pratique seu código aqui!
import pandas as pd

dfA = pd.DataFrame({'keyA':[1,2,3], 'valA': [10,20,30]}).set_index('keyA')
print(dfA)

      valA
keyA      
1       10
2       20
3       30


In [18]:
dfB = pd.DataFrame({'keyB': [1, 2, 3], 'valB': [200,300,400]}).set_index('keyB')
print(dfB)

      valB
keyB      
1      200
2      300
3      400


In [19]:
joined = dfA.join(dfB, how='outer')
print(joined)

      valA  valB
keyA            
1       10   200
2       20   300
3       30   400


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie dfA e dfB com índices distintos.”  
  dfA = pd.DataFrame({…}).set_index('keyA')  
  dfB = pd.DataFrame({…}).set_index('keyB')  

  # “Faça join outer pelos índices.”  
  joined = dfA.join(dfB, how='outer')  

  # “Mostre resultado.”  
  print(joined)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo   | Expressão         | Saída                  | O que faz?                   |
  |:-------:|:------------------|:-----------------------|:-----------------------------|
  | 1       | `joined`          | índices 1–4, valA,valB | União de índices             |
  | 2       | –                 | imprime                | Saída final                  |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Join é como unir duas listas telefônicas com chaves diferentes, preservando números de ambas.

* **Cenário de Mercado:**  
  Em **integração de sistemas**, junta tabelas com chaves primárias diferentes definindo relacionamento via índices.

* **Boas Práticas:**  
  - **Afirmação:** “Renomeie índices antes de join para evitar ambiguidades.”  
    - **Porquê:** Evita sobrescrever colunas ou confundir chaves.


#### **Nível DEUS (3/3): Mesclagem Complexa com `on`, `left_on`/`right_on` e `indicator`**


In [None]:
import pandas as pd

orders = pd.DataFrame({
    'order_id':[100,101,102],
    'customer_id':[1,2,3]
})
customers = pd.DataFrame({
    'cust_id':[2,3,4],
    'name':['Alice','Bob','Carol']
})

# merge com nomes de colunas diferentes
merged = pd.merge(orders, customers,
                  left_on='customer_id',
                  right_on='cust_id',
                  how='outer',
                  indicator=True)

print(orders)
print(customers)
print(merged)


In [21]:
# Pratique seu código aqui!
import pandas as pd

orders = pd.DataFrame({
    'order_id':[100,101,102],
    'customer_id':[1,2,3]
})
customers = pd.DataFrame({
    'cust_id':[2,3,4],
    'name':['Alice','Bob','Carol']
})

merged = pd.merge(orders, customers,
                  left_on='customer_id',
                  right_on='cust_id',
                  how='outer',
                  indicator=True)


In [22]:
print(orders)

   order_id  customer_id
0       100            1
1       101            2
2       102            3


In [23]:
print(customers)

   cust_id   name
0        2  Alice
1        3    Bob
2        4  Carol


In [24]:
print(merged)

   order_id  customer_id  cust_id   name      _merge
0     100.0          1.0      NaN    NaN   left_only
1     101.0          2.0      2.0  Alice        both
2     102.0          3.0      3.0    Bob        both
3       NaN          NaN      4.0  Carol  right_only


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame orders e customers.”  
  orders = pd.DataFrame({…})  
  customers = pd.DataFrame({…})  

  # “Merge outer usando left_on/right_on e indicador.”  
  merged = pd.merge(orders, customers,
                    left_on='customer_id',
                    right_on='cust_id',
                    how='outer',
                    indicator=True)  

  # “Mostre todos.”  
  print(orders, customers, merged)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Expressão                  | Saída                           | O que faz?                        |
  |:--------:|:---------------------------|:--------------------------------|:----------------------------------|
  | 1        | `merged`                   | união orders/customers + _merge | Mostra origem de cada linha       |
  | 2        | –                          | imprime                         | Saída final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como casar listas com chaves diferentes (customer_id e cust_id) e usar carimbo para saber de onde veio cada registro.

* **Cenário de Mercado:**  
  Em **CRM**, mescla pedidos com cadastro de clientes, identificando pedidos sem cliente ou clientes sem pedidos.

* **Boas Práticas:**  
  - **Afirmação:** “Use `indicator=True` para auditoria de dados.”  
    - **Porquê:** Facilita validar resultados de mesclagem.  
    - **Analogia:** É como marcar cada carta recebida de qual remetente veio.


### 3. 🕸️ Profundezas e Conexões

<br>

Concat, join e merge refletem operações SQL (`UNION`, `JOIN`, `MERGE`) e APIs de Spark DataFrame, permitindo escalar esses padrões para Big Data.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Carregue `/mnt/data/exemplo.csv` e divida em dois DataFrames por coluna `categoria`.  
2. Use `concat` com `keys` para recombinar e identificar origem.  
3. Defina um índice em `/mnt/data/livro.json` lido como DataFrame e faça `join` com outro DataFrame de ejemplares.  
4. Mescle `/mnt/data/produtos.json` com DataFrame de vendas usando `merge` (left, right, outer) e compare resultados.  
5. Utilize `indicator=True` para verificar linhas sem correspondência.

<br>

#### **❓ Pergunta de Verificação**
Quando usar `concat` vs `join` vs `merge` e como cada um impacta a performance e a complexidade de memória?

<br>

---
<br>


### **Resposta Rápida**

Use `concat()` para **empilhar** ou **juntar DataFrames em sequência**, `join()` para **combinar com base no índice**, e `merge()` para **fusão baseada em colunas-chaves**. `merge()` é o mais poderoso, mas também o mais **intensivo em memória e CPU**.

---

### **Analogia do Dia**

Pense nos três como formas de juntar peças de Lego:

* **`concat()`** é empilhar peças iguais, uma sobre a outra (mesmas colunas ou linhas).
* **`join()`** é colar peças pelas **bordas nomeadas** (índices).
* **`merge()`** é como fazer um quebra-cabeça: você encaixa peças com **chaves em comum**, mesmo que elas estejam em posições diferentes.

---

### **Análise Técnica Detalhada**

---

#### 🔗 1. `pd.concat()` → **Juntar por eixo (0 = linhas, 1 = colunas)**

```python
pd.concat([df1, df2], axis=0)
```

✅ Use quando:

* As tabelas têm **as mesmas colunas** e você quer **empilhar os dados**
* Ou mesmo índices e quer **juntar lado a lado** (`axis=1`)

⚠️ Cuidados:

* Pode gerar muitos **NaNs** se colunas ou índices não coincidirem
* **Não usa nenhuma lógica de chave**

🧠 Performance: **Rápido e leve** — ótimo para colar pedaços.

---

#### 🧱 2. `df1.join(df2)` → **Junção por índice**

```python
df1.join(df2, how="left")
```

✅ Use quando:

* Deseja unir DataFrames **com base no índice**
* Os índices já estão **alinhados ou preparados**

⚠️ Limitações:

* Menos flexível: **não permite múltiplas chaves**
* Só funciona com índices como chave primária

🧠 Performance: **Leve**, se os índices já estiverem organizados

---

#### 🧬 3. `pd.merge()` → **Combinar por colunas-chave (tipo SQL)**

```python
pd.merge(df1, df2, on="id", how="inner")
```

✅ Use quando:

* Precisa fazer **joins como em SQL**: inner, outer, left, right
* Trabalha com colunas **como chaves de relacionamento**

🧠 Mais versátil e poderoso, mas:

* **Mais custoso em memória e CPU**, especialmente em joins grandes
* Pode precisar de ajustes em nomes de colunas (`suffixes`, `left_on`, `right_on`)

---

### **Nota de Rodapé para Novatos**

* **Eixo (axis)**: `axis=0` significa linhas (vertical), `axis=1` é colunas (horizontal).
* **NaN**: Valor ausente (Not a Number).
* **Inner Join**: Mantém só o que é comum nas duas tabelas.
* **Outer Join**: Junta tudo, preenchendo com NaNs quando necessário.
* **Chave**: Coluna usada como referência para combinar linhas.

---

### **Aplicação Prática e Boas Práticas**

✅ **Na prática de Ciência de Dados:**

* `concat()` → Unir múltiplos arquivos iguais (ex: `pd.read_csv()` em loop)
* `join()` → Adicionar uma coluna lateral com base no índice (ex: categoria, ID)
* `merge()` → Tarefa típica de **relacional**: clientes + vendas, produtos + preços

💡 Boas práticas:

* Sempre defina chaves claramente (`on=`, `left_on=`, `right_on=`)
* Se precisar de performance: use `merge()` com `.astype("category")` nas chaves

📉 Custo estimado de memória:

| Método | Flexibilidade | Velocidade | Custo de Memória |
| ------ | ------------- | ---------- | ---------------- |
| concat | Baixa         | Alta       | Baixo            |
| join   | Média         | Alta       | Médio            |
| merge  | Alta          | Média      | Alto             |

---

### **Resumo da Lição**

Use `concat()` para **empilhar**, `join()` para **ligar por índice**, e `merge()` para **relacionar por colunas**. Escolher bem evita bugs e melhora muito a performance em conjuntos grandes.

---


In [31]:
import pandas as pd

# Criando três DataFrames de exemplo
df1 = pd.DataFrame({
    "id": [1, 2, 3],
    "nome": ["Ana", "Bruno", "Clara"]
})

df2 = pd.DataFrame({
    "id": [1, 2, 4],
    "salario": [3000, 4000, 5000]
})

df3 = pd.DataFrame({
    "cargo": ["Analista", "Gerente", "Estagiário"],
    "setor": ["RH", "TI", "Marketing"]
}, index=[1, 2, 3])  # Usando id como índice

# concat: empilhar df1 e df2 (por linha)
concat_exemplo = pd.concat([df1, df2], axis=0, ignore_index=True)

# join: juntar df1 com df3 pelo índice
df1_com_index = df1.set_index("id")
join_exemplo = df1_com_index.join(df3, how="left")

# merge: juntar df1 e df2 com base na coluna 'id'
merge_exemplo = pd.merge(df1, df2, on="id", how="outer")

# Mostrar os três resultados
print("Concat - Empilhamento:\n", concat_exemplo)
print("\nJoin - Pelo Índice:\n", join_exemplo)
print("\nMerge - Pela Chave:\n", merge_exemplo)

Concat - Empilhamento:
    id   nome  salario
0   1    Ana      NaN
1   2  Bruno      NaN
2   3  Clara      NaN
3   1    NaN   3000.0
4   2    NaN   4000.0
5   4    NaN   5000.0

Join - Pelo Índice:
      nome       cargo      setor
id                              
1     Ana    Analista         RH
2   Bruno     Gerente         TI
3   Clara  Estagiário  Marketing

Merge - Pela Chave:
    id   nome  salario
0   1    Ana   3000.0
1   2  Bruno   4000.0
2   3  Clara      NaN
3   4    NaN   5000.0


Aqui estão os **três resultados lado a lado** para visualizar claramente as diferenças entre `concat`, `join` e `merge`:

* **Concat:** os DataFrames são empilhados sem lógica de chave.
* **Join:** os dados são combinados usando o índice como critério.
* **Merge:** faz junção completa pelas colunas `id`, semelhante a uma operação SQL.

Se quiser, posso te guiar por uma situação real de uso em Data Science, como unir bases de clientes e transações. Deseja? 🧠📊
