## 🎓 **Aula sobre: Pandas — Concatenar, Juntar e Mesclar**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida           | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                 | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões            | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação             | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais  | Opcional      | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **concat:** une DataFrames no eixo 0 ou 1, mantendo colunas/index.  
> - **join:** método de DataFrame para juntar pelo índice (inner/left).  
> - **merge:** API similar a SQL `JOIN` por colunas-chave.  
> - **how:** define tipo de junção: `inner`, `left`, `right`, `outer`.  
> - **keys:** cria MultiIndex ao concatenar partes.

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
— **concat:** empilha ou concatena colunas de DataFrames semelhantes.  
— **join:** facilita juntar DataFrames pelo índice, similar a `merge(..., left_index=True, right_index=True)`.  
— **merge:** combina tabelas por colunas-chave, controlando como casar registros.  
O parâmetro **how** decide se preserva apenas interseções (`inner`) ou inclui todas as chaves (`outer`), mantendo NaN onde não há correspondência.

<br>

#### **🔗 Analogia de Data Science**  
Imagine três planilhas de vendas:  
- **concat:** é empilhar páginas umas sobre as outras (por data) ou lado a lado (por métrica).  
- **join:** é encaixar duas planilhas que têm a mesma sequência de linhas (índice).  
- **merge:** é igual a cruzar duas planilhas por código de produto, gerando uma terceira com informação combinada.

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Usando `concat` para empilhar fatias de um dataset real**


In [None]:
import pandas as pd
import seaborn as sns

# Carrega dados reais de gorjetas
tips = sns.load_dataset('tips')

# Divida por dia da semana
df1 = tips[tips['day'].isin(['Thur','Fri'])].head(5)
df2 = tips[tips['day'].isin(['Sat','Sun'])].head(5)

# Empilhe verticalmente
concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)

print("Parte 1:\n", df1)
print("Parte 2:\n", df2)
print("Concatenado:\n", concatenado)


In [5]:
# Pratique seu código aqui!

import pandas as pd
import seaborn as sns

tips = sns.load_dataset('tips')
print(tips.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4


In [17]:
df1 = tips[tips['day'].isin(['Thur', 'Fri'])].head(10)
print(df1)

    total_bill   tip     sex smoker   day   time  size
77       27.20  4.00    Male     No  Thur  Lunch     4
78       22.76  3.00    Male     No  Thur  Lunch     2
79       17.29  2.71    Male     No  Thur  Lunch     2
80       19.44  3.00    Male    Yes  Thur  Lunch     2
81       16.66  3.40    Male     No  Thur  Lunch     2
82       10.07  1.83  Female     No  Thur  Lunch     1
83       32.68  5.00    Male    Yes  Thur  Lunch     2
84       15.98  2.03    Male     No  Thur  Lunch     2
85       34.83  5.17  Female     No  Thur  Lunch     4
86       13.03  2.00    Male     No  Thur  Lunch     2


In [14]:
df2 = tips[tips['day'].isin(['Sat', 'Fri'])]. head(10)
print(df2)

    total_bill   tip     sex smoker  day    time  size
19       20.65  3.35    Male     No  Sat  Dinner     3
20       17.92  4.08    Male     No  Sat  Dinner     2
21       20.29  2.75  Female     No  Sat  Dinner     2
22       15.77  2.23  Female     No  Sat  Dinner     2
23       39.42  7.58    Male     No  Sat  Dinner     4
24       19.82  3.18    Male     No  Sat  Dinner     2
25       17.81  2.34    Male     No  Sat  Dinner     4
26       13.37  2.00    Male     No  Sat  Dinner     2
27       12.69  2.00    Male     No  Sat  Dinner     2
28       21.70  4.30    Male     No  Sat  Dinner     2


In [16]:
concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)
print(concatenado)

    total_bill   tip     sex smoker   day    time  size
0        27.20  4.00    Male     No  Thur   Lunch     4
1        22.76  3.00    Male     No  Thur   Lunch     2
2        17.29  2.71    Male     No  Thur   Lunch     2
3        19.44  3.00    Male    Yes  Thur   Lunch     2
4        16.66  3.40    Male     No  Thur   Lunch     2
5        20.65  3.35    Male     No   Sat  Dinner     3
6        17.92  4.08    Male     No   Sat  Dinner     2
7        20.29  2.75  Female     No   Sat  Dinner     2
8        15.77  2.23  Female     No   Sat  Dinner     2
9        39.42  7.58    Male     No   Sat  Dinner     4
10       19.82  3.18    Male     No   Sat  Dinner     2
11       17.81  2.34    Male     No   Sat  Dinner     4
12       13.37  2.00    Male     No   Sat  Dinner     2
13       12.69  2.00    Male     No   Sat  Dinner     2
14       21.70  4.30    Male     No   Sat  Dinner     2


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e seaborn.”  
  import pandas as pd  
  import seaborn as sns  

  # “Carregue dataset de gorjetas.”  
  tips = sns.load_dataset('tips')  

  # “Pegue as 5 primeiras linhas de Thur e Fri.”  
  df1 = tips[tips['day'].isin(['Thur','Fri'])].head(5)  

  # “Pegue as 5 primeiras de Sat e Sun.”  
  df2 = tips[tips['day'].isin(['Sat','Sun'])].head(5)  

  # “Concatene df1 e df2 verticalmente.”  
  concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)  

  # “Mostre as partes e o resultado.”  
  print(df1, df2, concatenado)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo          | Expressão                          | Saída                            | O que faz?                         |
  |:--------------:|:-----------------------------------|:---------------------------------|:-----------------------------------|
  | 1              | `df1`                              | 5 linhas Thur/Fri                | Parte superior do dataset          |
  | 2              | `df2`                              | 5 linhas Sat/Sun                 | Parte inferior                    |
  | 3              | `pd.concat([df1,df2])`             | 10 linhas                        | Empilha linhas sem duplicar índice |
  | 4              | –                                  | imprime                          | Saída final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como juntar duas pilhas de relatórios de dias diferentes em uma só montanha, mantendo a ordem e renumerando as folhas.

* **Cenário de Mercado:**  
  - Em **ETL de logs**, concatena lotes diários de registros para compor um histórico contínuo.  
  - Ao processar streams, usa-se `concat` em janelas fixas para análise incremental.

* **Boas Práticas:**  
  - **Afirmação:** “Use `ignore_index=True` ao empilhar períodos.”  
    - **Porquê:** Evita índices duplicados; gera novo índice limpo.  
    - **Analogia:** É como renumerar as páginas quando junta relatórios de meses diferentes.


#### **Nível Intermediário: Juntando pelo índice com `.join()`**


In [None]:
import pandas as pd
import seaborn as sns

# Carrega dataset de flights e clima
flights = sns.load_dataset('flights').pivot(index='year', columns='month', values='passengers')
weather = sns.load_dataset('flights').groupby('year')['passengers'].sum().to_frame('total_pass')

# .join usa índice em comum (year)
juntado = flights.join(weather, how='inner')

print("Flighs (pivot):\n", flights.head())
print("Weather total:\n", weather.head())
print("Joined:\n", juntado.head())


In [27]:
# Pratique seu código aqui!
import pandas as pd
import seaborn as sns

flights = sns.load_dataset('flights')
flights.head()


Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121


In [28]:
flights = sns.load_dataset('flights').pivot(index='year', columns='month',values='passengers')
flights.head()

month,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1949,112,118,132,129,121,135,148,148,136,119,104,118
1950,115,126,141,135,125,149,170,170,158,133,114,140
1951,145,150,178,163,172,178,199,199,184,162,146,166
1952,171,180,193,181,183,218,230,242,209,191,172,194
1953,196,196,236,235,229,243,264,272,237,211,180,201


In [29]:
weather = sns.load_dataset('flights').groupby('year')['passengers'].sum().to_frame('total_pass')
weather.head()

Unnamed: 0_level_0,total_pass
year,Unnamed: 1_level_1
1949,1520
1950,1676
1951,2042
1952,2364
1953,2700


In [30]:
juntado = flights.join(weather, how='inner')
print(juntado.head())

      Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec  total_pass
year                                                                        
1949  112  118  132  129  121  135  148  148  136  119  104  118        1520
1950  115  126  141  135  125  149  170  170  158  133  114  140        1676
1951  145  150  178  163  172  178  199  199  184  162  146  166        2042
1952  171  180  193  181  183  218  230  242  209  191  172  194        2364
1953  196  196  236  235  229  243  264  272  237  211  180  201        2700


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe seaborn e pandas.”  
  import pandas as pd  
  import seaborn as sns  

  # “Pivot de passageiros por ano×mês.”  
  flights = sns.load_dataset('flights').pivot(...)

  # “Some passageiros por ano.”  
  weather = sns.load_dataset('flights').groupby('year')['passengers'].sum().to_frame('total_pass')

  # “Junte pelo índice year.”  
  juntado = flights.join(weather, how='inner')

  # “Mostre partes e resultado.”  
  print(flights.head(), weather.head(), juntado.head())
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo     | Expressão           | Saída                          | O que faz?                          |
  |:---------:|:--------------------|:-------------------------------|:------------------------------------|
  | 1         | `flights`           | DataFrame 12×12 (ano×mês)      | Pivot tabela                        |
  | 2         | `weather`           | Series/DataFrame (ano,total)   | Total anual de passageiros          |
  | 3         | `flights.join()`    | 12×13 DataFrame                | Acrescenta coluna total_pass        |
  | 4         | –                   | imprime                        | Saída final                         |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pense em duas planilhas com o mesmo índice (ano); `join` as alinha como páginas do mesmo caderno, colocando colunas lado a lado.

* **Cenário de Mercado:**  
  Em **BI**, junta métricas mensais (pivot) com totais anuais para relatório integrado no dashboard.

* **Boas Práticas:**  
  - **Afirmação:** “Use `how='inner'` para garantir anos comuns.”  
    - **Porquê:** Evita linhas com ano faltante em uma das tabelas.  
    - **Analogia:** É como só mostrar anos para os quais existem ambos os conjuntos de dados.


#### **Nível Avançado: Mesclando com `merge()` e diferentes joins**


In [None]:
import pandas as pd
import seaborn as sns

# Dataset originales
tips = sns.load_dataset('tips')[['day','time','total_bill']].head(8)
payments = pd.DataFrame({
    'day': ['Thur','Fri','Sat','Sun','Mon'],
    'method': ['Card','Cash','Card','Cash','Card']
})

# SQL-style merges
inner = pd.merge(tips, payments, on='day', how='inner')
left = pd.merge(tips, payments, on='day', how='left')
outer = pd.merge(tips, payments, on='day', how='outer', indicator=True)

print("Tips:\n", tips)
print("Payments:\n", payments)
print("Inner Merge:\n", inner)
print("Left Merge:\n", left)
print("Outer Merge:\n", outer)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Carregue primeiras 8 linhas de tips com day, time, total_bill.”  
  tips = sns.load_dataset('tips')[…].head(8)

  # “Crie DataFrame de métodos de pagamento por dia.”  
  payments = pd.DataFrame({…})

  # “Merge inner em day.”  
  inner = pd.merge(tips, payments, on='day', how='inner')

  # “Merge left em day.”  
  left = pd.merge(tips, payments, on='day', how='left')

  # “Merge outer com indicador de origem.”  
  outer = pd.merge(tips, payments, on='day', how='outer', indicator=True)

  # “Exiba tudo.”  
  print(tips, payments, inner, left, outer)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo      | Expressão                       | Saída                       | O que faz?                        |
  |:----------:|:--------------------------------|:----------------------------|:----------------------------------|
  | 1          | `inner`                         | somente dias comuns         | Intersection de chaves            |
  | 2          | `left`                          | todos de tips + métodos      | Preserva todas as linhas de tips  |
  | 3          | `outer`                         | união completa + indicador   | Inclui todas as chaves            |
  | 4          | –                               | imprime                      | Saída final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Cada tipo de `merge` é como escolher conjunto de cartões: `inner` mantém só interseção, `left` mantém todo baralho A, `outer` junta ambos com marcação de origem.

* **Cenário de Mercado:**  
  - Em **reconciliação financeira**, `inner` encontra transações correspondentes, `left` preserva lançamentos internos, `outer` mostra discrepâncias.  

* **Boas Práticas:**  
  - **Afirmação:** “Use `indicator=True` para depuração.”  
    - **Porquê:** Identifica origem dos registros após mesclagem.  
    - **Analogia:** É como usar tinta de cores diferentes para saber de qual lista veio cada item.


#### **Nível DEUS (1/3): Concatenação com MultiIndex via `keys`**


In [None]:
import pandas as pd
import seaborn as sns

df1 = sns.load_dataset('tips').query("day=='Thur'").head(3)
df2 = sns.load_dataset('tips').query("day=='Fri'").head(3)
# concat com keys cria MultiIndex
multi = pd.concat([df1, df2], keys=['Thu','Fri'])
print(multi)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Pegue 3 registros de Thur e Fri.”  
  df1 = sns.load_dataset('tips').query("day=='Thur'").head(3)  
  df2 = sns.load_dataset('tips').query("day=='Fri'").head(3)  

  # “Concatene com keys para criar MultiIndex.”  
  multi = pd.concat([df1, df2], keys=['Thu','Fri'])  

  # “Mostre resultado.”  
  print(multi)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo | Expressão                   | Saída                                 | O que faz?                      |
  |:-----:|:----------------------------|:--------------------------------------|:--------------------------------|
  | 1     | `multi`                     | DataFrame com MultiIndex (day, original_index) | Cria hierarquia de chaves |
  | 2     | –                           | imprime                               | Saída final                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Keys funcionam como pastas principais (Thu/Fri) e subpastas internas (índice original), organizando hierarquias.

* **Cenário de Mercado:**  
  Em **relatórios semanais**, agrupa dados por dia com labels claros no índice para facilitar agregações posteriores.

* **Boas Práticas:**  
  - **Afirmação:** “Use `keys` para rastrear origem.”  
    - **Porquê:** Facilita identificação de grupo original após concat.


#### **Nível DEUS (2/3): Join Complexo com Índices Diferentes**


In [None]:
import pandas as pd

dfA = pd.DataFrame({'keyA':[1,2,3], 'valA':[10,20,30]}).set_index('keyA')
dfB = pd.DataFrame({'keyB':[2,3,4], 'valB':[200,300,400]}).set_index('keyB')

# join equivalente a merge left_index/right_index
joined = dfA.join(dfB, how='outer')
print(joined)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie dfA e dfB com índices distintos.”  
  dfA = pd.DataFrame({…}).set_index('keyA')  
  dfB = pd.DataFrame({…}).set_index('keyB')  

  # “Faça join outer pelos índices.”  
  joined = dfA.join(dfB, how='outer')  

  # “Mostre resultado.”  
  print(joined)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo   | Expressão         | Saída                  | O que faz?                   |
  |:-------:|:------------------|:-----------------------|:-----------------------------|
  | 1       | `joined`          | índices 1–4, valA,valB | União de índices             |
  | 2       | –                 | imprime                | Saída final                  |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Join é como unir duas listas telefônicas com chaves diferentes, preservando números de ambas.

* **Cenário de Mercado:**  
  Em **integração de sistemas**, junta tabelas com chaves primárias diferentes definindo relacionamento via índices.

* **Boas Práticas:**  
  - **Afirmação:** “Renomeie índices antes de join para evitar ambiguidades.”  
    - **Porquê:** Evita sobrescrever colunas ou confundir chaves.


#### **Nível DEUS (3/3): Mesclagem Complexa com `on`, `left_on`/`right_on` e `indicator`**


In [None]:
import pandas as pd

orders = pd.DataFrame({
    'order_id':[100,101,102],
    'customer_id':[1,2,3]
})
customers = pd.DataFrame({
    'cust_id':[2,3,4],
    'name':['Alice','Bob','Carol']
})

# merge com nomes de colunas diferentes
merged = pd.merge(orders, customers,
                  left_on='customer_id',
                  right_on='cust_id',
                  how='outer',
                  indicator=True)

print(orders)
print(customers)
print(merged)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Crie DataFrame orders e customers.”  
  orders = pd.DataFrame({…})  
  customers = pd.DataFrame({…})  

  # “Merge outer usando left_on/right_on e indicador.”  
  merged = pd.merge(orders, customers,
                    left_on='customer_id',
                    right_on='cust_id',
                    how='outer',
                    indicator=True)  

  # “Mostre todos.”  
  print(orders, customers, merged)  
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Expressão                  | Saída                        | O que faz?                        |
  |:--------:|:---------------------------|:-----------------------------|:----------------------------------|
  | 1        | `merged`                   | união orders/customers + _merge | Mostra origem de cada linha   |
  | 2        | –                          | imprime                      | Saída final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como casar listas com chaves diferentes (customer_id e cust_id) e usar carimbo para saber de onde veio cada registro.

* **Cenário de Mercado:**  
  Em **CRM**, mescla pedidos com cadastro de clientes, identificando pedidos sem cliente ou clientes sem pedidos.

* **Boas Práticas:**  
  - **Afirmação:** “Use `indicator=True` para auditoria de dados.”  
    - **Porquê:** Facilita validar resultados de mesclagem.  
    - **Analogia:** É como marcar cada carta recebida de qual remetente veio.


### 3. 🕸️ Profundezas e Conexões

<br>

Concat, join e merge refletem operações SQL (`UNION`, `JOIN`, `MERGE`) e APIs de Spark DataFrame, permitindo escalar esses padrões para Big Data.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Carregue `/mnt/data/exemplo.csv` e divida em dois DataFrames por coluna `categoria`.  
2. Use `concat` com `keys` para recombinar e identificar origem.  
3. Defina um índice em `/mnt/data/livro.json` lido como DataFrame e faça `join` com outro DataFrame de ejemplares.  
4. Mescle `/mnt/data/produtos.json` com DataFrame de vendas usando `merge` (left, right, outer) e compare resultados.  
5. Utilize `indicator=True` para verificar linhas sem correspondência.

<br>

#### **❓ Pergunta de Verificação**
Quando usar `concat` vs `join` vs `merge` e como cada um impacta a performance e a complexidade de memória?

<br>

---
<br>
