## üéì **Aula sobre: Pandas ‚Äî Concatenar, Juntar e Mesclar**

<br>

### üß≠ Sum√°rio da Aula

| # | Sub-t√≥pico                        | Tempo Estimado | Complexidade |
|---|-----------------------------------|----------------|--------------|
| 1 | Ficha de Revis√£o R√°pida           | ~1 min         | ‚≠ê           |
| 2 | Mergulho Profundo                 | ~15 min        | ‚≠ê‚≠ê‚≠ê‚≠ê       |
| 3 | Profundezas e Conex√µes            | ~3 min         | ‚≠ê‚≠ê         |
| 4 | üöÄ A√ß√£o e Verifica√ß√£o             | ~5 min         | ‚≠ê‚≠ê         |
| 5 | üåä Mergulhos Adicionais Opcionais  | Opcional      | ‚≠ê‚≠ê‚≠ê‚≠ê      |

<br>

---
<br>


### 1. üß† Ficha de Revis√£o R√°pida | (O Essencial)

<br>

> - **concat:** une DataFrames no eixo 0 ou 1, mantendo colunas/index.  
> - **join:** m√©todo de DataFrame para juntar pelo √≠ndice (inner/left).  
> - **merge:** API similar a SQL `JOIN` por colunas-chave.  
> - **how:** define tipo de jun√ß√£o: `inner`, `left`, `right`, `outer`.  
> - **keys:** cria MultiIndex ao concatenar partes.

<br>


### 2. üî¨ Mergulho Profundo | (Os Detalhes)

<br>

#### **üéØ O Conceito Central**  
‚Äî **concat:** empilha ou concatena colunas de DataFrames semelhantes.  
‚Äî **join:** facilita juntar DataFrames pelo √≠ndice, similar a `merge(..., left_index=True, right_index=True)`.  
‚Äî **merge:** combina tabelas por colunas-chave, controlando como casar registros.  
O par√¢metro **how** decide se preserva apenas interse√ß√µes (`inner`) ou inclui todas as chaves (`outer`), mantendo NaN onde n√£o h√° correspond√™ncia.

<br>

#### **üîó Analogia de Data Science**  
Imagine tr√™s planilhas de vendas:  
- **concat:** √© empilhar p√°ginas umas sobre as outras (por data) ou lado a lado (por m√©trica).  
- **join:** √© encaixar duas planilhas que t√™m a mesma sequ√™ncia de linhas (√≠ndice).  
- **merge:** √© igual a cruzar duas planilhas por c√≥digo de produto, gerando uma terceira com informa√ß√£o combinada.

<br>

### **üíª Exemplos de Mercado (Abrangentes)**


#### **N√≠vel Simples: Usando `concat` para empilhar fatias de um dataset real**


In [None]:
import pandas as pd
import seaborn as sns

# Carrega dados reais de gorjetas
tips = sns.load_dataset('tips')

# Divida por dia da semana
df1 = tips[tips['day'].isin(['Thur','Fri'])].head(5)
df2 = tips[tips['day'].isin(['Sat','Sun'])].head(5)

# Empilhe verticalmente
concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)

print("Parte 1:\n", df1)
print("Parte 2:\n", df2)
print("Concatenado:\n", concatenado)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúImporte pandas e seaborn.‚Äù  
  import pandas as pd  
  import seaborn as sns  

  # ‚ÄúCarregue dataset de gorjetas.‚Äù  
  tips = sns.load_dataset('tips')  

  # ‚ÄúPegue as 5 primeiras linhas de Thur e Fri.‚Äù  
  df1 = tips[tips['day'].isin(['Thur','Fri'])].head(5)  

  # ‚ÄúPegue as 5 primeiras de Sat e Sun.‚Äù  
  df2 = tips[tips['day'].isin(['Sat','Sun'])].head(5)  

  # ‚ÄúConcatene df1 e df2 verticalmente.‚Äù  
  concatenado = pd.concat([df1, df2], axis=0, ignore_index=True)  

  # ‚ÄúMostre as partes e o resultado.‚Äù  
  print(df1, df2, concatenado)  
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo          | Express√£o                          | Sa√≠da                            | O que faz?                         |
  |:--------------:|:-----------------------------------|:---------------------------------|:-----------------------------------|
  | 1              | `df1`                              | 5 linhas Thur/Fri                | Parte superior do dataset          |
  | 2              | `df2`                              | 5 linhas Sat/Sun                 | Parte inferior                    |
  | 3              | `pd.concat([df1,df2])`             | 10 linhas                        | Empilha linhas sem duplicar √≠ndice |
  | 4              | ‚Äì                                  | imprime                          | Sa√≠da final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  √â como juntar duas pilhas de relat√≥rios de dias diferentes em uma s√≥ montanha, mantendo a ordem e renumerando as folhas.

* **Cen√°rio de Mercado:**  
  - Em **ETL de logs**, concatena lotes di√°rios de registros para compor um hist√≥rico cont√≠nuo.  
  - Ao processar streams, usa-se `concat` em janelas fixas para an√°lise incremental.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse `ignore_index=True` ao empilhar per√≠odos.‚Äù  
    - **Porqu√™:** Evita √≠ndices duplicados; gera novo √≠ndice limpo.  
    - **Analogia:** √â como renumerar as p√°ginas quando junta relat√≥rios de meses diferentes.


#### **N√≠vel Intermedi√°rio: Juntando pelo √≠ndice com `.join()`**


In [None]:
import pandas as pd
import seaborn as sns

# Carrega dataset de flights e clima
flights = sns.load_dataset('flights').pivot(index='year', columns='month', values='passengers')
weather = sns.load_dataset('flights').groupby('year')['passengers'].sum().to_frame('total_pass')

# .join usa √≠ndice em comum (year)
juntado = flights.join(weather, how='inner')

print("Flighs (pivot):\n", flights.head())
print("Weather total:\n", weather.head())
print("Joined:\n", juntado.head())


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúImporte seaborn e pandas.‚Äù  
  import pandas as pd  
  import seaborn as sns  

  # ‚ÄúPivot de passageiros por ano√óm√™s.‚Äù  
  flights = sns.load_dataset('flights').pivot(...)

  # ‚ÄúSome passageiros por ano.‚Äù  
  weather = sns.load_dataset('flights').groupby('year')['passengers'].sum().to_frame('total_pass')

  # ‚ÄúJunte pelo √≠ndice year.‚Äù  
  juntado = flights.join(weather, how='inner')

  # ‚ÄúMostre partes e resultado.‚Äù  
  print(flights.head(), weather.head(), juntado.head())
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo     | Express√£o           | Sa√≠da                          | O que faz?                          |
  |:---------:|:--------------------|:-------------------------------|:------------------------------------|
  | 1         | `flights`           | DataFrame 12√ó12 (ano√óm√™s)      | Pivot tabela                        |
  | 2         | `weather`           | Series/DataFrame (ano,total)   | Total anual de passageiros          |
  | 3         | `flights.join()`    | 12√ó13 DataFrame                | Acrescenta coluna total_pass        |
  | 4         | ‚Äì                   | imprime                         | Sa√≠da final                         |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Pense em duas planilhas com o mesmo √≠ndice (ano); `join` as alinha como p√°ginas do mesmo caderno, colocando colunas lado a lado.

* **Cen√°rio de Mercado:**  
  Em **BI**, junta m√©tricas mensais (pivot) com totais anuais para relat√≥rio integrado no dashboard.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse `how='inner'` para garantir anos comuns.‚Äù  
    - **Porqu√™:** Evita linhas com ano faltante em uma das tabelas.  
    - **Analogia:** √â como s√≥ mostrar anos para os quais existem ambos os conjuntos de dados.


#### **N√≠vel Avan√ßado: Mesclando com `merge()` e diferentes joins**


In [None]:
import pandas as pd
import seaborn as sns

# Dataset originales
tips = sns.load_dataset('tips')[['day','time','total_bill']].head(8)
payments = pd.DataFrame({
    'day': ['Thur','Fri','Sat','Sun','Mon'],
    'method': ['Card','Cash','Card','Cash','Card']
})

# SQL-style merges
inner = pd.merge(tips, payments, on='day', how='inner')
left = pd.merge(tips, payments, on='day', how='left')
outer = pd.merge(tips, payments, on='day', how='outer', indicator=True)

print("Tips:\n", tips)
print("Payments:\n", payments)
print("Inner Merge:\n", inner)
print("Left Merge:\n", left)
print("Outer Merge:\n", outer)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúCarregue primeiras 8 linhas de tips com day, time, total_bill.‚Äù  
  tips = sns.load_dataset('tips')[‚Ä¶].head(8)

  # ‚ÄúCrie DataFrame de m√©todos de pagamento por dia.‚Äù  
  payments = pd.DataFrame({‚Ä¶})

  # ‚ÄúMerge inner em day.‚Äù  
  inner = pd.merge(tips, payments, on='day', how='inner')

  # ‚ÄúMerge left em day.‚Äù  
  left = pd.merge(tips, payments, on='day', how='left')

  # ‚ÄúMerge outer com indicador de origem.‚Äù  
  outer = pd.merge(tips, payments, on='day', how='outer', indicator=True)

  # ‚ÄúExiba tudo.‚Äù  
  print(tips, payments, inner, left, outer)
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo      | Express√£o                       | Sa√≠da                       | O que faz?                        |
  |:----------:|:--------------------------------|:----------------------------|:----------------------------------|
  | 1          | `inner`                         | somente dias comuns         | Intersection de chaves            |
  | 2          | `left`                          | todos de tips + m√©todos      | Preserva todas as linhas de tips  |
  | 3          | `outer`                         | uni√£o completa + indicador   | Inclui todas as chaves            |
  | 4          | ‚Äì                               | imprime                      | Sa√≠da final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Cada tipo de `merge` √© como escolher conjunto de cart√µes: `inner` mant√©m s√≥ interse√ß√£o, `left` mant√©m todo baralho A, `outer` junta ambos com marca√ß√£o de origem.

* **Cen√°rio de Mercado:**  
  - Em **reconcilia√ß√£o financeira**, `inner` encontra transa√ß√µes correspondentes, `left` preserva lan√ßamentos internos, `outer` mostra discrep√¢ncias.  

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse `indicator=True` para depura√ß√£o.‚Äù  
    - **Porqu√™:** Identifica origem dos registros ap√≥s mesclagem.  
    - **Analogia:** √â como usar tinta de cores diferentes para saber de qual lista veio cada item.


#### **N√≠vel DEUS (1/3): Concatena√ß√£o com MultiIndex via `keys`**


In [None]:
import pandas as pd
import seaborn as sns

df1 = sns.load_dataset('tips').query("day=='Thur'").head(3)
df2 = sns.load_dataset('tips').query("day=='Fri'").head(3)
# concat com keys cria MultiIndex
multi = pd.concat([df1, df2], keys=['Thu','Fri'])
print(multi)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúPegue 3 registros de Thur e Fri.‚Äù  
  df1 = sns.load_dataset('tips').query("day=='Thur'").head(3)  
  df2 = sns.load_dataset('tips').query("day=='Fri'").head(3)  

  # ‚ÄúConcatene com keys para criar MultiIndex.‚Äù  
  multi = pd.concat([df1, df2], keys=['Thu','Fri'])  

  # ‚ÄúMostre resultado.‚Äù  
  print(multi)  
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo | Express√£o                   | Sa√≠da                                 | O que faz?                      |
  |:-----:|:----------------------------|:--------------------------------------|:--------------------------------|
  | 1     | `multi`                     | DataFrame com MultiIndex (day, original_index) | Cria hierarquia de chaves |
  | 2     | ‚Äì                           | imprime                               | Sa√≠da final                     |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Keys funcionam como pastas principais (Thu/Fri) e subpastas internas (√≠ndice original), organizando hierarquias.

* **Cen√°rio de Mercado:**  
  Em **relat√≥rios semanais**, agrupa dados por dia com labels claros no √≠ndice para facilitar agrega√ß√µes posteriores.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse `keys` para rastrear origem.‚Äù  
    - **Porqu√™:** Facilita identifica√ß√£o de grupo original ap√≥s concat.


#### **N√≠vel DEUS (2/3): Join Complexo com √çndices Diferentes**


In [None]:
import pandas as pd

dfA = pd.DataFrame({'keyA':[1,2,3], 'valA':[10,20,30]}).set_index('keyA')
dfB = pd.DataFrame({'keyB':[2,3,4], 'valB':[200,300,400]}).set_index('keyB')

# join equivalente a merge left_index/right_index
joined = dfA.join(dfB, how='outer')
print(joined)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúCrie dfA e dfB com √≠ndices distintos.‚Äù  
  dfA = pd.DataFrame({‚Ä¶}).set_index('keyA')  
  dfB = pd.DataFrame({‚Ä¶}).set_index('keyB')  

  # ‚ÄúFa√ßa join outer pelos √≠ndices.‚Äù  
  joined = dfA.join(dfB, how='outer')  

  # ‚ÄúMostre resultado.‚Äù  
  print(joined)  
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo   | Express√£o         | Sa√≠da                  | O que faz?                   |
  |:-------:|:------------------|:-----------------------|:-----------------------------|
  | 1       | `joined`          | √≠ndices 1‚Äì4, valA,valB | Uni√£o de √≠ndices             |
  | 2       | ‚Äì                 | imprime                | Sa√≠da final                  |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Join √© como unir duas listas telef√¥nicas com chaves diferentes, preservando n√∫meros de ambas.

* **Cen√°rio de Mercado:**  
  Em **integra√ß√£o de sistemas**, junta tabelas com chaves prim√°rias diferentes definindo relacionamento via √≠ndices.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúRenomeie √≠ndices antes de join para evitar ambiguidades.‚Äù  
    - **Porqu√™:** Evita sobrescrever colunas ou confundir chaves.


#### **N√≠vel DEUS (3/3): Mesclagem Complexa com `on`, `left_on`/`right_on` e `indicator`**


In [None]:
import pandas as pd

orders = pd.DataFrame({
    'order_id':[100,101,102],
    'customer_id':[1,2,3]
})
customers = pd.DataFrame({
    'cust_id':[2,3,4],
    'name':['Alice','Bob','Carol']
})

# merge com nomes de colunas diferentes
merged = pd.merge(orders, customers,
                  left_on='customer_id',
                  right_on='cust_id',
                  how='outer',
                  indicator=True)

print(orders)
print(customers)
print(merged)


In [None]:
# Pratique seu c√≥digo aqui!


* **O que o c√≥digo faz:**  

  **1) Explica√ß√£o Linha a Linha (Di√°logo com o C√≥digo):**  
  ```python
  # ‚ÄúCrie DataFrame orders e customers.‚Äù  
  orders = pd.DataFrame({‚Ä¶})  
  customers = pd.DataFrame({‚Ä¶})  

  # ‚ÄúMerge outer usando left_on/right_on e indicador.‚Äù  
  merged = pd.merge(orders, customers,
                    left_on='customer_id',
                    right_on='cust_id',
                    how='outer',
                    indicator=True)  

  # ‚ÄúMostre todos.‚Äù  
  print(orders, customers, merged)  
  ```

  **2) Tabela de Estados Intermedi√°rios:**

  ```markdown
  | Passo    | Express√£o                  | Sa√≠da                        | O que faz?                        |
  |:--------:|:---------------------------|:-----------------------------|:----------------------------------|
  | 1        | `merged`                   | uni√£o orders/customers + _merge | Mostra origem de cada linha   |
  | 2        | ‚Äì                          | imprime                      | Sa√≠da final                       |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  √â como casar listas com chaves diferentes (customer_id e cust_id) e usar carimbo para saber de onde veio cada registro.

* **Cen√°rio de Mercado:**  
  Em **CRM**, mescla pedidos com cadastro de clientes, identificando pedidos sem cliente ou clientes sem pedidos.

* **Boas Pr√°ticas:**  
  - **Afirma√ß√£o:** ‚ÄúUse `indicator=True` para auditoria de dados.‚Äù  
    - **Porqu√™:** Facilita validar resultados de mesclagem.  
    - **Analogia:** √â como marcar cada carta recebida de qual remetente veio.


### 3. üï∏Ô∏è Profundezas e Conex√µes

<br>

Concat, join e merge refletem opera√ß√µes SQL (`UNION`, `JOIN`, `MERGE`) e APIs de Spark DataFrame, permitindo escalar esses padr√µes para Big Data.

<br>

---
<br>


### 4. üöÄ A√ß√£o e Verifica√ß√£o

<br>

#### **ü§î Desafio Pr√°tico**
1. Carregue `/mnt/data/exemplo.csv` e divida em dois DataFrames por coluna `categoria`.  
2. Use `concat` com `keys` para recombinar e identificar origem.  
3. Defina um √≠ndice em `/mnt/data/livro.json` lido como DataFrame e fa√ßa `join` com outro DataFrame de ejemplares.  
4. Mescle `/mnt/data/produtos.json` com DataFrame de vendas usando `merge` (left, right, outer) e compare resultados.  
5. Utilize `indicator=True` para verificar linhas sem correspond√™ncia.

<br>

#### **‚ùì Pergunta de Verifica√ß√£o**
Quando usar `concat` vs `join` vs `merge` e como cada um impacta a performance e a complexidade de mem√≥ria?

<br>

---
<br>
