# Mesclagem e Junção de Dataframes

1. _merge()_ -> O método merge() é utilizado para combinar dois dataframes com base em uma chave comum (como um índice ou coluna).

_Nesse exemplo abaixo, o merge foi feito com base na coluna ID._

**chave comum**

In [1]:
import pandas as pd

In [2]:
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Maria', 'Júlia', 'Pedro']
})

df2 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Idade': [20, 25, 32]
})

In [3]:
resultado = pd.merge(df1, df2, on='ID', how='inner') # inner, por padrão, pega os IDs que aparecem em ambos os dataframes

display(resultado)

Unnamed: 0,ID,Nome,Idade
0,1,Maria,20
1,2,Júlia,25
2,3,Pedro,32


2. _concat()_ -> O concat() nos permite combinar Dataframes, seja concatenar verticalmente ou horizontalmente. Ele não usa chave de junção, apenas empilha os dados.

**concatenação vertical (linhas)**

In [4]:
df3 = pd.DataFrame({
    'Produto': ['Caneta', 'Lápis'],
    'Preço': [1.5, 0.75]
})

df4 = pd.DataFrame({
    'Produto': ['Borracha', 'Caderno'],
    'Preço': [0.5, 5.0]
})

In [None]:
resultado2 = pd.concat([df3, df4], ignore_index=True) # usamos o ignore_index=True para reindexar o novo Dataframe 
display(resultado2)

Unnamed: 0,Produto,Preço
0,Caneta,1.5
1,Lápis,0.75
2,Borracha,0.5
3,Caderno,5.0


**concatenação horizontal (colunas)**

In [6]:
df5 = pd.DataFrame({
    'Nome': ['Ana', 'Marcos', 'João']
})

df6 = pd.DataFrame({
    'Idade': [21, 24, 30]
})

In [8]:
resultado3 = pd.concat([df5, df6], axis=1)

display(resultado3)

Unnamed: 0,Nome,Idade
0,Ana,21
1,Marcos,24
2,João,30


3. _join()_ -> É um método que nos permite realizar a junção de Dataframes de uma forma simplificada, especialmente quando estamos unindo dois Dataframes com base no índice. 

In [13]:
df7 = pd.DataFrame({
    'Nome': ['Mariana', 'Carla', 'Juliana'],
    'Idade': [23, 25, 26]
}, index=[1, 2, 3])

df8 = pd.DataFrame({
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Curitiba']
}, index=[1, 2, 3])

In [14]:
resultado4 = df7.join(df8)

display(resultado4)

Unnamed: 0,Nome,Idade,Cidade
1,Mariana,23,São Paulo
2,Carla,25,Rio de Janeiro
3,Juliana,26,Curitiba


### Tipos de junção (_how_) 

**inner** - Traz apenas as linhas com chaves presentes em ambos os dataframes.

In [15]:
import pandas as pd

In [25]:
dados1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Cecilia', 'Marta', 'Pedro'],
})

dados2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Idade': [25, 23, 24]
})

In [26]:
resultado = pd.merge(dados1, dados2, on='ID', how='inner')

display(resultado)

Unnamed: 0,ID,Nome,Idade
0,1,Cecilia,25
1,2,Marta,23


**left** - Mantém todas as linhas do Dataframe à esquerda e adiciona as correspondências do Dataframe à direita.

In [28]:
resultado = pd.merge(dados1, dados2, on='ID', how='left')

display(resultado)

Unnamed: 0,ID,Nome,Idade
0,1,Cecilia,25.0
1,2,Marta,23.0
2,3,Pedro,


**outer** - Mantém todas as linhas dos dois Dataframes e preenche com **NaN** onde não tem correspondência.

In [29]:
resultado = pd.merge(dados1, dados2, on='ID', how='outer')

display(resultado)

Unnamed: 0,ID,Nome,Idade
0,1,Cecilia,25.0
1,2,Marta,23.0
2,3,Pedro,
3,4,,24.0
