In [1]:
import numpy as np
import pandas as pd

# 1.1. Por Que Concatenar e Mesclar Dataframes?
Imagine que você tem dois conjuntos de dados: um com informações de usuários e outro com registros de compras. Para analisar os padrões de compra, você precisa combinar essas informações. É aqui que a concatenação e a junção entram em cena.

Concatenação: Útil quando você tem dataframes com a mesma estrutura e deseja unir suas linhas.
Junção (Merge): Ideal quando você quer combinar dataframes com base em uma chave comum, como um ID.

In [15]:
usuarios = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Maria', 'Bruno', 'João'], 
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte'] }) 

novos_usuarios = pd.DataFrame({ 
    'ID': [4, 5], 
    'Nome': ['Pedro', 'Marcos'], 
    'Cidade': ['Curitiba', 'Recife'] }) # Concatenando os dataframes usuarios_geral = pd.concat([usuarios, novos_usuarios])

In [16]:
pd.concat([usuarios, novos_usuarios])

Unnamed: 0,ID,Nome,Cidade
0,1,Maria,São Paulo
1,2,Bruno,Rio de Janeiro
2,3,João,Belo Horizonte
0,4,Pedro,Curitiba
1,5,Marcos,Recife


In [17]:
usuarios_geral = pd.concat([usuarios, novos_usuarios])

In [18]:
usuarios_geral

Unnamed: 0,ID,Nome,Cidade
0,1,Maria,São Paulo
1,2,Bruno,Rio de Janeiro
2,3,João,Belo Horizonte
0,4,Pedro,Curitiba
1,5,Marcos,Recife


In [21]:
usuarios_geral.fillna({"Cidade": "Cidade Desconhecida"}, inplace = True) #CASO TENHA ALGUMA COLUNA COM NUN SEM INFORMAÇÃO

In [22]:
usuarios_geral

Unnamed: 0,ID,Nome,Cidade
0,1,Maria,São Paulo
1,2,Bruno,Rio de Janeiro
2,3,João,Belo Horizonte
0,4,Pedro,Curitiba
1,5,Marcos,Recife


# 2.2. Tratando Valores Faltantes
Se um dataframe não tiver uma coluna presente no outro, o pandas preencherá com NaN. Por exemplo, se novos_usuarios não tiver a coluna Cidade, ela aparecerá como NaN no resultado. Para substituir NaN por um valor padrão, use fillna():

usuarios_geral['Cidade'] = usuarios_geral['Cidade'].fillna('Cidade Desconhecida')

# 3. Junção (Merge) de Dataframes
A junção é mais complexa, pois combina dataframes com base em uma chave. Vamos explorar os tipos de junções: left, right e inner.
3.1. Exemplo de Junção

Considere dois dataframes:

Dataframe 1: Compras

ID_User	Produto	Valor
1	Notebook	2500
2	Câmera	1500
1	Camiseta	100
3	Caneca	50
Dataframe 2: Usuários

ID_User	Nome	Cidade
1	Maria	São Paulo
2	Bruno	Rio de Janeiro
3	João	Belo Horizonte
Queremos combinar esses dataframes para saber quem comprou o quê.

# 3.2. Left Join
Mantém todas as linhas do dataframe da esquerda (Compras) e associa as informações do direita (Usuários):

compras_merge = pd.merge(compras_df, usuarios_df, on='ID_User', how='left')

Resultado:

ID_User	Produto	Valor	Nome	Cidade
1	Notebook	2500	Maria	São Paulo
2	Câmera	1500	Bruno	Rio de Janeiro
1	Camiseta	100	Maria	São Paulo
3	Caneca	50	João	Belo Horizonte

# 3.3. Right Join

Prioriza o dataframe da direita (Usuários), incluindo todos os usuários, mesmo que não tenham compras:

compras_merge = pd.merge(compras_df, usuarios_df, on='ID_User', how='right')

Resultado:

ID_User	Produto	Valor	Nome	Cidade
1	Notebook	2500	Maria	São Paulo
2	Câmera	1500	Bruno	Rio de Janeiro
1	Camiseta	100	Maria	São Paulo
3	Caneca	50	João	Belo Horizonte
4	NaN	NaN	Pedro	Curitiba
5	NaN	NaN	Marcos	Recife

# 3.4. Inner Join

Retorna apenas as linhas que têm um match em ambos os dataframes:

compras_merge = pd.merge(compras_df, usuarios_df, on='ID_User', how='inner')

Resultado:

ID_User	Produto	Valor	Nome	Cidade
1	Notebook	2500	Maria	São Paulo
2	Câmera	1500	Bruno	Rio de Janeiro
1	Camiseta	100	Maria	São Paulo
3	Caneca	50	João	Belo Horizonte


# 4.1. Dicas para Escolher o Tipo de Junção

Left Join: Ideal quando você quer manter todas as entradas do seu dataframe principal.
Right Join: Útil quando o dataframe da direita contém informações essenciais que não podem ser perdidas.
Inner Join: Usado quando você precisa apenas das entradas que existem em ambos os dataframes.