### **Merge: Unindo DataFrames Baseado em Chaves Comuns**

O `merge` no Pandas é equivalente ao **JOIN** no SQL. Ele é usado quando você tem dois DataFrames com uma ou mais colunas em comum e quer combiná-los com base nessas colunas.

In [12]:
import pandas as pd

# Criando dois DataFrames
clientes = pd.DataFrame({
    'Customer_ID': [1, 2, 3],
    'Nome': ['Ana', 'Bruno', 'Carlos']
})

compras = pd.DataFrame({
    'Customer_ID': [1, 2, 2, 3, 3],
    'Valor': [200, 150, 250, 100, 300]
})

# Fazendo o merge com base na coluna 'Customer_ID'
resultado = pd.merge(clientes, compras, on='Customer_ID')

print(resultado)



   Customer_ID    Nome  Valor
0            1     Ana    200
1            2   Bruno    150
2            2   Bruno    250
3            3  Carlos    100
4            3  Carlos    300


Aqui, o `merge` está combinando as duas tabelas com base na coluna `Customer_ID`. O Pandas oferece várias opções de **joins**:

- `inner` (padrão): traz apenas correspondências.
- `left`: traz todas as linhas do DataFrame da esquerda, com correspondências do da direita.
- `right`: todas as linhas do da direita, com correspondências da esquerda.
- `outer`: combina tudo, independentemente de haver correspondências.

In [1]:
import pandas as pd 

data_users = {
    
    "id": [1, 2, 3, 4, 5],
    "nome": ["Jhon", "Jane", "Peter", "Lucas", "Maria"],
    "idade": [23, 34, 45, 56, 67]
    
}

df_user = pd.DataFrame(data_users)
df_user

Unnamed: 0,id,nome,idade
0,1,Jhon,23
1,2,Jane,34
2,3,Peter,45
3,4,Lucas,56
4,5,Maria,67


In [6]:
data_transacoes = {
    
    "id_user": [1, 2, 2, 2, 5, 5, 6],
    "valor": [100, 200, 300, 400, 500, 600, 700],
    "QTD": [50, 60, 70, 80, 90, 100, 110]
}

df_transacao = pd.DataFrame(data_transacoes)
df_transacao

Unnamed: 0,id_user,valor,QTD
0,1,100,50
1,2,200,60
2,2,300,70
3,2,400,80
4,5,500,90
5,5,600,100
6,6,700,110


In [9]:
# Merge método para cruzar os dados

df_merge = df_transacao.merge(df_user, left_on="id_user", right_on="id", how="left")
df_merge

Unnamed: 0,id_user,valor,QTD,id,nome,idade
0,1,100,50,1.0,Jhon,23.0
1,2,200,60,2.0,Jane,34.0
2,2,300,70,2.0,Jane,34.0
3,2,400,80,2.0,Jane,34.0
4,5,500,90,5.0,Maria,67.0
5,5,600,100,5.0,Maria,67.0
6,6,700,110,,,


In [11]:
df_merge[df_merge['nome'].isna()] # Verificar se tem algum valor nulo

Unnamed: 0,id_user,valor,QTD,id,nome,idade
6,6,700,110,,,
