# Junções de dados em DataFrames
***

A junção de dados é uma operação fundamental na análise de dados, pois permite combinar informações de diferentes fontes com base em um critério comum. No pandas, existem diversos métodos para realizar junções eficientes entre DataFrames, permitindo a criação de análises mais completas e significativas.

A importância das junções no DataFrame reside no fato de que os conjuntos de dados podem estar distribuídos em várias tabelas ou fontes de dados, cada uma contendo informações relevantes para a análise. Ao realizar junções, podemos combinar esses conjuntos de dados com base em colunas-chave compartilhadas, permitindo a integração das informações em um único DataFrame. Isso facilita a análise e a obtenção de insights abrangentes.


### Importação das bibliotecas


In [1]:
import pandas as pd

### Criando  dataframe a partir de uma lista em Python

In [18]:
# Criação dos DataFrames

# Criação dos DataFrames
df1 = pd.DataFrame({'id_pessoa': [1, 2, 3, 4],
                    'Nome': ['João', 'Maria', 'Pedro', 'Leandro'],
                    'Idade': [25, 30, 28, 32]})
 
df2 = pd.DataFrame({'cod_pessoa': [1, 2, 5, 6],
                    'Profissão': ['Engenheiro', 'Advogado', 'Médico', 'Professor']})
 
df1.head()

Unnamed: 0,id_pessoa,Nome,Idade
0,1,João,25
1,2,Maria,30
2,3,Pedro,28
3,4,Leandro,32


In [3]:
df2

Unnamed: 0,id_pessoa,Profissão
0,1,Engenheiro
1,2,Advogado
2,5,Médico
3,6,Professor


### Método merge
***
É o método mais comum para realizar junções no pandas. Ele combina DataFrames com base em colunas-chave compartilhadas, semelhante à cláusula JOIN em SQL. Podemos especificar o tipo de junção (inner, outer, left, right) e as colunas-chave a serem usadas na junção.

##### Inner Join
***
A junção interna (inner join) retorna apenas os registros que têm um ID correspondente em ambos os DataFrames. Registros que não têm correspondência são excluídos. O resultado será apenas os registros com ID 3 e 4.

In [7]:
pd.merge(left=df1, right=df2)

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25,Engenheiro
1,2,Maria,30,Advogado


In [19]:
pd.merge(left=df1, right=df2, 
         left_on='id_pessoa',
         right_on='cod_pessoa', how='inner')

Unnamed: 0,id_pessoa,Nome,Idade,cod_pessoa,Profissão
0,1,João,25,1,Engenheiro
1,2,Maria,30,2,Advogado


In [8]:
pd.merge(left=df1, right=df2, on='id_pessoa', how='inner')

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25,Engenheiro
1,2,Maria,30,Advogado


##### Outer Join
***
A junção externa (outer join) retorna todos os registros dos dois DataFrames, incluindo aqueles que não têm correspondência. Os valores ausentes são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 1, 2, 3, 4, 5 e 6.

In [9]:
pd.merge(left=df1, right=df2, on='id_pessoa', how='outer')

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25.0,Engenheiro
1,2,Maria,30.0,Advogado
2,3,Pedro,28.0,
3,4,Leandro,32.0,
4,5,,,Médico
5,6,,,Professor


##### Left Join
***
A junção à esquerda (left join) retorna todos os registros do DataFrame da esquerda (df1) e os registros correspondentes do DataFrame da direita (df2). Registros que não têm correspondência no df2 são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 1, 2, 3 e 4.

In [10]:
# Junção left
pd.merge(left=df1, right=df2, on='id_pessoa', how='left')

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25,Engenheiro
1,2,Maria,30,Advogado
2,3,Pedro,28,
3,4,Leandro,32,


##### Right Join
***
A junção à direita (right join) retorna todos os registros do DataFrame da direita (df2) e os registros correspondentes do DataFrame da esquerda (df1). Registros que não têm correspondência no df1 são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 3, 4, 5 e 6.

In [11]:
# Junção right
pd.merge(left=df1, right=df2, on='id_pessoa', how='right')

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25.0,Engenheiro
1,2,Maria,30.0,Advogado
2,5,,,Médico
3,6,,,Professor


### Método Join 
***
Esse método permite a junção de DataFrames usando seus índices. Ele é útil quando os DataFrames têm índices comuns ou quando queremos combinar os DataFrames com base nos rótulos das colunas.

In [17]:
# Junção inner usando join()
df1.set_index('id_pessoa').join(df2.set_index('id_pessoa'), how='inner')

Unnamed: 0_level_0,Nome,Idade,Profissão
id_pessoa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,João,25,Engenheiro
2,Maria,30,Advogado


### Método concat
Embora não seja estritamente uma junção, o método concat() permite combinar DataFrames ao longo de um eixo específico. Ele é útil quando desejamos combinar dados verticalmente (ao longo das linhas) ou horizontalmente (ao longo das colunas).

In [20]:
pd.concat([df1, df2])


Unnamed: 0,id_pessoa,Nome,Idade,cod_pessoa,Profissão
0,1.0,João,25.0,,
1,2.0,Maria,30.0,,
2,3.0,Pedro,28.0,,
3,4.0,Leandro,32.0,,
0,,,,1.0,Engenheiro
1,,,,2.0,Advogado
2,,,,5.0,Médico
3,,,,6.0,Professor


In [21]:
# Concatenando os DataFrames horizontalmente
pd.concat([df1, df2], axis=1)

Unnamed: 0,id_pessoa,Nome,Idade,cod_pessoa,Profissão
0,1,João,25,1,Engenheiro
1,2,Maria,30,2,Advogado
2,3,Pedro,28,5,Médico
3,4,Leandro,32,6,Professor


Estamos realizando uma concatenação horizontal, utilizando o parâmetro axis=1. Nesse caso, os DataFrames são concatenados lado a lado, criando novas colunas.