# Junções de dados em DataFrames
***

A junção de dados é uma operação fundamental na análise de dados, pois permite combinar informações de diferentes fontes com base em um critério comum. No pandas, existem diversos métodos para realizar junções eficientes entre DataFrames, permitindo a criação de análises mais completas e significativas.

A importância das junções no DataFrame reside no fato de que os conjuntos de dados podem estar distribuídos em várias tabelas ou fontes de dados, cada uma contendo informações relevantes para a análise. Ao realizar junções, podemos combinar esses conjuntos de dados com base em colunas-chave compartilhadas, permitindo a integração das informações em um único DataFrame. Isso facilita a análise e a obtenção de insights abrangentes.


### Importação das bibliotecas


In [1]:
import numpy as np
import pandas as pd

### Criando  dataframe a partir de uma lista em Python

In [8]:
# Criação dos DataFrames
df1 = pd.DataFrame({'ID': [1, 2, 3, 4],
                    'Nome': ['João', 'Maria', 'Pedro', 'Leandro'],
                    'Idade': [25, 30, 28, 32]})

df2 = pd.DataFrame({'ID': [1, 2, 5, 6],
                    'Profissão': ['Engenheiro', 'Advogado', 'Médico', 'Professor']})

df1.head()

Unnamed: 0,ID,Nome,Idade
0,1,João,25
1,2,Maria,30
2,3,Pedro,28
3,4,Leandro,32


In [7]:
df2.head()

Unnamed: 0,ID,Profissão
0,1,Engenheiro
1,2,Advogado
2,5,Médico
3,6,Professor


### Método merge
***
É o método mais comum para realizar junções no pandas. Ele combina DataFrames com base em colunas-chave compartilhadas, semelhante à cláusula JOIN em SQL. Podemos especificar o tipo de junção (inner, outer, left, right) e as colunas-chave a serem usadas na junção.

##### Inner Join
***
A junção interna (inner join) retorna apenas os registros que têm um ID correspondente em ambos os DataFrames. Registros que não têm correspondência são excluídos. O resultado será apenas os registros com ID 3 e 4.

In [12]:
df_inner = pd.merge(df1, df2, on='ID', how='inner')
df_inner

Unnamed: 0,ID,Nome,Idade,Profissão
0,1,João,25,Engenheiro
1,2,Maria,30,Advogado


##### Outer Join
***
A junção externa (outer join) retorna todos os registros dos dois DataFrames, incluindo aqueles que não têm correspondência. Os valores ausentes são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 1, 2, 3, 4, 5 e 6.

In [17]:
df_outer = pd.merge(df1, df2, on='ID', how='outer')
print("\nJunção outer:")
df_outer


Junção outer:


Unnamed: 0,ID,Nome,Idade,Profissão
0,1,João,25.0,Engenheiro
1,2,Maria,30.0,Advogado
2,3,Pedro,28.0,
3,4,Leandro,32.0,
4,5,,,Médico
5,6,,,Professor


##### Left Join
***
A junção à esquerda (left join) retorna todos os registros do DataFrame da esquerda (df1) e os registros correspondentes do DataFrame da direita (df2). Registros que não têm correspondência no df2 são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 1, 2, 3 e 4.

In [19]:
# Junção left
df_left = pd.merge(df1, df2, on='ID', how='left')
print("\nJunção left:")
df_left


Junção left:


Unnamed: 0,ID,Nome,Idade,Profissão
0,1,João,25,Engenheiro
1,2,Maria,30,Advogado
2,3,Pedro,28,
3,4,Leandro,32,


##### Right Join
***
A junção à direita (right join) retorna todos os registros do DataFrame da direita (df2) e os registros correspondentes do DataFrame da esquerda (df1). Registros que não têm correspondência no df1 são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 3, 4, 5 e 6.

In [20]:
# Junção right
df_right = pd.merge(df1, df2, on='ID', how='right')
print("\nJunção right:")
df_right


Junção right:


Unnamed: 0,ID,Nome,Idade,Profissão
0,1,João,25.0,Engenheiro
1,2,Maria,30.0,Advogado
2,5,,,Médico
3,6,,,Professor


### Método Join 
***
Esse método permite a junção de DataFrames usando seus índices. Ele é útil quando os DataFrames têm índices comuns ou quando queremos combinar os DataFrames com base nos rótulos das colunas.

In [22]:
# Junção inner usando join()
df_inner = df1.set_index('ID').join(df2.set_index('ID'), how='inner')
print("Junção inner:")
print(df_inner)

# Junção outer usando join()
df_outer = df1.set_index('ID').join(df2.set_index('ID'), how='outer')
print("\nJunção outer:")
print(df_outer)

# Junção left usando join()
df_left = df1.set_index('ID').join(df2.set_index('ID'), how='left')
print("\nJunção left:")
print(df_left)

# Junção right usando join()
df_right = df1.set_index('ID').join(df2.set_index('ID'), how='right')
print("\nJunção right:")
print(df_right)

Junção inner:
     Nome  Idade   Profissão
ID                          
1    João     25  Engenheiro
2   Maria     30    Advogado

Junção outer:
       Nome  Idade   Profissão
ID                            
1      João   25.0  Engenheiro
2     Maria   30.0    Advogado
3     Pedro   28.0         NaN
4   Leandro   32.0         NaN
5       NaN    NaN      Médico
6       NaN    NaN   Professor

Junção left:
       Nome  Idade   Profissão
ID                            
1      João     25  Engenheiro
2     Maria     30    Advogado
3     Pedro     28         NaN
4   Leandro     32         NaN

Junção right:
     Nome  Idade   Profissão
ID                          
1    João   25.0  Engenheiro
2   Maria   30.0    Advogado
5     NaN    NaN      Médico
6     NaN    NaN   Professor


### Método concat
Embora não seja estritamente uma junção, o método concat() permite combinar DataFrames ao longo de um eixo específico. Ele é útil quando desejamos combinar dados verticalmente (ao longo das linhas) ou horizontalmente (ao longo das colunas).

In [24]:
df_concat_vertical = pd.concat([df1, df2])
print("Concatenação vertical:")
df_concat_vertical


Concatenação vertical:


Unnamed: 0,ID,Nome,Idade,Profissão
0,1,João,25.0,
1,2,Maria,30.0,
2,3,Pedro,28.0,
3,4,Leandro,32.0,
0,1,,,Engenheiro
1,2,,,Advogado
2,5,,,Médico
3,6,,,Professor


In [30]:
# Concatenando os DataFrames horizontalmente
df3 = pd.DataFrame({'Nova_idade': [25, 30, 35]})
df_concat_horizontal = pd.concat([df1, df3], axis=1)
print("\nConcatenação horizontal:")
df_concat_horizontal


Concatenação horizontal:


Unnamed: 0,ID,Nome,Idade,Nova_idade
0,1,João,25,25.0
1,2,Maria,30,30.0
2,3,Pedro,28,35.0
3,4,Leandro,32,


Estamos realizando uma concatenação horizontal, utilizando o parâmetro axis=1. Nesse caso, os DataFrames são concatenados lado a lado, criando novas colunas.