#### Junções de dados em DataFrames
***

A junção de dados é uma operação fundamental na análise de dados, pois permite combinar informações de diferentes fontes com base em um critério comum. No pandas, existem diversos métodos para realizar junções eficientes entre DataFrames, permitindo a criação de análises mais completas e significativas.

A importância das junções no DataFrame reside no fato de que os conjuntos de dados podem estar distribuídos em várias tabelas ou fontes de dados, cada uma contendo informações relevantes para a análise. Ao realizar junções, podemos combinar esses conjuntos de dados com base em colunas-chave compartilhadas, permitindo a integração das informações em um único DataFrame. Isso facilita a análise e a obtenção de insights abrangentes.


#### Importação das bibliotecas


In [1]:
import pandas as pd

#### Coleta de Dados de Clientes e Pedidos

In [6]:
df_clientes = pd.read_csv('./datasets/clientes.csv', sep=';')
df_clientes

Unnamed: 0,cod_cliente,nome,idade,cidade
0,1,Leandro,18,BH
1,2,Ana,35,SP
2,3,João,55,PE
3,4,Silvana,36,BH


In [7]:
df_pedidos = pd.read_csv('./datasets/pedidos.csv', sep=';')
df_pedidos

Unnamed: 0,pedidoID,clienteID,data,valor
0,101,1,2024-01-18,250.0
1,102,2,2024-02-14,150.0
2,103,1,2024-06-10,300.0
3,104,5,2024-09-01,450.0
4,105,6,2024-07-15,200.0


Unnamed: 0,clienteID,nome,idade,cidade,pedidoID,data,valor
0,1,Leandro,18,BH,101,2024-01-18,250.0
1,1,Leandro,18,BH,103,2024-06-10,300.0
2,2,Ana,35,SP,102,2024-02-14,150.0


#### Método merge
***
É o método mais comum para realizar junções no pandas. Ele combina DataFrames com base em colunas-chave compartilhadas, semelhante à cláusula JOIN em SQL. Podemos especificar o tipo de junção (inner, outer, left, right) e as colunas-chave a serem usadas na junção.

##### Inner Join
***
A junção interna (inner join) retorna apenas os registros que têm um ID correspondente em ambos os DataFrames. Registros que não têm correspondência são excluídos.

In [5]:
pd.merge(df_clientes,
         df_pedidos,
         how='inner',
         on='clienteID')

Unnamed: 0,clienteID,nome,idade,cidade,pedidoID,data,valor
0,1,Leandro,18,BH,101,2024-01-18,250.0
1,1,Leandro,18,BH,103,2024-06-10,300.0
2,2,Ana,35,SP,102,2024-02-14,150.0


In [9]:
pd.merge(df_clientes,
         df_pedidos,
         how='inner',
         left_on='cod_cliente',
         right_on='clienteID')

Unnamed: 0,cod_cliente,nome,idade,cidade,pedidoID,clienteID,data,valor
0,1,Leandro,18,BH,101,1,2024-01-18,250.0
1,1,Leandro,18,BH,103,1,2024-06-10,300.0
2,2,Ana,35,SP,102,2,2024-02-14,150.0


##### Outer Join
***
A junção externa (outer join) retorna todos os registros dos dois DataFrames, incluindo aqueles que não têm correspondência. Os valores ausentes são preenchidos com NaN.

In [10]:
pd.merge(left=df_clientes,
         right=df_pedidos,
         left_on='cod_cliente',
         right_on='clienteID',
         how='outer')

Unnamed: 0,cod_cliente,nome,idade,cidade,pedidoID,clienteID,data,valor
0,1.0,Leandro,18.0,BH,101.0,1.0,2024-01-18,250.0
1,1.0,Leandro,18.0,BH,103.0,1.0,2024-06-10,300.0
2,2.0,Ana,35.0,SP,102.0,2.0,2024-02-14,150.0
3,3.0,João,55.0,PE,,,,
4,4.0,Silvana,36.0,BH,,,,
5,,,,,104.0,5.0,2024-09-01,450.0
6,,,,,105.0,6.0,2024-07-15,200.0


##### Left Join
***
A junção à esquerda (left join) retorna todos os registros do DataFrame da esquerda (df1) e os registros correspondentes do DataFrame da direita (df2). Registros que não têm correspondência no df2 são preenchidos com NaN.

In [11]:
pd.merge(left=df_clientes,
         right=df_pedidos,
         left_on='cod_cliente',
         right_on='clienteID',
         how='left')

Unnamed: 0,cod_cliente,nome,idade,cidade,pedidoID,clienteID,data,valor
0,1,Leandro,18,BH,101.0,1.0,2024-01-18,250.0
1,1,Leandro,18,BH,103.0,1.0,2024-06-10,300.0
2,2,Ana,35,SP,102.0,2.0,2024-02-14,150.0
3,3,João,55,PE,,,,
4,4,Silvana,36,BH,,,,


##### Right Join
***
A junção à direita (right join) retorna todos os registros do DataFrame da direita (df2) e os registros correspondentes do DataFrame da esquerda (df1). Registros que não têm correspondência no df1 são preenchidos com NaN.

In [12]:

pd.merge(left=df_clientes,
         right=df_pedidos,
         left_on='cod_cliente',
         right_on='clienteID',
         how='right')

Unnamed: 0,cod_cliente,nome,idade,cidade,pedidoID,clienteID,data,valor
0,1.0,Leandro,18.0,BH,101,1,2024-01-18,250.0
1,2.0,Ana,35.0,SP,102,2,2024-02-14,150.0
2,1.0,Leandro,18.0,BH,103,1,2024-06-10,300.0
3,,,,,104,5,2024-09-01,450.0
4,,,,,105,6,2024-07-15,200.0
