### Integração de Dados

A integração de dados é uma operação fundamental na análise de dados, pois permite combinar informações de diferentes fontes com base em um critério comum. 

A importância das integração dos dados reside no fato de que os conjuntos de dados podem estar distribuídos em várias tabelas ou fontes de dados, cada uma contendo informações relevantes para a análise. Ao realizar integrações, podemos combinar esses conjuntos de dados com base em colunas-chave compartilhadas, permitindo a integração das informações em um único DataFrame. Isso facilita a análise e a obtenção de insights abrangentes.

Referência: https://leandrolessa.com.br/tutoriais/integracao-de-dados-descubra-os-4-tipos-de-joins-essenciais/

#### Importação das bibliotecas

In [9]:
import pandas as pd

#### Coletando dados de arquivos

In [12]:
df_pessoas = pd.DataFrame(
    {
        "id_pessoa": [1, 2, 3, 4],
        "Nome": ["João", "Maria", "Pedro", "Leandro"],
        "Idade": [25, 30, 28, 32],
    }
)

df_profissoes = pd.DataFrame(
    {
        'id_pessoa': [1, 2, 5, 6],
        'Profissão' : ['Engenheiro', 'Advogado', 'Médico', 'Professor']
    }
)

#### Visualizando Dados

In [13]:
df_pessoas

Unnamed: 0,id_pessoa,Nome,Idade
0,1,João,25
1,2,Maria,30
2,3,Pedro,28
3,4,Leandro,32


In [14]:
df_profissoes

Unnamed: 0,id_pessoa,Profissão
0,1,Engenheiro
1,2,Advogado
2,5,Médico
3,6,Professor


### Método merge
***
É o método mais comum para realizar junções no pandas. Ele combina DataFrames com base em colunas-chave compartilhadas, semelhante à cláusula JOIN em SQL. Podemos especificar o tipo de junção (inner, outer, left, right) e as colunas-chave a serem usadas na junção.

##### Inner Join
***
A junção interna (inner join) retorna apenas os registros que têm um ID correspondente em ambos os DataFrames. Registros que não têm correspondência são excluídos.

In [15]:
pd.merge(df_pessoas, df_profissoes, on='id_pessoa', how='inner')

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25,Engenheiro
1,2,Maria,30,Advogado


##### Left Join
***
A junção à esquerda (left join) retorna todos os registros do DataFrame da esquerda (df1) e os registros correspondentes do DataFrame da direita (df2). Registros que não têm correspondência no df2 são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 1, 2, 3 e 4.

In [16]:
pd.merge(df_pessoas, df_profissoes, on='id_pessoa', how='left')

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25,Engenheiro
1,2,Maria,30,Advogado
2,3,Pedro,28,
3,4,Leandro,32,


##### Right Join
***
A junção à direita (right join) retorna todos os registros do DataFrame da direita (df2) e os registros correspondentes do DataFrame da esquerda (df1). Registros que não têm correspondência no df1 são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 3, 4, 5 e 6.

In [17]:
pd.merge(df_pessoas, df_profissoes, on='id_pessoa', how='right')

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25.0,Engenheiro
1,2,Maria,30.0,Advogado
2,5,,,Médico
3,6,,,Professor


##### Outer Join
***
A junção externa (outer join) retorna todos os registros dos dois DataFrames, incluindo aqueles que não têm correspondência. Os valores ausentes são preenchidos com NaN. O resultado incluirá todos os registros dos IDs 1, 2, 3, 4, 5 e 6.

In [18]:
pd.merge(df_pessoas, df_profissoes, on='id_pessoa', how='outer')

Unnamed: 0,id_pessoa,Nome,Idade,Profissão
0,1,João,25.0,Engenheiro
1,2,Maria,30.0,Advogado
2,3,Pedro,28.0,
3,4,Leandro,32.0,
4,5,,,Médico
5,6,,,Professor
