# SQL Join e Junção de Tabelas com Pandas

In [1]:
# Imports
import pandas as pd

In [2]:
from IPython.display import Image
Image(url='imagens/sql-join.png')

In [3]:
# Dados Originais
dados1 = {
    'disciplina_id': ['1', '2', '3', '4', '5'],
    'nome': ['Bernardo', 'Alan', 'Mateus', 'Ivo', 'Gerson'],
    'sobrenome': ['Andersson', 'Teixeira', 'Amoedo', 'Trindade', 'Vargas']
}

# Criação do dataframe
df_a = pd.DataFrame(dados1, columns = ['disciplina_id', 'nome', 'sobrenome'])
df_a

Unnamed: 0,disciplina_id,nome,sobrenome
0,1,Bernardo,Andersson
1,2,Alan,Teixeira
2,3,Mateus,Amoedo
3,4,Ivo,Trindade
4,5,Gerson,Vargas


In [4]:
# Dados Originais
dados2 = {
    'disciplina_id': ['4', '5', '6', '7', '8'],
    'nome': ['Roberto', 'Mariana', 'Ana', 'Marcos', 'Maria'],
    'sobrenome': ['Sampaio', 'Fernandes', 'Arantes', 'Menezes', 'Martins']
}

# Criação do dataframe
df_b = pd.DataFrame(dados2, columns = ['disciplina_id', 'nome', 'sobrenome'])
df_b

Unnamed: 0,disciplina_id,nome,sobrenome
0,4,Roberto,Sampaio
1,5,Mariana,Fernandes
2,6,Ana,Arantes
3,7,Marcos,Menezes
4,8,Maria,Martins


In [5]:
# Dados Originais
dados3 = {
    'disciplina_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
    'teste_id': [81, 75, 75, 71, 76, 84, 95, 61, 57, 90]
}

# Criação do dataframe
df_n = pd.DataFrame(dados3, columns = ['disciplina_id', 'teste_id'])
df_n

Unnamed: 0,disciplina_id,teste_id
0,1,81
1,2,75
2,3,75
3,4,71
4,5,76
5,7,84
6,8,95
7,9,61
8,10,57
9,11,90


In [6]:
# Join dos dataframes pelas linhas
df_new = pd.concat([df_a, df_b])
df_new

Unnamed: 0,disciplina_id,nome,sobrenome
0,1,Bernardo,Andersson
1,2,Alan,Teixeira
2,3,Mateus,Amoedo
3,4,Ivo,Trindade
4,5,Gerson,Vargas
0,4,Roberto,Sampaio
1,5,Mariana,Fernandes
2,6,Ana,Arantes
3,7,Marcos,Menezes
4,8,Maria,Martins


In [7]:
# join dos dataframes pelas colunas
pd.concat([df_a, df_b], axis = 1)

Unnamed: 0,disciplina_id,nome,sobrenome,disciplina_id.1,nome.1,sobrenome.1
0,1,Bernardo,Andersson,4,Roberto,Sampaio
1,2,Alan,Teixeira,5,Mariana,Fernandes
2,3,Mateus,Amoedo,6,Ana,Arantes
3,4,Ivo,Trindade,7,Marcos,Menezes
4,5,Gerson,Vargas,8,Maria,Martins


In [8]:
# join de dois dataframes pela coluna disciplina_id
pd.merge(df_new, df_n, on = 'disciplina_id')

Unnamed: 0,disciplina_id,nome,sobrenome,teste_id
0,1,Bernardo,Andersson,81
1,2,Alan,Teixeira,75
2,3,Mateus,Amoedo,75
3,4,Ivo,Trindade,71
4,4,Roberto,Sampaio,71
5,5,Gerson,Vargas,76
6,5,Mariana,Fernandes,76
7,7,Marcos,Menezes,84
8,8,Maria,Martins,95


In [9]:
# Join de dois dataframes pela coluna disciplina_id (igual ao item anterior)
pd.merge(df_new, df_n, left_on = 'disciplina_id', right_on = 'disciplina_id')

Unnamed: 0,disciplina_id,nome,sobrenome,teste_id
0,1,Bernardo,Andersson,81
1,2,Alan,Teixeira,75
2,3,Mateus,Amoedo,75
3,4,Ivo,Trindade,71
4,4,Roberto,Sampaio,71
5,5,Gerson,Vargas,76
6,5,Mariana,Fernandes,76
7,7,Marcos,Menezes,84
8,8,Maria,Martins,95


### Merge Outer Join
"A união externa completa produz o conhunto de todos os registros na Tabela A e na Tabela B,
 com registros correspondentes de ambos os lados, quando disponíveis.
 Se não houver correspondência, o lado ausente conterá null."


In [10]:
pd.merge(df_a, df_b, on = 'disciplina_id', how = 'outer')

Unnamed: 0,disciplina_id,nome_x,sobrenome_x,nome_y,sobrenome_y
0,1,Bernardo,Andersson,,
1,2,Alan,Teixeira,,
2,3,Mateus,Amoedo,,
3,4,Ivo,Trindade,Roberto,Sampaio
4,5,Gerson,Vargas,Mariana,Fernandes
5,6,,,Ana,Arantes
6,7,,,Marcos,Menezes
7,8,,,Maria,Martins


### Merge Inner Join

"A junção inter produz apenas o conjunto de registros que correspondem na Tabela A e na Tabela B."

In [11]:
pd.merge(df_a, df_b, on = 'disciplina_id', how = 'inner')

Unnamed: 0,disciplina_id,nome_x,sobrenome_x,nome_y,sobrenome_y
0,4,Ivo,Trindade,Roberto,Sampaio
1,5,Gerson,Vargas,Mariana,Fernandes


### Merge Left Join

" Junção externa esquerda produz um conjunto completo de registros da Tabela A, com os registros correspondentes (quando disponíveis) na Tabela B.
Se não houver correspondência, o lado direito conterá nulo."

In [12]:
pd.merge(df_a, df_b, on = 'disciplina_id', how = 'left')

Unnamed: 0,disciplina_id,nome_x,sobrenome_x,nome_y,sobrenome_y
0,1,Bernardo,Andersson,,
1,2,Alan,Teixeira,,
2,3,Mateus,Amoedo,,
3,4,Ivo,Trindade,Roberto,Sampaio
4,5,Gerson,Vargas,Mariana,Fernandes


### Merge Right Join

Contrário do item anterior

In [13]:
pd.merge(df_a, df_b, on = 'disciplina_id', how = 'right')

Unnamed: 0,disciplina_id,nome_x,sobrenome_x,nome_y,sobrenome_y
0,4,Ivo,Trindade,Roberto,Sampaio
1,5,Gerson,Vargas,Mariana,Fernandes
2,6,,,Ana,Arantes
3,7,,,Marcos,Menezes
4,8,,,Maria,Martins


### Renomeando Colunas

In [14]:
# Adicionando sufixo para identificar o nome das colunas
pd.merge(df_a, df_b, on = 'disciplina_id', how = 'left', suffixes = ('_left', '_right'))

Unnamed: 0,disciplina_id,nome_left,sobrenome_left,nome_right,sobrenome_right
0,1,Bernardo,Andersson,,
1,2,Alan,Teixeira,,
2,3,Mateus,Amoedo,,
3,4,Ivo,Trindade,Roberto,Sampaio
4,5,Gerson,Vargas,Mariana,Fernandes


### Baseado em Índices

In [15]:
pd.merge(df_a, df_b, right_index=True, left_index=True)

Unnamed: 0,disciplina_id_x,nome_x,sobrenome_x,disciplina_id_y,nome_y,sobrenome_y
0,1,Bernardo,Andersson,4,Roberto,Sampaio
1,2,Alan,Teixeira,5,Mariana,Fernandes
2,3,Mateus,Amoedo,6,Ana,Arantes
3,4,Ivo,Trindade,7,Marcos,Menezes
4,5,Gerson,Vargas,8,Maria,Martins


# FIM