## SQL Join e Junção de Tabelas com Pandas 

In [7]:
# Imports
import pandas as pd

In [8]:
from IPython.display import Image
Image(url = 'https://upload.wikimedia.org/wikipedia/commons/9/9d/SQL_Joins.svg')

In [9]:
# Dados originais
data1 = {
        'discipline_id': ['1', '2', '3', '4', '5'],
        'name': ['Bernardo', 'Alan', 'Mateus', 'Ivo', 'Gerson'], 
        'surname': ['Anderson', 'Teixeira', 'Amoedo', 'Trindade', 'Vargas']}

# Criação do dataframe
df_a = pd.DataFrame(data1, columns = ['discipline_id', 'name', 'surname'])
df_a

Unnamed: 0,discipline_id,name,surname
0,1,Bernardo,Anderson
1,2,Alan,Teixeira
2,3,Mateus,Amoedo
3,4,Ivo,Trindade
4,5,Gerson,Vargas


In [10]:
# Dados originais
data2 = {
        'discipline_id': ['4', '5', '6', '7', '8'],
        'name': ['Roberto', 'Mariana', 'Ana', 'Marcos', 'Maria'], 
        'surname': ['Sampaio', 'Fernandes', 'Arantes', 'Menezes', 'Martins']}

# Criação do dataframe
df_b = pd.DataFrame(data2, columns = ['discipline_id', 'name', 'surname'])
df_b

Unnamed: 0,discipline_id,name,surname
0,4,Roberto,Sampaio
1,5,Mariana,Fernandes
2,6,Ana,Arantes
3,7,Marcos,Menezes
4,8,Maria,Martins


In [11]:
# Dados originais
data3 = {
        'discipline_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [81, 75, 75, 71, 76, 84, 95, 61, 57, 90]}

# Criação do dataframe
df_n = pd.DataFrame(data3, columns = ['discipline_id','test_id'])
df_n

Unnamed: 0,discipline_id,test_id
0,1,81
1,2,75
2,3,75
3,4,71
4,5,76
5,7,84
6,8,95
7,9,61
8,10,57
9,11,90


In [12]:
# Join dos dataframes pelas linhas
df_new = pd.concat([df_a, df_b])
df_new

Unnamed: 0,discipline_id,name,surname
0,1,Bernardo,Anderson
1,2,Alan,Teixeira
2,3,Mateus,Amoedo
3,4,Ivo,Trindade
4,5,Gerson,Vargas
0,4,Roberto,Sampaio
1,5,Mariana,Fernandes
2,6,Ana,Arantes
3,7,Marcos,Menezes
4,8,Maria,Martins


In [13]:
# Join dos dataframes pelas colunas
pd.concat([df_a, df_b], axis=1)

Unnamed: 0,discipline_id,name,surname,discipline_id.1,name.1,surname.1
0,1,Bernardo,Anderson,4,Roberto,Sampaio
1,2,Alan,Teixeira,5,Mariana,Fernandes
2,3,Mateus,Amoedo,6,Ana,Arantes
3,4,Ivo,Trindade,7,Marcos,Menezes
4,5,Gerson,Vargas,8,Maria,Martins


In [14]:
# Join de dois dataframes pela coluna disciplina_id
pd.merge(df_new, df_n, on = 'discipline_id')

Unnamed: 0,discipline_id,name,surname,test_id
0,1,Bernardo,Anderson,81
1,2,Alan,Teixeira,75
2,3,Mateus,Amoedo,75
3,4,Ivo,Trindade,71
4,4,Roberto,Sampaio,71
5,5,Gerson,Vargas,76
6,5,Mariana,Fernandes,76
7,7,Marcos,Menezes,84
8,8,Maria,Martins,95


In [15]:
# Join de dois dataframes pela coluna disciplina_id (igual ao item anterior)
pd.merge(df_new, df_n, left_on = 'discipline_id', right_on = 'discipline_id')

Unnamed: 0,discipline_id,name,surname,test_id
0,1,Bernardo,Anderson,81
1,2,Alan,Teixeira,75
2,3,Mateus,Amoedo,75
3,4,Ivo,Trindade,71
4,4,Roberto,Sampaio,71
5,5,Gerson,Vargas,76
6,5,Mariana,Fernandes,76
7,7,Marcos,Menezes,84
8,8,Maria,Martins,95


In [16]:
# Merge outer join
# “A união externa completa produz o conjunto de todos os registros na Tabela A e na Tabela B, 
# com registros correspondentes de ambos os lados, quando disponíveis. 
# Se não houver correspondência, o lado ausente conterá null.”
pd.merge(df_a, df_b, on = 'discipline_id', how = 'outer')

Unnamed: 0,discipline_id,name_x,surname_x,name_y,surname_y
0,1,Bernardo,Anderson,,
1,2,Alan,Teixeira,,
2,3,Mateus,Amoedo,,
3,4,Ivo,Trindade,Roberto,Sampaio
4,5,Gerson,Vargas,Mariana,Fernandes
5,6,,,Ana,Arantes
6,7,,,Marcos,Menezes
7,8,,,Maria,Martins


In [17]:
# Merge inner join
# “A junção interna produz apenas o conjunto de registros que correspondem na Tabela A e na Tabela B.”
pd.merge(df_a, df_b, on = 'discipline_id', how = 'inner')

Unnamed: 0,discipline_id,name_x,surname_x,name_y,surname_y
0,4,Ivo,Trindade,Roberto,Sampaio
1,5,Gerson,Vargas,Mariana,Fernandes


In [18]:
# Merge left join
# "Junção externa esquerda produz um conjunto completo de registros da Tabela A, 
# com os registros correspondentes (quando disponíveis) na Tabela B. 
# Se não houver correspondência, o lado direito conterá nulo."
pd.merge(df_a, df_b, on = 'discipline_id', how = 'left')

Unnamed: 0,discipline_id,name_x,surname_x,name_y,surname_y
0,1,Bernardo,Anderson,,
1,2,Alan,Teixeira,,
2,3,Mateus,Amoedo,,
3,4,Ivo,Trindade,Roberto,Sampaio
4,5,Gerson,Vargas,Mariana,Fernandes


In [19]:
# Merge right join (contrário do item anterior)
pd.merge(df_a, df_b, on = 'discipline_id', how = 'right')

Unnamed: 0,discipline_id,name_x,surname_x,name_y,surname_y
0,4,Ivo,Trindade,Roberto,Sampaio
1,5,Gerson,Vargas,Mariana,Fernandes
2,6,,,Ana,Arantes
3,7,,,Marcos,Menezes
4,8,,,Maria,Martins


In [20]:
# Adicionando um sufixo para identificar os nomes das colunas
pd.merge(df_a, df_b, on = 'discipline_id', how = 'left', suffixes = ('_left', '_right'))

Unnamed: 0,discipline_id,name_left,surname_left,name_right,surname_right
0,1,Bernardo,Anderson,,
1,2,Alan,Teixeira,,
2,3,Mateus,Amoedo,,
3,4,Ivo,Trindade,Roberto,Sampaio
4,5,Gerson,Vargas,Mariana,Fernandes


In [21]:
# Join baseado em índices
pd.merge(df_a, df_b, right_index = True, left_index = True)

Unnamed: 0,discipline_id_x,name_x,surname_x,discipline_id_y,name_y,surname_y
0,1,Bernardo,Anderson,4,Roberto,Sampaio
1,2,Alan,Teixeira,5,Mariana,Fernandes
2,3,Mateus,Amoedo,6,Ana,Arantes
3,4,Ivo,Trindade,7,Marcos,Menezes
4,5,Gerson,Vargas,8,Maria,Martins
