## Merging de Dataframes
## Fonte: https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

In [None]:
"""
O pandas possui operações de junção na memória de alto desempenho e com recursos completos, idioma muito semelhante 
aos bancos de dados relacionais como SQL. Esses métodos têm desempenho significativamente melhor (em alguns casos, 
acima de uma ordem de magnitude melhor) do que outras implementações de código aberto (como base :: merge.data.frame em R).
A razão para isso é um design algorítmico cuidadoso e o layout interno dos dados no DataFrame.

Veja o livro de receitas para algumas estratégias avançadas.

Usuários familiarizados com o SQL, mas novos no pandas, podem estar interessados em uma comparação com o SQL.

O pandas fornece uma única função, merge (), como ponto de entrada para todas as operações de junção de banco de dados padrão
entre o DataFrame ou os objetos denominados Series.

"""

In [14]:
import pandas as pd

In [15]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])
    

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])
 

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8, 9, 10, 11])


In [16]:
pd.merge(df1, df2, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)

Unnamed: 0,A,B,C,D


In [18]:
"""

Usuários experientes de bancos de dados relacionais como SQL estarão familiarizados com a terminologia usada para 
descrever operações de junção entre duas estruturas semelhantes a tabelas SQL (objetos DataFrame). 
Há vários casos a considerar que são muito importantes para entender:

- uniões um a um: por exemplo, ao unir dois objetos DataFrame em seus índices (que devem conter valores exclusivos).
- associações muitos-para-um: por exemplo, ao ingressar em um índice (exclusivo) em uma ou mais colunas em um DataFrame diferente.
- junções muitos para muitos: juntando colunas em colunas

"""

'\n\nUsuários experientes de bancos de dados relacionais como SQL estarão familiarizados com a terminologia usada para \ndescrever operações de junção entre duas estruturas semelhantes a tabelas SQL (objetos DataFrame). \nHá vários casos a considerar que são muito importantes para entender:\n\n- uniões um a um: por exemplo, ao unir dois objetos DataFrame em seus índices (que devem conter valores exclusivos).\n- associações muitos-para-um: por exemplo, ao ingressar em um índice (exclusivo) em uma ou mais colunas em um DataFrame diferente.\n- junções muitos para muitos: juntando colunas em colunas\n\n'

In [10]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                       'A': ['A0', 'A1', 'A2', 'A3'],
                       'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})


In [11]:
result = pd.merge(left, right, on='key')

In [12]:
print(result)

  key   A   B   C   D
0  K0  A0  B0  C0  D0
1  K1  A1  B1  C1  D1
2  K2  A2  B2  C2  D2
3  K3  A3  B3  C3  D3


In [25]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                      'key2': ['K0', 'K0', 'K0', 'K0'],
                         'C': ['C0', 'C1', 'C2', 'C3'],
                         'D': ['D0', 'D1', 'D2', 'D3']}) 


In [26]:
result = pd.merge(left, right, on=['key1', 'key2'])
print(result)

  key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2


In [27]:
result = pd.merge(left, right, how='left', on=['key1', 'key2'])

In [28]:
print(result)

  key1 key2   A   B    C    D
0   K0   K0  A0  B0   C0   D0
1   K0   K1  A1  B1  NaN  NaN
2   K1   K0  A2  B2   C1   D1
3   K1   K0  A2  B2   C2   D2
4   K2   K1  A3  B3  NaN  NaN


In [29]:
result = pd.merge(left, right, how='right', on=['key1', 'key2'])

In [30]:
print(result)

  key1 key2    A    B   C   D
0   K0   K0   A0   B0  C0  D0
1   K1   K0   A2   B2  C1  D1
2   K1   K0   A2   B2  C2  D2
3   K2   K0  NaN  NaN  C3  D3


In [31]:
result = pd.merge(left, right, how='inner', on=['key1', 'key2'])
#linha [48] da página: https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

In [32]:
print(result)

  key1 key2   A   B   C   D
0   K0   K0  A0  B0  C0  D0
1   K1   K0  A2  B2  C1  D1
2   K1   K0  A2  B2  C2  D2
