## Concatenate

A função `concat()` concatena dataframes, podendo juntar dataframes de acordo com o axis, sempre tentando encaixar as informações de acordo com o índice ou coluna

*`axis=0`*: tenta concatenar um dataframe abaixo de outro  
*`axis=1`*: temta cpmcatenar um dataframe ao lado de outro

In [1]:
import pandas as pd

In [17]:
df1 = pd.DataFrame(data={
        'A': ['A1', 'A2', 'A3'],
        'B': ['B1', 'B2', 'B3'], 
        'C': ['C1', 'C2', 'C3']},
        index = [1, 2, 3]
)


df2 = pd.DataFrame(data={
        'A': ['A4', 'A5', 'A6'],
        'B': ['B4', 'B5', 'B6'], 
        'C': ['C4', 'C5', 'C6']},
        index = [4, 5, 6]
)

df3 = pd.DataFrame(data={
        'D': ['D4', 'D5', 'D6'],
        'E': ['E4', 'E5', 'E6'], 
        'F': ['F4', 'F5', 'F6']},
        index = [1, 2, 3]
)
display(df1, df2, df3)

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


Unnamed: 0,A,B,C
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6


Unnamed: 0,D,E,F
1,D4,E4,F4
2,D5,E5,F5
3,D6,E6,F6


In [19]:
pd.concat([df1, df2], axis=0)


Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6


In [20]:
pd.concat([df1, df3], axis=1)

Unnamed: 0,A,B,C,D,E,F
1,A1,B1,C1,D4,E4,F4
2,A2,B2,C2,D5,E5,F5
3,A3,B3,C3,D6,E6,F6


No axis=0, caso não sejam encontradas as mesmas colunas para os dataframes, ainda assim o pandas irá concatená-los, porém como podemos ver no exemplo abaixo, alguns valores serão NaN

In [23]:
pd.concat([df1, df3], axis=0)

Unnamed: 0,A,B,C,D,E,F
1,A1,B1,C1,,,
2,A2,B2,C2,,,
3,A3,B3,C3,,,
1,,,,D4,E4,F4
2,,,,D5,E5,F5
3,,,,D6,E6,F6


No axis=1, caso não sejam encontrados os mesmos índices para os dataframes, ainda assim o pandas irá concatená-los, porém como podemos ver no exemplo abaixo, alguns valores serão NaN

In [24]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,A.1,B.1,C.1
1,A1,B1,C1,,,
2,A2,B2,C2,,,
3,A3,B3,C3,,,
4,,,,A4,B4,C4
5,,,,A5,B5,C5
6,,,,A6,B6,C6


## Join

O `join()` irá reunir dados de dois dataframes se baseando em uma chave, semelhante aos Joins de SQL.
Porém o `join()` usará o index como chave

Usando o parâmetro `how`, é possível determinar se é um Inner, Left, Right ou Outer Join, assim como no SQL

In [38]:
df1 = pd.DataFrame(data={
        'A': ['A1', 'A2', 'A3'],
        'B': ['B1', 'B2', 'B3'], 
        'C': ['C1', 'C2', 'C3']},
        index = ['K1', 'K2', 'K4']
)

df2 = pd.DataFrame(data={
        'A': ['A4', 'A5', 'A6'],
        'B': ['B4', 'B5', 'B6'], 
        'C': ['C4', 'C5', 'C6']},
        index = ['K4', 'K5', 'K6']
)

df3 = pd.DataFrame(data={
        'D': ['D4', 'D5', 'D6'],
        'E': ['E4', 'E5', 'E6'], 
        'F': ['F4', 'F5', 'F6']},
        index = ['K1', 'K2', 'K3']
)
display(df1, df2, df3)

Unnamed: 0,A,B,C
K1,A1,B1,C1
K2,A2,B2,C2
K4,A3,B3,C3


Unnamed: 0,A,B,C
K4,A4,B4,C4
K5,A5,B5,C5
K6,A6,B6,C6


Unnamed: 0,D,E,F
K1,D4,E4,F4
K2,D5,E5,F5
K3,D6,E6,F6


In [43]:
df1.join(df3, how='outer')

Unnamed: 0,A,B,C,D,E,F
K1,A1,B1,C1,D4,E4,F4
K2,A2,B2,C2,D5,E5,F5
K3,,,,D6,E6,F6
K4,A3,B3,C3,,,


## Merge

O `merge()` funciona de forma parecida com o `join()`, mas possibilita usar outro campo como chave, não se limitando apenas ao index

In [44]:
df1 = pd.DataFrame(data={
        'A': ['A1', 'A2', 'A3'],
        'B': ['B1', 'B2', 'B3'], 
        'C': ['C1', 'C2', 'C3'],
        'Key': ['K1', 'K2', 'K3']},
)

df2 = pd.DataFrame(data={
        'A': ['A4', 'A5', 'A6'],
        'B': ['B4', 'B5', 'B6'], 
        'C': ['C4', 'C5', 'C6'],
        'Key': ['K4', 'K5', 'K6']},
)

df3 = pd.DataFrame(data={
        'D': ['D4', 'D5', 'D6'],
        'E': ['E4', 'E5', 'E6'], 
        'F': ['F4', 'F5', 'F6'],
        'Key': ['K1', 'K2', 'K3']}
)
display(df1, df2, df3)

Unnamed: 0,A,B,C,Key
0,A1,B1,C1,K1
1,A2,B2,C2,K2
2,A3,B3,C3,K3


Unnamed: 0,A,B,C,Key
0,A4,B4,C4,K4
1,A5,B5,C5,K5
2,A6,B6,C6,K6


Unnamed: 0,D,E,F,Key
0,D4,E4,F4,K1
1,D5,E5,F5,K2
2,D6,E6,F6,K3


In [54]:
pd.merge(df1, df3, how='inner', on='Key')

Unnamed: 0,A,B,C,Key,D,E,F
0,A1,B1,C1,K1,D4,E4,F4
1,A2,B2,C2,K2,D5,E5,F5
2,A3,B3,C3,K3,D6,E6,F6


In [49]:
df1.merge(df3, how='inner', on='Key')

Unnamed: 0,A,B,C,Key,D,E,F
0,A1,B1,C1,K1,D4,E4,F4
1,A2,B2,C2,K2,D5,E5,F5
2,A3,B3,C3,K3,D6,E6,F6


In [50]:
df1.merge(df2, how='outer', on='Key')

Unnamed: 0,A_x,B_x,C_x,Key,A_y,B_y,C_y
0,A1,B1,C1,K1,,,
1,A2,B2,C2,K2,,,
2,A3,B3,C3,K3,,,
3,,,,K4,A4,B4,C4
4,,,,K5,A5,B5,C5
5,,,,K6,A6,B6,C6


In [51]:
df1.merge(df2, how='outer', on='Key').merge(df3, how='inner', on='Key')

Unnamed: 0,A_x,B_x,C_x,Key,A_y,B_y,C_y,D,E,F
0,A1,B1,C1,K1,,,,D4,E4,F4
1,A2,B2,C2,K2,,,,D5,E5,F5
2,A3,B3,C3,K3,,,,D6,E6,F6
