# Junção de DataFrames - Concat - Merge - Join - Youtube

In [1]:
import numpy as np
import pandas as pd

In [2]:
dados = np.arange(1,10).reshape(3,3)

In [3]:
dados

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [4]:
df1 = pd.DataFrame(dados, columns='A B C'.split())
df2 = pd.DataFrame(dados, columns='A B C'.split())
df3 = pd.DataFrame(dados, columns='D E F'.split())

In [5]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [6]:
df2

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [7]:
df3

Unnamed: 0,D,E,F
0,1,2,3
1,4,5,6
2,7,8,9


### Concat
juntar dataframes colocando um do lado do outro ou abaixo do outro

In [12]:
# Para fazer a concatenação basta colocar todos os dataframes em uma lista - ele concatena por padrão na vertical (em baixo)
# O index por padrão segue o do dataframe - para mudar para uma continuação ex 0 1 2 3 4 5 e etc basta usar o ignore_index

pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9
3,1,2,3
4,4,5,6
5,7,8,9


In [15]:
# Alterando a concatenação um ao lado do outro
pd.concat([df1, df3], axis=1)

Unnamed: 0,A,B,C,D,E,F
0,1,2,3,1,2,3
1,4,5,6,4,5,6
2,7,8,9,7,8,9


In [18]:
# Por padrão o axis é 0 - ele junta por linha um em baixo do outro -  ele preenche os dados vazios com NaN
pd.concat([df1, df2, df3], ignore_index=True)

Unnamed: 0,A,B,C,D,E,F
0,1.0,2.0,3.0,,,
1,4.0,5.0,6.0,,,
2,7.0,8.0,9.0,,,
3,1.0,2.0,3.0,,,
4,4.0,5.0,6.0,,,
5,7.0,8.0,9.0,,,
6,,,,1.0,2.0,3.0
7,,,,4.0,5.0,6.0
8,,,,7.0,8.0,9.0


### Merge
Mescla dois dadaframes

In [30]:
df1 = pd.DataFrame(dados, columns='A B C'.split())
df2 = pd.DataFrame(dados, columns='D B C'.split())

In [31]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [32]:
df2

Unnamed: 0,D,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [25]:
# Para mesclar a coluna e o conteudo tem que ser o mesmo -  primeiro dado fica a esquerda e o segundo a direita
# è preciso especificar em qual coluna vai fazer o merge

pd.merge(df1, df2, on='C')

Unnamed: 0,A,B,C,D,E
0,1,2,3,1,2
1,4,5,6,4,5
2,7,8,9,7,8


In [33]:
# Fazer mesla em duas colunas ao mesmo tempo
pd.merge(df1, df2, on=['B', 'C'])

Unnamed: 0,A,B,C,D
0,1,2,3,1
1,4,5,6,4
2,7,8,9,7


### Join
Juntar dois dataframes só que nesse caso é utilizado quando os index são diferentes

In [35]:
df1 = pd.DataFrame(dados, columns='A B C'.split(), index=[0,1,2])
df2 = pd.DataFrame(dados, columns='D E F'.split(), index=[1,2,3])

In [36]:
df1

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [37]:
df2

Unnamed: 0,D,E,F
1,1,2,3
2,4,5,6
3,7,8,9


In [39]:
# Join não é uma função do pandas e sim um método do dataframe 
# Pega todos os indices e quando algum dado não esta presente em ambos dataframes ele completa com NaN
df1.join(df2, how='outer')

Unnamed: 0,A,B,C,D,E,F
0,1.0,2.0,3.0,,,
1,4.0,5.0,6.0,1.0,2.0,3.0
2,7.0,8.0,9.0,4.0,5.0,6.0
3,,,,7.0,8.0,9.0
