### Mesclar, Juntar e Concatenar

Existe três maneira pricipais de combinar os DataFrames: Mesclar, Juntando e Concatenado (merge, join e concat). Nesta aula, discutiremos esses três métodos com exemplos.

##### Exemplos de DataFrames

In [1]:
import pandas as pd

In [2]:
# Criando o meu primeiro dicionário a ser convertido em dataframe
dados1 = {"A":["A0", "A1", "A2", "A3"],
          "B":["B0", "B1", "B2", "B3"],
          "C":["C0", "C1", "C2", "C3"],
          "D":["D0", "D1", "D2", "D3"]}
df1 = pd.DataFrame(dados1, index=[1, 2, 3, 4]);df1

Unnamed: 0,A,B,C,D
1,A0,B0,C0,D0
2,A1,B1,C1,D1
3,A2,B2,C2,D2
4,A3,B3,C3,D3


In [3]:
# Criando o meu segundo dicionário a ser convertido em dataframe
dados2 = {"A":["A4", "A5", "A6", "A7"],
          "B":["B4", "B5", "B6", "B7"],
          "C":["C4", "C5", "C6", "C7"],
          "D":["D4", "D5", "D6", "D7"]
          }
df2 = pd.DataFrame(dados2, index=[4, 5, 6, 7]);df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [4]:
# Criando o meu terceiro dicionário a ser convertido em dataframe
dados3 = {"A":["A8", "A9", "A10", "A11"],
          "B":["B8", "B9", "B10", "B11"],
          "C":["C8", "C9", "C10", "C11"],
          "D":["D8", "D9", "D10", "D11"]
          }
df3 = pd.DataFrame(dados3, index=[8, 9, 10, 11]);df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


### Concatenação 

Concatenação basicamente cola DataFrames. Tenha em mente que as dimenções devem corresponder ao londo do eixo que você está concatenando. Você pode usar **pd.concat** e passar uma lista de DataFrames para concatenar juntos.

In [5]:
# Utilizando o método concat() para juntar dois (ou uma lista) de datafremes 
# o método aqui sub entende que axis=0 e junção dos dataframes será feito pelas linhas de acordo com seus indices
pd.concat([df1, df2, df3])

Unnamed: 0,A,B,C,D
1,A0,B0,C0,D0
2,A1,B1,C1,D1
3,A2,B2,C2,D2
4,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [6]:
# Usando novamente o método concat() agora usando o atributo axis=1
pd.concat([df1,df2,df3], axis=1).fillna("-")

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
1,A0,B0,C0,D0,-,-,-,-,-,-,-,-
2,A1,B1,C1,D1,-,-,-,-,-,-,-,-
3,A2,B2,C2,D2,-,-,-,-,-,-,-,-
4,A3,B3,C3,D3,A4,B4,C4,D4,-,-,-,-
5,-,-,-,-,A5,B5,C5,D5,-,-,-,-
6,-,-,-,-,A6,B6,C6,D6,-,-,-,-
7,-,-,-,-,A7,B7,C7,D7,-,-,-,-
8,-,-,-,-,-,-,-,-,A8,B8,C8,D8
9,-,-,-,-,-,-,-,-,A9,B9,C9,D9
10,-,-,-,-,-,-,-,-,A10,B10,C10,D10


### Outros DataFrames

In [11]:
# Criando novos DataFrames, através dos dicioários
esquerda = pd.DataFrame({"Key":["K0", "K1", "K2", "K3"],
                        "A":["A0", "A1", "A2", "A3"],
                        "B":["B0", "B1", "B2", "B3"]}); esquerda

Unnamed: 0,Key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [12]:
# Criando novos DataFrames, através dos dicioários
direita = pd.DataFrame({"Key":["K0", "K1", "K2", "K3"],
                        "C":["C0", "C1", "C2", "C3"],
                        "D":["D0", "D1", "D2", "D3"]}); direita

Unnamed: 0,Key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


### Mesclar 

A função **mesclar** permite que você mescle os quadros de dados juntos usando uma lógica semelhante à mesclagem de tabelas SQL juntas. Por exemplo:

In [13]:
# Usando um novo método o .merge(), para mesclar os dados do DataFrames
# o elemento em comun on="Key"
# how="inner" é um método de união de tabelas do sql
pd.merge(esquerda, direita, how="inner", on="Key")

Unnamed: 0,Key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


##### Ou para mostrar um exemplo mais complicado

In [16]:
# Criando novos DataFrames, através dos dicioários
esquerda = pd.DataFrame({"Key1":["K0", "K0", "K1", "K2"],
                         "Key2":["K0", "K1", "K0", "K1"],
                        "A":["A0", "A1", "A2", "A3"],
                        "B":["B0", "B1", "B2", "B3"]}); esquerda

Unnamed: 0,Key1,Key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [18]:
# Criando novos DataFrames, através dos dicioários
direita = pd.DataFrame({"Key1":["K0", "K1", "K1", "K2"],
                        "Key2":["K0", "K0", "K0", "K0"],
                        "C":["C0", "C1", "C2", "C3"],
                        "D":["D0", "D1", "D2", "D3"]}); direita

Unnamed: 0,Key1,Key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [19]:
# Usando novamente o método merge() e nesse caso só fez a concatenação elementos dos dataframes que tinham semelhanças
# Note que não existe nenhuma linha com elementos nan
pd.merge(esquerda, direita, on=["Key1", "Key2"])

Unnamed: 0,Key1,Key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [21]:
# Usando novamente o método merge(), note que agora já existe elementos nan por conta do atributo how="outer"
pd.merge(esquerda, direita, how="outer", on=["Key1", "Key2"])

Unnamed: 0,Key1,Key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [23]:
# Usando novamente o método merge(), note que agora já existe elementos nan por conta do atributo how="right"
pd.merge(esquerda, direita, how="right", on=["Key1", "Key2"])

Unnamed: 0,Key1,Key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [24]:
# Usando novamente o método merge(), note que agora já existe elementos nan por conta do atributo how="left"
pd.merge(esquerda, direita, how="left", on=["Key1", "Key2"])

Unnamed: 0,Key1,Key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


### Juntar

Juntar é o método conveniente para combinar as colunas de dois DataFrames indexados potencialmente diferentes em um unico resultado DataFrame.

In [30]:
# Criando novos DataFrames, através dos dicioários
esquerda = pd.DataFrame({"A":["A0", "A1", "A2"],
                        "B":["B0", "B1", "B2"]},
                        index=["K0", "K1", "K2"]); esquerda

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [31]:
# Criando novos DataFrames, através dos dicioários
direita = pd.DataFrame({"C":["C0", "C1", "C2"],
                        "D":["D0", "D1", "D2"]},
                        index=["K0", "K2", "K3"]); direita

Unnamed: 0,C,D
K0,C0,D0
K2,C1,D1
K3,C2,D2


In [32]:
# Usando um novo método join() para juntar DataFrames 
# Observe que o método join() é um método do DataFrame mesmo. Ele basicamente pega um dataFrame e junta com 
# outro em relaçao a seu indice
esquerda.join(direita)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C1,D1


In [38]:
# Nesse caso através do atributo how="outer" ele ignorou os valores faltantes e junto com relação a 
# seu index da linha
esquerda.join(direita, how="outer")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C1,D1
K3,,,C2,D2
