# Mesclar, Juntar, e Concatenar


Existem três maneiras principais de combinar os DataFrames: mesclando, juntando e concatenando (merge, join e concat). Nesta palestra, discutiremos esses 3 métodos com exemplos.

____

In [2]:
import pandas as pd

In [3]:

##crio dois data frames com seus respectivos indices

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 


df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [4]:
### visualização 

df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [5]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [6]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


## Concatenação

Concatenação basicamente cola DataFrames. Tenha em mente que as dimensões devem corresponder ao longo do eixo que você está concatenando. Você pode usar **pd.concat** e passar uma lista de DataFrames para concatenar juntos:

In [7]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [8]:
pd.concat([df1,df2,df3], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


Com a concatenação em colunas, o pandas espera índices iguais, como no exemplo abaixo:

In [10]:


# Criando dois DataFrames de exemplo
data1 = {
    'Nome': ['Ana', 'João', 'Maria'],
    'Idade': [28, 34, 29]
}

data2 = {
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte'],
    'Salário': [5000, 4500, 6000]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# Concatenando os DataFrames ao longo do eixo 1 (colunas)
df_concat = pd.concat([df1, df2], axis=1)




DataFrame 1:
    Nome  Idade
0    Ana     28
1   João     34
2  Maria     29

DataFrame 2:
           Cidade  Salário
0       São Paulo     5000
1  Rio de Janeiro     4500
2  Belo Horizonte     6000


In [11]:
df_concat

Unnamed: 0,Nome,Idade,Cidade,Salário
0,Ana,28,São Paulo,5000
1,João,34,Rio de Janeiro,4500
2,Maria,29,Belo Horizonte,6000


## Mesclar

A função ** mesclar ** permite que você mescle os quadros de dados juntos usando uma lógica semelhante à mesclagem de tabelas SQL juntas. Por exemplo:

In [14]:
esquerda = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
direita = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})  

pd.merge(esquerda,direita, on='key')   


Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [15]:
esquerda = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
direita = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [16]:
esquerda

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [17]:
direita

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [18]:
pd.merge(esquerda , direita , on = ['key1' , 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


Parâmetro `how` 
- `inner`
- `outer`
- `left`
- `right`

In [20]:
pd.merge(esquerda, direita , on = ['key1', 'key2'], how='outer')

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


## Juntar
Juntar é um método conveniente para combinar as colunas de dois DataFrames indexados potencialmente diferentes em um único resultado DataFrame.

In [21]:
esquerda = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

direita = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [22]:
esquerda

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [23]:
direita

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [24]:
esquerda.join(direita)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [25]:
esquerda.join(direita ,how='inner')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


#### Exemplo com ações
Para ficar mais claro vamos fazer um exemplo mais concreto

In [26]:
import pandas as pd

# Criando um DataFrame com informações sobre empresas
empresas = {
    'Ticker': ['AAPL', 'MSFT', 'GOOGL', 'AMZN', 'TSLA'],
    'Empresa': ['Apple', 'Microsoft', 'Alphabet', 'Amazon', 'Tesla'],
    'Setor': ['Tecnologia', 'Tecnologia', 'Tecnologia', 'Varejo', 'Automotivo']
}

df_empresas = pd.DataFrame(empresas)

# Criando um DataFrame com informações sobre preços das ações
precos_acoes = {
    'Ticker': ['AAPL', 'MSFT', 'GOOGL', 'AMZN', 'TSLA'],
    'Preco_Abertura': [150, 250, 2800, 3300, 700],
    'Preco_Fechamento': [155, 260, 2850, 3350, 710]
}

df_precos = pd.DataFrame(precos_acoes)

print("DataFrame Empresas:")
print(df_empresas)
print("\nDataFrame Preços das Ações:")
print(df_precos)

# Definindo o índice de ambos os DataFrames para a coluna 'Ticker'
df_empresas.set_index('Ticker', inplace=True)
df_precos.set_index('Ticker', inplace=True)

# Usando o método join para combinar os DataFrames
df_combinado = df_empresas.join(df_precos)

print("\nDataFrame Combinado:")
print(df_combinado)


DataFrame Empresas:
  Ticker    Empresa       Setor
0   AAPL      Apple  Tecnologia
1   MSFT  Microsoft  Tecnologia
2  GOOGL   Alphabet  Tecnologia
3   AMZN     Amazon      Varejo
4   TSLA      Tesla  Automotivo

DataFrame Preços das Ações:
  Ticker  Preco_Abertura  Preco_Fechamento
0   AAPL             150               155
1   MSFT             250               260
2  GOOGL            2800              2850
3   AMZN            3300              3350
4   TSLA             700               710

DataFrame Combinado:
          Empresa       Setor  Preco_Abertura  Preco_Fechamento
Ticker                                                         
AAPL        Apple  Tecnologia             150               155
MSFT    Microsoft  Tecnologia             250               260
GOOGL    Alphabet  Tecnologia            2800              2850
AMZN       Amazon      Varejo            3300              3350
TSLA        Tesla  Automotivo             700               710
