# **Mestrado em Informática**
# **Pós-Graduação em Data Science and Digital Transformation**

## *(Ambientes de) Programação para Ciência de Dados*

# Mónica Vieira Martins
---

> # A biblioteca Pandas - combinar DataFrames

---

Há situações em que é interessante poder combinar vários DataFrames ou Series. 

Os principais métodos são:
* Concatenação (*concatenate*)
* Mesclagem (*merge*)
* Junção (*join*)


# Concatenação: `pd.concat()`

A concatenação é utilizada para empilhar DataFrames ou Series ao longo de um eixo.  

É utilizada quando se possui DataFrames (ou Series)  com a mesma estrutura de colunas/linhas, e se pretende simplesmente adicionar mais linhas/colunas. É o método mais rápido e eficiente para combinações simples. 


In [130]:
import pandas as pd

### `pd.concat()` com Series

Vamos usar duas séries que contém a população de cidades no ano 2021: 

In [131]:
pop1_2021 = pd.Series([2287869, 1803223, 708902, 105031],
                       index=['Lisboa', 'Porto', 'Aveiro', 'Portalegre'])
pop1_2021

Lisboa        2287869
Porto         1803223
Aveiro         708902
Portalegre     105031
dtype: int64

In [132]:
pop2_2021 = pd.Series([435169,424973], 
                      index=['Leiria', 'Santarém'])
pop2_2021

Leiria      435169
Santarém    424973
dtype: int64

Usamos `pd.concat()` para gerar uma nova serie contruída a partir das duas iniciais:

In [133]:
pop_total = pd.concat([pop1_2021,pop2_2021])
pop_total

Lisboa        2287869
Porto         1803223
Aveiro         708902
Portalegre     105031
Leiria         435169
Santarém       424973
dtype: int64

Note-se que com `pd.concat`, as series serão concatenadas, **independentemente de haver índices repetidos**

Por exemplo, considerem-se mais duas séries com população em cidades portuguesas, mas agora no ano 2011:

In [134]:
pop2_2011= pd.Series([470922,453638],  index=['Leiria', 'Santarém'])
pop1_2011 = pd.Series([2275591,1786656,714200,118506 ], index=['Lisboa', 'Porto', 'Aveiro', 'Portalegre'])

In [135]:
pop1_2011

Lisboa        2275591
Porto         1786656
Aveiro         714200
Portalegre     118506
dtype: int64

In [136]:
pop2_2011

Leiria      470922
Santarém    453638
dtype: int64

É possível combinar  três da séries, mesmo havendo alguns índices repetidos: 

In [137]:
pd.concat([pop1_2021, pop2_2021, pop2_2011])

Lisboa        2287869
Porto         1803223
Aveiro         708902
Portalegre     105031
Leiria         435169
Santarém       424973
Leiria         470922
Santarém       453638
dtype: int64

### `pd.concat()` com DataFrames

De forma semelhnade, o método `concat()` pode ser  usado para concatenar DataFrames de maneira simples, ao longo de linhas (empilhando, como no eixo 0) ou colunas (juntando lado a lado, como no eixo 1). 

O `concat()` não verifica os  valores em colunas ou índices; apenas junta os DataFrames.

Para além disso, preserva todos os índices e colunas originais, a menos que estes sejam explicitamente ajustados.

Consideremos agora os DataFrames obtidos a partir das Séries no ponto anterior.

In [138]:
#população de algumas cidades em 2011
df_pop1_2011=pd.DataFrame(pop1_2011, 
                          columns=['2011'])
df_pop1_2011

Unnamed: 0,2011
Lisboa,2275591
Porto,1786656
Aveiro,714200
Portalegre,118506


In [139]:
#população de outras cidades em 2011
df_pop2_2011=pd.DataFrame(pop2_2011,
                           columns=['2011'])
df_pop2_2011

Unnamed: 0,2011
Leiria,470922
Santarém,453638


Usamos `concat()` para combinar os dois DF anteriores, passando como argumento a lista das DF que se deseja combinar.

In [140]:
df_total_2011= pd.concat([df_pop1_2011,df_pop2_2011])
df_total_2011


Unnamed: 0,2011
Lisboa,2275591
Porto,1786656
Aveiro,714200
Portalegre,118506
Leiria,470922
Santarém,453638


Por omissão, a concatenação acontece ao longo da linha (axis=0).

Pode-se obter concatenação segundo as colunas, explicitando-o (axis=1 ou axis='columns').

Para exemplificar, comecemos por criar a partir das séries originais, um DF com a população das seis cidades consideradas, mas em 2021.

In [141]:
df_total_2021=pd.DataFrame(pd.concat([pop1_2021,pop2_2021]), columns = ["2021"])

df_total_2021

Unnamed: 0,2021
Lisboa,2287869
Porto,1803223
Aveiro,708902
Portalegre,105031
Leiria,435169
Santarém,424973


Concatenemos as duas DF ao longo do eixo das colunas, explicitando para isso que `axis=1`:

In [142]:
df_total = pd.concat([df_total_2011, df_total_2021],
                      axis = 1)
df_total

Unnamed: 0,2011,2021
Lisboa,2275591,2287869
Porto,1786656,1803223
Aveiro,714200,708902
Portalegre,118506,105031
Leiria,470922,435169
Santarém,453638,424973


 Repare-se que neste caso, as colunas das duas DF originais não são concordantes (**2011**, **2021**).  
 O que aconteceria se tentássemos concatenar as duas DF ao longo das linhas?  

In [143]:
pd.concat([df_total_2011, df_total_2021])

Unnamed: 0,2011,2021
Lisboa,2275591.0,
Porto,1786656.0,
Aveiro,714200.0,
Portalegre,118506.0,
Leiria,470922.0,
Santarém,453638.0,
Lisboa,,2287869.0
Porto,,1803223.0
Aveiro,,708902.0
Portalegre,,105031.0


Verificamos que as colunas são presenvadas, e que entradas que não têm dados disponíveis são preenchidos com *NaN* (Not a Number)

#### O atritubo `ignore_index`

Reforcemos esta ideia com outro exemplo:

In [144]:
df1=pd.DataFrame([
    ['e', 'f'],
    ['h','h']],
    columns=('A', 'B'),
    index=(1,2)
)
df1

Unnamed: 0,A,B
1,e,f
2,h,h


In [145]:
df2=pd.DataFrame([
    ['a', 'b'],
    ['c','d']],
    columns=('A', 'C'),
    index=(1,2)
)
df2

Unnamed: 0,A,C
1,a,b
2,c,d


In [146]:
pd.concat([df1,df2])


Unnamed: 0,A,B,C
1,e,f,
2,h,h,
1,a,,b
2,c,,d


Do exemplo anterior também se salienta outro aspeto relevante:  `pd.concat()` preservar os índices das linhas, mesmo que eles sejam repetidos.

Nestes casos, se o índice não for relevante, pode-se optar por ignorar os índices iniciais usando o atributo `ignore_index=True`. 

Por exemplo: 

In [147]:
pd.concat([df1,df2], ignore_index=True)

Unnamed: 0,A,B,C
0,e,f,
1,h,h,
2,a,,b
3,c,,d


Verificamos que com  `ignore_index=True` houve uma redefinição do índice (das linhas). 

#### O atributo  `join`


O atributo `join` no método `concat`  controla como os índices ou as colunas dos DataFrames/Séries são combinados quando se realiza a concatenação. 

O `join`  define a estratégia de junção utilizada quando há diferenças nos índices ou nos rótulos das colunas.
* `join='outer'` (comportamento padrão). 

    +  Resulta na união dos dois índices/colunas.  
    +   Como vimos, para índices ou colunas que não existam num dos DataFrames, os valores resultantes serão preenchidos com *NaN*. 
* `join='inner'`
 
    + Realiza a interseção dos índices/colunas, incluindo apenas os rótulos comuns a todos os DataFrames. 
    + Rótulos exclusivos de um DataFrame são descartados.  
  

Por exemplo, veja-se o resultado da concatenação das duas DF anteriores, mas agora usando `join='inner'`

In [148]:
df1

Unnamed: 0,A,B
1,e,f
2,h,h


In [149]:
df2

Unnamed: 0,A,C
1,a,b
2,c,d


In [150]:
pd.concat([df1,df2], join='inner', ignore_index=True)

Unnamed: 0,A
0,e
1,h
2,a
3,c


Para reforçar o exemplo, considere-se ainda o df3, com algumas colunas em comun com df1, e o resultado da sua concatenação usando ou não  `join='inner'`

In [151]:
df3=pd.DataFrame([
    ['e', 'f', 'g'],
    ['h','i', 'j'],
   ],
    columns=('A', 'B', 'C'),
    index=(3,4)
)
df3

Unnamed: 0,A,B,C
3,e,f,g
4,h,i,j


In [152]:
df1

Unnamed: 0,A,B
1,e,f
2,h,h


In [153]:
pd.concat( [df3, df1])

Unnamed: 0,A,B,C
3,e,f,g
4,h,i,j
1,e,f,
2,h,h,


In [154]:
pd.concat( [df3, df1], join="inner")

Unnamed: 0,A,B
3,e,f
4,h,i
1,e,f
2,h,h


In [155]:
# Para fazer left joins:
pd.concat([df3, df1]).reindex(df1.columns)

Unnamed: 0,A,B,C
A,,,
B,,,


In [156]:
# Para fazer Right joins:
pd.concat([df3, df1]).reindex(df3.columns)

Unnamed: 0,A,B,C
A,,,
B,,,
C,,,


# Mesclagem: `pd.merge()`

As operações com o método `pd.merge()` permitem combinar diferentes DataFrames com base numa ou mais chaves. 

As operações `pd.merge()` podem ser realizadas nas seguintes formas: 
* um para um
* um para muitos
* muitos para muitos

O tipo de operação depende do formato dos DataFrames

### Um para um


In [157]:
df1 = pd.DataFrame({'funcionario': ['Joao', 'Jose', 'Lisa', 'Amália'],
                    'grupo': ['Contabilidade', 'Engenharia', 'Engenharia','HR']})
df2 = pd.DataFrame({'funcionario': ['Lisa','Joao', 'Amália', 'Jose' ],
                    'data_contrato': [2004, 2008, 2012, 2014]})

In [158]:
df1

Unnamed: 0,funcionario,grupo
0,Joao,Contabilidade
1,Jose,Engenharia
2,Lisa,Engenharia
3,Amália,HR


In [159]:
df2

Unnamed: 0,funcionario,data_contrato
0,Lisa,2004
1,Joao,2008
2,Amália,2012
3,Jose,2014


In [160]:
df3=pd.merge(df1, df2)
df3

Unnamed: 0,funcionario,grupo,data_contrato
0,Joao,Contabilidade,2008
1,Jose,Engenharia,2014
2,Lisa,Engenharia,2004
3,Amália,HR,2012


O método `pd.merge()` verificou de forma automática que ambas as DF possuem uma coluna denominada *funcionario*, e usou essa coluna como a chave para realizar as mesclagem. Os elementos são comuns as ambas as colunas *funcionário*, e não existem repetições. 
O resultado é uma nova DF que combina a informação dos dois DF.  
Repare-se que a ordem das chaves não era coincidente nas duas DF, mas que a informação foi corretamente considerada pelo método `pd.merge()`

### Um para muitos

O merge de um-para-muitos ocorre quando existem elementos duplicados numa das colunas chave.



In [161]:
df4 = pd.DataFrame({'grupo': ['Contabilidade', 'Engenharia', 'HR'],
'supervisor': ['Carlos', 'Antonio', 'Maria']})
df4

Unnamed: 0,grupo,supervisor
0,Contabilidade,Carlos
1,Engenharia,Antonio
2,HR,Maria


In [162]:
df1

Unnamed: 0,funcionario,grupo
0,Joao,Contabilidade
1,Jose,Engenharia
2,Lisa,Engenharia
3,Amália,HR


In [163]:
pd.merge(df1,df4)

Unnamed: 0,funcionario,grupo,supervisor
0,Joao,Contabilidade,Carlos
1,Jose,Engenharia,Antonio
2,Lisa,Engenharia,Antonio
3,Amália,HR,Maria


outro exemplo:

In [164]:
df3

Unnamed: 0,funcionario,grupo,data_contrato
0,Joao,Contabilidade,2008
1,Jose,Engenharia,2014
2,Lisa,Engenharia,2004
3,Amália,HR,2012


In [165]:
pd.merge(df3,df4)

Unnamed: 0,funcionario,grupo,data_contrato,supervisor
0,Joao,Contabilidade,2008,Carlos
1,Jose,Engenharia,2014,Antonio
2,Lisa,Engenharia,2004,Antonio
3,Amália,HR,2012,Maria


### Muitos para muitos

A operação de merge de muitos-para-muitos ocorre quando ambas as colunas chave contêm valores duplicados. 

In [166]:
df5 = pd.DataFrame({'grupo': ['Contabilidade', 'Contabilidade',
'Engenharia', 'Engenharia', 'HR', 'HR'],
'competências': ['matemática', 'folha de cálculo', 'programação', 'linux',
'folha de cálculo', 'organização']})
df5

Unnamed: 0,grupo,competências
0,Contabilidade,matemática
1,Contabilidade,folha de cálculo
2,Engenharia,programação
3,Engenharia,linux
4,HR,folha de cálculo
5,HR,organização


In [167]:
df1

Unnamed: 0,funcionario,grupo
0,Joao,Contabilidade
1,Jose,Engenharia
2,Lisa,Engenharia
3,Amália,HR


In [168]:
pd.merge(df1, df5)

Unnamed: 0,funcionario,grupo,competências
0,Joao,Contabilidade,matemática
1,Joao,Contabilidade,folha de cálculo
2,Jose,Engenharia,programação
3,Jose,Engenharia,linux
4,Lisa,Engenharia,programação
5,Lisa,Engenharia,linux
6,Amália,HR,folha de cálculo
7,Amália,HR,organização


### Especificar a chave para merge

#### O atributo `on`

O atributo `on` é usado para especificar qual a coluna que deve ser usada como chave para realizar o merge

In [169]:
df1

Unnamed: 0,funcionario,grupo
0,Joao,Contabilidade
1,Jose,Engenharia
2,Lisa,Engenharia
3,Amália,HR


In [170]:
df2

Unnamed: 0,funcionario,data_contrato
0,Lisa,2004
1,Joao,2008
2,Amália,2012
3,Jose,2014


In [171]:
print(pd.merge(df1, df2, on='funcionario'))

  funcionario          grupo  data_contrato
0        Joao  Contabilidade           2008
1        Jose     Engenharia           2014
2        Lisa     Engenharia           2004
3      Amália             HR           2012


#### Os atributos `left_on` e `right_on`
Por vezes, as colunas que devem ser usadas como chave possuem rótulos diferentes em cada um dos DataFrame. 

Nesses casos, podem-se usar os atributos `left_on` e `right_on`  para identificar os respetivos rótulos.
 

In [172]:
df6 = pd.DataFrame({'nome': ['Joao', 'Jose', 'Lisa', 'Amália'],
                    'salário': [70000, 80000, 120000, 90000]})
df6

Unnamed: 0,nome,salário
0,Joao,70000
1,Jose,80000
2,Lisa,120000
3,Amália,90000


In [173]:
pd.merge(df1, df6, left_on='funcionario', right_on='nome')

Unnamed: 0,funcionario,grupo,nome,salário
0,Joao,Contabilidade,Joao,70000
1,Jose,Engenharia,Jose,80000
2,Lisa,Engenharia,Lisa,120000
3,Amália,HR,Amália,90000


Repare-se que no caso anterior ambas as colunas chaves foram mantidas. 

Pode-se usar o método `drop()` para apagar uma das colunas que serviu como chave.

In [174]:
pd.merge(df1, df6, left_on='funcionario', right_on='nome').drop('nome', axis=1)

Unnamed: 0,funcionario,grupo,salário
0,Joao,Contabilidade,70000
1,Jose,Engenharia,80000
2,Lisa,Engenharia,120000
3,Amália,HR,90000


#### Os atributos `left_index` e `right_index`

Por vazes, é útili realizar o merge não em chaves específicas mas sim no índice. 

Para isso, usam-se os atributos `left_index` e `right_index`


In [175]:
df1

Unnamed: 0,funcionario,grupo
0,Joao,Contabilidade
1,Jose,Engenharia
2,Lisa,Engenharia
3,Amália,HR


Para exemplificar, transformemos o campo "funcionario" em df1 e df2 no índice do DataFrame respetivo.

Essa operação realiza-se recorrendo ao método `set_index`.

Poderíamos usar o atributo `inplace=True`para alterar a própria DF, mas optamos por não o fazer, criando duas novas DF

In [176]:
df7 = df1.set_index('funcionario')
df7


Unnamed: 0_level_0,grupo
funcionario,Unnamed: 1_level_1
Joao,Contabilidade
Jose,Engenharia
Lisa,Engenharia
Amália,HR


In [177]:
df8=df2.set_index('funcionario')
df8

Unnamed: 0_level_0,data_contrato
funcionario,Unnamed: 1_level_1
Lisa,2004
Joao,2008
Amália,2012
Jose,2014


In [178]:
pd.merge(df7, df8, left_index=True, right_index=True)

Unnamed: 0_level_0,grupo,data_contrato
funcionario,Unnamed: 1_level_1,Unnamed: 2_level_1
Joao,Contabilidade,2008
Jose,Engenharia,2014
Lisa,Engenharia,2004
Amália,HR,2012


Também pode haver variações entre junções usando como chaves o  índice de uma das DF  e coluna de outra.


In [179]:
df6

Unnamed: 0,nome,salário
0,Joao,70000
1,Jose,80000
2,Lisa,120000
3,Amália,90000


In [180]:
df7

Unnamed: 0_level_0,grupo
funcionario,Unnamed: 1_level_1
Joao,Contabilidade
Jose,Engenharia
Lisa,Engenharia
Amália,HR


In [181]:
df11 =pd.merge(df7,df6, left_index=True, right_on='nome')

#### O atributo `how`

O atributo `how` permite especificar como são resolvidas as situações em que os elementos chave no DataFrame são disjuntos.

Os valores possíveis deste atributo são: 
* `inner`  - comportamento por omissão. Considera a intersecção das chaves dos dois DF
* `outer` -  considera a união das chaves dos dois DF. Os elementos inexistentes são preenchidos com *NaN*
* `left` - considera as entradas à esquerda, preenchendo os elementos inexistentes com *NaN*
* `right` - considera as entradas à direita, preenchendo os elementos inexistentes com *NaN*


In [182]:
df9 = pd.DataFrame({'nome': ['Joao', 'Jose', 'Ana'],
        'alimento': ['peixe', 'feijão', 'pão']},
columns=['nome', 'alimento'])
df10 = pd.DataFrame({'nome': ['Ana', 'Maria'],
                'bebida': ['guaraná', 'cerveja']}, columns=['nome','bebida'])


In [183]:
df9

Unnamed: 0,nome,alimento
0,Joao,peixe
1,Jose,feijão
2,Ana,pão


In [184]:
df10

Unnamed: 0,nome,bebida
0,Ana,guaraná
1,Maria,cerveja


In [185]:
#inner
#pd.merge(df9, df10)
pd.merge(df9, df10, how='inner')

Unnamed: 0,nome,alimento,bebida
0,Ana,pão,guaraná


In [186]:
#outer
pd.merge(df9, df10, how='outer')

Unnamed: 0,nome,alimento,bebida
0,Ana,pão,guaraná
1,Joao,peixe,
2,Jose,feijão,
3,Maria,,cerveja


In [187]:
pd.merge(df9, df10, how='left')

Unnamed: 0,nome,alimento,bebida
0,Joao,peixe,
1,Jose,feijão,
2,Ana,pão,guaraná


In [188]:
pd.merge(df9, df10, how='right')

Unnamed: 0,nome,alimento,bebida
0,Ana,pão,guaraná
1,Maria,,cerveja


# Comparação: `concat()` vs `merge()`

| Critério                  | `concat`                                             | `merge`                                                                 |
|---------------------------|-----------------------------------------------------|-------------------------------------------------------------------------|
| **Finalidade**            | Combina DataFrames empilhando-os verticalmente ou lado a lado. | Junta DataFrames com base em colunas ou índices (como numa junção SQL). |
| **Requer chaves**         | Não, combina diretamente com base na ordem ou no índice.        | Sim, é necessário especificar colunas ou índices para a junção.         |
| **Flexibilidade**         | Apenas concatena sem lógica relacional.            | Oferece diferentes tipos de junção (`inner`, `outer`, `left`, `right`). |
| **Performance**           | Mais rápido para empilhar ou combinar de forma simples.      | Mais lento devido à lógica de junção.                                  |
| **Operação principal**    | Combinação direta de tabelas.                      | Lógica relacional baseada em valores de chaves.                        |
| **Uso comum**             | Empilhar dados semelhantes ou adicionar colunas simples. | Combinar tabelas relacionadas (e.g., clientes e vendas).               |


# Junção: `pd.join()`


O método `join()` é usado para combinar dois DataFrames com base nos índices. É util quando se pretende combinar dois DataFrame que têm um índice comum, sem ser necessário especificar uma coluna 

In [189]:
df7.join(df8)

Unnamed: 0_level_0,grupo,data_contrato
funcionario,Unnamed: 1_level_1,Unnamed: 2_level_1
Joao,Contabilidade,2008
Jose,Engenharia,2014
Lisa,Engenharia,2004
Amália,HR,2012


In [190]:
df7

Unnamed: 0_level_0,grupo
funcionario,Unnamed: 1_level_1
Joao,Contabilidade
Jose,Engenharia
Lisa,Engenharia
Amália,HR


In [191]:
df8.join(df7)

Unnamed: 0_level_0,data_contrato,grupo
funcionario,Unnamed: 1_level_1,Unnamed: 2_level_1
Lisa,2004,Engenharia
Joao,2008,Contabilidade
Amália,2012,HR
Jose,2014,Engenharia


# pd.sort_values()

In [192]:
df3

Unnamed: 0,funcionario,grupo,data_contrato
0,Joao,Contabilidade,2008
1,Jose,Engenharia,2014
2,Lisa,Engenharia,2004
3,Amália,HR,2012


In [193]:
df3.sort_values(by='data_contrato', inplace=True, ascending=False)

In [194]:
df3

Unnamed: 0,funcionario,grupo,data_contrato
1,Jose,Engenharia,2014
3,Amália,HR,2012
0,Joao,Contabilidade,2008
2,Lisa,Engenharia,2004


---  
**Mónica Vieira Martins**  
*Data Science and Digital Transformation*