# Pandas - Concatenação / Empilhamento Vertical e Horizontal de Dataframes (concat e append)

# Unir, unir, concatenar e comparar 

- O pandas fornece vários recursos para combinar facilmente Series ou DataFrame com vários tipos de lógica de conjunto para os índices e funcionalidade de álgebra relacional no caso de operações do tipo join / merge.

## Concatenar Objetos  
- A função concat() realiza operações de concatenação ao longo de um eixo enquanto executa a lógica de conjunto opcional (união ou interseção) dos índices (se houver) nos outros eixos. 

## Importando dataframes de exemplo

In [132]:
import numpy as np
import pandas as pd
import os

diratual = os.getcwd()

diretorio = os.path.join(diratual) 

In [133]:
dfcovid = pd.read_csv(os.path.join(diretorio, 'HIST_PAINEL_COVIDBR_02nov2024.csv') , sep=';')
dfcovid.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-02-25,9,210147125.0,0.0,0,0,0,0.0,0.0,
1,Brasil,,,76,,,,2020-02-26,9,210147125.0,1.0,1,0,0,1.0,0.0,
2,Brasil,,,76,,,,2020-02-27,9,210147125.0,1.0,0,0,0,1.0,0.0,
3,Brasil,,,76,,,,2020-02-28,9,210147125.0,1.0,0,0,0,0.0,1.0,
4,Brasil,,,76,,,,2020-02-29,9,210147125.0,2.0,1,0,0,1.0,1.0,


In [134]:
filtro = (dfcovid['estado'].isna() == False ) & ( dfcovid['codmun'].isna()  )
dfcovid = dfcovid[filtro][['regiao', 'estado',  'populacaoTCU2019',
       'casosNovos', 'obitosNovos']]
print(dfcovid.shape)
dfcovid.head()

(46251, 5)


Unnamed: 0,regiao,estado,populacaoTCU2019,casosNovos,obitosNovos
158,Norte,RO,1777225.0,0,0
159,Norte,RO,1777225.0,0,0
160,Norte,RO,1777225.0,0,0
161,Norte,RO,1777225.0,0,0
162,Norte,RO,1777225.0,0,0


In [135]:
dfregiaouf = dfcovid[['regiao', 'estado',  'casosNovos', 'obitosNovos', 'populacaoTCU2019']]\
  .groupby(['regiao', 'estado'])\
  .agg({'casosNovos':'sum', 'obitosNovos':'sum', 'populacaoTCU2019':'max'})\
  .reset_index()
dfregiaouf.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,955540,12025,3015268.0
1,Centro-Oeste,GO,2060518,28669,7018354.0
2,Centro-Oeste,MS,637169,11305,2778986.0
3,Centro-Oeste,MT,921447,15253,3484466.0
4,Nordeste,AL,348701,7355,3337357.0


## Separar o dataframe em partes por região

In [136]:
dfnordeste = dfregiaouf[dfregiaouf.regiao == 'Nordeste']
dfnordeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
4,Nordeste,AL,348701,7355,3337357.0
5,Nordeste,BA,1844481,32034,14873064.0
6,Nordeste,CE,1508135,28215,9132078.0
7,Nordeste,MA,501121,11103,7075181.0
8,Nordeste,PB,725917,10669,4018127.0


In [137]:
dfnorte = dfregiaouf[dfregiaouf.regiao == 'Norte']
dfnorte.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
13,Norte,AC,169625,2083,881935.0
14,Norte,AM,643745,14531,4144597.0
15,Norte,AP,191877,2175,845731.0
16,Norte,PA,901045,19291,8602865.0
17,Norte,RO,505111,7527,1777225.0


In [138]:
dfsul = dfregiaouf[dfregiaouf.regiao == 'Sul']
dfsul.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
24,Sul,PR,3031840,47029,11433957.0
25,Sul,RS,3144956,43044,11377239.0
26,Sul,SC,2089867,23145,7164788.0


In [139]:
dfcentrooeste = dfregiaouf[dfregiaouf.regiao == 'Centro-Oeste']
dfcentrooeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,955540,12025,3015268.0
1,Centro-Oeste,GO,2060518,28669,7018354.0
2,Centro-Oeste,MS,637169,11305,2778986.0
3,Centro-Oeste,MT,921447,15253,3484466.0


In [140]:
dfsudeste = dfregiaouf[dfregiaouf.regiao == 'Sudeste']
dfsudeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
20,Sudeste,ES,1384800,15214,4018650.0
21,Sudeste,MG,4335714,66850,21168791.0
22,Sudeste,RJ,2966219,78238,17264943.0
23,Sudeste,SP,6907741,184235,45919049.0


## Juntando Dataframens com pd.concat

pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None,
          levels=None, names=None, verify_integrity=False, copy=True)
          
- objs: uma sequência ou mapeamento de objetos Series ou DataFrame. Se um dicionário for passado, as chaves classificadas serão usadas como o argumento das chaves , a menos que seja passado, caso em que os valores serão selecionados (veja abaixo). Qualquer objeto None será descartado silenciosamente, a menos que sejam todos None, caso em que um ValueError será gerado.

- axis : {0, 1,…}, padrão 0. O eixo ao longo do qual concatenar.

- join: {'interno', 'externo'}, padrão 'externo'. Como lidar com índices em outro (s) eixo (s). Externo para união e interno para interseção.

- ignore_index: booleano, padrão False. Se for True, não use os valores de índice no eixo de concatenação. O eixo resultante será rotulado 0,…, n - 1. Isso é útil se você estiver concatenando objetos onde o eixo de concatenação não tem informações de indexação significativas. Observe que os valores de índice nos outros eixos ainda são respeitados na junção.

- keys: sequência, padrão Nenhum. Construa um índice hierárquico usando as chaves passadas como o nível mais externo. Se vários níveis forem aprovados, deve conter tuplas.

- levels: lista de sequências, padrão Nenhum. Níveis específicos (valores únicos) a serem usados ​​para construir um MultiIndex. Caso contrário, eles serão inferidos das chaves.

- names: lista, padrão Nenhum. Nomes para os níveis no índice hierárquico resultante.

- verify_integrity: booleano, padrão False. Verifique se o novo eixo concatenado contém duplicatas. Isso pode ser muito caro em relação à concatenação de dados real.

- copy: booleano, padrão True. Se for False, não copie os dados desnecessariamente.

### Concatenando linhas dos dataframes

In [141]:
dfsregioes = [dfnordeste,dfnorte,dfsul, dfcentrooeste,dfsudeste ]

dfcompleto = pd.concat(dfsregioes)

print(dfcompleto.regiao.value_counts())
print(dfcompleto.columns)
dfcompleto.head(10)


regiao
Nordeste        9
Norte           7
Centro-Oeste    4
Sudeste         4
Sul             3
Name: count, dtype: int64
Index(['regiao', 'estado', 'casosNovos', 'obitosNovos', 'populacaoTCU2019'], dtype='object')


Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
4,Nordeste,AL,348701,7355,3337357.0
5,Nordeste,BA,1844481,32034,14873064.0
6,Nordeste,CE,1508135,28215,9132078.0
7,Nordeste,MA,501121,11103,7075181.0
8,Nordeste,PB,725917,10669,4018127.0
9,Nordeste,PE,1235360,23240,9557071.0
10,Nordeste,PI,438676,8445,3273227.0
11,Nordeste,RN,601493,9321,3506853.0
12,Nordeste,SE,368073,6575,2298696.0
13,Norte,AC,169625,2083,881935.0


In [142]:
dfnordeste

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
4,Nordeste,AL,348701,7355,3337357.0
5,Nordeste,BA,1844481,32034,14873064.0
6,Nordeste,CE,1508135,28215,9132078.0
7,Nordeste,MA,501121,11103,7075181.0
8,Nordeste,PB,725917,10669,4018127.0
9,Nordeste,PE,1235360,23240,9557071.0
10,Nordeste,PI,438676,8445,3273227.0
11,Nordeste,RN,601493,9321,3506853.0
12,Nordeste,SE,368073,6575,2298696.0


In [143]:
dfsregioes = {  'nordeste' : dfnordeste,
                'norte' : dfnorte,
                'sul': dfsul, 
                'centroeste': dfcentrooeste,
                'sudeste': dfsudeste }

dfcompleto = pd.concat(dfsregioes)

print(dfcompleto.regiao.value_counts())
print(dfcompleto.columns)
dfcompleto.head(20)

regiao
Nordeste        9
Norte           7
Centro-Oeste    4
Sudeste         4
Sul             3
Name: count, dtype: int64
Index(['regiao', 'estado', 'casosNovos', 'obitosNovos', 'populacaoTCU2019'], dtype='object')


Unnamed: 0,Unnamed: 1,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
nordeste,4,Nordeste,AL,348701,7355,3337357.0
nordeste,5,Nordeste,BA,1844481,32034,14873064.0
nordeste,6,Nordeste,CE,1508135,28215,9132078.0
nordeste,7,Nordeste,MA,501121,11103,7075181.0
nordeste,8,Nordeste,PB,725917,10669,4018127.0
nordeste,9,Nordeste,PE,1235360,23240,9557071.0
nordeste,10,Nordeste,PI,438676,8445,3273227.0
nordeste,11,Nordeste,RN,601493,9321,3506853.0
nordeste,12,Nordeste,SE,368073,6575,2298696.0
norte,13,Norte,AC,169625,2083,881935.0


### Concatenando colunas dos dataframes

In [144]:
dfcasos = dfregiaouf[['regiao','estado', 'casosNovos']]
dfcasos.head()

Unnamed: 0,regiao,estado,casosNovos
0,Centro-Oeste,DF,955540
1,Centro-Oeste,GO,2060518
2,Centro-Oeste,MS,637169
3,Centro-Oeste,MT,921447
4,Nordeste,AL,348701


In [145]:
dfobitos = dfregiaouf[['obitosNovos']]
dfobitos.head()

Unnamed: 0,obitosNovos
0,12025
1,28669
2,11305
3,15253
4,7355


In [146]:
dfmetricas = [dfcasos,dfobitos ]

dfcompleto = pd.concat(dfmetricas, axis=1)


print(dfcompleto.regiao.value_counts())
print(dfcompleto.columns)
dfcompleto.head()

regiao
Nordeste        9
Norte           7
Centro-Oeste    4
Sudeste         4
Sul             3
Name: count, dtype: int64
Index(['regiao', 'estado', 'casosNovos', 'obitosNovos'], dtype='object')


Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,AL,348701,7355


In [147]:
dfmetricas = {  'casos' : dfcasos,
                'obitos' : dfobitos, }

dfcompleto = pd.concat(dfmetricas, axis=1)

dfcompleto.head()

Unnamed: 0_level_0,casos,casos,casos,obitos
Unnamed: 0_level_1,regiao,estado,casosNovos,obitosNovos
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,AL,348701,7355


## Concatenando linhas de dataframes com indices diferentes , desconsiderando os indices existentes

In [148]:
dfsregioes = [dfnordeste,dfnorte,dfsul, dfcentrooeste,dfsudeste ]

dfsregioes2 = [ dfr.reset_index(drop=True) for dfr in dfsregioes]

In [149]:
dfsregioes2[0].head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Nordeste,AL,348701,7355,3337357.0
1,Nordeste,BA,1844481,32034,14873064.0
2,Nordeste,CE,1508135,28215,9132078.0
3,Nordeste,MA,501121,11103,7075181.0
4,Nordeste,PB,725917,10669,4018127.0


In [150]:
dfsregioes2[1].head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Norte,AC,169625,2083,881935.0
1,Norte,AM,643745,14531,4144597.0
2,Norte,AP,191877,2175,845731.0
3,Norte,PA,901045,19291,8602865.0
4,Norte,RO,505111,7527,1777225.0


In [151]:
dfcompleto = pd.concat(dfsregioes2)

print(dfcompleto.regiao.value_counts())
print(dfcompleto.columns)
dfcompleto.head(15)

regiao
Nordeste        9
Norte           7
Centro-Oeste    4
Sudeste         4
Sul             3
Name: count, dtype: int64
Index(['regiao', 'estado', 'casosNovos', 'obitosNovos', 'populacaoTCU2019'], dtype='object')


Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Nordeste,AL,348701,7355,3337357.0
1,Nordeste,BA,1844481,32034,14873064.0
2,Nordeste,CE,1508135,28215,9132078.0
3,Nordeste,MA,501121,11103,7075181.0
4,Nordeste,PB,725917,10669,4018127.0
5,Nordeste,PE,1235360,23240,9557071.0
6,Nordeste,PI,438676,8445,3273227.0
7,Nordeste,RN,601493,9321,3506853.0
8,Nordeste,SE,368073,6575,2298696.0
0,Norte,AC,169625,2083,881935.0


In [152]:
dfcompleto = pd.concat(dfsregioes2, ignore_index=True)

print(dfcompleto.regiao.value_counts())
print(dfcompleto.columns)
dfcompleto.head(15)

regiao
Nordeste        9
Norte           7
Centro-Oeste    4
Sudeste         4
Sul             3
Name: count, dtype: int64
Index(['regiao', 'estado', 'casosNovos', 'obitosNovos', 'populacaoTCU2019'], dtype='object')


Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Nordeste,AL,348701,7355,3337357.0
1,Nordeste,BA,1844481,32034,14873064.0
2,Nordeste,CE,1508135,28215,9132078.0
3,Nordeste,MA,501121,11103,7075181.0
4,Nordeste,PB,725917,10669,4018127.0
5,Nordeste,PE,1235360,23240,9557071.0
6,Nordeste,PI,438676,8445,3273227.0
7,Nordeste,RN,601493,9321,3506853.0
8,Nordeste,SE,368073,6575,2298696.0
9,Norte,AC,169625,2083,881935.0


## Concatenando colunas de dataframes com indices diferentes , desconsiderando os indices existentes

In [153]:
dfcasos = dfregiaouf[['regiao','estado', 'casosNovos']]
dfcasos.index = sorted(dfcasos.index, reverse=True) # -> não usar concat em dfs não alinhados
dfcasos.head()

Unnamed: 0,regiao,estado,casosNovos
26,Centro-Oeste,DF,955540
25,Centro-Oeste,GO,2060518
24,Centro-Oeste,MS,637169
23,Centro-Oeste,MT,921447
22,Nordeste,AL,348701


In [154]:
dfobitos = dfregiaouf[['regiao','estado','obitosNovos']]
dfobitos.head()

Unnamed: 0,regiao,estado,obitosNovos
0,Centro-Oeste,DF,12025
1,Centro-Oeste,GO,28669
2,Centro-Oeste,MS,11305
3,Centro-Oeste,MT,15253
4,Nordeste,AL,7355


In [155]:
dfmetricas = [dfcasos, dfobitos ]

### Veja que o resultado abaixo está incorreto. casos como esse podem ser resolvidos com o merge.

In [156]:
dfcompleto = pd.concat(dfmetricas, axis=1, keys=['casosnovos','obitosNovos'])

print(dfcompleto.columns)
dfcompleto.head()

MultiIndex([( 'casosnovos',      'regiao'),
            ( 'casosnovos',      'estado'),
            ( 'casosnovos',  'casosNovos'),
            ('obitosNovos',      'regiao'),
            ('obitosNovos',      'estado'),
            ('obitosNovos', 'obitosNovos')],
           )


Unnamed: 0_level_0,casosnovos,casosnovos,casosnovos,obitosNovos,obitosNovos,obitosNovos
Unnamed: 0_level_1,regiao,estado,casosNovos,regiao,estado,obitosNovos
26,Centro-Oeste,DF,955540,Sul,SC,23145
25,Centro-Oeste,GO,2060518,Sul,RS,43044
24,Centro-Oeste,MS,637169,Sul,PR,47029
23,Centro-Oeste,MT,921447,Sudeste,SP,184235
22,Nordeste,AL,348701,Sudeste,RJ,78238


In [157]:
dfregiaouf.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,955540,12025,3015268.0
1,Centro-Oeste,GO,2060518,28669,7018354.0
2,Centro-Oeste,MS,637169,11305,2778986.0
3,Centro-Oeste,MT,921447,15253,3484466.0
4,Nordeste,AL,348701,7355,3337357.0


Defina a lógica nos outros eixos 
Ao colar vários DataFrames, você pode escolher como lidar com os outros eixos (além daquele que está sendo concatenado). Isso pode ser feito das seguintes maneiras:

Pegue a união de todos eles join='outer',. Esta é a opção padrão, pois resulta em perda zero de informações.

Pegue o cruzamento join='inner',.

Aqui está um exemplo de cada um desses métodos. Primeiro, o join='outer' comportamento padrão :

In [158]:
dfcasos = dfregiaouf[['regiao','estado', 'casosNovos']]
dfcasos.head()
print(dfcasos.shape)

(27, 3)


In [159]:
dfobitos = dfregiaouf[dfregiaouf['obitosNovos'] >= 12000 ][['regiao','estado','obitosNovos']]
dfobitos.head(10)
print(dfobitos.shape)

(15, 3)


In [160]:
dfcompleto = pd.concat([dfcasos, dfobitos], axis=1, sort=False)
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,regiao.1,estado.1,obitosNovos
0,Centro-Oeste,DF,955540,Centro-Oeste,DF,12025.0
1,Centro-Oeste,GO,2060518,Centro-Oeste,GO,28669.0
2,Centro-Oeste,MS,637169,,,
3,Centro-Oeste,MT,921447,Centro-Oeste,MT,15253.0
4,Nordeste,AL,348701,,,


In [161]:
dfcompleto = pd.concat([dfcasos, dfobitos], axis=1, join='inner')
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,regiao.1,estado.1,obitosNovos
0,Centro-Oeste,DF,955540,Centro-Oeste,DF,12025
1,Centro-Oeste,GO,2060518,Centro-Oeste,GO,28669
3,Centro-Oeste,MT,921447,Centro-Oeste,MT,15253
5,Nordeste,BA,1844481,Nordeste,BA,32034
6,Nordeste,CE,1508135,Nordeste,CE,28215


In [162]:
dfcompleto = pd.concat([dfcasos, dfobitos], axis=1, join='outer')
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,regiao.1,estado.1,obitosNovos
0,Centro-Oeste,DF,955540,Centro-Oeste,DF,12025.0
1,Centro-Oeste,GO,2060518,Centro-Oeste,GO,28669.0
2,Centro-Oeste,MS,637169,,,
3,Centro-Oeste,MT,921447,Centro-Oeste,MT,15253.0
4,Nordeste,AL,348701,,,


In [163]:
dfcompleto = pd.concat([dfcasos, dfobitos], axis=1).reindex(dfobitos.index)
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,regiao.1,estado.1,obitosNovos
0,Centro-Oeste,DF,955540,Centro-Oeste,DF,12025.0
1,Centro-Oeste,GO,2060518,Centro-Oeste,GO,28669.0
3,Centro-Oeste,MT,921447,Centro-Oeste,MT,15253.0
5,Nordeste,BA,1844481,Nordeste,BA,32034.0
6,Nordeste,CE,1508135,Nordeste,CE,28215.0


In [164]:
dfcompleto = pd.concat([dfobitos, dfcasos.reindex(dfobitos.index)], axis=1)
dfcompleto.head()

Unnamed: 0,regiao,estado,obitosNovos,regiao.1,estado.1,casosNovos
0,Centro-Oeste,DF,12025,Centro-Oeste,DF,955540
1,Centro-Oeste,GO,28669,Centro-Oeste,GO,2060518
3,Centro-Oeste,MT,15253,Centro-Oeste,MT,921447
5,Nordeste,BA,32034,Nordeste,BA,1844481
6,Nordeste,CE,28215,Nordeste,CE,1508135


In [165]:
dfcompleto = pd.concat([dfcasos, dfobitos], axis=1).reindex(dfcasos.index)
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,regiao.1,estado.1,obitosNovos
0,Centro-Oeste,DF,955540,Centro-Oeste,DF,12025.0
1,Centro-Oeste,GO,2060518,Centro-Oeste,GO,28669.0
2,Centro-Oeste,MS,637169,,,
3,Centro-Oeste,MT,921447,Centro-Oeste,MT,15253.0
4,Nordeste,AL,348701,,,
