# Pandas - Junção de Dataframes (merge e join)

## DataFrame de estilo de banco de dados ou junção / fusão de séries nomeadas 
- O pandas tem operações de junção in-memory full-features e de alto desempenho , idiomicamente muito semelhantes a bancos de dados relacionais como SQL. 


```
pd.merge(dfcasos, dfobitos, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)
         
```


-left: Um DataFrame ou objeto Series nomeado.

- right: Outro DataFrame ou objeto Series nomeado.

- on: Nomes da coluna ou índice para unir.

- left_on: Colunas ou níveis de índice do DataFrame ou Series esquerdo para usar como chaves.

- right_on: Colunas ou níveis de índice do DataFrame ou Série certo para usar como chaves. 

- left_index: Se True, use o índice (rótulos de linha) do DataFrame ou Series esquerdo como sua (s) chave (s) de junção. 

- right_index: Mesmo uso left_indexdo DataFrame ou Série certa

- how: Um dos 'left', 'right', 'outer', 'inner'. O padrão é inner. 

- sort: Classifique o DataFrame de resultado pelas chaves de junção em ordem lexicográfica.

- suffixes: Uma tupla de sufixos de string a serem aplicados a colunas sobrepostas. O padrão é .('_x', '_y')

- indicator: Adicione uma coluna ao DataFrame de saída chamado _merge com informações sobre a origem de cada linha.

- validate: string, padrão Nenhum. Se especificado, verifica se a mesclagem é do tipo especificado.

 - “One_to_one” ou “1: 1”: verifica se as chaves de mesclagem são exclusivas nos conjuntos de dados esquerdo e direito.

 - “One_to_many” ou “1: m”: verifica se as chaves de mesclagem são exclusivas no conjunto de dados esquerdo.

 - “Many_to_one” ou “m: 1”: verifica se as chaves de mesclagem são exclusivas no conjunto de dados correto.

 - “Many_to_many” ou “m: m”: permitido, mas não resulta em verificações.


O método join() usa mergeinternamente para a junção índice no índice (por padrão) e coluna (s) no índice. Se você está ingressando apenas no índice, pode desejar usar DataFrame.joinpara economizar alguma digitação.
m

## Importando dataframes de exemplo

In [1]:
import numpy as np
import pandas as pd
import os

diratual = os.getcwd()

diretorio = os.path.join(diratual) 

In [2]:
dfcovid = pd.read_csv(os.path.join(diretorio, 'HIST_PAINEL_COVIDBR_02nov2024.csv') , sep=';')
dfcovid.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-02-25,9,210147125.0,0.0,0,0,0,0.0,0.0,
1,Brasil,,,76,,,,2020-02-26,9,210147125.0,1.0,1,0,0,1.0,0.0,
2,Brasil,,,76,,,,2020-02-27,9,210147125.0,1.0,0,0,0,1.0,0.0,
3,Brasil,,,76,,,,2020-02-28,9,210147125.0,1.0,0,0,0,0.0,1.0,
4,Brasil,,,76,,,,2020-02-29,9,210147125.0,2.0,1,0,0,1.0,1.0,


In [3]:
filtro = (dfcovid['estado'].isna() == False ) & ( dfcovid['codmun'].isna()  )
dfcovid = dfcovid[filtro][['regiao', 'estado',  'populacaoTCU2019',
       'casosNovos', 'obitosNovos']]
print(dfcovid.shape)
dfcovid.head()

(46251, 5)


Unnamed: 0,regiao,estado,populacaoTCU2019,casosNovos,obitosNovos
158,Norte,RO,1777225.0,0,0
159,Norte,RO,1777225.0,0,0
160,Norte,RO,1777225.0,0,0
161,Norte,RO,1777225.0,0,0
162,Norte,RO,1777225.0,0,0


In [4]:
dfregiaouf = dfcovid[['regiao', 'estado',  'casosNovos', 'obitosNovos', 'populacaoTCU2019']]\
  .groupby(['regiao', 'estado'])\
  .agg({'casosNovos':'sum', 'obitosNovos':'sum', 'populacaoTCU2019':'max'})\
  .reset_index()
dfregiaouf.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,955540,12025,3015268.0
1,Centro-Oeste,GO,2060518,28669,7018354.0
2,Centro-Oeste,MS,637169,11305,2778986.0
3,Centro-Oeste,MT,921447,15253,3484466.0
4,Nordeste,AL,348701,7355,3337357.0


## Separar o dataframe em partes por região

In [5]:
dfnordeste = dfregiaouf[dfregiaouf.regiao == 'Nordeste']
dfnordeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
4,Nordeste,AL,348701,7355,3337357.0
5,Nordeste,BA,1844481,32034,14873064.0
6,Nordeste,CE,1508135,28215,9132078.0
7,Nordeste,MA,501121,11103,7075181.0
8,Nordeste,PB,725917,10669,4018127.0


In [6]:
dfnorte = dfregiaouf[dfregiaouf.regiao == 'Norte']
dfnorte.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
13,Norte,AC,169625,2083,881935.0
14,Norte,AM,643745,14531,4144597.0
15,Norte,AP,191877,2175,845731.0
16,Norte,PA,901045,19291,8602865.0
17,Norte,RO,505111,7527,1777225.0


In [7]:
dfsul = dfregiaouf[dfregiaouf.regiao == 'Sul']
dfsul.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
24,Sul,PR,3031840,47029,11433957.0
25,Sul,RS,3144956,43044,11377239.0
26,Sul,SC,2089867,23145,7164788.0


In [8]:
dfcentrooeste = dfregiaouf[dfregiaouf.regiao == 'Centro-Oeste']
dfcentrooeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,955540,12025,3015268.0
1,Centro-Oeste,GO,2060518,28669,7018354.0
2,Centro-Oeste,MS,637169,11305,2778986.0
3,Centro-Oeste,MT,921447,15253,3484466.0


In [9]:
dfsudeste = dfregiaouf[dfregiaouf.regiao == 'Sudeste']
dfsudeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
20,Sudeste,ES,1384800,15214,4018650.0
21,Sudeste,MG,4335714,66850,21168791.0
22,Sudeste,RJ,2966219,78238,17264943.0
23,Sudeste,SP,6907741,184235,45919049.0


## DataFrame de estilo de banco de dados ou junção / fusão de séries nomeadas 
- O pandas tem operações de junção in-memory full-features e de alto desempenho ,  muito semelhantes a bancos de dados relacionais como SQL. 

```
pd.merge(dfcasos, dfobitos, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)
         
```


-left: Um DataFrame ou objeto Series nomeado.

- right: Outro DataFrame ou objeto Series nomeado.

- on: Nomes da coluna ou índice para unir.

- left_on: Colunas ou níveis de índice do DataFrame ou Series esquerdo para usar como chaves.

- right_on: Colunas ou níveis de índice do DataFrame ou Série certo para usar como chaves. 

- left_index: Se True, use o índice (rótulos de linha) do DataFrame ou Series esquerdo como sua (s) chave (s) de junção. 

- right_index: Mesmo uso left_indexdo DataFrame ou Série certa

- how: Um dos 'left', 'right', 'outer', 'inner'. O padrão é inner. 

- sort: Classifique o DataFrame de resultado pelas chaves de junção em ordem lexicográfica.

- suffixes: Uma tupla de sufixos de string a serem aplicados a colunas sobrepostas. O padrão é .('_x', '_y')

- indicator: Adicione uma coluna ao DataFrame de saída chamado _merge com informações sobre a origem de cada linha.

- validate: string, padrão Nenhum. Se especificado, verifica se a mesclagem é do tipo especificado.

 - “One_to_one” ou “1: 1”: verifica se as chaves de mesclagem são exclusivas nos conjuntos de dados esquerdo e direito.

 - “One_to_many” ou “1: m”: verifica se as chaves de mesclagem são exclusivas no conjunto de dados esquerdo.

 - “Many_to_one” ou “m: 1”: verifica se as chaves de mesclagem são exclusivas no conjunto de dados correto.

 - “Many_to_many” ou “m: m”: permitido, mas não resulta em verificações.


O método join() usa mergeinternamente para a junção índice no índice (por padrão) e coluna (s) no índice. Se você está ingressando apenas no índice, pode desejar usar DataFrame.joinpara economizar alguma digitação.
m

In [16]:
dfcasos = dfregiaouf[dfregiaouf['casosNovos'] > 3_000_000 ][['regiao','estado', 'casosNovos']]
print(dfcasos.shape)
dfcasos.head()

(4, 3)


Unnamed: 0,regiao,estado,casosNovos
21,Sudeste,MG,4335714
23,Sudeste,SP,6907741
24,Sul,PR,3031840
25,Sul,RS,3144956


In [19]:
dfobitos = dfregiaouf[dfregiaouf['obitosNovos'] >= 12000 ][['regiao','estado','obitosNovos']]
print(dfobitos.shape)
dfobitos.head()

(15, 3)


Unnamed: 0,regiao,estado,obitosNovos
0,Centro-Oeste,DF,12025
1,Centro-Oeste,GO,28669
3,Centro-Oeste,MT,15253
5,Nordeste,BA,32034
6,Nordeste,CE,28215


In [20]:
dfcompleto = pd.merge(dfcasos, dfobitos, on='estado')
dfcompleto.head()

Unnamed: 0,regiao_x,estado,casosNovos,regiao_y,obitosNovos
0,Sudeste,MG,4335714,Sudeste,66850
1,Sudeste,SP,6907741,Sudeste,184235
2,Sul,PR,3031840,Sul,47029
3,Sul,RS,3144956,Sul,43044


Aqui está um exemplo mais complicado com várias chaves de junção. Apenas as chaves que aparecem em left e right estão presentes (a interseção), pois how='inner'por padrão.

In [13]:
dfcompleto = pd.merge(dfcasos, dfobitos, on=['regiao', 'estado'])
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Centro-Oeste,DF,955540,12025
1,Centro-Oeste,GO,2060518,28669
2,Centro-Oeste,MS,637169,11305
3,Centro-Oeste,MT,921447,15253
4,Nordeste,BA,1844481,32034


### Método de junção

- left - LEFT OUTER JOIN - Use as chaves do dataframe esquerdo apenas

- right - RIGHT OUTER JOIN - Use as chaves do dataframe direito apenas

- outer - FULL OUTER JOIN - Use a união de chaves de ambos os dataframe

- inner - INNER JOIN - Use a interseção de chaves de ambos os dataframe

In [21]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='left', on=['regiao', 'estado'])
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,MG,4335714,66850
1,Sudeste,SP,6907741,184235
2,Sul,PR,3031840,47029
3,Sul,RS,3144956,43044


In [22]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='right', on=['regiao', 'estado'])
dfcompleto.head(20)

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Centro-Oeste,DF,,12025
1,Centro-Oeste,GO,,28669
2,Centro-Oeste,MT,,15253
3,Nordeste,BA,,32034
4,Nordeste,CE,,28215
5,Nordeste,PE,,23240
6,Norte,AM,,14531
7,Norte,PA,,19291
8,Sudeste,ES,,15214
9,Sudeste,MG,4335714.0,66850


In [23]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='outer', on=['regiao', 'estado'])
dfcompleto.head(20)

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Centro-Oeste,DF,,12025
1,Centro-Oeste,GO,,28669
2,Centro-Oeste,MT,,15253
3,Nordeste,BA,,32034
4,Nordeste,CE,,28215
5,Nordeste,PE,,23240
6,Norte,AM,,14531
7,Norte,PA,,19291
8,Sudeste,ES,,15214
9,Sudeste,MG,4335714.0,66850


In [24]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='inner', on=['regiao', 'estado'])
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,MG,4335714,66850
1,Sudeste,SP,6907741,184235
2,Sul,PR,3031840,47029
3,Sul,RS,3144956,43044


Aqui está outro exemplo com chaves de junção duplicadas em DataFrames:

In [25]:
dfcompleto = pd.merge(dfcasos, dfobitos, on='regiao', how='outer').sort_values(by=['regiao','estado_x'])
dfcompleto.head(20)

Unnamed: 0,regiao,estado_x,casosNovos,estado_y,obitosNovos
0,Centro-Oeste,,,DF,12025
1,Centro-Oeste,,,GO,28669
2,Centro-Oeste,,,MT,15253
3,Nordeste,,,BA,32034
4,Nordeste,,,CE,28215
5,Nordeste,,,PE,23240
6,Norte,,,AM,14531
7,Norte,,,PA,19291
8,Sudeste,MG,4335714.0,ES,15214
9,Sudeste,MG,4335714.0,MG,66850


## Unir / mesclar em chaves duplicadas resulta em produto cartesiano e resultar em estouro de memória. 

### Verificando chaves duplicadas 
- O argumento validate pode ser usado para verificar automaticamente se há duplicatas inesperadas em suas chaves de mesclagem, para  proteger contra estouros de memória. 

In [26]:
from pandas.errors import MergeError
try:
  dfcompleto = pd.merge(dfcasos, dfobitos, on='regiao', how='outer', validate="one_to_one")
  dfcompleto
except MergeError as e:
  print(str(e))

Merge keys are not unique in either left or right dataset; not a one-to-one merge


In [27]:
dfcompleto = pd.merge(dfcasos, dfobitos, on='estado', how='outer', validate="one_to_one")
dfcompleto.head()

Unnamed: 0,regiao_x,estado,casosNovos,regiao_y,obitosNovos
0,,AM,,Norte,14531
1,,BA,,Nordeste,32034
2,,CE,,Nordeste,28215
3,,DF,,Centro-Oeste,12025
4,,ES,,Sudeste,15214


In [28]:
dfcompleto = pd.merge(dfcasos, dfobitos, on='estado', how='outer', validate="one_to_many")
dfcompleto.head()

Unnamed: 0,regiao_x,estado,casosNovos,regiao_y,obitosNovos
0,,AM,,Norte,14531
1,,BA,,Nordeste,32034
2,,CE,,Nordeste,28215
3,,DF,,Centro-Oeste,12025
4,,ES,,Sudeste,15214


### O indicador de mesclagem 
merge()aceita o argumento indicator. Se True, uma coluna do tipo categórico chamada _mergeserá adicionada ao objeto de saída que assume os valores:

- Chave de mesclagem apenas no 'left'quadro: left_only

- Chave de mesclagem apenas no 'right'quadro: right_only

- Chave de mesclagem em ambos os quadros: both

In [29]:
dfcompleto = pd.merge(dfcasos, dfobitos, on=['regiao', 'estado'], how='outer', indicator=True)
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,_merge
0,Centro-Oeste,DF,,12025,right_only
1,Centro-Oeste,GO,,28669,right_only
2,Centro-Oeste,MT,,15253,right_only
3,Nordeste,BA,,32034,right_only
4,Nordeste,CE,,28215,right_only


In [30]:
dfcompleto[ dfcompleto._merge =='both']

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,_merge
9,Sudeste,MG,4335714.0,66850,both
11,Sudeste,SP,6907741.0,184235,both
12,Sul,PR,3031840.0,47029,both
13,Sul,RS,3144956.0,43044,both


In [31]:
dfcompleto._merge.value_counts()

_merge
right_only    11
both           4
left_only      0
Name: count, dtype: int64

- O argumento indicator também aceitará argumentos de string, caso em que a função do indicador usará o valor da string passada como o nome da coluna do indicador.

In [32]:
dfcompleto = pd.merge(dfcasos, dfobitos, on=['regiao', 'estado'], how='outer', indicator='indicator_column')
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,indicator_column
0,Centro-Oeste,DF,,12025,right_only
1,Centro-Oeste,GO,,28669,right_only
2,Centro-Oeste,MT,,15253,right_only
3,Nordeste,BA,,32034,right_only
4,Nordeste,CE,,28215,right_only


# Merge dtypes 
A mesclagem preservará o dtype das chaves de junção.

In [33]:
dfcasos.dtypes

regiao        object
estado        object
casosNovos     int64
dtype: object

In [34]:
dfobitos.dtypes

regiao         object
estado         object
obitosNovos     int64
dtype: object

In [35]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='inner', on=['regiao', 'estado'])
dfcompleto.dtypes

regiao         object
estado         object
casosNovos      int64
obitosNovos     int64
dtype: object

Se tiver valores ausentes introduzidos, o dtype resultante será atualizado.

In [36]:
pd.merge(dfcasos, dfobitos, how='outer', on='estado')

Unnamed: 0,regiao_x,estado,casosNovos,regiao_y,obitosNovos
0,,AM,,Norte,14531
1,,BA,,Nordeste,32034
2,,CE,,Nordeste,28215
3,,DF,,Centro-Oeste,12025
4,,ES,,Sudeste,15214
5,,GO,,Centro-Oeste,28669
6,Sudeste,MG,4335714.0,Sudeste,66850
7,,MT,,Centro-Oeste,15253
8,,PA,,Norte,19291
9,,PE,,Nordeste,23240


In [37]:
pd.merge(dfcasos, dfobitos, how='outer', on='estado').dtypes

regiao_x        object
estado          object
casosNovos     float64
regiao_y        object
obitosNovos      int64
dtype: object

## Juntando com base no índice 
DataFrame.join() é um método conveniente para combinar as colunas de dois DataFrames potencialmente indexados em um único resultado DataFrame. 

In [38]:
dfcasos

Unnamed: 0,regiao,estado,casosNovos
21,Sudeste,MG,4335714
23,Sudeste,SP,6907741
24,Sul,PR,3031840
25,Sul,RS,3144956


In [39]:
dfobitos

Unnamed: 0,regiao,estado,obitosNovos
0,Centro-Oeste,DF,12025
1,Centro-Oeste,GO,28669
3,Centro-Oeste,MT,15253
5,Nordeste,BA,32034
6,Nordeste,CE,28215
9,Nordeste,PE,23240
14,Norte,AM,14531
16,Norte,PA,19291
20,Sudeste,ES,15214
21,Sudeste,MG,66850


In [40]:
dfcasos = dfcasos.set_index(['regiao','estado'])
dfcasos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos
regiao,estado,Unnamed: 2_level_1
Sudeste,MG,4335714
Sudeste,SP,6907741
Sul,PR,3031840
Sul,RS,3144956


In [41]:
dfobitos = dfobitos.set_index(['regiao','estado'])
dfobitos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,obitosNovos
regiao,estado,Unnamed: 2_level_1
Centro-Oeste,DF,12025
Centro-Oeste,GO,28669
Centro-Oeste,MT,15253
Nordeste,BA,32034
Nordeste,CE,28215


In [42]:
dfcompleto = dfcasos.join(dfobitos)
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,MG,4335714,66850
Sudeste,SP,6907741,184235
Sul,PR,3031840,47029
Sul,RS,3144956,43044


In [43]:
dfcompleto = dfcasos.join(dfobitos, how='outer')
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,DF,,12025
Centro-Oeste,GO,,28669
Centro-Oeste,MT,,15253
Nordeste,BA,,32034
Nordeste,CE,,28215


In [44]:
dfcompleto = dfcasos.join(dfobitos, how='inner')
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,MG,4335714,66850
Sudeste,SP,6907741,184235
Sul,PR,3031840,47029
Sul,RS,3144956,43044


In [45]:
dfcompleto = pd.merge(dfcasos, dfobitos, left_index=True, right_index=True, how='outer')
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,DF,,12025
Centro-Oeste,GO,,28669
Centro-Oeste,MT,,15253
Nordeste,BA,,32034
Nordeste,CE,,28215


In [46]:
dfcompleto = pd.merge(dfcasos, dfobitos, left_index=True, right_index=True, how='inner')
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,MG,4335714,66850
Sudeste,SP,6907741,184235
Sul,PR,3031840,47029
Sul,RS,3144956,43044


### Juntando colunas-chave em um índice 

- O join é indicado para junções muitos para um (onde um dos DataFrame já está indexado pela chave de junção).

- O padrão para DataFrame.join é realizar uma junção à esquerda  left. Para outros tipos de junção deve se indicar o parâmetro how

- join() recebe um argumento opcional  on que pode ser uma coluna ou vários nomes de coluna, que especifica que o DataFrame passado  deve ser alinhado nessa coluna no DataFrame. 

#### Essas duas chamadas de função são completamente equivalentes.

```
dfcasos.join(dfobitos, on='estado')

pd.merge(dfcasos, dfobitos, left_on='estado', right_index=True,
      how='left', sort=False)
```

In [47]:
dfobitos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,obitosNovos
regiao,estado,Unnamed: 2_level_1
Centro-Oeste,DF,12025
Centro-Oeste,GO,28669
Centro-Oeste,MT,15253
Nordeste,BA,32034
Nordeste,CE,28215


In [48]:
dfcasos.reset_index(inplace=True)
dfcasos.head()

Unnamed: 0,regiao,estado,casosNovos
0,Sudeste,MG,4335714
1,Sudeste,SP,6907741
2,Sul,PR,3031840
3,Sul,RS,3144956


In [49]:
dfcompleto = dfcasos.join(dfobitos, on=['regiao', 'estado'])
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,MG,4335714,66850
1,Sudeste,SP,6907741,184235
2,Sul,PR,3031840,47029
3,Sul,RS,3144956,43044


In [50]:
dfcompleto = pd.merge(dfcasos, dfobitos, left_on=['regiao', 'estado'], right_index=True, how='left', sort=False)
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,MG,4335714,66850
1,Sudeste,SP,6907741,184235
2,Sul,PR,3031840,47029
3,Sul,RS,3144956,43044


In [51]:
dfcasos.head()

Unnamed: 0,regiao,estado,casosNovos
0,Sudeste,MG,4335714
1,Sudeste,SP,6907741
2,Sul,PR,3031840
3,Sul,RS,3144956


In [52]:
dfobitos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,obitosNovos
regiao,estado,Unnamed: 2_level_1
Centro-Oeste,DF,12025
Centro-Oeste,GO,28669
Centro-Oeste,MT,15253
Nordeste,BA,32034
Nordeste,CE,28215


In [53]:
dfcasos = dfcasos.set_index(['regiao','estado'])
dfcasos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos
regiao,estado,Unnamed: 2_level_1
Sudeste,MG,4335714
Sudeste,SP,6907741
Sul,PR,3031840
Sul,RS,3144956


In [54]:
dfcompleto = pd.merge(dfcasos, dfobitos, left_on=['regiao', 'estado'], right_index=True, how='left', sort=False)
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,MG,4335714,66850
Sudeste,SP,6907741,184235
Sul,PR,3031840,47029
Sul,RS,3144956,43044


In [55]:
dfcompleto = dfcasos.join(dfobitos, on=['regiao', 'estado'], how='inner')
dfcompleto

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,MG,4335714,66850
Sudeste,SP,6907741,184235
Sul,PR,3031840,47029
Sul,RS,3144956,43044
