# 04 - Pandas - Processamento e Análise de Dados
## Aula 11 - 21- Pandas - Junção de Dataframes (merge e join)

## Professor: Orlando Oliveira dos Santos, MsC.
 - E-mail: professor.orlando.santos@gmail.com 
 - Youtube :https://www.youtube.com/channel/UCPWWbkPWFmOjXH50TQWNAYg
 - Linkedin: https://linkedin.com/in/orlandoosantos
 - Facebook: https://www.facebook.com/proforlandosantosmsc/
 - Twitter: https://twitter.com/ProfOrlandoMsC
 - Instagram: https://www.instagram.com/proforlandosantosmsc/



## Formação Acadêmica
- Mestrado em Computação Aplicada - UnB (2014 – 2016)	
- MBA, Administração Estratégica de Sistemas de Informação – FGV (2011 – 2013)
- Tecnólogo em Processamento de Dados, Análise e Desenvolvimento de Sistemas – FAETEC/SP (2000-2002)

# Pandas - Junção de Dataframes (merge e join)

## DataFrame de estilo de banco de dados ou junção / fusão de séries nomeadas 
- O pandas tem operações de junção in-memory full-features e de alto desempenho , idiomicamente muito semelhantes a bancos de dados relacionais como SQL. 


```
pd.merge(dfcasos, dfobitos, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)
         
```


-left: Um DataFrame ou objeto Series nomeado.

- right: Outro DataFrame ou objeto Series nomeado.

- on: Nomes da coluna ou índice para unir.

- left_on: Colunas ou níveis de índice do DataFrame ou Series esquerdo para usar como chaves.

- right_on: Colunas ou níveis de índice do DataFrame ou Série certo para usar como chaves. 

- left_index: Se True, use o índice (rótulos de linha) do DataFrame ou Series esquerdo como sua (s) chave (s) de junção. 

- right_index: Mesmo uso left_indexdo DataFrame ou Série certa

- how: Um dos 'left', 'right', 'outer', 'inner'. O padrão é inner. 

- sort: Classifique o DataFrame de resultado pelas chaves de junção em ordem lexicográfica.

- suffixes: Uma tupla de sufixos de string a serem aplicados a colunas sobrepostas. O padrão é .('_x', '_y')

- indicator: Adicione uma coluna ao DataFrame de saída chamado _merge com informações sobre a origem de cada linha.

- validate: string, padrão Nenhum. Se especificado, verifica se a mesclagem é do tipo especificado.

 - “One_to_one” ou “1: 1”: verifica se as chaves de mesclagem são exclusivas nos conjuntos de dados esquerdo e direito.

 - “One_to_many” ou “1: m”: verifica se as chaves de mesclagem são exclusivas no conjunto de dados esquerdo.

 - “Many_to_one” ou “m: 1”: verifica se as chaves de mesclagem são exclusivas no conjunto de dados correto.

 - “Many_to_many” ou “m: m”: permitido, mas não resulta em verificações.


O método join() usa mergeinternamente para a junção índice no índice (por padrão) e coluna (s) no índice. Se você está ingressando apenas no índice, pode desejar usar DataFrame.joinpara economizar alguma digitação.
m

## Importando dataframes de exemplo

In [1]:
import numpy as np
import pandas as pd
import os
import zipfile

diratual = os.getcwd()
print(diratual)

diretorio = os.path.join(diratual, 'content') 
diretorio


nome_arquivo_compactado = 'HIST_PAINEL_COVIDBR_18nov2020.zip'
with zipfile.ZipFile( os.path.join(diretorio, nome_arquivo_compactado), 'r') as zip_ref:
    zip_ref.extractall(diretorio)

C:\Orlando\Curso-de-Python-Para-Analise-de-Dados\04 - Pandas - Processamento e Análise de Dados


In [2]:
dfcovid = pd.read_csv(os.path.join(diretorio, 'HIST_PAINEL_COVIDBR_18nov2020.csv') , sep=';')
dfcovid.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-02-25,9,210147125.0,0,0,0,0,,,
1,Brasil,,,76,,,,2020-02-26,9,210147125.0,1,1,0,0,,,
2,Brasil,,,76,,,,2020-02-27,9,210147125.0,1,0,0,0,,,
3,Brasil,,,76,,,,2020-02-28,9,210147125.0,1,0,0,0,,,
4,Brasil,,,76,,,,2020-02-29,9,210147125.0,2,1,0,0,,,


In [3]:
filtro = (dfcovid['estado'].isna() == False ) & ( dfcovid['codmun'].isna()  )
dfcovid = dfcovid[filtro][['regiao', 'estado',  'populacaoTCU2019',
       'casosNovos', 'obitosNovos']]
print(dfcovid.shape)
dfcovid.head()

(7290, 5)


Unnamed: 0,regiao,estado,populacaoTCU2019,casosNovos,obitosNovos
270,Norte,RO,1777225.0,0,0
271,Norte,RO,1777225.0,0,0
272,Norte,RO,1777225.0,0,0
273,Norte,RO,1777225.0,0,0
274,Norte,RO,1777225.0,0,0


In [4]:
dfregiaouf = dfcovid[['regiao', 'estado',  'casosNovos', 'obitosNovos', 'populacaoTCU2019']]\
  .groupby(['regiao', 'estado'])\
  .agg({'casosNovos':'sum', 'obitosNovos':'sum', 'populacaoTCU2019':'max'})\
  .reset_index()
dfregiaouf.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,222836,3857,3015268.0
1,Centro-Oeste,GO,272494,6201,7018354.0
2,Centro-Oeste,MS,90765,1713,2778986.0
3,Centro-Oeste,MT,153800,4025,3484466.0
4,Nordeste,AL,93245,2311,3337357.0


## Separar o dataframe em partes por região

In [5]:
dfnordeste = dfregiaouf[dfregiaouf.regiao == 'Nordeste']
dfnordeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
4,Nordeste,AL,93245,2311,3337357.0
5,Nordeste,BA,382164,8061,14873064.0
6,Nordeste,CE,289925,9477,9132078.0
7,Nordeste,MA,190953,4218,7075181.0
8,Nordeste,PB,141615,3236,4018127.0


In [6]:
dfnorte = dfregiaouf[dfregiaouf.regiao == 'Norte']
dfnorte.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
13,Norte,AC,34246,711,881935.0
14,Norte,AM,172858,4761,4144597.0
15,Norte,AP,56085,787,845731.0
16,Norte,PA,264810,6855,8602865.0
17,Norte,RO,76729,1515,1777225.0


In [7]:
dfsul = dfregiaouf[dfregiaouf.regiao == 'Sul']
dfsul.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
24,Sul,PR,250898,5832,11433957.0
25,Sul,RS,293221,6447,11377239.0
26,Sul,SC,317502,3435,7164788.0


In [8]:
dfcentrooeste = dfregiaouf[dfregiaouf.regiao == 'Centro-Oeste']
dfcentrooeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,222836,3857,3015268.0
1,Centro-Oeste,GO,272494,6201,7018354.0
2,Centro-Oeste,MS,90765,1713,2778986.0
3,Centro-Oeste,MT,153800,4025,3484466.0


In [9]:
dfsudeste = dfregiaouf[dfregiaouf.regiao == 'Sudeste']
dfsudeste.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
20,Sudeste,ES,176903,4101,4018650.0
21,Sudeste,MG,393110,9688,21168791.0
22,Sudeste,RJ,336915,21938,17264943.0
23,Sudeste,SP,1200348,41179,45919049.0


## DataFrame de estilo de banco de dados ou junção / fusão de séries nomeadas 
- O pandas tem operações de junção in-memory full-features e de alto desempenho ,  muito semelhantes a bancos de dados relacionais como SQL. 

```
pd.merge(dfcasos, dfobitos, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)
         
```


-left: Um DataFrame ou objeto Series nomeado.

- right: Outro DataFrame ou objeto Series nomeado.

- on: Nomes da coluna ou índice para unir.

- left_on: Colunas ou níveis de índice do DataFrame ou Series esquerdo para usar como chaves.

- right_on: Colunas ou níveis de índice do DataFrame ou Série certo para usar como chaves. 

- left_index: Se True, use o índice (rótulos de linha) do DataFrame ou Series esquerdo como sua (s) chave (s) de junção. 

- right_index: Mesmo uso left_indexdo DataFrame ou Série certa

- how: Um dos 'left', 'right', 'outer', 'inner'. O padrão é inner. 

- sort: Classifique o DataFrame de resultado pelas chaves de junção em ordem lexicográfica.

- suffixes: Uma tupla de sufixos de string a serem aplicados a colunas sobrepostas. O padrão é .('_x', '_y')

- indicator: Adicione uma coluna ao DataFrame de saída chamado _merge com informações sobre a origem de cada linha.

- validate: string, padrão Nenhum. Se especificado, verifica se a mesclagem é do tipo especificado.

 - “One_to_one” ou “1: 1”: verifica se as chaves de mesclagem são exclusivas nos conjuntos de dados esquerdo e direito.

 - “One_to_many” ou “1: m”: verifica se as chaves de mesclagem são exclusivas no conjunto de dados esquerdo.

 - “Many_to_one” ou “m: 1”: verifica se as chaves de mesclagem são exclusivas no conjunto de dados correto.

 - “Many_to_many” ou “m: m”: permitido, mas não resulta em verificações.


O método join() usa mergeinternamente para a junção índice no índice (por padrão) e coluna (s) no índice. Se você está ingressando apenas no índice, pode desejar usar DataFrame.joinpara economizar alguma digitação.
m

In [10]:
dfcasos = dfregiaouf[dfregiaouf['casosNovos'] > 400_000 ][['regiao','estado', 'casosNovos']]
print(dfcasos.shape)
dfcasos.head()


(1, 3)


Unnamed: 0,regiao,estado,casosNovos
23,Sudeste,SP,1200348


In [11]:
dfobitos = dfregiaouf[dfregiaouf['obitosNovos'] >= 4500 ][['regiao','estado','obitosNovos']]
print(dfobitos.shape)
dfobitos.head()


(11, 3)


Unnamed: 0,regiao,estado,obitosNovos
1,Centro-Oeste,GO,6201
5,Nordeste,BA,8061
6,Nordeste,CE,9477
9,Nordeste,PE,8899
14,Norte,AM,4761


In [12]:
dfcompleto = pd.merge(dfcasos, dfobitos, on='estado')
dfcompleto.head()

Unnamed: 0,regiao_x,estado,casosNovos,regiao_y,obitosNovos
0,Sudeste,SP,1200348,Sudeste,41179


Aqui está um exemplo mais complicado com várias chaves de junção. Apenas as chaves que aparecem em left e right estão presentes (a interseção), pois how='inner'por padrão.

In [13]:
dfcompleto = pd.merge(dfcasos, dfobitos, on=['regiao', 'estado'])
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,SP,1200348,41179


### Método de junção

- left - LEFT OUTER JOIN - Use as chaves do dataframe esquerdo apenas

- right - RIGHT OUTER JOIN - Use as chaves do dataframe direito apenas

- outer - FULL OUTER JOIN - Use a união de chaves de ambos os dataframe

- inner - INNER JOIN - Use a interseção de chaves de ambos os dataframe

In [14]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='left', on=['regiao', 'estado'])
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,SP,1200348,41179


In [15]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='right', on=['regiao', 'estado'])
dfcompleto.head(20)

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Centro-Oeste,GO,,6201
1,Nordeste,BA,,8061
2,Nordeste,CE,,9477
3,Nordeste,PE,,8899
4,Norte,AM,,4761
5,Norte,PA,,6855
6,Sudeste,MG,,9688
7,Sudeste,RJ,,21938
8,Sudeste,SP,1200348.0,41179
9,Sul,PR,,5832


In [16]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='outer', on=['regiao', 'estado'])
dfcompleto.head(20)

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,SP,1200348.0,41179
1,Centro-Oeste,GO,,6201
2,Nordeste,BA,,8061
3,Nordeste,CE,,9477
4,Nordeste,PE,,8899
5,Norte,AM,,4761
6,Norte,PA,,6855
7,Sudeste,MG,,9688
8,Sudeste,RJ,,21938
9,Sul,PR,,5832


In [17]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='inner', on=['regiao', 'estado'])
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,SP,1200348,41179


Aqui está outro exemplo com chaves de junção duplicadas em DataFrames:

In [18]:
dfcompleto = pd.merge(dfcasos, dfobitos, on='regiao', how='outer').sort_values(by=['regiao','estado_x'])
dfcompleto.head(20)

Unnamed: 0,regiao,estado_x,casosNovos,estado_y,obitosNovos
3,Centro-Oeste,,,GO,6201
4,Nordeste,,,BA,8061
5,Nordeste,,,CE,9477
6,Nordeste,,,PE,8899
7,Norte,,,AM,4761
8,Norte,,,PA,6855
0,Sudeste,SP,1200348.0,MG,9688
1,Sudeste,SP,1200348.0,RJ,21938
2,Sudeste,SP,1200348.0,SP,41179
9,Sul,,,PR,5832


## Unir / mesclar em chaves duplicadas resulta em produto cartesiano e resultar em estouro de memória. 

### Verificando chaves duplicadas 
- O argumento validate pode ser usado para verificar automaticamente se há duplicatas inesperadas em suas chaves de mesclagem, para  proteger contra estouros de memória. 

In [19]:
from pandas.errors import MergeError
try:
  dfcompleto = pd.merge(dfcasos, dfobitos, on='regiao', how='outer', validate="one_to_one")
  dfcompleto
except MergeError as e:
  print(str(e))

Merge keys are not unique in right dataset; not a one-to-one merge


In [20]:
dfcompleto = pd.merge(dfcasos, dfobitos, on='estado', how='outer', validate="one_to_one")
dfcompleto.head()

Unnamed: 0,regiao_x,estado,casosNovos,regiao_y,obitosNovos
0,Sudeste,SP,1200348.0,Sudeste,41179
1,,GO,,Centro-Oeste,6201
2,,BA,,Nordeste,8061
3,,CE,,Nordeste,9477
4,,PE,,Nordeste,8899


In [21]:
dfcompleto = pd.merge(dfcasos, dfobitos, on='estado', how='outer', validate="one_to_many")
dfcompleto.head()

Unnamed: 0,regiao_x,estado,casosNovos,regiao_y,obitosNovos
0,Sudeste,SP,1200348.0,Sudeste,41179
1,,GO,,Centro-Oeste,6201
2,,BA,,Nordeste,8061
3,,CE,,Nordeste,9477
4,,PE,,Nordeste,8899


### O indicador de mesclagem 
merge()aceita o argumento indicator. Se True, uma coluna do tipo categórico chamada _mergeserá adicionada ao objeto de saída que assume os valores:

- Chave de mesclagem apenas no 'left'quadro: left_only

- Chave de mesclagem apenas no 'right'quadro: right_only

- Chave de mesclagem em ambos os quadros: both

In [22]:
dfcompleto = pd.merge(dfcasos, dfobitos, on=['regiao', 'estado'], how='outer', indicator=True)
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,_merge
0,Sudeste,SP,1200348.0,41179,both
1,Centro-Oeste,GO,,6201,right_only
2,Nordeste,BA,,8061,right_only
3,Nordeste,CE,,9477,right_only
4,Nordeste,PE,,8899,right_only


In [23]:
dfcompleto[ dfcompleto._merge =='both']

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,_merge
0,Sudeste,SP,1200348.0,41179,both


In [24]:
dfcompleto._merge.value_counts()

right_only    10
both           1
left_only      0
Name: _merge, dtype: int64

- O argumento indicator também aceitará argumentos de string, caso em que a função do indicador usará o valor da string passada como o nome da coluna do indicador.

In [25]:
dfcompleto = pd.merge(dfcasos, dfobitos, on=['regiao', 'estado'], how='outer', indicator='indicator_column')
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,indicator_column
0,Sudeste,SP,1200348.0,41179,both
1,Centro-Oeste,GO,,6201,right_only
2,Nordeste,BA,,8061,right_only
3,Nordeste,CE,,9477,right_only
4,Nordeste,PE,,8899,right_only


# Merge dtypes 
A mesclagem preservará o dtype das chaves de junção.

In [26]:
dfcasos.dtypes

regiao        object
estado        object
casosNovos     int64
dtype: object

In [27]:
dfobitos.dtypes

regiao         object
estado         object
obitosNovos     int64
dtype: object

In [28]:
dfcompleto = pd.merge(dfcasos, dfobitos, how='inner', on=['regiao', 'estado'])
dfcompleto.dtypes

regiao         object
estado         object
casosNovos      int64
obitosNovos     int64
dtype: object

Se tiver valores ausentes introduzidos, o dtype resultante será atualizado.

In [29]:
pd.merge(dfcasos, dfobitos, how='outer', on='estado')

Unnamed: 0,regiao_x,estado,casosNovos,regiao_y,obitosNovos
0,Sudeste,SP,1200348.0,Sudeste,41179
1,,GO,,Centro-Oeste,6201
2,,BA,,Nordeste,8061
3,,CE,,Nordeste,9477
4,,PE,,Nordeste,8899
5,,AM,,Norte,4761
6,,PA,,Norte,6855
7,,MG,,Sudeste,9688
8,,RJ,,Sudeste,21938
9,,PR,,Sul,5832


In [30]:
pd.merge(dfcasos, dfobitos, how='outer', on='estado').dtypes

regiao_x        object
estado          object
casosNovos     float64
regiao_y        object
obitosNovos      int64
dtype: object

## Juntando com base no índice 
DataFrame.join() é um método conveniente para combinar as colunas de dois DataFrames potencialmente indexados em um único resultado DataFrame. 

In [31]:
dfcasos

Unnamed: 0,regiao,estado,casosNovos
23,Sudeste,SP,1200348


In [32]:
dfobitos

Unnamed: 0,regiao,estado,obitosNovos
1,Centro-Oeste,GO,6201
5,Nordeste,BA,8061
6,Nordeste,CE,9477
9,Nordeste,PE,8899
14,Norte,AM,4761
16,Norte,PA,6855
21,Sudeste,MG,9688
22,Sudeste,RJ,21938
23,Sudeste,SP,41179
24,Sul,PR,5832


In [33]:
dfcasos = dfcasos.set_index(['regiao','estado'])
dfcasos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos
regiao,estado,Unnamed: 2_level_1
Sudeste,SP,1200348


In [34]:
dfobitos = dfobitos.set_index(['regiao','estado'])
dfobitos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,obitosNovos
regiao,estado,Unnamed: 2_level_1
Centro-Oeste,GO,6201
Nordeste,BA,8061
Nordeste,CE,9477
Nordeste,PE,8899
Norte,AM,4761


In [35]:
dfcompleto = dfcasos.join(dfobitos)
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,SP,1200348,41179


In [36]:
dfcompleto = dfcasos.join(dfobitos, how='outer')
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,GO,,6201
Nordeste,BA,,8061
Nordeste,CE,,9477
Nordeste,PE,,8899
Norte,AM,,4761


In [37]:
dfcompleto = dfcasos.join(dfobitos, how='inner')
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,SP,1200348,41179


In [38]:
dfcompleto = pd.merge(dfcasos, dfobitos, left_index=True, right_index=True, how='outer')
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Centro-Oeste,GO,,6201
Nordeste,BA,,8061
Nordeste,CE,,9477
Nordeste,PE,,8899
Norte,AM,,4761


In [39]:
dfcompleto = pd.merge(dfcasos, dfobitos, left_index=True, right_index=True, how='inner')
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,SP,1200348,41179


### Juntando colunas-chave em um índice 

- O join é indicado para junções muitos para um (onde um dos DataFrame já está indexado pela chave de junção).

- O padrão para DataFrame.join é realizar uma junção à esquerda  left. Para outros tipos de junção deve se indicar o parâmetro how

- join() recebe um argumento opcional  on que pode ser uma coluna ou vários nomes de coluna, que especifica que o DataFrame passado  deve ser alinhado nessa coluna no DataFrame. 

#### Essas duas chamadas de função são completamente equivalentes.

```
dfcasos.join(dfobitos, on='estado')

pd.merge(dfcasos, dfobitos, left_on='estado', right_index=True,
      how='left', sort=False)
```

In [40]:
dfobitos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,obitosNovos
regiao,estado,Unnamed: 2_level_1
Centro-Oeste,GO,6201
Nordeste,BA,8061
Nordeste,CE,9477
Nordeste,PE,8899
Norte,AM,4761


In [41]:
dfcasos.reset_index(inplace=True)
dfcasos.head()

Unnamed: 0,regiao,estado,casosNovos
0,Sudeste,SP,1200348


In [42]:
dfcompleto = dfcasos.join(dfobitos, on=['regiao', 'estado'])
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,SP,1200348,41179


In [43]:
dfcompleto = pd.merge(dfcasos, dfobitos, left_on=['regiao', 'estado'], right_index=True, how='left', sort=False)
dfcompleto.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos
0,Sudeste,SP,1200348,41179


In [44]:
dfcasos.head()

Unnamed: 0,regiao,estado,casosNovos
0,Sudeste,SP,1200348


In [45]:
dfobitos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,obitosNovos
regiao,estado,Unnamed: 2_level_1
Centro-Oeste,GO,6201
Nordeste,BA,8061
Nordeste,CE,9477
Nordeste,PE,8899
Norte,AM,4761


In [46]:
dfcasos = dfcasos.set_index(['regiao','estado'])
dfcasos.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos
regiao,estado,Unnamed: 2_level_1
Sudeste,SP,1200348


In [47]:
dfcompleto = pd.merge(dfcasos, dfobitos, left_on=['regiao', 'estado'], right_index=True, how='left', sort=False)
dfcompleto.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,SP,1200348,41179


In [48]:
dfcompleto = dfcasos.join(dfobitos, on=['regiao', 'estado'], how='inner')
dfcompleto

Unnamed: 0_level_0,Unnamed: 1_level_0,casosNovos,obitosNovos
regiao,estado,Unnamed: 2_level_1,Unnamed: 3_level_1
Sudeste,SP,1200348,41179
