# Pandas - Comparação e Identificação de Diferenças Entre Dataframes (compare)

## Comparando objetos 
O método compare() permite comparar dois DataFrame ou Series, respectivamente, e resumir suas diferenças.

Por padrão, se dois valores correspondentes forem iguais, eles serão mostrados como NaN. Além disso, se todos os valores em uma linha / coluna inteira, a linha / coluna será omitida do resultado. As diferenças restantes serão alinhadas em colunas.

## Importando dataframes de exemplo

In [1]:
import numpy as np
import pandas as pd
import os

diratual = os.getcwd()

diretorio = os.path.join(diratual) 

In [2]:
dfcovid = pd.read_csv(os.path.join(diretorio, 'HIST_PAINEL_COVIDBR_02nov2024.csv') , sep=';')
dfcovid.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,2020-02-25,9,210147125.0,0.0,0,0,0,0.0,0.0,
1,Brasil,,,76,,,,2020-02-26,9,210147125.0,1.0,1,0,0,1.0,0.0,
2,Brasil,,,76,,,,2020-02-27,9,210147125.0,1.0,0,0,0,1.0,0.0,
3,Brasil,,,76,,,,2020-02-28,9,210147125.0,1.0,0,0,0,0.0,1.0,
4,Brasil,,,76,,,,2020-02-29,9,210147125.0,2.0,1,0,0,1.0,1.0,


In [3]:
filtro = (dfcovid['estado'].isna() == False ) & ( dfcovid['codmun'].isna()  )
dfcovid = dfcovid[filtro][['regiao', 'estado',  'populacaoTCU2019',
       'casosNovos', 'obitosNovos']]
print(dfcovid.shape)
dfcovid.head()

(46251, 5)


Unnamed: 0,regiao,estado,populacaoTCU2019,casosNovos,obitosNovos
158,Norte,RO,1777225.0,0,0
159,Norte,RO,1777225.0,0,0
160,Norte,RO,1777225.0,0,0
161,Norte,RO,1777225.0,0,0
162,Norte,RO,1777225.0,0,0


In [4]:
dfregiaouf = dfcovid[['regiao', 'estado',  'casosNovos', 'obitosNovos', 'populacaoTCU2019']]\
  .groupby(['regiao', 'estado'])\
  .agg({'casosNovos':'sum', 'obitosNovos':'sum', 'populacaoTCU2019':'max'})\
  .reset_index()
dfregiaouf.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,955540,12025,3015268.0
1,Centro-Oeste,GO,2060518,28669,7018354.0
2,Centro-Oeste,MS,637169,11305,2778986.0
3,Centro-Oeste,MT,921447,15253,3484466.0
4,Nordeste,AL,348701,7355,3337357.0


## Comparando objetos 
O método compare() permite comparar dois DataFrame ou Series, respectivamente, e resumir suas diferenças.

Por padrão, se dois valores correspondentes forem iguais, eles serão mostrados como NaN. Além disso, se todos os valores em uma linha / coluna inteira, a linha / coluna será omitida do resultado. As diferenças restantes serão alinhadas em colunas.

In [5]:
dfregiaouf.head()

Unnamed: 0,regiao,estado,casosNovos,obitosNovos,populacaoTCU2019
0,Centro-Oeste,DF,955540,12025,3015268.0
1,Centro-Oeste,GO,2060518,28669,7018354.0
2,Centro-Oeste,MS,637169,11305,2778986.0
3,Centro-Oeste,MT,921447,15253,3484466.0
4,Nordeste,AL,348701,7355,3337357.0


In [6]:
dfalterado = dfregiaouf.copy()

In [7]:
dfalterado.loc[ dfalterado['estado'].isin(['SP','RJ']), ['obitosNovos'] ]   = 0
dfalterado.loc[ dfalterado['estado'].isin(['MG','GO']), ['casosNovos'] ]   = 0

In [8]:
dfregiaouf.compare(dfalterado)

Unnamed: 0_level_0,casosNovos,casosNovos,obitosNovos,obitosNovos
Unnamed: 0_level_1,self,other,self,other
1,2060518.0,0.0,,
21,4335714.0,0.0,,
22,,,78238.0,0.0
23,,,184235.0,0.0




Se desejar, pode escolher empilhar as diferenças nas linhas.

In [9]:
dfregiaouf.compare(dfalterado, align_axis=0)

Unnamed: 0,Unnamed: 1,casosNovos,obitosNovos
1,self,2060518.0,
1,other,0.0,
21,self,4335714.0,
21,other,0.0,
22,self,,78238.0
22,other,,0.0
23,self,,184235.0
23,other,,0.0


Se desejar manter todas as linhas e colunas originais, defina o argumento keep_shape como True.

In [10]:
dfregiaouf.compare(dfalterado,  keep_shape=True)

Unnamed: 0_level_0,regiao,regiao,estado,estado,casosNovos,casosNovos,obitosNovos,obitosNovos,populacaoTCU2019,populacaoTCU2019
Unnamed: 0_level_1,self,other,self,other,self,other,self,other,self,other
0,,,,,,,,,,
1,,,,,2060518.0,0.0,,,,
2,,,,,,,,,,
3,,,,,,,,,,
4,,,,,,,,,,
5,,,,,,,,,,
6,,,,,,,,,,
7,,,,,,,,,,
8,,,,,,,,,,
9,,,,,,,,,,


Você também pode manter todos os valores originais, mesmo que sejam iguais.