In [None]:
from pathlib import Path
import pandas as pd

In [None]:
DATA_FILEPATH = Path.cwd() / '..' / 'data.csv'
data = pd.read_csv(DATA_FILEPATH)


In [None]:
# Verify "ativos" is 'confirmados' minus 'recuperados' minus 'obitos'
df = data.copy()
# column 'calc' becomes 'confirmados' minus 'obitos' minus 'recuperados'
df['calc'] = df['confirmados'] - df['recuperados'] - df['obitos']
# NaN means we don't know the number. Let's make those '0' to simplify here
df.fillna(0, inplace=True)
# column 'diff' becomes the difference betwen calc and ativos
df['diff'] = df['calc'] - df['ativos']
# filter by values where diff != 0
fail = df[df['diff'] != 0]
fail = fail[['data', 'diff', 'calc', 'ativos', 'confirmados', 'obitos', 'recuperados']]
if len(fail):
    print(fail)


In [None]:
# Verify "ativos" = "confirmados" minus "recuperados" minus "obitos" as well as
# "ativos_novos" = "confirmados_novos" minus "recuperados_novos" minus "obitos_novos"
df = data.copy()
# unknowns are zero
df.fillna(0, inplace=True)
# focus on the four values
df = df.loc[:, ['data', 'confirmados', 'recuperados', 'obitos', 'ativos']]
# add four "*_novos"
df['confirmados_novos'] = df['confirmados'].diff(1)
df['recuperados_novos'] = df['recuperados'].diff(1)
df['obitos_novos'] = df['obitos'].diff(1)
df['ativos_novos'] = df['ativos'].diff(1)
# remove first row (NaN because there's no previous day)
df = df[1:]

df['ativos_calc'] = df['confirmados'] - df['recuperados'] - df['obitos']
df['ativos_novos_calc'] = df['confirmados_novos'] - df['recuperados_novos'] - df['obitos_novos']
df['diff'] = df['ativos_calc'] - df['ativos'] + df['ativos_novos_calc'] - df['ativos_novos']

# filter by values where diff != 0
fail = df[df['diff'] != 0]
fail = fail[['data', 'diff', 'ativos_calc', 'ativos', 'ativos_novos_calc', 'ativos_novos']]
if len(fail):
    print(fail)

df['confirmados_calc'] = df['recuperados'] + df['obitos'] + df['ativos']
df['confirmados_novos_calc'] = df['recuperados_novos'] + df['obitos_novos'] + df['ativos_novos']
df['diff'] = df['confirmados_calc'] - df['confirmados'] + df['confirmados_novos_calc'] - df['confirmados_novos']

# filter by values where diff != 0
fail = df[df['diff'] != 0]
fail = fail[['data', 'diff', 'confirmados_calc', 'confirmados', 'confirmados_novos_calc', 'confirmados_novos']]
if len(fail):
    print(fail)


In [None]:
# Verify "confirmados_novos" is "confirmados" minus previous day
df = data.copy()

# column 'calc' becomes the difference between 'confirmados' from the current row and the previous row
df['calc'] = df['confirmados'].diff(1)
# first row will be NaN because there's no previous row
df.loc[[0], ['calc']] = 0
# column 'diff' becomes the difference betwen calc and confirmados_novos
df['diff'] = df['calc'] - df['confirmados_novos']

# filter by values where diff != 0
fail = df[df['diff'] != 0]
fail = fail[['data', 'diff', 'calc', 'confirmados_novos', 'confirmados']]
if len(fail):
    print(fail)


In [None]:
# Verify "confirmados" is the sum of all regions Portugal, including "estrangeiros"
df = data.copy()
# allow "estrangeiro" to be unknown
df.confirmados_estrangeiro.fillna(0, inplace=True)

df['calc'] = df['confirmados_arsnorte'] + df['confirmados_arscentro'] + df['confirmados_arslvt'] + df['confirmados_arsalentejo'] + df['confirmados_arsalgarve'] + df['confirmados_acores'] + df['confirmados_madeira'] + df['confirmados_estrangeiro']
df['diff'] = df['calc'] - df['confirmados']

fail = df[df['diff'] != 0]
fail = fail[['data', 'diff', 'calc', 'confirmados', 'confirmados_arsnorte', 'confirmados_arscentro', 'confirmados_arslvt', 'confirmados_arsalentejo', 'confirmados_arsalgarve', 'confirmados_acores', 'confirmados_madeira', 'confirmados_estrangeiro']]
if len(fail):
    # 16-03-2020 (-1) and #20-03-2020 (-3)
    print(fail)


In [None]:
# Verify "obitos" is the sum of all regions Portugal, including "estrangeiros"
df = data.copy()

df['calc'] = df['obitos_arsnorte'] + df['obitos_arscentro'] + df['obitos_arslvt'] + df['obitos_arsalentejo'] + df['obitos_arsalgarve'] + df['obitos_acores'] + df['obitos_madeira']
df['diff'] = df['calc'] - df['obitos']

fail = df[df['diff'] != 0]
fail = fail[['data', 'diff', 'calc', 'obitos', 'obitos_arsnorte', 'obitos_arscentro', 'obitos_arslvt', 'obitos_arsalentejo', 'obitos_arsalgarve', 'obitos_acores', 'obitos_madeira']]
if len(fail):
    # 24-10-2020 (10)
    print(fail)


In [None]:
# Verify "confirmados" is the sum of "f" and "m" and "desconhecidos" since 16-11-2020 (desconhecidos_f and _m are zero)
df = data.copy()
# unknowns are zero
df.fillna(0, inplace=True)

# 16-11-2020 with desconhecidos but 28-08-2020 has zeros and math is correct
idx = df[df.data == '28-08-2020'].index.to_numpy()[0] # this is ridiculous
df = df.iloc[ idx: ]

df['calc'] = df['confirmados_f'] + df['confirmados_m'] + df['confirmados_desconhecidos_f'] + df['confirmados_desconhecidos_m'] + df['confirmados_desconhecidos']
df['diff'] = df['calc'] - df['confirmados']

fail = df[df['diff'] != 0] + df[df['confirmados_desconhecidos_f'] != 0] + df[df['confirmados_desconhecidos_m'] != 0]
fail = fail[['data', 'diff', 'calc', 'confirmados', 'confirmados_f', 'confirmados_m', 'confirmados_desconhecidos_f', 'confirmados_desconhecidos_m', 'confirmados_desconhecidos']]
if len(fail):
    print(fail)


In [None]:
# Verify "confirmados" is the sum of "f" and "m" and "desconhecidos_f" before 16-11-2020
df = data.copy()
# unknowns are zero
df.fillna(0, inplace=True)

df['calc'] = df['confirmados_f'] + df['confirmados_m'] + df['confirmados_desconhecidos_f'] + df['confirmados_desconhecidos_m'] + df['confirmados_desconhecidos']
df['diff'] = df['calc'] - df['confirmados']

fail = df[df['diff'] != 0]
## ignore initial rows where _f and _m where unknown
#fail = fail[ df.confirmados_f.notnull() & df.confirmados_m.notnull() & df.confirmados_desconhecidos.notnull() ]
fail = fail[['data', 'diff', 'calc', 'confirmados', 'confirmados_f', 'confirmados_m', 'confirmados_desconhecidos_f', 'confirmados_desconhecidos_m', 'confirmados_desconhecidos']]
if len(fail):
    print(len(fail))  # TODO 82
    print(fail)


In [None]:
# Verify "confirmados" is the sum of all ages
# TODO the difference is the unknowns, which are not being populated?
df = data.copy()
# allow "desconhecidos" to be unknown
df.confirmados_desconhecidos_f.fillna(0, inplace=True)
df.confirmados_desconhecidos_m.fillna(0, inplace=True)
df.confirmados_desconhecidos.fillna(0, inplace=True)

df['calc'] = df['confirmados_0_9_f'] + df['confirmados_0_9_m'] + df['confirmados_10_19_f'] + df['confirmados_10_19_m'] + df['confirmados_20_29_f'] + df['confirmados_20_29_m'] + df['confirmados_30_39_f'] + df['confirmados_30_39_m'] + df['confirmados_40_49_f'] + df['confirmados_40_49_m'] + df['confirmados_50_59_f'] + df['confirmados_50_59_m'] + df['confirmados_60_69_f'] + df['confirmados_60_69_m'] + df['confirmados_70_79_f'] + df['confirmados_70_79_m'] + df['confirmados_80_plus_f'] + df['confirmados_80_plus_m'] + df['confirmados_desconhecidos_m'] + df['confirmados_desconhecidos_f'] + df['confirmados_desconhecidos']

df['diff'] = df['calc'] - df['confirmados']

fail = df[df['diff'] != 0]
fail = fail[ df.confirmados_f.notnull() & df.confirmados_m.notnull() ]
fail = fail[['data', 'diff', 'calc', 'confirmados', 'confirmados_0_9_f', 'confirmados_0_9_m', 'confirmados_10_19_f', 'confirmados_10_19_m', 'confirmados_20_29_f', 'confirmados_20_29_m', 'confirmados_30_39_f', 'confirmados_30_39_m', 'confirmados_40_49_f', 'confirmados_40_49_m', 'confirmados_50_59_f', 'confirmados_50_59_m', 'confirmados_60_69_f', 'confirmados_60_69_m', 'confirmados_70_79_f', 'confirmados_70_79_m', 'confirmados_80_plus_f', 'confirmados_80_plus_m', 'confirmados_desconhecidos_m', 'confirmados_desconhecidos_f', 'confirmados_desconhecidos']]
if len(fail):
    print(len(fail))  # TODO 163
    print(fail)


In [None]:
# Verify "obitos" is the sum of all ages
df = data.copy()

df['calc'] = df['obitos_0_9_f'] + df['obitos_0_9_m'] + df['obitos_10_19_f'] + df['obitos_10_19_m'] + df['obitos_20_29_f'] + df['obitos_20_29_m'] + df['obitos_30_39_f'] + df['obitos_30_39_m'] + df['obitos_40_49_f'] + df['obitos_40_49_m'] + df['obitos_50_59_f'] + df['obitos_50_59_m'] + df['obitos_60_69_f'] + df['obitos_60_69_m'] + df['obitos_70_79_f'] + df['obitos_70_79_m'] + df['obitos_80_plus_f'] + df['obitos_80_plus_m']

df['diff'] = df['calc'] - df['obitos']

fail = df[df['diff'] != 0]
fail = fail[ df.obitos_f.notnull() & df.obitos_m.notnull() ]
fail = fail[['data', 'diff', 'calc', 'obitos', 'obitos_0_9_f', 'obitos_0_9_m', 'obitos_10_19_f', 'obitos_10_19_m', 'obitos_20_29_f', 'obitos_20_29_m', 'obitos_30_39_f', 'obitos_30_39_m', 'obitos_40_49_f', 'obitos_40_49_m', 'obitos_50_59_f', 'obitos_50_59_m', 'obitos_60_69_f', 'obitos_60_69_m', 'obitos_70_79_f', 'obitos_70_79_m', 'obitos_80_plus_f', 'obitos_80_plus_m']]
if len(fail):
    print(len(fail))  # TODO 3
    print(fail)
