# Validação dos dados - Vacinação

In [None]:
import os
import json
import datetime
import pandas

In [None]:
AUTHOR_NAME = ""  # Insira seu nome aqui.

# Descrição e objetivos

O objetivo desse notebook é fornecer uma estrutra básica e comum a todos do codigo fonte que será usado para tratar e processar os dados que irão para o painel de vacinas. O objetivo é que cada autor complete o código que falta para tratar e processar os dados de maneira independenete, porém respeitando as restrições estabelecidas (como formato da saída, assinatura da função etc ...) para que possa ser possível comparar as diferentes implementações e detectar possíveis erros no processo de validação.
    

O notebook está separados em duas etapas principais:

1. __Tratamento dos dados__: Etapa responsável por ler o dado bruto e tratá-lo, gerando ao final do processo um dataframe que tem __sua estrutura pré-estabelecida__.

2. __Processamento dos dados tratados__: Nessa etapa, o dataframe tratado no passo anterior tem seus dados processados o que resulta na geração de uma __série temporal__ (ou outros __indicadores gerais__) para cada tipo de vacina.

# Rotina de tratamento dos dados

O objetivo de implementação dessa rotina será:

1. Ler o dado bruto, especificando o caminho da tabela em `CSV_PATH`.
2. Tratar o dado bruto, garantindo que:
    * As colunas mantidas serão aquelas contidas na lista `COLUMNS_TO_KEEP`.
    * A ordem das colunas na tabela final deve ser a mesma ordem que aparecem na lista `COLUMNS_TO_KEEP`.
    * Os valores deve ser ordenados pela _hash_ `paciente_id`.
    * Quaisquer registros removidos devido à anomalias deve ser contabilizado em `anomaly_dict`, exemplo: `{"Registros sem data de primeira dose": 1000}`
3. Somente registros do estado `UF` e município `MUNICIPIO` serão mantidos.

In [None]:
CSV_PATH = ""

COLUMNS_TO_KEEP = [
    "paciente_id",
    "paciente_idade",
    "paciente_enumSexoBiologico",
    "paciente_racaCor_valor",
    "paciente_endereco_cep",
    "estabelecimento_municipio_codigo",
    "estabelecimento_municipio_nome",
    "estabelecimento_uf",
    "vacina_grupoAtendimento_nome",
    "vacina_categoria_nome",
    "vacina_lote",
    "vacina_dataAplicacao",
    "vacina_descricao_dose",
    "vacina_nome",
    "sistema_origem",
    "data_importacao_rnds"
]

UF = "AL"

MUNICIPIO = "MACEIO"

Definindo a estrutura básica da rotina de tratamento dos dados (completar TODO).

In [None]:
def treat_source_data(dataframe):
    
    anomaly_dict = {}
    
    dataframe = dataframe[COLUMNS_TO_KEEP]
    dataframe.columns = COLUMNS_TO_KEEP
    
    # ===============================================
    # TODO 
    # ===============================================
    
    dataframe = dataframe.sort_values(by="paciente_id").reset_index(drop=True)
    
    return dataframe, anomaly_dict

Na célula a seguir filtramos o dataframe pelo estado e município antes de passarmos para o rotina de tratamento. Ao final do processo o resultado é salvo na pasta `validacao_dados/UF/MUNICIPIO` com o nome `dado-tratado-AUTHOR_NAME.csv`.

In [None]:
DATA_VAL_DIR = "validacao_dados"

In [None]:
source_df = pandas.read_csv(CSV_PATH, sep=";")

orig_shape = source_df.shape

source_df = source_df.dropna(subset=["estabelecimento_municipio_nome", "estabelecimento_uf"], how="any")

print(f"{orig_shape[0] - source_df.shape[0]} registros não possuem UF ou MUNICIPIO")

source_df = source_df[
    (source_df.estabelecimento_municipio_nome == MUNICIPIO) & (source_df.estabelecimento_uf == UF)
].reset_index(drop=True)

In [None]:
source_df.vacina_nome.unique()

In [None]:
treated_df, anomaly_dict = treat_source_data(source_df)

In [None]:
treated_df.head(5)

Salvando os dados tratados:

In [None]:
if not os.path.exists(DATA_VAL_DIR):
    os.mkdir(DATA_VAL_DIR)

if not os.path.exists(os.path.join(DATA_VAL_DIR, UF)):
    os.mkdir(os.path.join(DATA_VAL_DIR, UF))
    
if not os.path.exists(os.path.join(DATA_VAL_DIR, UF, MUNICIPIO)):
    os.mkdir(os.path.join(DATA_VAL_DIR, UF, MUNICIPIO))

treated_df.to_csv(os.path.join(DATA_VAL_DIR, UF, MUNICIPIO, f"dado-tratado-{AUTHOR_NAME}.csv"), sep=";", index=False)

# Rotina de processamento dos dados

O objetivo das rotinas implementadas a seguir (uma para cada item de visualização) é ler o dado tratado na etapa anterior, processá-lo e salvar o resultado na pasta específica. A **assinatura da função deve ser obedecida (não modificá-la)** e os dados salvos devem serguir o padrão pré-estabelecido (será detalhado em cada seção de implementação).

In [None]:
CSV_PATH = os.path.join(DATA_VAL_DIR, UF, MUNICIPIO, f"dado-tratado-{AUTHOR_NAME}.csv")

In [None]:
treated_df = pandas.read_csv(CSV_PATH, sep=";")

In [None]:
MIN_DATE, MAX_DATE = "2021-01-01", "2021-05-10"

## Item I - Doses aplicadas por dia

Calcula número total de doses aplicadas nos últimos dias por tipo de vacina.

__Entradas__

* `treated_df`: Dataframe tratado na seção anterior.
* `min_date`: Data mínima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.
* `max_date`: Data máxima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.

__Saída__

* `time_series`: Dataframe representando a série temporal de doses aplicadas acumuladas por tipo de vacina. A tabela deve conter uma coluna denominda __Data__ (_string_ no formato `YYYY-MM-DD`) seguida das colunas com o nome de cada vacina (valor da coluna __vacina_nome__) ordenadas alfabeticamente.

In [None]:
def doses_aplicadas_por_dia(treated_df, min_date, max_date):
    
    time_series = pandas.DataFrame()
    
    # ===============================================
    # TODO 
    # ===============================================
    
    return time_series

Testando a tabela de saída **- NÃO MODIFICAR -**

In [None]:
def validate_date(date_text):
    if type(date_text) is not str:
        raise ValueError("Tipo incorreto deve ser uma string.")
    try:
        datetime.datetime.strptime(date_text, '%Y-%m-%d')
    except ValueError:
        raise ValueError("Formato da coluna Data incorreto, deve ser YYYY-MM-DD")

doses_aplicadas_por_dia_df = doses_aplicadas_por_dia(treated_df, MIN_DATE, MAX_DATE)

n_rows = (datetime.datetime.strptime(MAX_DATE, "%Y-%m-%d").date() - datetime.datetime.strptime(MIN_DATE, "%Y-%m-%d").date()).days

columns = ["Data"] + sorted(treated_df.vacina_nome.unique().tolist())

# Valida colunas do dataframe
assert columns == doses_aplicadas_por_dia_df.columns.tolist(), f"As colunas devem ser {columns}"

# Valida datas do dataframe
doses_aplicadas_por_dia_df.Data.apply(validate_date)

# Valida quantidade de linhas no dataframe
assert n_rows == doses_aplicadas_por_dia_df.shape[0], f"O dataframe deve conter {n_rows} linhas."

print("Passou.")

In [None]:
save_dir = os.path.join(DATA_VAL_DIR, UF, MUNICIPIO, "doses_aplicadas_por_dia")

if not os.path.exists(save_dir):
    os.mkdir(save_dir)

doses_aplicadas_por_dia_df.to_csv(os.path.join(save_dir, f"{AUTHOR_NAME}.csv"), sep=";", index=False)

## Item II - Demanda por dia

Calcula número total acumulado de doses necessárias para aplicar a segunda dose somente nas pessoas cujo o prazo máximo de aplicação vence nos próximos dias.

__Entradas__

* `treated_df`: Dataframe tratado na seção anterior.
* `min_date`: Data mínima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.
* `max_date`: Data máxima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.

__Saída__

* `time_series`: Dataframe representando a série temporal de doses -. A tabela deve conter uma coluna denominda __Data__ (_string_ no formato `YYYY-MM-DD`) e __Demanda__ representando o valor.

In [None]:
def demanda_por_dia(treated_df, min_date, max_date):
    
    time_series = pandas.DataFrame()
    
    # ===============================================
    # TODO 
    # ===============================================
    
    return time_series

Testando a tabela de saída **- NÃO MODIFICAR -**

In [None]:
demanda_por_dia_df = demanda_por_dia(treated_df, MIN_DATE, MAX_DATE)

n_rows = (datetime.datetime.strptime(MAX_DATE, "%Y-%m-%d").date() - datetime.datetime.strptime(MIN_DATE, "%Y-%m-%d").date()).days

columns = ["Data", "Demanda"]

# Valida colunas do dataframe
assert columns == demanda_por_dia_df.columns.tolist(), f"As colunas devem ser {columns}"

# Valida datas do dataframe
demanda_por_dia_df.Data.apply(validate_date)

# Valida quantidade de linhas no dataframe
assert n_rows == demanda_por_dia_df.shape[0], f"O dataframe deve conter {n_rows} linhas."

print("Passou.")

In [None]:
save_dir = os.path.join(DATA_VAL_DIR, UF, MUNICIPIO, "demanda_por_dia")

if not os.path.exists(save_dir):
    os.mkdir(save_dir)

demanda_por_dia_df.to_csv(os.path.join(save_dir, f"{AUTHOR_NAME}.csv"), sep=";", index=False)

## Item III - Demanda por vacina

Calcula o número total acumulado de doses necessárias para aplicar a segunda dose somente nas pessoas cujo o prazo máximo de aplicação vence nos últimos dias, por tipo de vacina.

__Entradas__

* `treated_df`: Dataframe tratado na seção anterior.
* `min_date`: Data mínima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.
* `max_date`: Data máxima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.

__Saída__

* `time_series`: Dataframe representando a série temporal de doses. A tabela deve conter uma coluna denominda __Data__ (_string_ no formato `YYYY-MM-DD`) seguida das colunas com o nome de cada vacina (valor da coluna __vacina_nome__) ordenadas alfabeticamente.

In [None]:
def demanda_por_vacina(treated_df, min_date, max_date):
    
    time_series = pandas.DataFrame()
    
    # ===============================================
    # TODO 
    # ===============================================
    
    return time_series

Testando a tabela de saída **- NÃO MODIFICAR -**

In [None]:
demanda_por_vacina_df = demanda_por_vacina(treated_df, MIN_DATE, MAX_DATE)

n_rows = (datetime.datetime.strptime(MAX_DATE, "%Y-%m-%d").date() - datetime.datetime.strptime(MIN_DATE, "%Y-%m-%d").date()).days

columns = ["Data"] + sorted(treated_df.vacina_nome.unique().tolist())

# Valida colunas do dataframe
assert columns == demanda_por_vacina_df.columns.tolist(), f"As colunas devem ser {columns}"

# Valida datas do dataframe
demanda_por_vacina_df.Data.apply(validate_date)

# Valida quantidade de linhas no dataframe
assert n_rows == demanda_por_vacina_df.shape[0], f"O dataframe deve conter {n_rows} linhas."

print("Passou.")

In [None]:
save_dir = os.path.join(DATA_VAL_DIR, UF, MUNICIPIO, "demanda_por_vacina")

if not os.path.exists(save_dir):
    os.mkdir(save_dir)

demanda_por_vacina_df.to_csv(os.path.join(save_dir, f"{AUTHOR_NAME}.csv"), sep=";", index=False)

## Item IV - Aplicação da Segunda Dose

Calcula, dia a dia, o número total de pessoas que tomaram a segunda dose dentro e fora do prazo recomendado, por tipo de vacina.

__Entradas__

* `treated_df`: Dataframe tratado na seção anterior.
* `min_date`: Data mínima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.
* `max_date`: Data máxima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.
* `vaccine_period`: Dicionário onde a chave é o nome da vacina e o valor é uma tupla (periodo_minimo_em_dias, periodo_max_em_dias) representando a janela de vacinação.

__Saída__

* `time_series_in`: Dataframe representando a série temporal de pacientes que tomaram a segunda dentro do prazo. A tabela deve conter uma coluna denominda __Data__ (_string_ no formato `YYYY-MM-DD`) seguida das colunas com o nome de cada vacina (valor da coluna __vacina_nome__) ordenadas alfabeticamente.

* `time_series_out`: Dataframe representando a série temporal de pacientes que tomaram a segunda fora do prazo. A tabela deve conter uma coluna denominda __Data__ (_string_ no formato `YYYY-MM-DD`) seguida das colunas com o nome de cada vacina (valor da coluna __vacina_nome__) ordenadas alfabeticamente.

In [None]:
def aplicacao_2a_dose(treated_df, min_date, max_date, vaccine_period):
    
    time_series_in, time_series_out = pandas.DataFrame(), pandas.DataFrame()
    
    # ===============================================
    # TODO 
    # ===============================================
    
    return time_series_in, time_series_out

Testando a tabela de saída **- NÃO MODIFICAR -**

In [None]:
VACCINE_PERIOD = {
    "AstraZeneca": (56, 84),
    "CoronaVac": (14, 28),
    "Pfizer": (21, 25)
}

aplicacao_2a_dose_df_IN, aplicacao_2a_dose_df_OUT = aplicacao_2a_dose(treated_df, MIN_DATE, MAX_DATE, VACCINE_PERIOD)

n_rows = (datetime.datetime.strptime(MAX_DATE, "%Y-%m-%d").date() - datetime.datetime.strptime(MIN_DATE, "%Y-%m-%d").date()).days

columns = ["Data"] + sorted(treated_df.vacina_nome.unique().tolist())

# Valida colunas do dataframe IN
assert columns == aplicacao_2a_dose_df_IN.columns.tolist(), f"As colunas devem ser {columns}"
# Valida colunas do dataframe OUT
assert columns == aplicacao_2a_dose_df_OUT.columns.tolist(), f"As colunas devem ser {columns}"

# Valida datas do dataframe IN
aplicacao_2a_dose_df_IN.Data.apply(validate_date)
# Valida datas do dataframe OUT
aplicacao_2a_dose_df_OUT.Data.apply(validate_date)

# Valida quantidade de linhas no dataframe IN
assert n_rows == aplicacao_2a_dose_df_IN.shape[0], f"O dataframe deve conter {n_rows} linhas."
# Valida quantidade de linhas no dataframe OUT
assert n_rows == aplicacao_2a_dose_df_OUT.shape[0], f"O dataframe deve conter {n_rows} linhas."

print("Passou.")

In [None]:
save_dir_IN = os.path.join(DATA_VAL_DIR, UF, MUNICIPIO, "aplicacao_2a_dose_dentro_prazo")
save_dir_OUT = os.path.join(DATA_VAL_DIR, UF, MUNICIPIO, "aplicacao_2a_dose_fora_prazo")

if not os.path.exists(save_dir_IN):
    os.mkdir(save_dir_IN)
if not os.path.exists(save_dir_OUT):
    os.mkdir(save_dir_OUT)

aplicacao_2a_dose_df_IN.to_csv(os.path.join(save_dir_IN, f"{AUTHOR_NAME}.csv"), sep=";", index=False)
aplicacao_2a_dose_df_OUT.to_csv(os.path.join(save_dir_OUT, f"{AUTHOR_NAME}.csv"), sep=";", index=False)

## Item V - Indicadores gerais

O objetivo dessa rotina é calcular índices gerais, relacionados ao dataframe tratado. Eles são:

* __Índice de abandono vacinal__ (por vacina) calculado até a data mais recente de aplicação (valor máximo em `vacina_dataAplicacao`). O índice de abandono vacinal é a razão que indica a proporção de pessoas que iniciaram o esquema vacinal, porém não concluíram.
* Quantidade de __registros com anomalias__ como por exemplo: "Registros sem data de 1a dose" ou "Registros onde data 2a dose for menor que data 1a dose" entre outros (essas quantidades devem estar registradas em `anomaly_dict`, que foi calculado anteriormente).

__Entrada__

* `treated_df`: Dataframe tratado na seção anterior.
* `min_date`: Data mínima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.
* `max_date`: Data máxima a ser considerada. Deve ser uma _string_ no formato `YYYY-MM-DD`.
* `anomaly_dict`: Dicionário de anomalias calculado na seção anterior.

__Saída__

* `general_index`: Dicionário contendo os índices calculados. Deve ser um objeto _JSON serializable_.

In [None]:
def indicadores_gerais(treated_df, min_date, max_date, anomaly_dict):
    
    general_index = {
        "Anomalias": anomaly_dict, f"Índice de abandono vacinal em YYYY-MM-DD": None
    }
    
    # ===============================================
    # TODO 
    # ===============================================
    
    return general_index

Salvando o resultado.

In [None]:
indicadores_gerais_dict = indicadores_gerais(treated_df, MIN_DATE, MAX_DATE, anomaly_dict)

with open(os.path.join(DATA_VAL_DIR, UF, MUNICIPIO, f"indices_gerais-{AUTHOR_NAME}.json"), "w") as jfile:
    jfile.write(json.dumps(indicadores_gerais_dict, indent=1, ensure_ascii=False))