<a href="https://colab.research.google.com/github/flohmannjr/PJI410/blob/main/PJI410_dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PJI410 - Dados

## SRAG 2021 a 2023 - Banco de Dados de Síndrome Respiratória Aguda Grave

Dados atualizados até 3 de Maio de 2023

https://opendatasus.saude.gov.br/dataset/srag-2021-a-2023

# Importações

In [1]:
import numpy as np
import pandas as pd

# Configurações

In [2]:
DIAGNOSTICOS = {1: 'SRAG por Influenza',
                2: 'SRAG por outro vírus respiratório',
                3: 'SRAG por outro agente etiológico',
                4: 'SRAG não especificado',
                5: 'SRAG por COVID-19'}

ESCOLARIDADES = {0: 'Sem escolaridade / Analfabeto',
                 1: 'Fundamental 1º ciclo (1ª a 5ª série)',
                 2: 'Fundamental 2º ciclo (6ª a 9ª série)',
                 3: 'Médio (1º ao 3º ano)',
                 4: 'Superior'}

EVOLUCOES = {1: 'Cura',
             2: 'Óbito',
             3: 'Óbito por outras causas'}

RACAS = {1: 'Branca',
         2: 'Preta',
         3: 'Amarela',
         4: 'Parda',
         5: 'Indígena'}

SEXOS = {1: 'Masculino',
         2: 'Feminino'}

ZONAS = {1: 'Urbana',
         2: 'Rural',
         3: 'Periurbana'}

# Dados

In [3]:
!wget https://raw.githubusercontent.com/flohmannjr/PJI410/main/dados/openDataSUS.7z.001
!wget https://raw.githubusercontent.com/flohmannjr/PJI410/main/dados/openDataSUS.7z.002
!wget https://raw.githubusercontent.com/flohmannjr/PJI410/main/dados/openDataSUS.7z.003
!wget https://raw.githubusercontent.com/flohmannjr/PJI410/main/dados/openDataSUS.7z.004

!7z e /content/openDataSUS.7z.001

--2023-05-18 17:53:25--  https://raw.githubusercontent.com/flohmannjr/PJI410/main/dados/openDataSUS.7z.001
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 25165824 (24M) [application/octet-stream]
Saving to: ‘openDataSUS.7z.001’


2023-05-18 17:53:26 (74.2 MB/s) - ‘openDataSUS.7z.001’ saved [25165824/25165824]

--2023-05-18 17:53:27--  https://raw.githubusercontent.com/flohmannjr/PJI410/main/dados/openDataSUS.7z.002
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 25165824 (24M) [application/octet-stream]
Saving to: ‘openDataSUS.7z

In [4]:
dtypes = {'AMOSTRA': 'Int32', 'ANTIVIRAL': 'Int32', 'AN_ADENO': 'Int32', 'AN_OUTRO': 'Int32', 'AN_PARA1': 'Int32',
          'AN_PARA2': 'Int32', 'AN_PARA3': 'Int32', 'AN_SARS2': 'Int32', 'AN_VSR': 'Int32', 'ASMA': 'Int32',
          'AVE_SUINO': 'Int32', 'CARDIOPATI': 'Int32', 'CLASSI_FIN': 'Int32', 'CLASSI_OUT': 'string',
          'COD_IDADE': 'string', 'CO_MUN_NOT': 'Int32', 'CO_MUN_RES': 'Int32', 'CO_MU_INTE': 'Int32',
          'CO_PAIS': 'Int32', 'CO_PS_VGM': 'string', 'CO_REGIONA': 'Int32', 'CO_RG_INTE': 'Int32',
          'CO_RG_RESI': 'Int32', 'CO_UNI_NOT': 'Int32', 'CRITERIO': 'Int32', 'CS_ESCOL_N': 'Int32',
          'CS_GESTANT': 'Int32', 'CS_RACA': 'Int32', 'CS_SEXO': 'string', 'CS_ZONA': 'Int32',
          'DESC_RESP': 'Int32', 'DIABETES': 'Int32', 'DIARREIA': 'Int32', 'DISPNEIA': 'Int32',
          'DOR_ABD': 'Int32', 'DOSE_1_COV': 'string', 'DOSE_2_COV': 'string', 'DOSE_REF': 'string',
          'DS_AN_OUT': 'string', 'DS_PCR_OUT': 'string', 'DT_1_DOSE': 'string', 'DT_2_DOSE': 'string',
          'DT_ANTIVIR': 'string', 'DT_COLETA': 'string', 'DT_CO_SOR': 'string', 'DT_DIGITA': 'string',
          'DT_DOSEUNI': 'string', 'DT_ENCERRA': 'string', 'DT_ENTUTI': 'string', 'DT_EVOLUCA': 'string',
          'DT_INTERNA': 'string', 'DT_NASC': 'string', 'DT_NOTIFIC': 'string', 'DT_PCR': 'string',
          'DT_RAIOX': 'string', 'DT_RES': 'string', 'DT_RES_AN': 'string', 'DT_RT_VGM': 'string',
          'DT_SAIDUTI': 'string', 'DT_SIN_PRI': 'string', 'DT_TOMO': 'string', 'DT_UT_DOSE': 'string',
          'DT_VAC_MAE': 'string', 'DT_VGM': 'string', 'ESTRANG': 'Int32', 'EVOLUCAO': 'Int32',
          'FAB_COVREF': 'string', 'FAB_COV_1': 'string', 'FAB_COV_2': 'string', 'FADIGA': 'Int32',
          'FATOR_RISC': 'Int32', 'FEBRE': 'Int32', 'FLUASU_OUT': 'string', 'FLUBLI_OUT': 'string',
          'FNT_IN_COV': 'Int32', 'GARGANTA': 'Int32', 'HEMATOLOGI': 'Int32', 'HEPATICA': 'Int32',
          'HISTO_VGM': 'string', 'HOSPITAL': 'Int32', 'ID_MN_INTE': 'string', 'ID_MN_RESI': 'string',
          'ID_MUNICIP': 'string', 'ID_PAIS': 'string', 'ID_REGIONA': 'string', 'ID_RG_INTE': 'string',
          'ID_RG_RESI': 'string', 'ID_UNIDADE': 'string', 'IMUNODEPRE': 'Int32', 'LAB_PR_COV': 'string',
          'LOTE_1_COV': 'string', 'LOTE_2_COV': 'string', 'LOTE_REF': 'string', 'LO_PS_VGM': 'string',
          'MAE_VAC': 'Int32', 'MORB_DESC': 'string', 'M_AMAMENTA': 'Int32', 'NEUROLOGIC': 'Int32',
          'NOSOCOMIAL': 'Int32', 'NU_IDADE_N': 'Int32', 'OBESIDADE': 'Int32', 'OBES_IMC': 'string',
          'OUTRO_DES': 'string', 'OUTRO_SIN': 'Int32', 'OUT_AMOST': 'string', 'OUT_ANIM': 'string',
          'OUT_ANTIV': 'string', 'OUT_MORBI': 'Int32', 'OUT_SOR': 'string', 'PAC_COCBO': 'string',
          'PAC_DSCBO': 'string', 'PAIS_VGM': 'string', 'PCR_ADENO': 'Int32', 'PCR_BOCA': 'Int32',
          'PCR_FLUASU': 'Int32', 'PCR_FLUBLI': 'Int32', 'PCR_METAP': 'Int32', 'PCR_OUTRO': 'Int32',
          'PCR_PARA1': 'Int32', 'PCR_PARA2': 'Int32', 'PCR_PARA3': 'Int32', 'PCR_PARA4': 'Int32',
          'PCR_RESUL': 'Int32', 'PCR_RINO': 'Int32', 'PCR_SARS2': 'Int32', 'PCR_VSR': 'Int32',
          'PERD_OLFT': 'Int32', 'PERD_PALA': 'Int32', 'PNEUMOPATI': 'Int32', 'POS_AN_FLU': 'Int32',
          'POS_AN_OUT': 'Int32', 'POS_PCRFLU': 'Int32', 'POS_PCROUT': 'Int32', 'PUERPERA': 'Int32',
          'RAIOX_OUT': 'string', 'RAIOX_RES': 'Int32', 'RENAL': 'Int32', 'RES_AN': 'Int32', 'RES_IGA': 'Int32',
          'RES_IGG': 'Int32', 'RES_IGM': 'Int32', 'SATURACAO': 'Int32', 'SEM_NOT': 'Int32', 'SEM_PRI': 'Int32',
          'SG_UF': 'string', 'SG_UF_INTE': 'string', 'SG_UF_NOT': 'string', 'SIND_DOWN': 'Int32',
          'SOR_OUT': 'string', 'SUPORT_VEN': 'Int32', 'SURTO_SG': 'string', 'TOMO_OUT': 'string',
          'TOMO_RES': 'Int32', 'TOSSE': 'Int32', 'TP_AMOSTRA': 'Int32', 'TP_AM_SOR': 'Int32',
          'TP_ANTIVIR': 'Int32', 'TP_FLU_AN': 'Int32', 'TP_FLU_PCR': 'Int32', 'TP_IDADE': 'Int32',
          'TP_SOR': 'Int32', 'TP_TES_AN': 'Int32', 'UTI': 'Int32', 'VACINA': 'Int32', 'VACINA_COV': 'Int32',
          'VOMITO': 'Int32'}

ausentes2021 = {'DOSE_2REF': 'string', 'FAB_COVRF2': 'string', 'LOTE_REF2': 'string',
                'TRAT_COV': 'Int32', 'TIPO_TRAT': 'Int32', 'OUT_TRAT': 'string', 'DT_TRT_COV': 'string'}

datas = ['DOSE_1_COV', 'DOSE_2REF', 'DOSE_2_COV', 'DOSE_REF', 'DT_1_DOSE', 'DT_2_DOSE', 'DT_ANTIVIR', 'DT_COLETA',
         'DT_CO_SOR', 'DT_DIGITA', 'DT_DOSEUNI', 'DT_ENCERRA', 'DT_ENTUTI', 'DT_EVOLUCA', 'DT_INTERNA', 'DT_NASC',
         'DT_NOTIFIC', 'DT_PCR', 'DT_RAIOX', 'DT_RES', 'DT_RES_AN', 'DT_RT_VGM', 'DT_SAIDUTI', 'DT_SIN_PRI',
         'DT_TOMO', 'DT_TRT_COV', 'DT_UT_DOSE', 'DT_VAC_MAE', 'DT_VGM']

In [5]:
%%time

df = pd.read_csv('/content/INFLUD21-01-05-2023.csv', sep=';', dtype=dtypes)

CPU times: user 2min 5s, sys: 5.04 s, total: 2min 10s
Wall time: 2min 12s


In [6]:
df[list(ausentes2021.keys())] = [None] * len(ausentes2021)

dtypes.update(ausentes2021)

In [7]:
%%time

df = pd.concat([df, pd.read_csv('/content/INFLUD22-03-04-2023.csv', sep=';', dtype=dtypes)])
df = pd.concat([df, pd.read_csv('/content/INFLUD23-03-04-2023.csv', sep=';', dtype=dtypes)])

CPU times: user 1min 29s, sys: 4.01 s, total: 1min 33s
Wall time: 1min 34s


In [8]:
%%time

for campo in datas:
    df[campo] = pd.to_datetime(df[campo], format='%d/%m/%Y', errors='coerce')

CPU times: user 35.1 s, sys: 221 ms, total: 35.4 s
Wall time: 35.4 s


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2350255 entries, 0 to 61488
Columns: 173 entries, DT_NOTIFIC to DT_TRT_COV
dtypes: Int32(99), datetime64[ns](29), string(45)
memory usage: 2.4 GB


## Pré-processamento

### Remover notificações após 31 de Março de 2023

In [10]:
df.drop(df[df['DT_NOTIFIC'] > '2023-03-31'].index, inplace=True)

### Contagem

In [11]:
# Campos descritos no dicionário de dados.

dicionario = ['NU_NOTIFIC', 'DT_NOTIFIC', 'SEM_NOT', 'DT_SIN_PRI', 'SEM_PRI', 'SG_UF_NOT', 'ID_MUNICIP', 'CO_MUN_NOT',
              'ID_REGIONA', 'CO_REGIONA', 'ID_UNIDADE', 'CO_UNI_NOT', 'TEM_CPF', 'NU_CPF', 'ESTRANG', 'NU_CNS',
              'NM_PACIENT', 'CS_SEXO', 'DT_NASC', 'NU_IDADE_N', 'TP_IDADE', 'CS_GESTANT', 'CS_RACA', 'CS_ETINIA',
              'POV_CT', 'TP_POV_CT', 'CS_ESCOL_N', 'PAC_COCBO', 'PAC_DSCBO', 'NM_MAE_PAC', 'NU_CEP', 'SG_UF',
              'ID_RG_RESI', 'CO_RG_RESI', 'ID_MN_RESI', 'CO_MUN_RES', 'NM_BAIRRO', 'NM_LOGRADO', 'NU_NUMERO',
              'NM_COMPLEM', 'NU_DDD_TEL', 'NU_TELEFON', 'CS_ZONA', 'ID_PAIS', 'CO_PAIS', 'NOSOCOMIAL', 'AVE_SUINO',
              'OUT_ANIM', 'FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO', 'DIARREIA', 'VOMITO',
              'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA', 'OUTRO_SIN', 'OUTRO_DES', 'FATOR_RISC', 'PUERPERA',
              'CARDIOPATI', 'HEMATOLOGI', 'SIND_DOWN', 'HEPATICA', 'ASMA', 'DIABETES', 'NEUROLOGIC', 'PNEUMOPATI',
              'IMUNODEPRE', 'RENAL', 'OBESIDADE', 'OBES_IMC', 'OUT_MORBI', 'MORB_DESC', 'VACINA_COV', 'DOSE_1_COV',
              'DOSE_2_COV', 'DOSE_REF', 'DOSE_2REF', 'FAB_COV1', 'FAB_COV2', 'FAB_COVRF', 'FAB_COVRF2', 'LOTE_1_COV',
              'LOTE_2_COV', 'LOTE_REF', 'LOTE_REF2', 'FNT_IN_COV', 'VACINA', 'DT_UT_DOSE', 'MAE_VAC', 'DT_VAC_MAE',
              'M_AMAMENTA', 'DT_DOSEUNI', 'DT_1_DOSE', 'DT_2_DOSE', 'ANTIVIRAL', 'TP_ANTIVIR', 'OUT_ANTIV',
              'DT_ANTIVIR', 'TRAT_COV', 'TIPO_TRAT', 'OUT_TRAT', 'DT_TRT_COV', 'HOSPITAL', 'DT_INTERNA', 'SG_UF_INTE',
              'ID_RG_INTE', 'CO_RG_INTE', 'ID_MN_INTE', 'CO_MU_INTE', 'ID_UN_INTE', 'CO_UN_INTE', 'UTI', 'DT_ENTUTI',
              'DT_SAIDUTI', 'SUPORT_VEN', 'RAIOX_RES', 'RAIOX_OUT', 'DT_RAIOX', 'TOMO_RES', 'TOMO_OUT', 'DT_TOMO',
              'AMOSTRA', 'DT_COLETA', 'TP_AMOSTRA', 'OUT_AMOST', 'REQUI_GAL', 'TP_TES_AN', 'DT_RES_AN', 'RES_AN',
              'LAB_AN', 'CO_LAB_AN', 'POS_AN_FLU', 'TP_FLU_AN', 'POS_AN_OUT', 'AN_SARS2', 'AN_VSR', 'AN_PARA1',
              'AN_PARA2', 'AN_PARA3', 'AN_ADENO', 'AN_OUTRO', 'DS_AN_OUT', 'PCR_RESUL', 'DT_PCR', 'POS_PCRFLU',
              'TP_FLU_PCR', 'PCR_FLUASU', 'FLUASU_OUT', 'PCR_FLUBLI', 'FLUBLI_OUT', 'POS_PCROUT', 'PCR_SARS2',
              'PCR_VSR', 'PCR_PARA1', 'PCR_PARA2', 'PCR_PARA3', 'PCR_PARA4', 'PCR_ADENO', 'PCR_METAP', 'PCR_BOCA',
              'PCR_RINO', 'PCR_OUTRO', 'DS_PCR_OUT', 'LAB_PCR', 'CO_LAB_PCR', 'TP_AM_SOR', 'SOR_OUT', 'DT_CO_SOR',
              'TP_SOR', 'OUT_SOR', 'SOR_OUT', 'RES_IGG', 'RES_IGM', 'RES_IGA', 'DT_RES', 'CLASSI_FIN', 'CLASSI_OUT',
              'CRITERIO', 'EVOLUCAO', 'DT_EVOLUCA', 'DT_ENCERRA', 'NU_DO', 'OBSERVA', 'NOME_PROF', 'REG_PROF',
              'DT_DIGITA']

In [12]:
# # Campos descritos no dicionário de dados, mas inexistentes nas fontes.
# # 'FAB_COV_1', 'FAB_COV_2', 'FAB_COVREF' (nas fontes) = 'FAB_COV1', 'FAB_COV2', 'FAB_COVRF' (no dicionário)

# inexistentes_csv = list(dicionario - dtypes.keys())

# inexistentes_csv

In [13]:
# Campos sem entrada no dicionário.
# 'FAB_COV_1', 'FAB_COV_2', 'FAB_COVREF' (nas fontes) = 'FAB_COV1', 'FAB_COV2', 'FAB_COVRF' (no dicionário)

inexistentes_dic = list((dtypes.keys() - dicionario) - set(['FAB_COV_1', 'FAB_COV_2', 'FAB_COVREF']))

# df[inexistentes_dic].info(show_counts=True)

In [14]:
# Campos de notificação e primeiros sintomas.

campos = ['DT_NOTIFIC', 'SEM_NOT', 'SG_UF_NOT', 'DT_SIN_PRI', 'SEM_PRI']

df[campos].info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2348597 entries, 0 to 61486
Data columns (total 5 columns):
 #   Column      Non-Null Count    Dtype         
---  ------      --------------    -----         
 0   DT_NOTIFIC  2348597 non-null  datetime64[ns]
 1   SEM_NOT     2348597 non-null  Int32         
 2   SG_UF_NOT   2348597 non-null  string        
 3   DT_SIN_PRI  2348597 non-null  datetime64[ns]
 4   SEM_PRI     2348597 non-null  Int32         
dtypes: Int32(2), datetime64[ns](2), string(1)
memory usage: 94.1 MB


In [15]:
# Campos relativos a internação.

campos = ['HOSPITAL', 'DT_INTERNA', 'SG_UF_INTE',
          'CO_RG_INTE', 'ID_RG_INTE', 'CO_MU_INTE', 'ID_MN_INTE']

df[campos].info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2348597 entries, 0 to 61486
Data columns (total 7 columns):
 #   Column      Non-Null Count    Dtype         
---  ------      --------------    -----         
 0   HOSPITAL    2282390 non-null  Int32         
 1   DT_INTERNA  2194611 non-null  datetime64[ns]
 2   SG_UF_INTE  2274230 non-null  string        
 3   CO_RG_INTE  1832350 non-null  Int32         
 4   ID_RG_INTE  1832350 non-null  string        
 5   CO_MU_INTE  2198584 non-null  Int32         
 6   ID_MN_INTE  2198584 non-null  string        
dtypes: Int32(3), datetime64[ns](1), string(3)
memory usage: 123.2 MB


In [16]:
# Campos relativos à vacina contra COVID-19.

campos = ['VACINA_COV', 'FNT_IN_COV',
          'DOSE_1_COV', 'FAB_COV_1', 'LOTE_1_COV',
          'DOSE_2_COV', 'FAB_COV_2', 'LOTE_2_COV',
          'DOSE_REF', 'FAB_COVREF', 'LOTE_REF',
          'DOSE_2REF', 'FAB_COVRF2', 'LOTE_REF2']

df[campos].info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2348597 entries, 0 to 61486
Data columns (total 14 columns):
 #   Column      Non-Null Count    Dtype         
---  ------      --------------    -----         
 0   VACINA_COV  1905526 non-null  Int32         
 1   FNT_IN_COV  1907117 non-null  Int32         
 2   DOSE_1_COV  707186 non-null   datetime64[ns]
 3   FAB_COV_1   708096 non-null   string        
 4   LOTE_1_COV  613286 non-null   string        
 5   DOSE_2_COV  565624 non-null   datetime64[ns]
 6   FAB_COV_2   330898 non-null   string        
 7   LOTE_2_COV  514189 non-null   string        
 8   DOSE_REF    209388 non-null   datetime64[ns]
 9   FAB_COVREF  208630 non-null   string        
 10  LOTE_REF    207447 non-null   string        
 11  DOSE_2REF   39175 non-null    datetime64[ns]
 12  FAB_COVRF2  40336 non-null    string        
 13  LOTE_REF2   40402 non-null    string        
dtypes: Int32(2), datetime64[ns](4), string(8)
memory usage: 255.3 MB


In [17]:
# Campos "marcado pelo usuário" ou vazio.

NAN0 = ['AN_ADENO', 'AN_OUTRO', 'AN_PARA1', 'AN_PARA2', 'AN_PARA3', 'AN_SARS2', 'AN_VSR',
        'PCR_ADENO', 'PCR_BOCA', 'PCR_METAP', 'PCR_OUTRO', 'PCR_PARA1', 'PCR_PARA2',
        'PCR_PARA3', 'PCR_PARA4', 'PCR_RINO', 'PCR_SARS2', 'PCR_VSR']

df[NAN0].info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2348597 entries, 0 to 61486
Data columns (total 18 columns):
 #   Column     Non-Null Count   Dtype
---  ------     --------------   -----
 0   AN_ADENO   168 non-null     Int32
 1   AN_OUTRO   1491 non-null    Int32
 2   AN_PARA1   78 non-null      Int32
 3   AN_PARA2   26 non-null      Int32
 4   AN_PARA3   163 non-null     Int32
 5   AN_SARS2   336291 non-null  Int32
 6   AN_VSR     8073 non-null    Int32
 7   PCR_ADENO  4786 non-null    Int32
 8   PCR_BOCA   2053 non-null    Int32
 9   PCR_METAP  2869 non-null    Int32
 10  PCR_OUTRO  2507 non-null    Int32
 11  PCR_PARA1  595 non-null     Int32
 12  PCR_PARA2  279 non-null     Int32
 13  PCR_PARA3  1918 non-null    Int32
 14  PCR_PARA4  607 non-null     Int32
 15  PCR_RINO   15444 non-null   Int32
 16  PCR_SARS2  804955 non-null  Int32
 17  PCR_VSR    30974 non-null   Int32
dtypes: Int32(18)
memory usage: 219.5 MB


In [18]:
# Campos relativos a origem e país.

campos = ['ESTRANG', 'ID_PAIS', 'CO_PAIS']

display(df[campos].info(show_counts=True))

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2348597 entries, 0 to 61486
Data columns (total 3 columns):
 #   Column   Non-Null Count    Dtype 
---  ------   --------------    ----- 
 0   ESTRANG  1835220 non-null  Int32 
 1   ID_PAIS  2348597 non-null  string
 2   CO_PAIS  2348597 non-null  Int32 
dtypes: Int32(2), string(1)
memory usage: 58.2 MB


None

In [19]:
# Campos tipo 'Outro'.

outros = ['CLASSI_OUT', 'DS_AN_OUT', 'DS_PCR_OUT', 'FLUASU_OUT', 'FLUBLI_OUT',
          'MORB_DESC', 'OUTRO_DES', 'OUT_AMOST', 'OUT_ANIM', 'OUT_ANTIV',
          'OUT_SOR', 'OUT_TRAT', 'RAIOX_OUT', 'SOR_OUT', 'TOMO_OUT']

# df[outros].info(show_counts=True)

In [20]:
# "Resultado da Sorologia para SARS-CoV-2." ???

sorologia = ['RES_IGG', 'RES_IGM', 'RES_IGA']

display(df[sorologia].info(show_counts=True))
# print()

# for campo in sorologia:
#     display(df[campo].value_counts(dropna=False).sort_index())
#     print()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2348597 entries, 0 to 61486
Data columns (total 3 columns):
 #   Column   Non-Null Count   Dtype
---  ------   --------------   -----
 0   RES_IGG  260106 non-null  Int32
 1   RES_IGM  263009 non-null  Int32
 2   RES_IGA  206289 non-null  Int32
dtypes: Int32(3)
memory usage: 51.5 MB


None

In [21]:
# Quantidade de registros com sexo diferente de Masculino ou Feminino.

(~df['CS_SEXO'].isin(['M', 'F'])).sum()

371

In [22]:
# Quantidade de registros sem data de nascimento.

df['DT_NASC'].isna().sum()

1389

In [23]:
# Quantidade de registros sem unidade federativa.

df['SG_UF'].isna().sum()

401

In [24]:
# # Quantidade de registros com ano de nascimento inferior a 1923, por ano.

# with pd.option_context('display.max_rows', None): 
#     display(df['DT_NASC'][df['DT_NASC'].dt.year < 1923].dt.year.value_counts().sort_index())

In [25]:
# Quantidade total de registros com ano de nascimento inferior a 1923.

(df['DT_NASC'].dt.year < 1923).sum()

6190

In [26]:
# Quantidade de registros com unidade federativa onde está localizada a unidade que realizou a notificação diferente da internação do paciente.

df['SG_UF_NOT'][df['SG_UF_NOT'] != df['SG_UF_INTE']].count()

510

In [27]:
# Quantidade de registros com regional de saúde onde está localizada a unidade que realizou a notificação diferente da internação do paciente.

df['CO_REGIONA'][df['CO_REGIONA'] != df['CO_RG_INTE']].count()

4079

In [28]:
# Quantidade de registros com município onde está localizada a unidade que realizou a notificação diferente da internação do paciente.

df['CO_MUN_NOT'][df['CO_MUN_NOT'] != df['CO_MU_INTE']].count()

15258

### Correção

In [29]:
%%time

# Campos "marcado pelo usuário" com valores NaN para 0.
for campo in NAN0:
    df[campo].fillna(0, inplace=True)

# Campo CLASSI_FIN com valores NaN para 4-SRAG não especificado
df['CLASSI_FIN'].fillna(4, inplace=True)

# Campo CS_SEXO para numérico, como dicionário de dados.
df['CS_SEXO'].replace({'M': '1', 'F': '2', 'I': '9'}, inplace=True)
df['CS_SEXO'] = df['CS_SEXO'].astype('Int32')

# Campos com valores NaN para 9-Ignorado.
NAN9 = ['AMOSTRA', 'ANTIVIRAL', 'ASMA', 'AVE_SUINO', 'CARDIOPATI', 'CRITERIO', 'CS_ESCOL_N', 'CS_RACA', 'CS_ZONA', 'DESC_RESP', 'DIABETES',
        'DIARREIA', 'DISPNEIA', 'DOR_ABD', 'EVOLUCAO', 'FADIGA', 'FATOR_RISC', 'FEBRE', 'FNT_IN_COV', 'GARGANTA', 'HEMATOLOGI', 'HEPATICA',
        'HOSPITAL', 'IMUNODEPRE', 'MAE_VAC', 'M_AMAMENTA', 'NEUROLOGIC', 'NOSOCOMIAL', 'OBESIDADE', 'OUTRO_SIN', 'OUT_MORBI', 'PCR_FLUASU',
        'PCR_FLUBLI', 'PCR_RESUL', 'PERD_OLFT', 'PERD_PALA', 'PNEUMOPATI', 'POS_AN_FLU', 'POS_AN_OUT', 'POS_PCRFLU', 'POS_PCROUT', 'PUERPERA',
        'RAIOX_RES', 'RENAL', 'RES_AN', 'SATURACAO', 'SIND_DOWN', 'SUPORT_VEN', 'TIPO_TRAT', 'TOMO_RES', 'TOSSE', 'TP_AMOSTRA', 'TP_AM_SOR',
        'TP_ANTIVIR', 'TP_FLU_AN', 'TP_FLU_PCR', 'TP_SOR', 'TP_TES_AN', 'TRAT_COV', 'UTI', 'VACINA', 'VACINA_COV', 'VOMITO']

for campo in NAN9:
    df[campo].fillna(9, inplace=True)

# Campo OBES_IMC para decimal.
df['OBES_IMC'][df['OBES_IMC'].str.contains(',', regex=False)] = df['OBES_IMC'][df['OBES_IMC'].str.contains(',', regex=False)].str.replace(',', '.')
df['OBES_IMC'] = df['OBES_IMC'].astype('Float32')

# Campos PAC_COCBO com valores 'XXX' para None.
df['PAC_COCBO'].replace({'XXX': None}, inplace=True)

# Campos PAC_DSCBO com valores 'NAO INFORMADO' para None.
df['PAC_DSCBO'].replace({'NAO INFORMADO': None}, inplace=True)

CPU times: user 4.79 s, sys: 12 ms, total: 4.8 s
Wall time: 4.83 s


### Desmembramento

In [30]:
%%time

# DataFrame de ocupações, com códigos e descrições.

ocupacoes = ['PAC_COCBO', 'PAC_DSCBO']

df_ocupacoes = df[ocupacoes][~df[ocupacoes].duplicated()].dropna().sort_values(by='PAC_COCBO').reset_index(drop=True)
df_ocupacoes.columns = ['Codigo', 'Ocupacao']

# df_ocupacoes.to_csv('/content/PJI410_ocupacoes.csv', index=False)


# DataFrame de unidades, com códigos e descrições.

unidades = ['CO_UNI_NOT', 'ID_UNIDADE']

df_unidades = df[unidades][~df[unidades].duplicated()].dropna().sort_values(by='CO_UNI_NOT').reset_index(drop=True)
df_unidades.columns = ['Codigo', 'Unidade']

# df_unidades.to_csv('/content/PJI410_unidades.csv', index=False)


# DataFrame de municípios, com códigos e descrições.

df_municipios = pd.concat([df[['CO_MUN_NOT', 'ID_MUNICIP']].set_axis(['CO_MUNICIP', 'ID_MUNICIP'], axis=1),
                           df[['CO_MUN_RES', 'ID_MN_RESI']].set_axis(['CO_MUNICIP', 'ID_MUNICIP'], axis=1),
                           df[['CO_MU_INTE', 'ID_MN_INTE']].set_axis(['CO_MUNICIP', 'ID_MUNICIP'], axis=1)])

df_municipios = df_municipios[~df_municipios.duplicated()].dropna().sort_values(by='CO_MUNICIP').reset_index(drop=True)
df_municipios.columns = ['Codigo', 'Municipio']

# df_municipios.to_csv('/content/PJI410_municipios.csv', index=False)


# DataFrame de regionais, com códigos e descrições.

df_regionais = pd.concat([df[['CO_REGIONA', 'ID_REGIONA']],
                          df[['CO_RG_RESI', 'ID_RG_RESI']].set_axis(['CO_REGIONA', 'ID_REGIONA'], axis=1),
                          df[['CO_RG_INTE', 'ID_RG_INTE']].set_axis(['CO_REGIONA', 'ID_REGIONA'], axis=1)])

df_regionais = df_regionais[~df_regionais.duplicated()].dropna().sort_values(by='CO_REGIONA').reset_index(drop=True)
df_regionais.columns = ['Codigo', 'Regional']

# df_regionais.to_csv('/content/PJI410_regionais.csv', index=False)

CPU times: user 5.72 s, sys: 28.9 ms, total: 5.75 s
Wall time: 5.78 s


### Limpeza

In [31]:
%%time

# Remover registros com sexo diferente de 1-Masculino ou 2-Feminino.
df.drop(df[~df['CS_SEXO'].isin([1, 2])].index, inplace=True)

# Remover registros sem data de nascimento ou unidade federativa.
df.dropna(subset=['DT_NASC', 'SG_UF'], inplace=True)

# Remover registros com ano de nascimento inferior a 1923.
df.drop(df[df['DT_NASC'].dt.year < 1923].index, inplace=True)

# Remover registros de pacientes estrangeiros.
df.drop(df[df['ESTRANG'] == 1].index, inplace=True)

# Remover campos relativos à idade. (Temos a data de nascimento.)
df.drop(['NU_IDADE_N', 'TP_IDADE'], axis=1, inplace=True)

# Remover campos relativos ao país de origem. (Ao remover registros de pacientes estrangeiros ou sem unidade federativa, ficamos com apenas um valor nestes campos.)
df.drop(['ESTRANG', 'ID_PAIS', 'CO_PAIS'], axis=1, inplace=True)

# Remover campos de descrição dos dados desmembrados.
df.drop(['PAC_DSCBO', 'ID_UNIDADE', 'ID_MUNICIP', 'ID_MN_RESI', 'ID_MN_INTE', 'ID_REGIONA', 'ID_RG_RESI', 'ID_RG_INTE'], axis=1, inplace=True)

# Remover campos sem entrada no dicionário.
df.drop(inexistentes_dic, axis=1, inplace=True)

# Remover campos sobre resultado da sorologia para SARS-CoV-2. (O dicionário não contém a descrição dos valores.)
df.drop(sorologia, axis=1, inplace=True)

# Remover campos tipo 'Outro'. (Sem utilidade para macro-análises.)
df.drop(outros, axis=1, inplace=True)

# Remover campos de com somente 3% de dados válidos.
df.drop(['NOSOCOMIAL', 'AVE_SUINO', 'ANTIVIRAL', 'TP_ANTIVIR', 'DT_ANTIVIR', 'TRAT_COV', 'TIPO_TRAT', 'DT_TRT_COV'], axis=1, inplace=True)

# Remover campos vazios.
df.dropna(how='all', axis=1, inplace=True)

CPU times: user 28.9 s, sys: 2.27 s, total: 31.2 s
Wall time: 32 s


In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2314397 entries, 0 to 61486
Columns: 125 entries, DT_NOTIFIC to LOTE_REF2
dtypes: Float32(1), Int32(87), datetime64[ns](25), object(1), string(11)
memory usage: 1.6+ GB


In [33]:
# df.to_csv('/content/PJI410_preprocessados.csv', index=False)

## População estimada em 2021

https://www.ibge.gov.br/cidades-e-estados

In [34]:
%%time

df_populacao = pd.read_csv('https://raw.githubusercontent.com/flohmannjr/PJI410/main/dados/populacao_estimada_2021.csv')

df_populacao['Notificacoes']  = df['SG_UF_NOT'].value_counts().sort_index().to_list()
df_populacao['NotPor1000Hab'] = df_populacao['Notificacoes'] / (df_populacao['Populacao'] / 1000)
df_populacao['NotMasculino']  = df['SG_UF_NOT'][df['CS_SEXO'] == 1].value_counts().sort_index().to_list()
df_populacao['NotFeminino']   = df['SG_UF_NOT'][df['CS_SEXO'] == 2].value_counts().sort_index().to_list()

CPU times: user 473 ms, sys: 823 µs, total: 474 ms
Wall time: 649 ms


In [35]:
df_populacao[:5]

Unnamed: 0,UF,Nome,Populacao,Notificacoes,NotPor1000Hab,NotMasculino,NotFeminino
0,AC,Acre,906876,6649,7.331763,3568,3081
1,AL,Alagoas,3365351,24797,7.368325,12893,11904
2,AM,Amazonas,4269995,31607,7.402116,16650,14957
3,AP,Amapá,877613,5579,6.357016,3033,2546
4,BA,Bahia,14985284,85864,5.729888,46261,39603


In [36]:
df_populacao.to_csv('/content/PJI410_populacao.csv', index=False)

## Evoluções

In [37]:
%%time

df_evolucao = df[['SG_UF_NOT', 'EVOLUCAO']][df['EVOLUCAO'].isin(EVOLUCOES.keys())].value_counts().sort_index().reset_index()
df_evolucao.columns = ['UF', 'Evolucao', 'Quantidade']
df_evolucao['Por1000Hab'] = None

for _, uf in df_populacao.iterrows():
    for i, ev in df_evolucao[df_evolucao['UF'] == uf['UF']].iterrows():
        df_evolucao.loc[i, 'Por1000Hab'] = ev['Quantidade'] / (uf['Populacao'] / 1000)

CPU times: user 515 ms, sys: 0 ns, total: 515 ms
Wall time: 518 ms


In [38]:
df_evolucao[:5]

Unnamed: 0,UF,Evolucao,Quantidade,Por1000Hab
0,AC,1,4242,4.677596
1,AC,2,1887,2.08077
2,AC,3,79,0.087112
3,AL,1,14621,4.344569
4,AL,2,5327,1.582896


In [39]:
df_evolucao.to_csv('/content/PJI410_evolucao.csv', index=False)

## Evoluções por semana de primeiros sintomas

In [40]:
%%time

df_evolucao_prisin = df[['DT_SIN_PRI', 'EVOLUCAO']][df['EVOLUCAO'].isin(EVOLUCOES.keys())].value_counts().sort_index().reset_index()
df_evolucao_prisin.columns = ['Data', 'Evolucao', 'Quantidade']

for i, ev in df_evolucao_prisin.iterrows():
    df_evolucao_prisin.loc[i, 'Segunda-feira'] = ev['Data'] - np.timedelta64(ev['Data'].dayofweek, 'D')

df_evolucao_prisin = df_evolucao_prisin[['Segunda-feira', 'Evolucao', 'Quantidade']].groupby(by=['Segunda-feira', 'Evolucao']).sum().sort_index().reset_index()

CPU times: user 1.05 s, sys: 5.48 ms, total: 1.05 s
Wall time: 1.09 s


In [41]:
df_evolucao_prisin[:5]

Unnamed: 0,Segunda-feira,Evolucao,Quantidade
0,2020-12-28,1,3285
1,2020-12-28,2,1433
2,2020-12-28,3,93
3,2021-01-04,1,23356
4,2021-01-04,2,10260


In [42]:
df_evolucao_prisin.to_csv('/content/PJI410_evolucao_prisin.csv', index=False)

## Diagnósticos finais

In [43]:
%%time

df_diagnostico = df[['EVOLUCAO', 'CLASSI_FIN']][df['EVOLUCAO'].isin(EVOLUCOES.keys())].value_counts().sort_index().reset_index()
df_diagnostico.columns = ['Evolucao', 'Classificacao', 'Quantidade']

CPU times: user 248 ms, sys: 0 ns, total: 248 ms
Wall time: 263 ms


In [44]:
df_diagnostico[:5]

Unnamed: 0,Evolucao,Classificacao,Quantidade
0,1,1,20544
1,1,2,53053
2,1,3,6655
3,1,4,488757
4,1,5,900844


In [45]:
df_diagnostico.to_csv('/content/PJI410_diagnostico.csv', index=False)

## Óbitos por COVID-19

In [46]:
%%time

df_obitos_covid = df[['SG_UF_NOT']][(df['EVOLUCAO'] == 2) & (df['CLASSI_FIN'] == 5)].value_counts().sort_index().reset_index()
df_obitos_covid.columns = ['UF', 'Quantidade']
df_obitos_covid['Por1000Hab'] = None

for _, uf in df_populacao.iterrows():
    for i, oc in df_obitos_covid[df_obitos_covid['UF'] == uf['UF']].iterrows():
        df_obitos_covid.loc[i, 'Por1000Hab'] = oc['Quantidade'] / (uf['Populacao'] / 1000)

CPU times: user 190 ms, sys: 685 µs, total: 191 ms
Wall time: 213 ms


In [47]:
df_obitos_covid[:5]

Unnamed: 0,UF,Quantidade,Por1000Hab
0,AC,1120,1.235009
1,AL,4021,1.194823
2,AM,7204,1.687121
3,AP,1047,1.193009
4,BA,16066,1.072118


In [48]:
df_obitos_covid.to_csv('/content/PJI410_obitos_covid.csv', index=False)

## Diferença média de dias entre primeiros sintomas e notificação

In [49]:
%%time

df_demora = df[['DT_SIN_PRI', 'DT_NOTIFIC']].sort_values(by=['DT_SIN_PRI', 'DT_NOTIFIC']).copy().reset_index(drop=True)
df_demora['Dias'] = ((df_demora['DT_NOTIFIC'] - df_demora['DT_SIN_PRI']) / np.timedelta64(1, 'D')).astype(int)
df_demora.drop(['DT_NOTIFIC'], axis=1, inplace=True)
df_demora = df_demora.groupby(by=['DT_SIN_PRI']).mean().reset_index()

for i, de in df_demora.iterrows():
    df_demora.loc[i, 'Segunda-feira'] = de['DT_SIN_PRI'] - np.timedelta64(de['DT_SIN_PRI'].dayofweek, 'D')

df_demora.drop(['DT_SIN_PRI'], axis=1, inplace=True)
df_demora = df_demora.groupby(by=['Segunda-feira']).mean().reset_index()

CPU times: user 892 ms, sys: 7.49 ms, total: 900 ms
Wall time: 958 ms


In [50]:
df_demora[:5]

Unnamed: 0,Segunda-feira,Dias
0,2020-12-28,12.89581
1,2021-01-04,12.172168
2,2021-01-11,12.744625
3,2021-01-18,12.643144
4,2021-01-25,13.973033


In [51]:
df_demora.to_csv('/content/PJI410_demora.csv', index=False)

## Média de notificações por semana por raça

In [52]:
%%time

df_raca = df[['DT_NOTIFIC', 'CS_RACA']][df['CS_RACA'].isin(RACAS.keys())].value_counts().sort_index().reset_index()
df_raca.columns = ['Data', 'Raca', 'Quantidade']

for i, da in df_raca.iterrows():
    df_raca.loc[i, 'Segunda-feira'] = da['Data'] - np.timedelta64(da['Data'].dayofweek, 'D')

df_raca.drop(['Data'], axis=1, inplace=True)
df_raca = df_raca.groupby(by=['Segunda-feira', 'Raca']).mean().reset_index()

CPU times: user 1.04 s, sys: 1.74 ms, total: 1.04 s
Wall time: 1.04 s


In [53]:
df_raca[:5]

Unnamed: 0,Segunda-feira,Raca,Quantidade
0,2020-12-28,1,76.0
1,2020-12-28,2,7.0
2,2020-12-28,3,2.0
3,2020-12-28,4,69.0
4,2021-01-04,1,607.285714


In [54]:
df_raca.to_csv('/content/PJI410_raca.csv', index=False)

## Média de notificações por semana por escolaridade

In [55]:
%%time

df_escolaridade = df[['DT_NOTIFIC', 'CS_ESCOL_N']][df['CS_ESCOL_N'].isin(ESCOLARIDADES.keys())].value_counts().sort_index().reset_index()
df_escolaridade.columns = ['Data', 'Escolaridade', 'Quantidade']

for i, da in df_escolaridade.iterrows():
    df_escolaridade.loc[i, 'Segunda-feira'] = da['Data'] - np.timedelta64(da['Data'].dayofweek, 'D')

df_escolaridade.drop(['Data'], axis=1, inplace=True)
df_escolaridade = df_escolaridade.groupby(by=['Segunda-feira', 'Escolaridade']).mean().reset_index()

CPU times: user 961 ms, sys: 4.72 ms, total: 965 ms
Wall time: 970 ms


In [56]:
df_escolaridade[:5]

Unnamed: 0,Segunda-feira,Escolaridade,Quantidade
0,2020-12-28,0,6.0
1,2020-12-28,1,18.0
2,2020-12-28,2,11.0
3,2020-12-28,3,17.0
4,2020-12-28,4,4.0


In [57]:
df_escolaridade.to_csv('/content/PJI410_escolaridade.csv', index=False)

## Média de notificações por semana por zona

In [58]:
%%time

df_zona = df[['DT_NOTIFIC', 'CS_ZONA']][df['CS_ZONA'].isin(ZONAS.keys())].value_counts().sort_index().reset_index()
df_zona.columns = ['Data', 'Zona', 'Quantidade']

for i, da in df_zona.iterrows():
    df_zona.loc[i, 'Segunda-feira'] = da['Data'] - np.timedelta64(da['Data'].dayofweek, 'D')

df_zona.drop(['Data'], axis=1, inplace=True)
df_zona = df_zona.groupby(by=['Segunda-feira', 'Zona']).mean().reset_index()

CPU times: user 706 ms, sys: 2.68 ms, total: 709 ms
Wall time: 716 ms


In [59]:
df_zona[:5]

Unnamed: 0,Segunda-feira,Zona,Quantidade
0,2020-12-28,1,150.0
1,2020-12-28,2,5.0
2,2021-01-04,1,1210.428571
3,2021-01-04,2,72.0
4,2021-01-04,3,6.571429


In [60]:
df_zona.to_csv('/content/PJI410_zona.csv', index=False)

## Média de dias hospitalizado ou internado em UTI

In [61]:
# Pacientes que foram internados em UTI mas é ignorado se foram hospitalizados.

df[['HOSPITAL', 'UTI']][(df['UTI'] == 1) & (df['HOSPITAL'] != 1)].value_counts()

HOSPITAL  UTI
9         1      5379
dtype: int64

In [62]:
%%time

# Hospitalizados com data de internação e data de evolução (alta ou óbito).
df_internacao = df[['DT_NOTIFIC', 'DT_INTERNA', 'DT_EVOLUCA']][(df['HOSPITAL'] == 1) & (~df['DT_INTERNA'].isna()) & (~df['DT_EVOLUCA'].isna())].sort_values(by=['DT_NOTIFIC', 'DT_INTERNA', 'DT_EVOLUCA']).copy().reset_index(drop=True)

# Quantidade de dias hospitalizado. É adicionado um dia, pois tanto o dia de internação quanto o dia de evolução devem ser considerados.
df_internacao['Dias'] = (((df_internacao['DT_EVOLUCA'] - df_internacao['DT_INTERNA']) / np.timedelta64(1, 'D')) + 1).astype(int)

df_internacao.drop(['DT_INTERNA', 'DT_EVOLUCA'], axis=1, inplace=True)
df_internacao = df_internacao.groupby(by=['DT_NOTIFIC']).mean().reset_index()

for i, ho in df_internacao.iterrows():
    df_internacao.loc[i, 'Segunda-feira'] = ho['DT_NOTIFIC'] - np.timedelta64(ho['DT_NOTIFIC'].dayofweek, 'D')

df_internacao.drop(['DT_NOTIFIC'], axis=1, inplace=True)
df_internacao = df_internacao.groupby(by=['Segunda-feira']).mean().reset_index()

CPU times: user 731 ms, sys: 811 µs, total: 732 ms
Wall time: 734 ms


In [63]:
df_internacao[:5]

Unnamed: 0,Segunda-feira,Dias
0,2020-12-28,15.140845
1,2021-01-04,13.343776
2,2021-01-11,12.943433
3,2021-01-18,13.009689
4,2021-01-25,12.6056


In [64]:
df_internacao.to_csv('/content/PJI410_internacao.csv', index=False)

In [65]:
%%time

# Internados em UTI com data de entrada e data de saída.
df_uti = df[['DT_NOTIFIC', 'DT_ENTUTI', 'DT_SAIDUTI']][(df['HOSPITAL'] == 1) & (~df['DT_ENTUTI'].isna()) & (~df['DT_SAIDUTI'].isna())].sort_values(by=['DT_NOTIFIC', 'DT_ENTUTI', 'DT_SAIDUTI']).copy().reset_index(drop=True)

# Quantidade de dias internado. É adicionado um dia, pois tanto o dia de entrada quanto o dia de saída devem ser considerados.
df_uti['Dias'] = (((df_uti['DT_SAIDUTI'] - df_uti['DT_ENTUTI']) / np.timedelta64(1, 'D')) + 1).astype(int)

df_uti.drop(['DT_ENTUTI', 'DT_SAIDUTI'], axis=1, inplace=True)
df_uti = df_uti.groupby(by=['DT_NOTIFIC']).mean().reset_index()

for i, ho in df_uti.iterrows():
    df_uti.loc[i, 'Segunda-feira'] = ho['DT_NOTIFIC'] - np.timedelta64(ho['DT_NOTIFIC'].dayofweek, 'D')

df_uti.drop(['DT_NOTIFIC'], axis=1, inplace=True)
df_uti = df_uti.groupby(by=['Segunda-feira']).mean().reset_index()

CPU times: user 331 ms, sys: 0 ns, total: 331 ms
Wall time: 332 ms


In [66]:
df_uti[:5]

Unnamed: 0,Segunda-feira,Dias
0,2020-12-28,15.08
1,2021-01-04,11.030828
2,2021-01-11,12.468667
3,2021-01-18,12.454994
4,2021-01-25,12.23801


In [67]:
df_uti.to_csv('/content/PJI410_uti.csv', index=False)

## Classificação sobre sintomas e fatores de risco, com EVOLUCAO como atributo alvo

In [68]:
%%time

campos  = ['FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO', 'DIARREIA', 'VOMITO',
           'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA', 'OUTRO_SIN', 'PUERPERA', 'CARDIOPATI',
           'HEMATOLOGI', 'SIND_DOWN', 'HEPATICA', 'ASMA', 'DIABETES', 'NEUROLOGIC', 'PNEUMOPATI',
           'IMUNODEPRE', 'RENAL', 'OBESIDADE', 'OUT_MORBI', 'EVOLUCAO']

filtros = [df[c].isin([1, 2]) for c in campos]  # Lista de filtros.
filtro  = np.vstack(filtros).all(axis=0)        # Combina os resultados dos filtros em um único array.

df_sintomas = df[campos][filtro].replace({2: 0}).astype('int').reset_index(drop=True)

CPU times: user 2.37 s, sys: 703 ms, total: 3.07 s
Wall time: 3.08 s


In [69]:
with pd.option_context('display.max_columns', None):
    display(df_sintomas[:5])

Unnamed: 0,FEBRE,TOSSE,GARGANTA,DISPNEIA,DESC_RESP,SATURACAO,DIARREIA,VOMITO,DOR_ABD,FADIGA,PERD_OLFT,PERD_PALA,OUTRO_SIN,PUERPERA,CARDIOPATI,HEMATOLOGI,SIND_DOWN,HEPATICA,ASMA,DIABETES,NEUROLOGIC,PNEUMOPATI,IMUNODEPRE,RENAL,OBESIDADE,OUT_MORBI,EVOLUCAO
0,1,1,1,1,1,1,0,0,0,1,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,1,0
1,1,1,0,1,1,1,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1
2,1,1,0,1,0,0,0,1,1,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1
3,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1,1,0,0,0,0,0,0
4,0,0,0,1,1,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,1


In [70]:
df_sintomas.to_csv('/content/PJI410_sintomas.zip', index=False)

## Classificação sobre sintomas e fatores de risco, com CLASSI_FIN = 5 como atributo alvo

In [71]:
# %%time

# campos = ['FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO', 'DIARREIA', 'VOMITO',
#           'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA', 'OUTRO_SIN', 'FATOR_RISC', 'PUERPERA',
#           'CARDIOPATI', 'HEMATOLOGI', 'SIND_DOWN', 'HEPATICA', 'ASMA', 'DIABETES', 'NEUROLOGIC',
#           'PNEUMOPATI', 'IMUNODEPRE', 'RENAL', 'OBESIDADE', 'OUT_MORBI', 'CLASSI_FIN']

# filtros = [df[c].isin([1, 2]) for c in campos[:-1]]
# filtros.append(df['CLASSI_FIN'].isin(DIAGNOSTICOS.keys()))

# filtro = np.vstack(filtros).all(axis=0)

# df_sintomas_covid = df[campos][filtro].replace({2: 0}).astype('int').reset_index(drop=True)
# df_sintomas_covid['CLASSI_FIN'].replace({1: 0, 3: 0, 4: 0, 5: 1}, inplace=True)
# df_sintomas_covid.rename(columns={'CLASSI_FIN': 'COVID'}, inplace=True)

In [72]:
# with pd.option_context('display.max_columns', None):
#     display(df_sintomas_covid[:5])

In [73]:
# df_sintomas_covid.to_csv('/content/PJI410_sintomas_covid.zip', index=False)

## Quantidade de notificações por semana por unidade

In [74]:
# %%time

# df_notificacoes_por_unidade = df[['DT_NOTIFIC', 'SG_UF_NOT', 'CO_MUN_NOT', 'CO_UNI_NOT']].value_counts().sort_index().reset_index()
# df_notificacoes_por_unidade.columns = ['Data', 'UF', 'Municipio', 'Unidade', 'Quantidade']

# for i, nu in df_notificacoes_por_unidade.iterrows():
#     df_notificacoes_por_unidade.loc[i, 'Segunda-feira'] = nu['Data'] - np.timedelta64(nu['Data'].dayofweek, 'D')

# df_notificacoes_por_unidade.drop(['Data'], axis=1, inplace=True)
# df_notificacoes_por_unidade = df_notificacoes_por_unidade.groupby(by=['Segunda-feira', 'UF', 'Municipio', 'Unidade']).sum().reset_index()

In [75]:
# df_notificacoes_por_unidade[:5]

In [76]:
# df_notificacoes_por_unidade.to_csv('/content/PJI410_notificacoes_por_unidade.zip', index=False)

## Quantidade de notificações por semana por município

In [77]:
%%time

df_notificacoes_por_municipio = df[['DT_NOTIFIC', 'SG_UF_NOT', 'CO_MUN_NOT']].value_counts().sort_index().reset_index()
df_notificacoes_por_municipio.columns = ['Data', 'UF_Codigo', 'Municipio_Codigo', 'Quantidade']

for i, nm in df_notificacoes_por_municipio.iterrows():
    df_notificacoes_por_municipio.loc[i, 'Segunda-feira']  = nm['Data'] - np.timedelta64(nm['Data'].dayofweek, 'D')
    df_notificacoes_por_municipio.loc[i, 'UF_Nome']        = df_populacao['Nome'][df_populacao['UF'] == nm['UF_Codigo']].values[0]
    df_notificacoes_por_municipio.loc[i, 'Municipio_Nome'] = df_municipios['Municipio'][df_municipios['Codigo'] == nm['Municipio_Codigo']].values[0]

df_notificacoes_por_municipio.drop(['Data'], axis=1, inplace=True)
df_notificacoes_por_municipio = df_notificacoes_por_municipio.groupby(by=['Segunda-feira', 'UF_Codigo', 'UF_Nome', 'Municipio_Codigo', 'Municipio_Nome']).sum().reset_index()

CPU times: user 7min 24s, sys: 2.25 s, total: 7min 27s
Wall time: 7min 32s


In [78]:
df_notificacoes_por_municipio[:5]

Unnamed: 0,Segunda-feira,UF_Codigo,UF_Nome,Municipio_Codigo,Municipio_Nome,Quantidade
0,2020-12-28,AL,Alagoas,270915,TEOTONIO VILELA,1
1,2020-12-28,AM,Amazonas,130260,MANAUS,4
2,2020-12-28,AM,Amazonas,130290,MAUES,1
3,2020-12-28,BA,Bahia,290130,ANDARAI,1
4,2020-12-28,BA,Bahia,290630,CANAVIEIRAS,1


In [79]:
df_notificacoes_por_municipio.to_csv('/content/PJI410_notificacoes_por_municipio.csv', index=False)

## Quantidade de notificações por dia da semana

In [80]:
dias = {0: 'Segunda', 1: 'Terça', 2: 'Quarta', 3: 'Quinta', 4: 'Sexta', 5: 'Sábado', 6: 'Domingo'}

df['DT_NOTIFIC'].groupby(df['DT_NOTIFIC'].dt.weekday).count().rename(index=dias)

DT_NOTIFIC
Segunda    452400
Terça      384286
Quarta     371284
Quinta     361236
Sexta      342166
Sábado     206547
Domingo    196478
Name: DT_NOTIFIC, dtype: int64

## Presença de sintomas em notificações por semana

In [81]:
%%time

campos = ['DT_NOTIFIC', 'FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO',
          'DIARREIA', 'VOMITO', 'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA', 'OUTRO_SIN']

filtros = [df[c].isin([1, 2]) for c in campos[1:]]

filtro = np.vstack(filtros).all(axis=0)

df_sintomas_semana = df[campos][filtro].reset_index(drop=True)

df_sintomas_semana[campos[1:]] = df_sintomas_semana[campos[1:]].replace({2: 0}).astype('int')

df_sintomas_semana = df_sintomas_semana.groupby(['DT_NOTIFIC']).sum().reset_index()

df_sintomas_semana['QUANTIDADE'] = list(df['DT_NOTIFIC'][df['DT_NOTIFIC'].isin(df_sintomas_semana['DT_NOTIFIC'])].value_counts().sort_index())

for i, ss in df_sintomas_semana.iterrows():
    df_sintomas_semana.loc[i, 'Segunda-feira'] = ss['DT_NOTIFIC'] - np.timedelta64(ss['DT_NOTIFIC'].dayofweek, 'D')

df_sintomas_semana.drop(['DT_NOTIFIC'], axis=1, inplace=True)

df_sintomas_semana = df_sintomas_semana.groupby(by=['Segunda-feira']).sum().reset_index()

for campo in campos[1:]:
    df_sintomas_semana[campo] = df_sintomas_semana[campo] / df_sintomas_semana['QUANTIDADE']

df_sintomas_semana.drop(['QUANTIDADE'], axis=1, inplace=True)

campos = ['Segunda-feira', 'Febre', 'Tosse', 'Dor de Garganta', 'Dispneia', 'Desconforto Respiratório', 'Saturação O2 < 95%',
          'Diarreia', 'Vômito', 'Dor Abdominal', 'Fadiga', 'Perda do Olfato', 'Perda do Paladar', 'Outros Sintomas']

df_sintomas_semana.columns = campos

df_sintomas_semana = df_sintomas_semana.melt(id_vars='Segunda-feira', var_name='Sintoma', value_name='Presença')

df_sintomas_semana['Sintoma'] = pd.Categorical(df_sintomas_semana['Sintoma'], campos[1:])

df_sintomas_semana = df_sintomas_semana.sort_values(['Segunda-feira', 'Sintoma']).reset_index(drop=True)

CPU times: user 1.71 s, sys: 3.91 ms, total: 1.71 s
Wall time: 1.71 s


In [82]:
df_sintomas_semana[:5]

Unnamed: 0,Segunda-feira,Sintoma,Presença
0,2020-12-28,Febre,0.172973
1,2020-12-28,Tosse,0.227027
2,2020-12-28,Dor de Garganta,0.054054
3,2020-12-28,Dispneia,0.259459
4,2020-12-28,Desconforto Respiratório,0.248649


In [83]:
df_sintomas_semana.to_csv('/content/PJI410_sintomas_semana.csv', index=False)

## Proporção de curas por óbitos por COVID-19

In [84]:
%%time

df_cura_obito = df[['DT_NOTIFIC', 'EVOLUCAO']][(df['EVOLUCAO'].isin([1, 2])) & (df['CLASSI_FIN'] == 5)].value_counts().sort_index().reset_index()
df_cura_obito.columns = ['Data', 'Evolucao', 'Quantidade']

for i, co in df_cura_obito.iterrows():
    df_cura_obito.loc[i, 'Segunda-feira'] = co['Data'] - np.timedelta64(co['Data'].dayofweek, 'D')

df_cura_obito.drop(['Data'], axis=1, inplace=True)

df_cura_obito = df_cura_obito.groupby(by=['Segunda-feira', 'Evolucao']).sum()
df_cura_obito = df_cura_obito.pivot_table(index='Segunda-feira', columns='Evolucao', values='Quantidade').reset_index()

df_cura_obito['Proporcao'] = df_cura_obito[1] / df_cura_obito[2]

df_cura_obito.drop([1, 2], axis=1, inplace=True)

CPU times: user 495 ms, sys: 177 µs, total: 495 ms
Wall time: 493 ms


In [85]:
df_cura_obito[:5]

Evolucao,Segunda-feira,Proporcao
0,2020-12-28,0.833333
1,2021-01-04,1.421175
2,2021-01-11,1.926578
3,2021-01-18,2.060171
4,2021-01-25,2.040395


In [86]:
df_cura_obito.to_csv('/content/PJI410_cura_obito.csv', index=False)

## Locais

In [87]:
# %%time

# df_locais = df[['SG_UF_NOT', 'CO_MUN_NOT']].drop_duplicates().sort_values(by=['SG_UF_NOT', 'CO_MUN_NOT']).reset_index(drop=True)
# df_locais.columns = ['UF_Codigo', 'Municipio_Codigo']

# for i, lo in df_locais.iterrows():
#     df_locais.loc[i, 'UF_Nome']        = df_populacao['Nome'][df_populacao['UF'] == lo['UF_Codigo']].values[0]
#     df_locais.loc[i, 'Municipio_Nome'] = df_municipios['Municipio'][df_municipios['Codigo'] == lo['Municipio_Codigo']].values[0]

# df_locais = df_locais.reindex(columns=['UF_Codigo', 'UF_Nome', 'Municipio_Codigo', 'Municipio_Nome'])

In [88]:
# df_locais[:5]

In [89]:
# df_locais.to_csv('/content/PJI410_locais.csv', index=False)

## Diferença média de dias entre primeiros sintomas e notificação por município

In [90]:
# %%time

# df_demora_por_municipio = df[['DT_SIN_PRI', 'DT_NOTIFIC', 'SG_UF_NOT', 'CO_MUN_NOT']].sort_values(by=['DT_SIN_PRI', 'DT_NOTIFIC', 'SG_UF_NOT', 'CO_MUN_NOT']).copy().reset_index(drop=True)
# df_demora_por_municipio['Dias'] = ((df_demora_por_municipio['DT_NOTIFIC'] - df_demora_por_municipio['DT_SIN_PRI']) / np.timedelta64(1, 'D')).astype(int)
# df_demora_por_municipio.drop(['DT_NOTIFIC'], axis=1, inplace=True)
# df_demora_por_municipio = df_demora_por_municipio.groupby(by=['DT_SIN_PRI', 'SG_UF_NOT', 'CO_MUN_NOT']).mean().reset_index()

# for i, de in df_demora_por_municipio.iterrows():
#     df_demora_por_municipio.loc[i, 'Segunda-feira'] = de['DT_SIN_PRI'] - np.timedelta64(de['DT_SIN_PRI'].dayofweek, 'D')

# df_demora_por_municipio.drop(['DT_SIN_PRI'], axis=1, inplace=True)
# df_demora_por_municipio = df_demora_por_municipio.groupby(by=['Segunda-feira', 'SG_UF_NOT', 'CO_MUN_NOT']).mean().reset_index()
# df_demora_por_municipio.columns = ['Segunda-feira', 'UF_Codigo', 'Municipio_Codigo', 'Dias']

In [91]:
# df_demora_por_municipio[:5]

In [92]:
# df_demora_por_municipio.to_csv('/content/PJI410_demora_por_municipio.csv', index=False)

## Evoluções por semana de primeiros sintomas por município

In [93]:
# %%time

# df_evolucao_prisin_por_municipio = df[['DT_SIN_PRI', 'SG_UF_NOT', 'CO_MUN_NOT', 'EVOLUCAO']][df['EVOLUCAO'].isin(EVOLUCOES.keys())].value_counts().sort_index().reset_index()
# df_evolucao_prisin_por_municipio.columns = ['Data', 'UF_Codigo', 'Municipio_Codigo', 'Evolucao', 'Quantidade']

# for i, ev in df_evolucao_prisin_por_municipio.iterrows():
#     df_evolucao_prisin_por_municipio.loc[i, 'Segunda-feira'] = ev['Data'] - np.timedelta64(ev['Data'].dayofweek, 'D')

# df_evolucao_prisin_por_municipio.drop(['Data'], axis=1, inplace=True)
# df_evolucao_prisin_por_municipio = df_evolucao_prisin_por_municipio.groupby(by=['Segunda-feira', 'UF_Codigo', 'Municipio_Codigo', 'Evolucao']).sum().sort_index().reset_index()

In [94]:
# df_evolucao_prisin_por_municipio[:5]

In [95]:
# df_evolucao_prisin_por_municipio.to_csv('/content/PJI410_evolucao_prisin_por_municipio.csv', index=False)

## Presença de sintomas em notificações por semana por município

In [96]:
# %%time

# campos = ['DT_NOTIFIC', 'SG_UF_NOT', 'CO_MUN_NOT',
#           'FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA', 'DESC_RESP', 'SATURACAO', 'DIARREIA',
#           'VOMITO', 'DOR_ABD', 'FADIGA', 'PERD_OLFT', 'PERD_PALA', 'OUTRO_SIN']

# filtros = [df[c].isin([1, 2]) for c in campos[3:]]

# filtro = np.vstack(filtros).all(axis=0)

# df_sintomas_semana_por_municipio = df[campos][filtro].reset_index(drop=True)

# df_sintomas_semana_por_municipio[campos[3:]] = df_sintomas_semana_por_municipio[campos[3:]].replace({2: 0}).astype('int')

# df_sintomas_semana_por_municipio = df_sintomas_semana_por_municipio.groupby(campos[:3]).sum().reset_index()

# df_sintomas_semana_por_municipio['QUANTIDADE'] = list(df[campos[:3]][df.set_index(campos[:3]).index.isin(df_sintomas_semana_por_municipio.set_index(campos[:3]).index)].value_counts().sort_index())

# for i, ss in df_sintomas_semana_por_municipio.iterrows():
#     df_sintomas_semana_por_municipio.loc[i, 'Segunda-feira'] = ss['DT_NOTIFIC'] - np.timedelta64(ss['DT_NOTIFIC'].dayofweek, 'D')

# df_sintomas_semana_por_municipio.drop(['DT_NOTIFIC'], axis=1, inplace=True)

# df_sintomas_semana_por_municipio = df_sintomas_semana_por_municipio.groupby(by=['Segunda-feira', 'SG_UF_NOT', 'CO_MUN_NOT']).sum().reset_index()

# for campo in campos[3:]:
#     df_sintomas_semana_por_municipio[campo] = df_sintomas_semana_por_municipio[campo] / df_sintomas_semana_por_municipio['QUANTIDADE']

# df_sintomas_semana_por_municipio.drop(['QUANTIDADE'], axis=1, inplace=True)

# campos = ['Segunda-feira', 'UF_Codigo', 'Municipio_Codigo', 'Febre', 'Tosse', 'Dor de Garganta', 'Dispneia', 'Desconforto Respiratório',
#           'Saturação O2 < 95%', 'Diarreia', 'Vômito', 'Dor Abdominal', 'Fadiga', 'Perda do Olfato', 'Perda do Paladar', 'Outros Sintomas']

# df_sintomas_semana_por_municipio.columns = campos

# df_sintomas_semana_por_municipio = df_sintomas_semana_por_municipio.melt(id_vars=['Segunda-feira', 'UF_Codigo', 'Municipio_Codigo'], var_name='Sintoma', value_name='Presença')

# df_sintomas_semana_por_municipio['Sintoma'] = pd.Categorical(df_sintomas_semana_por_municipio['Sintoma'], campos[3:])

# df_sintomas_semana_por_municipio = df_sintomas_semana_por_municipio.sort_values(['Segunda-feira', 'UF_Codigo', 'Municipio_Codigo', 'Sintoma']).reset_index(drop=True)

In [97]:
# df_sintomas_semana_por_municipio[:5]

In [98]:
# df_sintomas_semana_por_municipio.to_csv('/content/PJI410_sintomas_semana_por_municipio.zip', index=False)

## Proporção de curas por óbitos por COVID-19 por município

In [99]:
# %%time

# df_cura_obito_por_municipio = df[['DT_NOTIFIC', 'SG_UF_NOT', 'CO_MUN_NOT', 'EVOLUCAO']][(df['EVOLUCAO'].isin([1, 2])) & (df['CLASSI_FIN'] == 5)].value_counts().sort_index().reset_index()
# df_cura_obito_por_municipio.columns = ['Data', 'UF_Codigo', 'Municipio_Codigo', 'Evolucao', 'Quantidade']

# for i, co in df_cura_obito_por_municipio.iterrows():
#     df_cura_obito_por_municipio.loc[i, 'Segunda-feira'] = co['Data'] - np.timedelta64(co['Data'].dayofweek, 'D')

# df_cura_obito_por_municipio.drop(['Data'], axis=1, inplace=True)

# df_cura_obito_por_municipio = df_cura_obito_por_municipio.groupby(by=['Segunda-feira', 'UF_Codigo', 'Municipio_Codigo', 'Evolucao']).sum()
# df_cura_obito_por_municipio = df_cura_obito_por_municipio.pivot_table(index=['Segunda-feira', 'UF_Codigo', 'Municipio_Codigo'], columns='Evolucao', values='Quantidade').reset_index()

# df_cura_obito_por_municipio = df_cura_obito_por_municipio.fillna(0)

# for i, co in df_cura_obito_por_municipio.iterrows():
#     df_cura_obito_por_municipio.loc[i, 'Proporcao'] = (co[1] / co[2]) if (co[2] != 0) else co[1]

# df_cura_obito_por_municipio.drop([1, 2], axis=1, inplace=True)

In [100]:
# df_cura_obito_por_municipio[:5]

In [101]:
# df_cura_obito_por_municipio.to_csv('/content/PJI410_cura_obito_por_municipio.csv', index=False)

## Anotações

In [102]:
# # Campos relativos à vacina contra COVID-19.

# campos = ['VACINA_COV', 'FNT_IN_COV',
#           'DOSE_1_COV', 'FAB_COV_1', 'LOTE_1_COV',
#           'DOSE_2_COV', 'FAB_COV_2', 'LOTE_2_COV',
#           'DOSE_REF', 'FAB_COVREF', 'LOTE_REF',
#           'DOSE_2REF', 'FAB_COVRF2', 'LOTE_REF2']

# df[campos].info(show_counts=True)

In [103]:
# PCR_RESUL - Resultado do teste de RT-PCR / outro método por Biologia Molecular.
# 1 - Detectável
# 2 - Não detectável
# 3 - Inconclusivo
# 4 - Não realizado
# 5 - Aguardando resultado
# 9 - Ignorado

# df['PCR_RESUL'].value_counts(dropna=False).sort_index()

In [104]:
# RES_AN - Resultado do Teste Antigênico

# 1 - Positivo
# 2 - Negativo
# 3 - Inconclusivo
# 4 - Não realizado
# 5 - Aguardando resultado
# 9 - Ignorado

# df['RES_AN'].value_counts(dropna=False).sort_index()

In [105]:
with pd.option_context('display.max_seq_items', None):
    display(df.columns)

Index(['DT_NOTIFIC', 'SEM_NOT', 'DT_SIN_PRI', 'SEM_PRI', 'SG_UF_NOT',
       'CO_REGIONA', 'CO_MUN_NOT', 'CO_UNI_NOT', 'CS_SEXO', 'DT_NASC',
       'CS_GESTANT', 'CS_RACA', 'CS_ESCOL_N', 'SG_UF', 'CO_RG_RESI',
       'CO_MUN_RES', 'CS_ZONA', 'FEBRE', 'TOSSE', 'GARGANTA', 'DISPNEIA',
       'DESC_RESP', 'SATURACAO', 'DIARREIA', 'VOMITO', 'OUTRO_SIN', 'PUERPERA',
       'FATOR_RISC', 'CARDIOPATI', 'HEMATOLOGI', 'SIND_DOWN', 'HEPATICA',
       'ASMA', 'DIABETES', 'NEUROLOGIC', 'PNEUMOPATI', 'IMUNODEPRE', 'RENAL',
       'OBESIDADE', 'OBES_IMC', 'OUT_MORBI', 'VACINA', 'DT_UT_DOSE', 'MAE_VAC',
       'DT_VAC_MAE', 'M_AMAMENTA', 'DT_DOSEUNI', 'DT_1_DOSE', 'DT_2_DOSE',
       'HOSPITAL', 'DT_INTERNA', 'SG_UF_INTE', 'CO_RG_INTE', 'CO_MU_INTE',
       'UTI', 'DT_ENTUTI', 'DT_SAIDUTI', 'SUPORT_VEN', 'RAIOX_RES', 'DT_RAIOX',
       'AMOSTRA', 'DT_COLETA', 'TP_AMOSTRA', 'PCR_RESUL', 'DT_PCR',
       'POS_PCRFLU', 'TP_FLU_PCR', 'PCR_FLUASU', 'PCR_FLUBLI', 'POS_PCROUT',
       'PCR_VSR', 'PCR_PARA1'