# Objetivo

O projeto tem como objetivo fazer uma análise nos dados disponibilizados pelo Ministério da Saúde a respeito dos casos de Síndrome Respiratória Aguda Grave (SARS) hospitalizados no período de 2021 até julho de 2024. Vale ressaltar que estão inclusos dados a respeito dos casos de COVID-19.

Os conjuntos dos dados bem como um PDF contendo a descrição dos mesmos pode ser acessado através do link: https://dados.gov.br/dados/conjuntos-dados/srag-2021-e-2022

# Imports

In [33]:
import pandas as pd
import matplotlib as plt

# Inicializando Datasets

In [34]:
df_2021 = pd.read_csv("SRAG 2021 - 01-05.csv", delimiter = ';')
df_2022 = pd.read_csv("SRAG 2022 - 03-04.csv", delimiter = ';')
df_2023 = pd.read_csv("SRAG 2023 - 05-08.csv", delimiter = ';')
df_2024 = pd.read_csv("SRAG 2024 - 05-08.csv", delimiter = ';')

  df_2021 = pd.read_csv("SRAG 2021 - 01-05.csv", delimiter = ';')
  df_2022 = pd.read_csv("SRAG 2022 - 03-04.csv", delimiter = ';')
  df_2023 = pd.read_csv("SRAG 2023 - 05-08.csv", delimiter = ';')
  df_2024 = pd.read_csv("SRAG 2024 - 05-08.csv", delimiter = ';')


# Tratando Dados

In [35]:
print(f"Shape dataset 2021: {df_2021.shape}")
print(f"Shape dataset 2022: {df_2022.shape}")
print(f"Shape dataset 2023: {df_2023.shape}")
print(f"Shape dataset 2024: {df_2024.shape}")

Shape dataset 2021: (1731290, 166)
Shape dataset 2022: (557476, 173)
Shape dataset 2023: (279192, 190)
Shape dataset 2024: (161525, 191)


In [36]:
def drop_cols(dataframe):
    colunas_df = dataframe.columns
    colunas_drop = ["DT_NOTIFIC", "DT_SIN_PRI", "TEM_CPF", "NU_CPF", "ESTRANG", "NU_CNS", "NM_PACIENT", "DT_NASC", "CS_ETINIA", "TP_POV_CT", "PAC_COCBO", "PAC_DSCBO", 
                    "NM_MAE_PAC", "NU_CEP", "NM_BAIRRO", "NM_LOGRADO", "NU_NUMERO", "NM_COMPLEM", "NU_DDD_TEL", "NU_TELEFON", "OBES_IMC", "FNT_IN_COV", "DT_UT_DOSE", 
                    "DT_VAC_MAE", "OUT_ANTIV", "DT_ANTIVIR", "OUT_TRAT", "DT_TRT_COV", "DT_INTERNA", "RAIOX_OUT", "DT_RAIOX", "TOMO_OUT", "DT_TOMO", "DT_COLETA", "OUT_AMOST", 
                    "REQUI_GAL", "DT_RES_AN", "CO_LAB_AN", "DT_PCR", "FLUASU_OUT", "FLUBLI_OUT", "DS_PCR_OUT", "DT_CO_SOR", "OUT_SOR", "SOR_OUT", "DT_RES", "CLASSI_OUT", 
                    "DT_EVOLUCA", "DT_ENCERRA", "NU_DO", "OBSERVA", "NOME_PROF", "REG_PROF", "DT_DIGITA", "COD_IDADE", "CO_REGIONA", "CO_MUN_NOT", "CO_UNI_NOT", "CO_PAIS", 
                    "CO_RG_RESI", "CO_MUN_RES", "CO_RG_INTE", "CO_MU_INTE", "LAB_PR_COV", "DT_RT_VGM", "DT_VGM", "CO_PS_VGM", "LO_PS_VGM", "SURTO_SG"]
    
    drops = [] 
    # Algumas das colunas que queremos remover podem não estar no dataframe, então criamos um outro array para armazer as que estão em ambas as listas (colunas_df e colunas_drop) 
    # para removê-las de uma única vez
    
    for coluna in colunas_df:
        if coluna in colunas_drop:
            drops.append(coluna)

    dataframe = dataframe.drop(drops, axis = 1)

    return dataframe

In [37]:
df_2021_t = drop_cols(df_2021)
df_2022_t = drop_cols(df_2022)
df_2023_t = drop_cols(df_2023)
df_2024_t = drop_cols(df_2024)

In [38]:
del df_2021
del df_2022
del df_2023
del df_2024

In [39]:
print(f"Shape dataset 2021 tratado: {df_2021_t.shape}")
print(f"Shape dataset 2022 tratado: {df_2022_t.shape}")
print(f"Shape dataset 2023 tratado: {df_2023_t.shape}")
print(f"Shape dataset 2024 tratado: {df_2024_t.shape}")

Shape dataset 2021 tratado: (1731290, 119)
Shape dataset 2022 tratado: (557476, 124)
Shape dataset 2023 tratado: (279192, 141)
Shape dataset 2024 tratado: (161525, 142)


Os dataframes seguem sem ter o mesmo número de colunas pelo fato de que algumas colunas são a respeito de informações que não existiam naquele ano, por exemplo, o dataframe de 2022 passa a ter como a data que o paciente recebeu a 2a dose de reforço contra a COVID-19.

Dataframes de anos posteriores contém todas as colunas presentes em dataframes de anos anteriores.

# Explorando datasets separadamente

Nessa etapa irei analisar se existe alguma coluna que não estava marcada no dicionário de dados ou se as colunas estão com outro nome, avaliando novamente se é possível limpar mais dados.

## Dados 2021

Passarei as colunas do dataset registradas pelo código a seguir para o Excel para continuar com a organização dos dados, usando procv é possível ver as colunas que mantiveram o mesmo nome, as que retornarem #N/D não foram encontradas na tabela original (referente ao dicionário de dados) sendo assim avaliadas individualmente nessa etapa.

In [40]:
for coluna in df_2021_t.columns:
    print(coluna)

SEM_NOT
SEM_PRI
SG_UF_NOT
ID_REGIONA
ID_MUNICIP
ID_UNIDADE
CS_SEXO
NU_IDADE_N
TP_IDADE
CS_GESTANT
CS_RACA
CS_ESCOL_N
ID_PAIS
SG_UF
ID_RG_RESI
ID_MN_RESI
CS_ZONA
NOSOCOMIAL
AVE_SUINO
FEBRE
TOSSE
GARGANTA
DISPNEIA
DESC_RESP
SATURACAO
DIARREIA
VOMITO
OUTRO_SIN
OUTRO_DES
PUERPERA
FATOR_RISC
CARDIOPATI
HEMATOLOGI
SIND_DOWN
HEPATICA
ASMA
DIABETES
NEUROLOGIC
PNEUMOPATI
IMUNODEPRE
RENAL
OBESIDADE
OUT_MORBI
MORB_DESC
VACINA
MAE_VAC
M_AMAMENTA
DT_DOSEUNI
DT_1_DOSE
DT_2_DOSE
ANTIVIRAL
TP_ANTIVIR
HOSPITAL
SG_UF_INTE
ID_RG_INTE
ID_MN_INTE
UTI
DT_ENTUTI
DT_SAIDUTI
SUPORT_VEN
RAIOX_RES
AMOSTRA
TP_AMOSTRA
PCR_RESUL
POS_PCRFLU
TP_FLU_PCR
PCR_FLUASU
PCR_FLUBLI
POS_PCROUT
PCR_VSR
PCR_PARA1
PCR_PARA2
PCR_PARA3
PCR_PARA4
PCR_ADENO
PCR_METAP
PCR_BOCA
PCR_RINO
PCR_OUTRO
CLASSI_FIN
CRITERIO
EVOLUCAO
HISTO_VGM
PAIS_VGM
PCR_SARS2
OUT_ANIM
DOR_ABD
FADIGA
PERD_OLFT
PERD_PALA
TOMO_RES
TP_TES_AN
RES_AN
POS_AN_FLU
TP_FLU_AN
POS_AN_OUT
AN_SARS2
AN_VSR
AN_PARA1
AN_PARA2
AN_PARA3
AN_ADENO
AN_OUTRO
DS_AN_OUT
TP_AM_SOR
T

In [41]:
df_2021_t.fillna("Não preenchido")

Unnamed: 0,SEM_NOT,SEM_PRI,SG_UF_NOT,ID_REGIONA,ID_MUNICIP,ID_UNIDADE,CS_SEXO,NU_IDADE_N,TP_IDADE,CS_GESTANT,...,VACINA_COV,DOSE_1_COV,DOSE_2_COV,DOSE_REF,FAB_COV_1,FAB_COV_2,FAB_COVREF,LOTE_REF,LOTE_1_COV,LOTE_2_COV
0,1,1,BA,NUCLEO REGIONAL DE SAUDE NORDESTE,ALAGOINHAS,HOSPITAL REGIONAL DANTAS BIAO,M,69,3,6,...,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido
1,1,1,BA,NUCLEO REGIONAL DE SAUDE SUL,ITABUNA,HOSPITAL CALIXTO MIDLEJ FILHO,M,89,3,6,...,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido
2,1,1,PR,02RS METROPOLITANA,CURITIBA,COMPLEXO HOSPITALAR DO TRABALHADOR,F,51,3,5,...,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido
3,1,1,PR,17RS LONDRINA,LONDRINA,HCL HOSPITAL DO CANCER DE LONDRINA,M,57,3,6,...,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido
4,2,1,RS,007 CRS,DOM PEDRITO,HOSPITAL SAO LUIZ,M,81,3,6,...,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1731285,51,50,RJ,Não preenchido,MACAE,PRONTO SOCORRO MUNICIPAL,F,26,3,9,...,1.0,17/08/2021,Não preenchido,Não preenchido,87 - COVID-19 PFIZER - COMIRNATY,Não preenchido,Não preenchido,Não preenchido,FD7222,Não preenchido
1731286,11,9,MS,NRS DE TRES LAGOAS,SANTA RITA DO PARDO,UNIDADE MISTA DE SAUDE NOSSA S PERPETUO SOCORRO,F,47,3,5,...,9.0,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido
1731287,18,17,RJ,Não preenchido,DUQUE DE CAXIAS,UPA SARAPUI,F,60,3,9,...,1.0,07/07/2021,18/09/2021,Não preenchido,88 - COVID-19 JANSSEN - AD26.COV2.S,87 - COVID-19 PFIZER - COMIRNATY,Não preenchido,Não preenchido,211A21A,FF8840
1731288,17,43,SP,GVE XVII CAMPINAS,CAMPINAS,UNIDADE DE PRONTO ATENDIMENTO DR SERGIO AROUCA...,M,1,3,6,...,2.0,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido,Não preenchido
