In [1]:
from utils import data_load
from datatable import dt, f

# Descrição

Dados do Sistema de Informações Hospitalares do SUS (SIHSUS) reunidos pela Plataforma de Ciência de Dados aplicada à Saúde (PCDaS). Os dados foram obtidos junto ao DATASUS (Ministério da Saúde), tratados e enriquecidos seguindo uma metodologia própria de ETL (processo de extração, transformação e carga dos dados) da PCDaS, resultando em um dataset mensal com todos os registros de internações hospitalares contidos no SIHSUS à partir de janeiro de 2008.

A atualização dos dados é realizada pelo DATASUS e a PCDaS extrai os registros mensais referentes aos arquivos `RD_UF_ANO_MÊS.dbc` (Reduzidos de AIH) assim que disponibilizados. As colunas com nomes em MAIÚSCULO representam dados originais advindos do DATASUS e colunas com nomes iniciando em minúsculo representam dados resultantes de transformação ou enriquecimento.

# Filtragens básicas

## Filtro de Colunas

In [2]:
cols_sih = {
  'ano_internacao': 'ano',
  'PROC_REA': 'parto_normal',
  'CNES': 'cnes',
  'def_idade_anos': 'idade',
  'int_codigo_adotado': 'hosp_cod_municipio',
  'res_codigo_adotado': 'cod_municipio',
}

## Filtro de Linhas

In [3]:
def filter_sih(df, cols):
  cols = list(cols.values())[:-1]
  cols = [c for c in cols if c in df.names]
  df_filtered = df[
    (
      (f['ano'] > 2009) & (f['ano'] < 2020)
    ) & (
      (f['idade'] > 9) & (f['idade'] < 50)
    ) & (
      (f['parto_normal'] == 310010039) | (f['parto_normal'] == 411010034)
    ) & (
      ((f['hosp_cod_municipio'] != None) & (f['cod_municipio'] != None))
    ) & (
      (f['cnes'] != None)
    ), cols]
  return df_filtered

# Carregar tabela

In [4]:
# path_zip_sih = input('Qual o caminho para o arquivo zip da base de dados SIHSUS?')
path_zip_sih = '/Volumes/SanDisk/Databases/SIH/SIHSUS.zip'

In [5]:
df_sih = data_load(path_zip_sih, cols_sih, filter_sih)
df_sih

100%|██████████| 4400/4400 [20:32<00:00,  3.57it/s]


Unnamed: 0_level_0,ano,parto_normal,cnes,idade,hosp_cod_municipio,cod_municipio
Unnamed: 0_level_1,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪
0,2010,310010039,2001020,23,120005,120005
1,2010,310010039,2000733,28,120040,120040
2,2010,310010039,2000733,38,120040,120040
3,2010,310010039,2000733,16,120040,120040
4,2010,310010039,2000733,26,120040,120040
5,2010,310010039,2000733,26,120040,120040
6,2010,310010039,2000733,27,120040,120040
7,2010,310010039,2001020,31,120005,120005
8,2010,310010039,2000733,30,120040,120040
9,2010,310010039,2000733,18,120040,120040


100%|██████████| 4400/4400 [20:32<00:00,  3.57it/s]

Total = 23m 40.2s

# Exportar tabela

In [9]:
output_sih = path_zip_sih.replace('SIHSUS.zip', 'sih.jay')
df_sih.to_jay(output_sih)

In [7]:
df_sih = dt.fread(output_sih)
df_sih

Unnamed: 0_level_0,ano,parto_normal,cnes,idade,hosp_cod_municipio,cod_municipio
Unnamed: 0_level_1,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪
0,2010,310010039,2001020,23,120005,120005
1,2010,310010039,2000733,28,120040,120040
2,2010,310010039,2000733,38,120040,120040
3,2010,310010039,2000733,16,120040,120040
4,2010,310010039,2000733,26,120040,120040
5,2010,310010039,2000733,26,120040,120040
6,2010,310010039,2000733,27,120040,120040
7,2010,310010039,2001020,31,120005,120005
8,2010,310010039,2000733,30,120040,120040
9,2010,310010039,2000733,18,120040,120040
