In [1]:
from utils import data_load
from datatable import dt, f, by

# Descrição

Dados do Sistema de Informações Hospitalares do SUS (SIHSUS) reunidos pela Plataforma de Ciência de Dados aplicada à Saúde (PCDaS). Os dados foram obtidos junto ao DATASUS (Ministério da Saúde), tratados e enriquecidos seguindo uma metodologia própria de ETL (processo de extração, transformação e carga dos dados) da PCDaS, resultando em um dataset mensal com todos os registros de internações hospitalares contidos no SIHSUS à partir de janeiro de 2008.

A atualização dos dados é realizada pelo DATASUS e a PCDaS extrai os registros mensais referentes aos arquivos `RD_UF_ANO_MÊS.dbc` (Reduzidos de AIH) assim que disponibilizados. As colunas com nomes em MAIÚSCULO representam dados originais advindos do DATASUS e colunas com nomes iniciando em minúsculo representam dados resultantes de transformação ou enriquecimento.

# Filtragens básicas

## Filtro de Colunas

In [6]:
cols_sih = {
  # Infomações do procedimento:
  'ano_internacao': 'ano',
  'PROC_REA': 'parto_normal',
  'CNES': 'cnes',
  # Infomações da gestante:
  'def_idade_anos': 'idade',
  # Infomações de localidade do hospital de interção:
  'int_codigo_adotado': 'hosp_cod_municipio',
  'int_RSAUDCOD': 'hosp_regiao_saude',
  # Infomações de localidade da residência:
  'res_codigo_adotado': 'cod_municipio', # Armazena o código atribuído ao município de residência atualmente, tratando os casos em que múltiplos códigos tenham sido utilizados para um mesmo município ao longo do tempo
  'res_REGIAO': 'regiao', # Nome da região da unidade da federação de residência
  'res_SIGLA_UF': 'uf', # Sigla da unidade da federação de residência
  'res_CODIGO_UF': 'cod_uf', # Código da UF de residência
  'res_NOME_UF': 'nome_uf', # Nome da unidade da federação de residência
  'res_MUNNOME': 'municipio', # Nome do município de residência
  'res_MUNNOMEX': 'nome_municipio', # Nome do município de residência em maiúsculas e sem acentos
  'res_CAPITAL': 'capital', # Indica (S/N) se o município de residência é capital de UF
  'res_FRONTEIRA': 'fronteira', # Indica (S/N) se o município de residência faz parte da faixa de fronteira (conforme IBGE)
  'res_AMAZONIA': 'amazonia', # Indica (S/N) se o município de residência faz parte da Amazônia Legal (conforme IBGE)
  'res_MSAUDCOD': 'macroregiao_saude', # Código da Macrorregional de Saúde a que o Município de residência pertence
  'res_RSAUDCOD': 'regiao_saude', # Código da Regional de Saúde a que o Município de residência pertence
  'def_regiao_res': 'nome_regiao_saude', # Nome da Regional de Saúde a que o Município de residência pertence
  'res_CSAUDCOD': 'microregiao_saude', # Código da Microrregional de Saúde a que o Município de residência pertence
  'res_LATITUDE': 'latitude', # Latitude do município de residência
  'res_LONGITUDE': 'longitude', # Longitude do município de residência
  'res_ALTITUDE': 'altitude', # Altitude do município de residência
  'res_AREA': 'area', # Área do município de residência
}

## Filtro de Linhas

In [7]:
def filter_sih(df, cols):
  cols = list(cols.values())[:-1]
  cols = [c for c in cols if c in df.names]
  df_filtered = df[
    (
      (f['ano'] > 2009) & (f['ano'] < 2020)
    ) & (
      (f['idade'] > 9) & (f['idade'] < 50)
    ) & (
      (f['parto_normal'] == 310010039) | (f['parto_normal'] == 411010034)
    ) & (
      (f['cnes'] != None)
    ) & (
      (f['uf'] != 'DF')
    ) & (
      (f['regiao_saude'] != None)
    ) & (
      (f['hosp_regiao_saude'] != None)
    ) & (
      (f['cod_municipio'] != None)
    ), cols]
  return df_filtered

# Caminho dos arquivos

In [4]:
path_zip_sih = input('Qual o caminho para o arquivo zip da base de dados SIHSUS?')
# path_zip_sih = '/Volumes/SanDisk/Databases/SIH/SIHSUS.zip'

In [None]:
output_sih = path_zip_sih.replace('zip', 'jay')

# Carregar tabela

In [8]:
df_sih = data_load(path_zip_sih, cols_sih, filter_sih)
df_sih

Unnamed: 0_level_0,ano,parto_normal,cnes,idade,hosp_cod_municipio,hosp_regiao_saude,cod_municipio,regiao,uf,cod_uf,…,microregiao_saude,latitude,longitude,altitude,area
Unnamed: 0_level_1,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,Unnamed: 11_level_1,▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪
0,2010,310010039,2001020,23,120005,1202,120005,Norte,AC,12,…,12900,−10.941,−69.567,239,2875.91
1,2010,310010039,2000733,28,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
2,2010,310010039,2000733,38,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
3,2010,310010039,2000733,16,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
4,2010,310010039,2000733,26,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
5,2010,310010039,2000733,26,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
6,2010,310010039,2000733,27,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
7,2010,310010039,2001020,31,120005,1202,120005,Norte,AC,12,…,12900,−10.941,−69.567,239,2875.91
8,2010,310010039,2000733,30,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
9,2010,310010039,2000733,18,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58


100%|██████████| 4400/4400 [24:04<00:00,  3.05it/s]

Total = 28m 1.3s

# Exportar tabela

In [None]:
df_sih.to_jay(output_sih)

In [None]:
df_sih = dt.fread(output_sih)
df_sih

Unnamed: 0_level_0,ano,parto_normal,cnes,idade,hosp_cod_municipio,hosp_regiao_saude,cod_municipio,regiao,uf,cod_uf,…,microregiao_saude,latitude,longitude,altitude,area
Unnamed: 0_level_1,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,Unnamed: 11_level_1,▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪
0,2010,310010039,2001020,23,120005,1202,120005,Norte,AC,12,…,12900,−10.941,−69.567,239,2875.91
1,2010,310010039,2000733,28,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
2,2010,310010039,2000733,38,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
3,2010,310010039,2000733,16,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
4,2010,310010039,2000733,26,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
5,2010,310010039,2000733,26,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
6,2010,310010039,2000733,27,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
7,2010,310010039,2001020,31,120005,1202,120005,Norte,AC,12,…,12900,−10.941,−69.567,239,2875.91
8,2010,310010039,2000733,30,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
9,2010,310010039,2000733,18,120040,1201,120040,Norte,AC,12,…,12900,−9.975,−67.81,153,9222.58
