# ETL DataSUS

ELT com PySUS

Author: Rodrigo Barreiro

# Testing if PySUS is working

In [None]:
import pandas as pd
from collections import Counter
from pathlib import Path
import re

In [3]:
from pysus import SIA
sia = SIA().load() # Loads the files from DATASUS

In [4]:
sia

SIA - Sistema de Informações Ambulatoriais

In [5]:
sia.metadata

{'long_name': 'Sistema de Informações Ambulatoriais',
 'source': 'http://sia.datasus.gov.br/principal/index.php',
 'description': 'O Sistema de Informação Ambulatorial (SIA) foi instituído pela Portaria GM/MS n.º 896 de 29 de junho de 1990. Originalmente, o SIA foi concebido a partir do projeto SICAPS (Sistema de Informação e Controle Ambulatorial da Previdência Social), em que os conceitos, os objetivos e as diretrizes criados para o desenvolvimento do SICAPS foram extremamente importantes e amplamente utilizados para o desenvolvimento do SIA, tais como: (i) o acompanhamento das programações físicas e orçamentárias; (ii) o acompanhamento das ações de saúde produzidas; (iii) a agilização do pagamento e controle orçamentário e financeiro; e (iv) a formação de banco de dados para contribuir com a construção do SUS.'}

In [6]:
sia.groups

{'AB': 'APAC de Cirurgia Bariátrica',
 'ABO': 'APAC de Acompanhamento Pós Cirurgia Bariátrica',
 'ACF': 'APAC de Confecção de Fístula',
 'AD': 'APAC de Laudos Diversos',
 'AM': 'APAC de Medicamentos',
 'AMP': 'APAC de Acompanhamento Multiprofissional',
 'AN': 'APAC de Nefrologia',
 'AQ': 'APAC de Quimioterapia',
 'AR': 'APAC de Radioterapia',
 'ATD': 'APAC de Tratamento Dialítico',
 'BI': 'Boletim de Produção Ambulatorial individualizado',
 'IMPBO': '',
 'PA': 'Produção Ambulatorial',
 'PAM': '',
 'PAR': '',
 'PAS': '',
 'PS': 'RAAS Psicossocial',
 'SAD': 'RAAS de Atenção Domiciliar'}

In [22]:
print(f'All files for APAC quimioterapia: {len(sia.get_files(["AQ"]))}')

All files for APAC quimioterapia: 5521


## Calculating Files and Size

In [8]:
sia.get_files("AQ", uf="SP", year=2022)

[AQSP2201.dbc,
 AQSP2202.dbc,
 AQSP2203.dbc,
 AQSP2204.dbc,
 AQSP2205.dbc,
 AQSP2206.dbc,
 AQSP2207.dbc,
 AQSP2208.dbc,
 AQSP2209.dbc,
 AQSP2210.dbc,
 AQSP2211.dbc,
 AQSP2212.dbc]

In [9]:
all_apac_quimio_sia = len(sia.get_files("AQ", year=2022))
print(f'Number of files for AQ in 2022: {all_apac_quimio_sia}')

Number of files for AQ in 2022: 321


In [10]:
aq_files_2022 = sia.get_files("AQ", year=2022)
Counter([ str(x)[2:4] for x in aq_files_2022 ])

Counter({'AC': 12,
         'AL': 12,
         'AM': 12,
         'BA': 12,
         'CE': 12,
         'DF': 12,
         'ES': 12,
         'GO': 12,
         'MA': 12,
         'MG': 12,
         'MS': 12,
         'MT': 12,
         'PA': 12,
         'PB': 12,
         'PE': 12,
         'PI': 12,
         'PR': 12,
         'RJ': 12,
         'RN': 12,
         'RO': 12,
         'RS': 12,
         'SC': 12,
         'SE': 12,
         'SP': 12,
         'TO': 12,
         'AP': 11,
         'RR': 10})

In [None]:
# Countig file size
files = sia.get_files("AQ", year=2022)
sizes = [ sia.describe(my_file)['size'] for my_file in files ]


# Example list
sizes = ['37.9 kB', '1.2 MB', '550 B', '2.1 MB', '900 kB']

# Conversion to bytes
unit_multipliers = {
    'B': 1,
    'kB': 1024,
    'MB': 1024 ** 2,
    'GB': 1024 ** 3
}

total_bytes = 0

for s in sizes:
    match = re.match(r'([\d.]+)\s*(B|kB|MB|GB)', s)
    if match:
        number, unit = match.groups()
        bytes_size = float(number) * unit_multipliers[unit]
        total_bytes += bytes_size
    else:
        print(f"Unrecognized size format: {s}")

# Optional: convert back to human-readable
def human_readable(size_bytes):
    for unit in ['B', 'kB', 'MB', 'GB']:
        if size_bytes < 1024 or unit == 'GB':
            return f"{size_bytes:.2f} {unit}"
        size_bytes /= 1024

print(f"Total: {human_readable(total_bytes)}")
print("NOTE: This is the size of dbc file (compressed).")

Total: 4.22 MB
NOTE: This is the size of dbc file (compressed).


## Extract
### Downlaod all APAC Quimioterapy from 2022 of all BR States

In [None]:
# # Download all files of 2022
# sia.download(files, local_dir='../data/raw/')

132473it [00:00, 1861176.91it/s]       


[../data/raw/AQAC2201.parquet,
 ../data/raw/AQAC2202.parquet,
 ../data/raw/AQAC2203.parquet,
 ../data/raw/AQAC2204.parquet,
 ../data/raw/AQAC2205.parquet,
 ../data/raw/AQAC2206.parquet,
 ../data/raw/AQAC2207.parquet,
 ../data/raw/AQAC2208.parquet,
 ../data/raw/AQAC2209.parquet,
 ../data/raw/AQAC2210.parquet,
 ../data/raw/AQAC2211.parquet,
 ../data/raw/AQAC2212.parquet,
 ../data/raw/AQAL2201.parquet,
 ../data/raw/AQAL2202.parquet,
 ../data/raw/AQAL2203.parquet,
 ../data/raw/AQAL2204.parquet,
 ../data/raw/AQAL2205.parquet,
 ../data/raw/AQAL2206.parquet,
 ../data/raw/AQAL2207.parquet,
 ../data/raw/AQAL2208.parquet,
 ../data/raw/AQAL2209.parquet,
 ../data/raw/AQAL2210.parquet,
 ../data/raw/AQAL2211.parquet,
 ../data/raw/AQAL2212.parquet,
 ../data/raw/AQAM2201.parquet,
 ../data/raw/AQAM2202.parquet,
 ../data/raw/AQAM2203.parquet,
 ../data/raw/AQAM2204.parquet,
 ../data/raw/AQAM2205.parquet,
 ../data/raw/AQAM2206.parquet,
 ../data/raw/AQAM2207.parquet,
 ../data/raw/AQAM2208.parquet,
 ../data

Check if all files were downloaded

In [None]:
download_dir = Path('../data/raw')
all_downloaded_files = [f.name for f in download_dir.iterdir() if f.suffix == '.parquet']
print(f'All downloaded files: {len(all_downloaded_files)} of {all_apac_quimio_sia} of SIA')

All downloaded files: 321 of 321 of SIA


## Transform
### Convert to dataframe and merge all files into one

In [None]:
all_data_df_list = [ x.to_dataframe() for x in sia.download(files, local_dir='../data/raw/') ] 

132473it [00:00, 2958384.98it/s]       


In [15]:
print("Check type:")
print([type(x) for x in all_data_df_list[:3]])
print('\n')
print("Check dataframe n:")
print(len(all_data_df_list))


Check type:
[<class 'pandas.core.frame.DataFrame'>, <class 'pandas.core.frame.DataFrame'>, <class 'pandas.core.frame.DataFrame'>]


Check dataframe n:
321


In [16]:
# Concatenate to a single dataframe
combined_df = pd.concat(all_data_df_list, ignore_index=True)

print(f"Rows (Atendimentos) {combined_df.shape[0]:,.0f} \nColumns (Campos) {combined_df.shape[1]:,.0f} ")

Rows (Atendimentos) 3,985,483 
Columns (Campos) 74 


In [17]:
print(combined_df.columns.tolist())

['AP_MVM', 'AP_CONDIC', 'AP_GESTAO', 'AP_CODUNI', 'AP_AUTORIZ', 'AP_CMP', 'AP_PRIPAL', 'AP_VL_AP', 'AP_UFMUN', 'AP_TPUPS', 'AP_TIPPRE', 'AP_MN_IND', 'AP_CNPJCPF', 'AP_CNPJMNT', 'AP_CNSPCN', 'AP_COIDADE', 'AP_NUIDADE', 'AP_SEXO', 'AP_RACACOR', 'AP_MUNPCN', 'AP_UFNACIO', 'AP_CEPPCN', 'AP_UFDIF', 'AP_MNDIF', 'AP_DTINIC', 'AP_DTFIM', 'AP_TPATEN', 'AP_TPAPAC', 'AP_MOTSAI', 'AP_OBITO', 'AP_ENCERR', 'AP_PERMAN', 'AP_ALTA', 'AP_TRANSF', 'AP_DTOCOR', 'AP_CODEMI', 'AP_CATEND', 'AP_APACANT', 'AP_UNISOL', 'AP_DTSOLIC', 'AP_DTAUT', 'AP_CIDCAS', 'AP_CIDPRI', 'AP_CIDSEC', 'AP_ETNIA', 'AQ_CID10', 'AQ_LINFIN', 'AQ_ESTADI', 'AQ_GRAHIS', 'AQ_DTIDEN', 'AQ_TRANTE', 'AQ_CIDINI1', 'AQ_DTINI1', 'AQ_CIDINI2', 'AQ_DTINI2', 'AQ_CIDINI3', 'AQ_DTINI3', 'AQ_CONTTR', 'AQ_DTINTR', 'AQ_ESQU_P1', 'AQ_TOTMPL', 'AQ_TOTMAU', 'AQ_ESQU_P2', 'AQ_MED01', 'AQ_MED02', 'AQ_MED03', 'AQ_MED04', 'AQ_MED05', 'AQ_MED06', 'AQ_MED07', 'AQ_MED08', 'AQ_MED09', 'AQ_MED10', 'AP_NATJUR']


In [18]:
combined_df.head(10)

Unnamed: 0,AP_MVM,AP_CONDIC,AP_GESTAO,AP_CODUNI,AP_AUTORIZ,AP_CMP,AP_PRIPAL,AP_VL_AP,AP_UFMUN,AP_TPUPS,...,AQ_MED02,AQ_MED03,AQ_MED04,AQ_MED05,AQ_MED06,AQ_MED07,AQ_MED08,AQ_MED09,AQ_MED10,AP_NATJUR
0,202201,EP,120000,2001586,1222200016158,202201,304040045,1300.0,120040,5,...,,,,,,,,,,1147
1,202201,EP,120000,2001586,1221200274998,202201,304020176,571.5,120040,5,...,,,,,,,,,,1147
2,202201,EP,120000,2001586,1221200244814,202201,304050113,79.75,120040,5,...,,,,,,,,,,1147
3,202201,EP,120000,2001586,1222200035386,202201,304020206,800.0,120040,5,...,,,,,,,,,,1147
4,202201,EP,120000,2001586,1221200276516,202201,304050121,79.75,120040,5,...,,,,,,,,,,1147
5,202201,EP,120000,2001586,1221200243186,202201,304020133,1700.0,120040,5,...,,,,,,,,,,1147
6,202201,EP,120000,2001586,1221200275460,202201,304020419,1700.0,120040,5,...,,,,,,,,,,1147
7,202201,EP,120000,2001586,1222200016576,202201,304020389,571.5,120040,5,...,,,,,,,,,,1147
8,202201,EP,120000,2001586,1221200244946,202201,304040029,1400.0,120040,5,...,,,,,,,,,,1147
9,202201,EP,120000,2001586,1222200035199,202201,304050040,79.75,120040,5,...,,,,,,,,,,1147


### Better naming


In [19]:
new_names_df = pd.read_csv('../data/external/better_names_apac_quimio.csv')

my_dict = new_names_df.set_index('original_name')['new_name'].to_dict()
my_dict

{'AP_MVM': 'data_movimento',
 'AP_CONDIC': 'tipo_gestao',
 'AP_GESTAO': 'codigo_gestao',
 'AP_CODUNI': 'estabelecimento_id',
 'AP_AUTORIZ': 'numero_apac',
 'AP_CMP': 'data_competencia',
 'AP_PRIPAL': 'procedimento_principal',
 'AP_VL_AP': 'valor_aprovado_total',
 'AP_UFMUN': 'municipio_estabelecimento',
 'AP_TPUPS': 'tipo_estabelecimento',
 'AP_TIPPRE': 'tipo_prestador',
 'AP_MN_IND': 'modalidade_estabelecimento',
 'AP_CNPJCPF': 'cnpj_estabelecimento',
 'AP_CNPJMNT': 'cnpj_mantenedora',
 'AP_CNSPCN': 'cns_paciente',
 'AP_COIDADE': 'codigo_idade',
 'AP_NUIDADE': 'idade',
 'AP_SEXO': 'sexo',
 'AP_RACACOR': 'raca_cor',
 'AP_MUNPCN': 'municipio_residencia',
 'AP_UFNACIO': 'nacionalidade',
 'AP_CEPPCN': 'cep_paciente',
 'AP_UFDIF': 'uf_diferente',
 'AP_MNDIF': 'municipio_diferente',
 'AP_DTINIC': 'data_inicio_validade',
 'AP_DTFIM': 'data_fim_validade',
 'AP_TPATEN': 'tipo_atendimento',
 'AP_TPAPAC': 'tipo_apac',
 'AP_MOTSAI': 'motivo_saida',
 'AP_OBITO': 'indicador_obito',
 'AP_ENCERR': 'i

In [20]:
combined_df = combined_df.rename(columns=my_dict)
combined_df

Unnamed: 0,data_movimento,tipo_gestao,codigo_gestao,estabelecimento_id,numero_apac,data_competencia,procedimento_principal,valor_aprovado_total,municipio_estabelecimento,tipo_estabelecimento,...,aq_med02,aq_med03,aq_med04,aq_med05,aq_med06,aq_med07,aq_med08,aq_med09,aq_med10,natureza_juridica
0,202201,EP,120000,2001586,1222200016158,202201,0304040045,1300.00,120040,05,...,,,,,,,,,,1147
1,202201,EP,120000,2001586,1221200274998,202201,0304020176,571.50,120040,05,...,,,,,,,,,,1147
2,202201,EP,120000,2001586,1221200244814,202201,0304050113,79.75,120040,05,...,,,,,,,,,,1147
3,202201,EP,120000,2001586,1222200035386,202201,0304020206,800.00,120040,05,...,,,,,,,,,,1147
4,202201,EP,120000,2001586,1221200276516,202201,0304050121,79.75,120040,05,...,,,,,,,,,,1147
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3985478,202212,EP,170000,2786117,1722200418598,202212,0304050121,79.75,172100,05,...,,,,,,,,,,1023
3985479,202212,EP,170000,2786117,1722200449992,202212,0304050121,79.75,172100,05,...,,,,,,,,,,1023
3985480,202212,EP,170000,2786117,1722200399106,202212,0304060178,1743.12,172100,05,...,,,,,,,,,,1023
3985481,202212,EP,170000,2600536,1722200409820,202212,0304020435,1700.00,170210,05,...,,,,,,,,,,1023


Export processed table

In [21]:
combined_df.to_csv('../data/processed/apac-quimio-2022.csv')

In [34]:
cid10_data = pd.read_csv('../data/external/CID-10-SUBCATEGORIAS.CSV.utf8',sep = ';')
cid10_data = cid10_data[['SUBCAT','DESCRICAO']]

cid10_data.rename(columns={"SUBCAT": 'CID10', "DESCRICAO":"cid10_descricao"}, inplace=True)
cid10_data

Unnamed: 0,CID10,cid10_descricao
0,A000,"Cólera devida a Vibrio cholerae 01, biótipo ch..."
1,A001,"Cólera devida a Vibrio cholerae 01, biótipo El..."
2,A009,Cólera não especificada
3,A010,Febre tifóide
4,A011,Febre paratifóide A
...,...,...
12446,U818,Agente resistente a outros antibióticos relaci...
12447,U88,Agente resistente a múltiplos antibióticos
12448,U898,Agente resistente a outro antibiótico especifi...
12449,U899,Agente resistente a antibiótico não especificado


In [36]:
combined_df = pd.merge(combined_df, cid10_data, how = 'left', left_on = 'cid_principal', right_on = 'CID10')

In [53]:
summary_cid = combined_df.groupby('cid10_descricao').size().reset_index(name='n').sort_values('n',  ascending=False)
summary_cid.head(50).to_csv('../data/interim/top50cids.csv')