Esse notebook foi utilizado para extrair os dados dos arquivos dbf que são criados por meio da expansão dos arquivos dbc fornecidos pelo DATASUS. A expansão dos arquivos dbc para dbf foi realizada com o software Tabwin do DATASUS.

In [16]:
import pandas as pd
from dbfread import DBF
import os

Função que realiza a extração dos dados em arquivo dbf, aplica o filtro e seleção das colunas, e salva os dados em para excel.

In [1]:
def processarArquivosDBF(pasta, name_save , colunas, tipo_arquivo=".dbf"):
    caminhos = [os.path.join(pasta, nome) for nome in os.listdir(pasta)]
    arquivos = [arq for arq in caminhos if os.path.isfile(arq)]
    DBF_FILES = [arq for arq in arquivos if arq.lower().endswith(tipo_arquivo)]
    
    dfGlobal = pd.DataFrame(columns=colunas)
    for dbf_file in DBF_FILES:
        print('Lendo: ', dbf_file)
        dbf = DBF(dbf_file, encoding='iso-8859-1')
        frame_dbf = pd.DataFrame(iter(dbf))
        frame_dbf = frame_dbf.loc[:,colunas]
        dfGlobal = pd.concat([dfGlobal, frame_dbf], axis=0, ignore_index=True)#.reset_index()
                
    dfGlobal.to_csv(name_save)

# Leitura dos arquivos de Quimioterapia

In [2]:
caminho_dbfs = '//AP_QI/DBF/'
name_do_arquivo = 'QUIMIO.csv'
colunas = ['AP_GESTAO','AP_AUTORIZ','AP_CMP','AP_PRIPAL','AP_UFMUN','AP_NUIDADE','AP_SEXO','AP_TPATEN','AP_TPAPAC','AP_DTSOLIC','AP_CIDPRI','AQ_ESTADI','AQ_ESQU_P2']

processarArquivosDBF(caminho_dbfs, name_do_arquivo, colunas, tipo_arquivo=".dbf")

print('#### FINALIZADO ####')


#### FINALIZADO ####


# Leitura dos arquivos de Radioterapia

In [3]:
caminho_dbfs = '//AP_RAD/DBF/'
name_do_arquivo = 'RADIO.csv'
colunas = ['AP_GESTAO','AP_AUTORIZ','AP_CMP','AP_PRIPAL','AP_UFMUN','AP_NUIDADE','AP_SEXO','AP_TPAPAC','AP_DTSOLIC','AP_CIDPRI','AR_ESTADI','AR_FINALI']

processarArquivosDBF(caminho_dbfs, name_do_arquivo, colunas, tipo_arquivo=".dbf")

print('#### FINALIZADO ####')

#### FINALIZADO ####


# Leitura dos arquivos de Cirurgia

In [None]:
def processarArquivosDBF_Cirurgia(pasta, name_save , colunas, tipo_arquivo=".dbf"):
    caminhos = [os.path.join(pasta, nome) for nome in os.listdir(pasta)]
    arquivos = [arq for arq in caminhos if os.path.isfile(arq)]
    DBF_FILES = [arq for arq in arquivos if arq.lower().endswith(tipo_arquivo)]
    
    dfGlobal = pd.DataFrame(columns=colunas)
    for dbf_file in DBF_FILES:
        print('Lendo: ', dbf_file)
        dbf = DBF(dbf_file, encoding='iso-8859-1')
        frame_dbf = pd.DataFrame(iter(dbf))
        frame_dbf = frame_dbf.loc[:,colunas]
        filtro = (frame_dbf.PROC_REA =='0416120024') | (frame_dbf.PROC_REA=='0416120032') | (frame_dbf.PROC_REA=='0416120040') | (frame_dbf.PROC_REA=='0416120059')
        frame_dbf = frame_dbf[filtro]
        dfGlobal = pd.concat([dfGlobal, frame_dbf], axis=0, ignore_index=True)#.reset_index()
                
    dfGlobal.to_csv(name_save)

In [4]:
caminho_dbfs = '//RD_CIR/DBF/'
name_do_arquivo = 'CIRURGIA.csv'
colunas = ['UF_ZI','ANO_CMPT','MES_CMPT','N_AIH','NASC','SEXO','PROC_SOLIC','PROC_REA','DT_INTER','DIAG_PRINC','IDADE','COMPLEX']

processarArquivosDBF_Cirurgia(caminho_dbfs, name_do_arquivo, colunas, tipo_arquivo=".dbf")

print('#### FINALIZADO ####')

#### FINALIZADO ####
