# Tempo de execução do processo de ETL

In [None]:
import time

tempoInicio = time.time()

## Código

tempoExecucao = time.time() - tempoInicio
print("Tempo de execução em segundos: %f" % tempoExecucao)

## Extração
Parte somente da extração dos dados, sem a transformação e carga.

In [1]:
import time

tempoInicio = time.time()

In [2]:
from pysus.ftp.databases.sih import SIH

In [3]:
sih = SIH().load()

### Limitando os arquivos apenas para estimarmos valores
Grupo de AIH reduzidas e apenas para o Estado de São Paulo.

In [4]:
group = "RD"
uf = "SP"

month = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
year = [2017]

In [5]:
files = sih.get_files(group, uf, year, month)

print(f"O numero de arquivos eh: {len(files)}.")

files

O numero de arquivos eh: 12.


[RDSP1701.dbc,
 RDSP1702.dbc,
 RDSP1703.dbc,
 RDSP1704.dbc,
 RDSP1705.dbc,
 RDSP1706.dbc,
 RDSP1707.dbc,
 RDSP1708.dbc,
 RDSP1709.dbc,
 RDSP1710.dbc,
 RDSP1711.dbc,
 RDSP1712.dbc]

### Fazendo o download dos dados em formato parquet

Fazendo download de apenas onze arquivos.

In [6]:
path = '/home/ferdanielinux/desktop-linux/scripts-python/proj-aries/Dados/parquet/2017/'

names = []

for file in files:
    names.append(file.basename)

In [7]:
for i, file in enumerate(files):
    sih.download(file, local_dir = path + names[i])

RDSP1701.dbc:   0%|          | 0.00/14.8M [00:00<?, ?B/s]

RDSP1701.parquet: 100%|██████████| 683k/683k [00:58<00:00, 11.6kB/s] 
RDSP1702.parquet: 100%|██████████| 663k/663k [01:01<00:00, 10.8kB/s] 
RDSP1703.parquet: 100%|██████████| 766k/766k [01:14<00:00, 10.2kB/s] 
RDSP1704.parquet: 100%|██████████| 705k/705k [01:09<00:00, 10.1kB/s] 
RDSP1705.parquet: 100%|██████████| 778k/778k [01:19<00:00, 9.83kB/s] 
RDSP1706.parquet: 100%|██████████| 742k/742k [01:12<00:00, 10.3kB/s] 
RDSP1707.parquet: 100%|██████████| 742k/742k [01:13<00:00, 10.1kB/s] 
RDSP1708.parquet: 100%|██████████| 771k/771k [01:17<00:00, 9.94kB/s] 
RDSP1709.parquet: 100%|██████████| 733k/733k [01:13<00:00, 9.96kB/s] 
RDSP1710.parquet: 100%|██████████| 742k/742k [01:13<00:00, 10.1kB/s] 
RDSP1711.parquet: 100%|██████████| 728k/728k [01:11<00:00, 10.2kB/s] 
RDSP1712.parquet: 100%|██████████| 718k/718k [01:11<00:00, 10.1kB/s] 


In [None]:
tempoFinalExtracao = time.time() - tempoInicio

In [11]:
print(f"Totalizando, assim, {int(tempoFinalExtracao/60)} minutos e {(tempoFinalExtracao % 60):.2f} segundos.")

Totalizando, assim, 16 minutos e 28.56 segundos.


## Transformação
Para fazer as transformações, primeiro vamos carregar os dados e depois vamos fazer a transformação.

In [1]:
import time

tempoInicio = time.time()

In [None]:
import pandas as pd
import os

In [4]:
group = "RD"
uf = "SP"

year = 2015
months = [1]

path = f'C:/Users/Fernando/Documents/CEPID - Projeto ARIES/Dados/SIH/parquet/{year}/'

In [5]:
files = [f"{group}{uf}{year-2000}{str(month).zfill(2)}.parquet" for month in months]

files

['RDSP1501.parquet']

Devido à problemas com o WSL, tive que fazer o carregamento de parte dos dados, não integralmente os 12 arquivos do ano.

In [6]:
dfs = []

# Fazendo o carregamento de apenas dos meses 1, 2 e 3
for file in files:
    full_path = os.path.join(path, file)
    df = pd.read_parquet(full_path)
    dfs.append(df)

### Mostrando os dados carregados

In [7]:
dfs[0].head()

Unnamed: 0,UF_ZI,ANO_CMPT,MES_CMPT,ESPEC,CGC_HOSP,N_AIH,IDENT,CEP,MUNIC_RES,NASC,...,DIAGSEC9,TPDISEC1,TPDISEC2,TPDISEC3,TPDISEC4,TPDISEC5,TPDISEC6,TPDISEC7,TPDISEC8,TPDISEC9
0,353930,2015,1,7,54848361000111,3515101624507,1,13630070,353930,20150120,...,,1,0,0,0,0,0,0,0,0
1,353930,2015,1,2,54848361000111,3515101624331,1,13633353,353930,19890814,...,,0,0,0,0,0,0,0,0,0
2,353930,2015,1,2,54848361000111,3515101624342,1,13640438,353930,19880120,...,,0,0,0,0,0,0,0,0,0
3,353930,2015,1,2,54848361000111,3515101624386,1,13631040,353930,19820224,...,,0,0,0,0,0,0,0,0,0
4,353930,2015,1,2,54848361000111,3515101624463,1,13635168,353930,19960226,...,,0,0,0,0,0,0,0,0,0


In [12]:
dfs[1].head()

Unnamed: 0,UF_ZI,ANO_CMPT,MES_CMPT,ESPEC,CGC_HOSP,N_AIH,IDENT,CEP,MUNIC_RES,NASC,...,DIAGSEC9,TPDISEC1,TPDISEC2,TPDISEC3,TPDISEC4,TPDISEC5,TPDISEC6,TPDISEC7,TPDISEC8,TPDISEC9
0,355030,2015,2,3,46392148001604,3515102048018,1,3927360,355030,19680718,...,,2,0,0,0,0,0,0,0,0
1,355030,2015,2,3,46392148001604,3515102048030,1,3710000,355030,20150106,...,,0,0,0,0,0,0,0,0,0
2,355030,2015,2,3,46392148001604,3515102048040,1,3637000,355030,20110606,...,,0,0,0,0,0,0,0,0,0
3,355030,2015,2,3,46392148001272,3514119037540,1,2957080,355030,19900910,...,,0,0,0,0,0,0,0,0,0
4,355030,2015,2,3,46392148001272,3514119039233,1,5210090,355030,19860606,...,,0,0,0,0,0,0,0,0,0


In [13]:
dfs[2].head()

Unnamed: 0,UF_ZI,ANO_CMPT,MES_CMPT,ESPEC,CGC_HOSP,N_AIH,IDENT,CEP,MUNIC_RES,NASC,...,DIAGSEC9,TPDISEC1,TPDISEC2,TPDISEC3,TPDISEC4,TPDISEC5,TPDISEC6,TPDISEC7,TPDISEC8,TPDISEC9
0,354990,2015,3,1,60194990000682,3515105250129,1,12248420,354990,19660619,...,,0,0,0,0,0,0,0,0,0
1,354990,2015,3,1,60194990000682,3515105250130,1,12322080,352440,19480416,...,,0,0,0,0,0,0,0,0,0
2,354990,2015,3,3,60194990000682,3515105239426,1,12216730,354990,19390103,...,,0,0,0,0,0,0,0,0,0
3,354990,2015,3,3,60194990000682,3515105239437,1,12216730,354990,19390103,...,,0,0,0,0,0,0,0,0,0
4,354990,2015,3,3,60194990000682,3515105239460,1,11630000,352040,19570410,...,,2,0,0,0,0,0,0,0,0


### Separando os dados em suas respectivas tabelas

In [8]:
dimensoes = {   'Dimensão Tempo': 
                    ['ANO_CMPT', 'MES_CMPT', 'DT_INTER', 'DT_SAIDA'],
                    
                'Dimensão Localização': 
                    ['CEP', 'MUNIC_RES', 'MUNIC_MOV'],
                    
                'Dimensão Hospital': 
                    ['CGC_HOSP', 'CNES'],
                    
                'Dimensão Paciente': 
                    ['NASC', 'SEXO', 'IDADE', 'COD_IDADE', 'NACIONAL', 'INSTRU', 'RACA_COR', 'ETNIA', 'CBOR', 'MORTE'],
                    
                'Dimensão UTI': 
                    ['UTI_MES_TO', 'MARCA_UTI', 'VAL_UTI'],
                    
                'Dimensão Procedimento': 
                    ['PROC_SOLIC', 'PROC_REA', 'VAL_SH', 'VAL_SP', 'N_AIH', 'VAL_TOT', 'INFEHOSP'],
                    
                'Dimensão Diagnóstico': 
                    ['DIAG_PRINC', 'DIAG_SECUN', 'DIAGSEC1', 'DIAGSEC2', 'DIAGSEC3', 'DIAGSEC4', 'DIAGSEC5', 
                     'DIAGSEC6', 'DIAGSEC7', 'DIAGSEC8', 'DIAGSEC9', 'CID_MORTE', 'CID_ASSO']
                }

'''
    Atributos retirados: IND_VDRL, possivelmente INFEHOSP (verificar se estão vazios).
    Atributos adicionados: CID_ASSO.
'''

'\n    Atributos retirados: IND_VDRL, possivelmente INFEHOSP (verificar se estão vazios).\n    Atributos adicionados: CID_ASSO.\n'

In [9]:
# Funcao que separa as dimensoes de um DataFrame
def separaDimensoes(dataFrame, dimensoes):
    dfs = {}
    
    for dim in dimensoes:
        # Cria um DataFrame com as colunas da dimensão
        dfs[dim] = dataFrame[dimensoes[dim]]
    
    return dfs

In [10]:
# Criando uma lista de listas de DataFrames. Cada lista deve armazenar os DataFrames de um mês e suas sublistas as dimensões.
dfs_separados_meses = []

for df in dfs:
    dfs_separados_meses.append(separaDimensoes(df, dimensoes))

### Mostrando os dados após a divisão em dimensões e fatos

In [11]:
dfs_separados_meses[0]['Dimensão Tempo'].head()

Unnamed: 0,ANO_CMPT,MES_CMPT,DT_INTER,DT_SAIDA
0,2015,1,20150123,20150129
1,2015,1,20150128,20150130
2,2015,1,20150130,20150131
3,2015,1,20150119,20150129
4,2015,1,20150128,20150130


In [12]:
dfs_separados_meses[0]['Dimensão Localização'].head()

Unnamed: 0,CEP,MUNIC_RES,MUNIC_MOV
0,13630070,353930,353930
1,13633353,353930,353930
2,13640438,353930,353930
3,13631040,353930,353930
4,13635168,353930,353930


In [14]:
dfs_separados_meses[1]['Dimensão Tempo'].head()

Unnamed: 0,ANO_CMPT,MES_CMPT,DT_INTER,DT_SAIDA
0,2015,2,20150113,20150121
1,2015,2,20150106,20150115
2,2015,2,20150116,20150121
3,2015,2,20141212,20141214
4,2015,2,20141213,20141228


In [15]:
dfs_separados_meses[2]['Dimensão Tempo'].head()

Unnamed: 0,ANO_CMPT,MES_CMPT,DT_INTER,DT_SAIDA
0,2015,3,20150302,20150316
1,2015,3,20150219,20150311
2,2015,3,20150224,20150226
3,2015,3,20150306,20150316
4,2015,3,20150308,20150311


### Mostrando o tempo de execução do processo de transformação

In [16]:
tempoFinalTransformacao = time.time() - tempoInicio

print(f"Tempo de transformação: {int(tempoFinalTransformacao/60)} minutos e {(tempoFinalTransformacao % 60):.2f} segundos.")

Tempo de transformação: 0 minutos e 14.10 segundos.


## Carga
Aqui vamos inserir os dados transformados em um banco de dados.

### Criando uma classe que contém as informacoes de todas as dimensoes

In [1]:
import pandas as pd
import sqlalchemy as sa

In [2]:
df = pd.read_csv('C:/Users/Fernando/Documents/CEPID - Projeto ARIES/Dados/SIH/csv/concat/concat_RDSP02_filtered.csv', sep = ';', encoding='latin-1')

In [None]:
df.head()

In [3]:
# Criando uma classe que instancia tabelas de dimensões do SIH

class tabelas:
    def __init__(self, dimensao):
        
        lista_dimensoes = ['Dimensão Tempo', 'Dimensão Localização', 'Dimensão Hospital', 'Dimensão Paciente', 
                           'Dimensão UTI', 'Dimensão Procedimento', 'Dimensão Diagnóstico', 'Tabela Fato Internação']
        
        if dimensao not in lista_dimensoes:
            raise ValueError('Dimensão inválida.')
        else:
            self.dimensao = dimensao
            
        self.colunas = []
        if self.dimensao == 'Dimensão Tempo':
            self.colunas = ['ANO_CMPT', 'MES_CMPT', 'DT_INTER', 'DT_SAIDA']
        elif self.dimensao == 'Dimensão Localização':
            self.colunas = ['CEP', 'MUNIC_RES', 'MUNIC_MOV']
        elif self.dimensao == 'Dimensão Hospital':
            self.colunas = ['CGC_HOSP', 'CNES']
        elif self.dimensao == 'Dimensão Paciente':
            self.colunas = ['NASC', 'SEXO', 'IDADE', 'COD_IDADE', 'NACIONAL', 'INSTRU', 'RACA_COR', 'ETNIA', 'CBOR', 'MORTE']
        elif self.dimensao == 'Dimensão UTI':
            self.colunas = ['UTI_MES_TO', 'MARCA_UTI', 'VAL_UTI']
        elif self.dimensao == 'Dimensão Procedimento':
            self.colunas = ['PROC_SOLIC', 'PROC_REA', 'VAL_SH', 'VAL_SP', 'N_AIH', 'VAL_TOT', 'INFEHOSP']
        elif self.dimensao == 'Dimensão Diagnóstico':
            self.colunas = ['DIAG_PRINC', 'DIAG_SECUN', 'DIAGSEC1', 'DIAGSEC2', 'DIAGSEC3', 'DIAGSEC4', 'DIAGSEC5', 
                            'DIAGSEC6', 'DIAGSEC7', 'DIAGSEC8', 'DIAGSEC9', 'CID_MORTE', 'CID_ASSO']
        elif self.colunas == 'Tabela Fato Internação':
            self.colunas = ['N_AIH', 'NASC', 'SEXO', 'IDADE', 'COD_IDADE', 'NACIONAL', 'INSTRU', 'RACA_COR', 'ETNIA', 'MUNIC_MOV', 
                            'CBOR', 'MARCA_UTI', 'DIAG_PRINC', 'DIAG_SECUN', 'DIAGSEC1', 'DIAGSEC2', 'DIAGSEC3', 'DIAGSEC4', 'DIAGSEC5', 
                            'DIAGSEC6', 'DIAGSEC7', 'DIAGSEC8', 'DIAGSEC9', 'VAL_SH', 'VAL_SP', 'VAL_UTI', 'VAL_TOT', 'INFEHOSP', 'MORTE']
            
        
    def __str__(self):
        return f'Tabela de {self.dimensao}'
    
    def get_dimensao(self):
        return self.dimensao
    
    def get_colunas(self):
        return self.colunas
    
    def insere_dados(self, df, conn, namedb):
        if self.dimensao == 'Dimensão Tempo':
            self.insere_dados_tempo(df, conn, namedb)
        elif self.dimensao == 'Dimensão Localização':
            self.insere_dados_localizacao(df, conn, namedb)
        elif self.dimensao == 'Dimensão Hospital':
            self.insere_dados_hospital(df, conn, namedb)
        elif self.dimensao == 'Dimensão Paciente':
            self.insere_dados_paciente(df, conn, namedb)
        elif self.dimensao == 'Dimensão UTI':
            self.insere_dados_uti(df, conn, namedb)
        elif self.dimensao == 'Dimensão Procedimento':
            self.insere_dados_procedimento(df, conn, namedb)
        elif self.dimensao == 'Dimensão Diagnóstico':
            self.insere_dados_diagnostico(df, conn, namedb)
        else:
            raise ValueError('Essa tabela não é de dimensão conhecida.')
        
    def insere_dados_tempo(self, df, conn, namedb):
        if self.dimensao == 'Dimensão Tempo':
            df.to_sql(namedb, conn, if_exists='append', index=False, dtype={
                'ANO_CMPT': sa.VARCHAR(4),
                'MES_CMPT': sa.VARCHAR(2),
                'DT_INTER': sa.VARCHAR(8),
                'DT_SAIDA': sa.VARCHAR(8)}
            )
        else:
            raise ValueError('Essa tabela não é de dimensão tempo.')
        
    def insere_dados_localizacao(self, df, conn, namedb):
        if self.dimensao == 'Dimensão Localização':
            df.to_sql(namedb, conn, if_exists='append', index=False, dtype={
                'CEP': sa.VARCHAR(8),
                'MUNIC_RES': sa.VARCHAR(6),
                'MUNIC_MOV': sa.VARCHAR(6)}
            )
        else:
            raise ValueError('Essa tabela não é de dimensão localização.')
        
    def insere_dados_hospital(self, df, conn, namedb):
        if self.dimensao == 'Dimensão Hospital':
            df.to_sql(namedb, conn, if_exists='append', index=False, dtype={
                'CGC_HOSP': sa.VARCHAR(16),
                'CNES': sa.VARCHAR(7)}
            )
        else:
            raise ValueError('Essa tabela não é de dimensão hospital.')
        
    def insere_dados_paciente(self, df, conn, namedb):
        if self.dimensao == 'Dimensão Paciente':
            df.to_sql(namedb, conn, if_exists='append', index=False, dtype={
                'NASC': sa.VARCHAR(8),
                'SEXO': sa.VARCHAR(1),
                'IDADE': sa.NUMERIC(2),
                'COD_IDADE': sa.VARCHAR(1),
                'NACIONAL': sa.VARCHAR(3),
                'INSTRU': sa.VARCHAR(1),
                'RACA_COR': sa.VARCHAR(2),
                'ETNIA': sa.VARCHAR(4),
                'CBOR': sa.VARCHAR(6),
                'MORTE': sa.NUMERIC(1)}
            )
        else:
            raise ValueError('Essa tabela não é de dimensão paciente.')
        
    def insere_dados_uti(self, df, conn, namedb):
        if self.dimensao == 'Dimensão UTI':
            df.to_sql(namedb, conn, if_exists='append', index=False, dtype={
                'UTI_MES_TO': sa.NUMERIC(3),
                'MARCA_UTI': sa.VARCHAR(2),
                'VAL_UTI': sa.NUMERIC(9,2)}
            )
        else:
            raise ValueError('Essa tabela não é de dimensão UTI.')
        
    def insere_dados_procedimento(self, df, conn, namedb):
        if self.dimensao == 'Dimensão Procedimento':
            df.to_sql(namedb, conn, if_exists='append', index=False, dtype={
                'PROC_SOLIC': sa.VARCHAR(10),
                'PROC_REA': sa.VARCHAR(10),
                'VAL_SH': sa.NUMERIC(13,2),
                'VAL_SP': sa.NUMERIC(13,2),
                'N_AIH': sa.VARCHAR(13),
                'VAL_TOT': sa.NUMERIC(14,2),
                'INFEHOSP': sa.VARCHAR(1)}
            )
        else:
            raise ValueError('Essa tabela não é de dimensão procedimento.')
        
    def insere_dados_diagnostico(self, df, conn, namedb):
        if self.dimensao == 'Dimensão Diagnóstico':
            df.to_sql(namedb, conn, if_exists='append', index=False, dtype={
                'DIAG_PRINC': sa.VARCHAR(4),
                'DIAG_SECUN': sa.VARCHAR(4),
                'DIAGSEC1': sa.VARCHAR(4),
                'DIAGSEC2': sa.VARCHAR(4),
                'DIAGSEC3': sa.VARCHAR(4),
                'DIAGSEC4': sa.VARCHAR(4),
                'DIAGSEC5': sa.VARCHAR(4),
                'DIAGSEC6': sa.VARCHAR(4),
                'DIAGSEC7': sa.VARCHAR(4),
                'DIAGSEC8': sa.VARCHAR(4),
                'DIAGSEC9': sa.VARCHAR(4),
                'CID_MORTE': sa.VARCHAR(4),
                'CID_ASSO': sa.VARCHAR(4)}
            )
        else:
            raise ValueError('Essa tabela não é de dimensão diagnóstico.')
        
        
    def cria_tabela(self, conn, namedb):
        metadata = sa.MetaData()
        metadata.reflect(bind=conn)
        
        if namedb in metadata.tables:
            print(f'Tabela {namedb} já existe.')
            return
        
        if self.dimensao == 'Dimensão Tempo':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('ANO_CMPT', sa.VARCHAR(4)),
                    sa.Column('MES_CMPT', sa.VARCHAR(2)),
                    sa.Column('DT_INTER', sa.VARCHAR(8)),
                    sa.Column('DT_SAIDA', sa.VARCHAR(8))
            ).create(conn)
        elif self.dimensao == 'Dimensão Localização':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('CEP', sa.VARCHAR(8)),
                    sa.Column('MUNIC_RES', sa.VARCHAR(6)),
                    sa.Column('MUNIC_MOV', sa.VARCHAR(6))
            ).create(conn)
        elif self.dimensao == 'Dimensão Hospital':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('CGC_HOSP', sa.VARCHAR(16)),
                    sa.Column('CNES', sa.VARCHAR(7))
            ).create(conn)
        elif self.dimensao == 'Dimensão Paciente':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('NASC', sa.VARCHAR(8)),
                    sa.Column('SEXO', sa.VARCHAR(1)),
                    sa.Column('IDADE', sa.NUMERIC(2)),
                    sa.Column('COD_IDADE', sa.VARCHAR(1)),
                    sa.Column('NACIONAL', sa.VARCHAR(3)),
                    sa.Column('INSTRU', sa.VARCHAR(1)),
                    sa.Column('RACA_COR', sa.VARCHAR(2)),
                    sa.Column('ETNIA', sa.VARCHAR(4)),
                    sa.Column('CBOR', sa.VARCHAR(6)),
                    # sa.Column('CBOR', sa.VARCHAR(3)), // O dicionário está com 3 caracteres, mas os dados apresentam 6.
                    sa.Column('MORTE', sa.NUMERIC(1))
            ).create(conn)
        elif self.dimensao == 'Dimensão UTI':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('UTI_MES_TO', sa.NUMERIC(3)),
                    sa.Column('MARCA_UTI', sa.VARCHAR(2)),
                    sa.Column('VAL_UTI', sa.NUMERIC(9,2))
            ).create(conn)
        elif self.dimensao == 'Dimensão Procedimento':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('PROC_SOLIC', sa.VARCHAR(10)),
                    sa.Column('PROC_REA', sa.VARCHAR(10)),
                    sa.Column('VAL_SH', sa.NUMERIC(13,2)),
                    sa.Column('VAL_SP', sa.NUMERIC(13,2)),
                    sa.Column('N_AIH', sa.VARCHAR(13)),
                    sa.Column('VAL_TOT', sa.NUMERIC(14,2)),
                    sa.Column('INFEHOSP', sa.VARCHAR(1))
            ).create(conn)
        elif self.dimensao == 'Dimensão Diagnóstico':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('DIAG_PRINC', sa.VARCHAR(4)),
                    sa.Column('DIAG_SECUN', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC1', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC2', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC3', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC4', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC5', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC6', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC7', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC8', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC9', sa.VARCHAR(4)),
                    sa.Column('CID_MORTE', sa.VARCHAR(4)),
                    sa.Column('CID_ASSO', sa.VARCHAR(4))
            ).create(conn)
        else:
            raise ValueError('Essa tabela não é de dimensão conhecida.')
        
    def remove_tabela(self, conn, namedb):
        metadata = sa.MetaData()
        metadata.reflect(bind=conn)
        
        if namedb not in metadata.tables:
            print(f'Tabela {namedb} não existe.')
            return
        
        if self.dimensao == 'Dimensão Tempo':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('ANO_CMPT', sa.VARCHAR(4)),
                    sa.Column('MES_CMPT', sa.VARCHAR(2)),
                    sa.Column('DT_INTER', sa.VARCHAR(8)),
                    sa.Column('DT_SAIDA', sa.VARCHAR(8))
            ).drop(conn)
        elif self.dimensao == 'Dimensão Localização':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('CEP', sa.VARCHAR(8)),
                    sa.Column('MUNIC_RES', sa.VARCHAR(6)),
                    sa.Column('MUNIC_MOV', sa.VARCHAR(6))
            ).drop(conn)
        elif self.dimensao == 'Dimensão Hospital':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('CGC_HOSP', sa.VARCHAR(16)),
                    sa.Column('CNES', sa.VARCHAR(7))
            ).drop(conn)
        elif self.dimensao == 'Dimensão Paciente':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('NASC', sa.VARCHAR(8)),
                    sa.Column('SEXO', sa.VARCHAR(1)),
                    sa.Column('IDADE', sa.NUMERIC(2)),
                    sa.Column('COD_IDADE', sa.VARCHAR(1)),
                    sa.Column('NACIONAL', sa.VARCHAR(3)),
                    sa.Column('INSTRU', sa.VARCHAR(1)),
                    sa.Column('RACA_COR', sa.VARCHAR(2)),
                    sa.Column('ETNIA', sa.VARCHAR(4)),
                    sa.Column('CBOR', sa.VARCHAR(6)),
                    # sa.Column('CBOR', sa.VARCHAR(3)),
                    sa.Column('MORTE', sa.NUMERIC(1))
            ).drop(conn)
        elif self.dimensao == 'Dimensão UTI':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('UTI_MES_TO', sa.NUMERIC(3)),
                    sa.Column('MARCA_UTI', sa.VARCHAR(2)),
                    sa.Column('VAL_UTI', sa.NUMERIC(9,2))
            ).drop(conn)
        elif self.dimensao == 'Dimensão Procedimento':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('PROC_SOLIC', sa.VARCHAR(10)),
                    sa.Column('PROC_REA', sa.VARCHAR(10)),
                    sa.Column('VAL_SH', sa.NUMERIC(13,2)),
                    sa.Column('VAL_SP', sa.NUMERIC(13,2)),
                    sa.Column('N_AIH', sa.VARCHAR(13)),
                    sa.Column('VAL_TOT', sa.NUMERIC(14,2)),
                    sa.Column('INFEHOSP', sa.VARCHAR(1))
            ).drop(conn)
        elif self.dimensao == 'Dimensão Diagnóstico':
            sa.Table(namedb, sa.MetaData(),
                    sa.Column('DIAG_PRINC', sa.VARCHAR(4)),
                    sa.Column('DIAG_SECUN', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC1', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC2', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC3', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC4', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC5', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC6', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC7', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC8', sa.VARCHAR(4)),
                    sa.Column('DIAGSEC9', sa.VARCHAR(4)),
                    sa.Column('CID_MORTE', sa.VARCHAR(4)),
                    sa.Column('CID_ASSO', sa.VARCHAR(4))
            ).drop(conn)
        else:
            raise ValueError('Essa tabela não é de dimensão conhecida.')
        
    def limpando_tabela(self, conn, namedb):
        metadata = sa.MetaData()
        metadata.reflect(bind=conn)
        
        if namedb not in metadata.tables:
            print(f'Tabela {namedb} não existe.')
            return
        
        conn.execute(f"DELETE FROM {namedb}")

### Criando a conexão

In [4]:
# Configurações do banco de dados presentes no meu computador
usuario = 'postgres'
senha = 'dan313852*'
host = 'localhost'
porta = '5432'
banco_de_dados = 'conexao_python'

# URL de conexão
url = f"postgresql://{usuario}:{senha}@{host}:{porta}/{banco_de_dados}"

# Criar o engine
engine = sa.create_engine(url)

# Teste a conexão
try:
    connection = engine.connect()
    print("Conexão bem-sucedida!")
except Exception as e:
    print(f"Erro ao conectar: {e}")
finally:
    connection.close()


Conexão bem-sucedida!


### Exemplo para a dimensão de tempo

In [5]:
table_tempo = tabelas('Dimensão Tempo')

df_tempo = df.filter(items = table_tempo.get_colunas())

df_tempo.head(10)

Unnamed: 0,ANO_CMPT,MES_CMPT,DT_INTER,DT_SAIDA
0,2014,2,20140130,20140131
1,2014,2,20140105,20140107
2,2014,2,20140128,20140131
3,2014,2,20140205,20140205
4,2014,2,20140122,20140205
5,2014,2,20140210,20140214
6,2014,2,20080101,20140228
7,2014,2,20140129,20140201
8,2014,2,20140216,20140218
9,2014,2,20140108,20140109


In [15]:
table_tempo.remove_tabela(engine, 'tempo')

In [6]:
# Criando a tabela no banco de dados
table_tempo.cria_tabela(engine, 'tempo')

In [8]:
# Inserindo dados na tabela criada
table_tempo.insere_dados(df_tempo, engine, 'tempo')

### Fazendo para as demais dimensões

In [9]:
table_tempo = tabelas('Dimensão Tempo')
table_localizacao = tabelas('Dimensão Localização')
table_hospital = tabelas('Dimensão Hospital')
table_paciente = tabelas('Dimensão Paciente')
table_uti = tabelas('Dimensão UTI')
table_procedimento = tabelas('Dimensão Procedimento')
table_diagnostico = tabelas('Dimensão Diagnóstico')

Removendo as tabelas para fazer testes.

In [7]:
table_tempo.remove_tabela(engine, 'tempo')
table_localizacao.remove_tabela(engine, 'localizacao')
table_hospital.remove_tabela(engine, 'hospital')
table_paciente.remove_tabela(engine, 'paciente')
table_uti.remove_tabela(engine, 'uti')
table_procedimento.remove_tabela(engine, 'procedimento')
table_diagnostico.remove_tabela(engine, 'diagnostico')

In [10]:
df_tempo = df.filter(items = table_tempo.get_colunas())
df_localizacao = df.filter(items = table_localizacao.get_colunas())
df_hospital = df.filter(items = table_hospital.get_colunas())
df_paciente = df.filter(items = table_paciente.get_colunas())
df_uti = df.filter(items = table_uti.get_colunas())
df_procedimento = df.filter(items = table_procedimento.get_colunas())
df_diagnostico = df.filter(items = table_diagnostico.get_colunas())

In [11]:
table_tempo.cria_tabela(engine, 'tempo')
table_localizacao.cria_tabela(engine, 'localizacao')
table_hospital.cria_tabela(engine, 'hospital')
table_paciente.cria_tabela(engine, 'paciente')
table_uti.cria_tabela(engine, 'uti')
table_procedimento.cria_tabela(engine, 'procedimento')
table_diagnostico.cria_tabela(engine, 'diagnostico')



Tabela tempo já existe.


In [10]:
df_paciente.head(10)

Unnamed: 0,NASC,SEXO,IDADE,COD_IDADE,NACIONAL,INSTRU,RACA_COR,ETNIA,CBOR,MORTE
0,19660619,3,48,4,10,0,1,0,0,0
1,19480416,1,66,4,10,0,1,0,0,0
2,19390103,1,76,4,10,0,3,0,0,0
3,19390103,1,76,4,10,0,3,0,0,1
4,19570410,1,57,4,10,0,3,0,0,0
5,19830824,1,31,4,10,0,99,0,0,0
6,19791220,1,35,4,10,0,99,0,0,0
7,19560215,1,59,4,10,0,99,0,0,0
8,19921215,1,22,4,10,0,99,0,0,0
9,19300424,3,84,4,10,0,1,0,0,0


In [12]:
table_localizacao.insere_dados(df_localizacao, engine, 'localizacao')
table_hospital.insere_dados(df_hospital, engine, 'hospital')
table_paciente.insere_dados(df_paciente, engine, 'paciente')
table_uti.insere_dados(df_uti, engine, 'uti')
table_procedimento.insere_dados(df_procedimento, engine, 'procedimento')
table_diagnostico.insere_dados(df_diagnostico, engine, 'diagnostico')

# Testes

In [None]:
ano = 2017
path_base = f'/home/ferdanielinux/desktop-linux/scripts-python/proj-aries/Dados/parquet/{ano}/'


df = pd.DataFrame()
df_concat = pd.DataFrame()

# Pegando o caminho dos dados com base na path_base. O dado está presente em uma pasta com final .parquet
# Fazendo um laço para concatenar os dados em um único DataFrame, mas apenas 2 amostras de cada vez.
import os

for root, dirs, files in os.walk(path_base):
    for file in files:
        if file.endswith('.parquet'):
            
            # Garantindo que apenas 2 dados serão concatenados
            df = pd.read_parquet(os.path.join(root, file))
            df_concat = pd.concat([df_concat, df], ignore_index=True, sort=False)