In [10]:
#Importando as bibliotecas
import pandas as pd
from sqlalchemy import create_engine, text
import logging

In [11]:
# Configuração de logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')


In [12]:
# Configuração do engine do SQLAlchemy para conectar ao PostgreSQL
engine = create_engine('postgresql://airflow:airflow@127.0.0.1:5432/airflow', echo=False)


In [13]:

def criar_schema_dw():
    with engine.begin() as conn:
        try:
            conn.execute(text("CREATE SCHEMA dw;"))
            logging.info("Schema DW criado.")
        except Exception as e:
            logging.info("Schema DW já existe.")

In [14]:
def criar_tabela_dim_entidade():
    comando_sql = """
        CREATE TABLE IF NOT EXISTS dw.dim_entidade (
                id_entidade SERIAL PRIMARY KEY,
                cod_concedente TEXT,
                cod_financiador TEXT,
                cod_gestora TEXT,
                cod_orgao TEXT,
                cod_secretaria TEXT,
                cpf_cnpj_financiador TEXT,
                plain_cpf_cnpj_financiador TEXT,
                descricao_nome_credor TEXT
            );
    """

    with engine.begin() as conn:
        conn.execute(text(comando_sql))
        logging.info("Tabela dim_entidade criada ou já existente.")


In [15]:
def extrair_dados(engine, nome_tabela, schema='stage'):
    query = f"SELECT * FROM {schema}.{nome_tabela};"
    df = pd.read_sql_query(query, engine)
    logging.info(f"Dados extraídos de {schema}.{nome_tabela} com sucesso.")
    return df

In [16]:
def carregar_dados_dim_entidade(engine, df):
    schema = 'dw'
    nome_tabela = 'dim_entidade'
    df.to_sql(nome_tabela, engine, schema=schema, if_exists='append', index=None, method='multi')
    logging.info(f"Dados carregados em {schema}.{nome_tabela} com sucesso.")
    

In [17]:
def limpar_tabelas():
    tabelas = [
        'dw.dim_entidade',
        # Adicione os nomes de outras tabelas aqui
    ]
    with engine.begin() as conn:
        for tabela in tabelas:
            try:
                conn.execute(text(f"TRUNCATE TABLE {tabela} RESTART IDENTITY CASCADE;"))
                logging.info(f"Tabela {tabela} limpa com sucesso.")
            except Exception as e:
                logging.warning(f"Tabela {tabela} não pôde ser limpa: {str(e)}")
 

In [18]:
def main():
    # Criar o schema DW se ele ainda não existir
    criar_schema_dw()
    
    # Criar a tabela dim_entidade no schema DW
    criar_tabela_dim_entidade()    
        
    # Limpar as tabelas antes de inserir novos dados
    limpar_tabelas()
    
    # Criar a tabela dim_entidade no schema DW
    criar_tabela_dim_entidade()       
    
    # Extrair os dados das tabelas 'convenios' e 'contratos' no schema 'stage'
    df_convenios = extrair_dados(engine, 'convenios')
    df_contratos = extrair_dados(engine, 'contratos')
    
    # Concatenar os DataFrames para formar o DataFrame final para a tabela dim_entidade
    df_dim_entidade = pd.concat([df_convenios[['cod_concedente', 'cod_financiador', 'cod_gestora', 'cod_orgao', 'cod_secretaria', 'cpf_cnpj_financiador','plain_cpf_cnpj_financiador', 'descricao_nome_credor']],
                                     df_contratos[['cod_concedente', 'cod_financiador', 'cod_gestora', 'cod_orgao', 'cod_secretaria', 'cpf_cnpj_financiador','plain_cpf_cnpj_financiador','descricao_nome_credor' ]]])
    
    # Carregar os dados na tabela dim_entidade
    carregar_dados_dim_entidade(engine, df_dim_entidade)
    
    logging.info("Processo de ETL concluído com sucesso.")

if __name__ == "__main__":
    main()

2024-04-08 17:01:44,356 - INFO - Schema DW já existe.
2024-04-08 17:01:44,373 - INFO - Tabela dim_entidade criada ou já existente.


2024-04-08 17:01:44,392 - INFO - Tabela dw.dim_entidade limpa com sucesso.
2024-04-08 17:01:44,403 - INFO - Tabela dim_entidade criada ou já existente.
2024-04-08 17:01:44,422 - INFO - Dados extraídos de stage.convenios com sucesso.
2024-04-08 17:01:44,458 - INFO - Dados extraídos de stage.contratos com sucesso.
2024-04-08 17:01:44,535 - INFO - Dados carregados em dw.dim_entidade com sucesso.
2024-04-08 17:01:44,536 - INFO - Processo de ETL concluído com sucesso.
