In [1]:
import pandas as pd

# Manipulação de sistema para ajustar paths de importação
import sys
import os

# Adiciona o caminho até a pasta que contém o configs.py no sys.path
sys.path.append(os.path.abspath('../..'))

#chamando a função do módulo configs.py que mapeia as pastas no ambiente
import configs as cf
cf.mapeia_pastas()

In [2]:
# Conectar ao banco de dados
con = cf.criar_conexao_db()

In [3]:
# Função para carregar as tabelas
def carregar_tabela(nome_tabela):
    return con.execute(f"SELECT * FROM {nome_tabela}").df()

In [4]:
# Carregar as tabelas
tbl_advogados_brasil_2024 = carregar_tabela("tbl_advogados_brasil_2024")
tbl_contadores_brasil_2024 = carregar_tabela("tbl_contadores_brasil_2024")
tbl_engenheiros_brasil_2024 = carregar_tabela("tbl_engenheiros_brasil_2024")
tbl_psicologos_brasil_2024 = carregar_tabela("tbl_psicologos_brasil_2024")

In [5]:
# Exibir as primeiras linhas de cada tabela
display(tbl_advogados_brasil_2024.head())
display(tbl_contadores_brasil_2024.head())
display(tbl_engenheiros_brasil_2024.head())
display(tbl_psicologos_brasil_2024.head())

Unnamed: 0,estado,feminino,masculino
0,AC,1898,2078
1,AL,7376,7847
2,AM,8181,7544
3,AP,2124,2049
4,BA,33281,28654


Unnamed: 0,estado,feminino,masculino
0,DF,6407,4512
1,GO,6276,4137
2,MS,2886,2637
3,MT,4241,4037
4,AL,1832,1433


Unnamed: 0,estado,feminino,masculino
0,CREA-AC,710,1892
1,CREA-AL,1677,7159
2,CREA-AM,4236,11833
3,CREA-AP,391,1278
4,CREA-BA,12202,39436


Unnamed: 0,estado,feminino,masculino
0,Acre,1181,236
1,Alagoas,5399,991
2,Amapá,1201,261
3,Amazonas,5163,996
4,Bahia,21113,3559


In [6]:
# Lista dos arquivos
arquivos = ["tbl_advogados_brasil_2024.xlsx", 
            "tbl_contadores_brasil_2024.xlsx", 
            "tbl_engenheiros_brasil_2024.xlsx", 
            "tbl_psicologos_brasil_2024.xlsx"
]

# Carregar os arquivos do Excel em um dicionário de DataFrames
tabelas_excel = {nome: pd.read_excel(f"../origens/{nome}") for nome in arquivos}

In [7]:
# Acessar as tabelas carregadas
df_advogados = tabelas_excel["tbl_advogados_brasil_2024.xlsx"]
df_contadores = tabelas_excel["tbl_contadores_brasil_2024.xlsx"]
df_engenheiros = tabelas_excel["tbl_engenheiros_brasil_2024.xlsx"]
df_psicologos = tabelas_excel["tbl_psicologos_brasil_2024.xlsx"]

In [8]:
# Exibir as primeiras linhas para validação
display(df_advogados.head())
display(df_contadores.head())
display(df_engenheiros.head())
display(df_psicologos.head())

Unnamed: 0,Estado,Feminino,Masculino
0,AC,1898,2078
1,AL,7376,7847
2,AM,8181,7544
3,AP,2124,2049
4,BA,33281,28654


Unnamed: 0,Estado,Masculino,Feminino
0,DF,6407,4512
1,GO,6276,4137
2,MS,2886,2637
3,MT,4241,4037
4,AL,1832,1433


Unnamed: 0,Estado,Feminino,Masculino
0,CREA-AC,710,1892
1,CREA-AL,1677,7159
2,CREA-AM,4236,11833
3,CREA-AP,391,1278
4,CREA-BA,12202,39436


Unnamed: 0,Estado,Feminino,Masculino
0,Acre,1181,236
1,Alagoas,5399,991
2,Amapá,1201,261
3,Amazonas,5163,996
4,Bahia,21113,3559


In [9]:
# Função para validar se os DataFrames do banco e dos arquivos Excel são equivalentes
def validar_ingestao(df_tabela, df_arquivo, nome_tabela_db, nome_arquivo_excel):
    try:
        # Verifica se a quantidade de colunas é a mesma
        colunas_iguais = len(df_tabela.columns) == len(df_arquivo.columns)
        # Verifica se a quantidade de linhas é a mesma
        linhas_iguais = len(df_tabela) == len(df_arquivo)

        # Se colunas e linhas forem iguais, exibe mensagem de sucesso
        if colunas_iguais and linhas_iguais:
            print(f"[{nome_tabela_db} x {nome_arquivo_excel}] Tabela (DB) x Arquivo Origem (Excel) são equivalentes em colunas e linhas.")
        # Se colunas forem diferentes, exibe a diferença
        elif not colunas_iguais:
            print(f"  - Colunas diferentes: {len(df_tabela.columns)} (DB) vs {len(df_arquivo.columns)} (Excel)")
        # Se linhas forem diferentes, exibe a diferença
        elif not linhas_iguais:
            print(f"  - Linhas diferentes: {len(df_tabela)} (DB) vs {len(df_arquivo)} (Excel)")
    # Caso ocorra algum erro na validação, exibe a mensagem de erro        
    except Exception as e:
        print(f"Erro: [{nome_tabela_db} x {nome_arquivo_excel}] Validação falhou. Erro: {e}")

In [10]:
# Valida a ingestão de dados para cada tabela/arquivo
validar_ingestao(tbl_advogados_brasil_2024, df_advogados, "tbl_advogados_brasil_2024", "df_advogados")
validar_ingestao(tbl_contadores_brasil_2024, df_contadores, "tbl_contadores_brasil_2024", "df_contadores")
validar_ingestao(tbl_engenheiros_brasil_2024, df_engenheiros, "tbl_engenheiros_brasil_2024", "df_engenheiros")
validar_ingestao(tbl_psicologos_brasil_2024, df_psicologos, "tbl_psicologos_brasil_2024", "df_psicologos")

[tbl_advogados_brasil_2024 x df_advogados] Tabela (DB) x Arquivo Origem (Excel) são equivalentes em colunas e linhas.
[tbl_contadores_brasil_2024 x df_contadores] Tabela (DB) x Arquivo Origem (Excel) são equivalentes em colunas e linhas.
[tbl_engenheiros_brasil_2024 x df_engenheiros] Tabela (DB) x Arquivo Origem (Excel) são equivalentes em colunas e linhas.
[tbl_psicologos_brasil_2024 x df_psicologos] Tabela (DB) x Arquivo Origem (Excel) são equivalentes em colunas e linhas.


In [11]:
con.close()