In [34]:
import psycopg2
from psycopg2 import sql
import os
import pandas as pd
from sqlalchemy import create_engine

In [35]:
engine = create_engine('postgresql+psycopg2://postgres:postgres123@localhost:5432/postgres')

In [36]:
table_name = "your_table"
df_disciplinas = pd.read_sql_table("disciplinas", con=engine)

In [37]:
display(df_disciplinas)

Unnamed: 0,id,codigo,nome,turmas,discentes,cancelamentos,reprovacoesmedia,reprovacoesnota,reprovacoesfalta,reprovacoesmediafalta,reprovacoesnotafalta,trancamentos,insucessos,semestre,departamento,curso
0,1,ADM0014,ADMINISTRAÇÃO PÚBLICA E GESTÃO SOCIAL,1,1,0,0,0,0,0,0,0,0,2023-2,ADM,Software
1,2,FGA0038,AERODINÂMICA DE SISTEMAS AEROESPACIAIS,1,1,0,0,0,0,0,0,1,1,2023-2,FGA,Software
2,3,FUP0545,AGRICULTURA E MEIO AMBIENTE,1,1,0,1,0,0,0,0,0,1,2023-2,FUP,Software
3,4,FUP0161,AGROECOLOGIA,1,1,0,0,0,1,0,0,0,1,2023-2,FUP,Software
4,5,MAT0039,ALGEBRA LINEAR,1,1,0,0,0,0,0,0,0,0,2023-2,MAT,Software
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
912,913,FGA0119,TEORIA DEELETROMAGNETISMO,2,3,0,0,0,0,0,0,1,1,2025-1,FGA,Automotiva
913,914,FGA0078,TEORIA DE MATERIAIS DECONSTRUÇÃO,2,4,0,1,0,0,0,0,1,2,2025-1,FGA,Automotiva
914,915,FGA0088,TEORIA DE SISTEMAS DECONVERSÃO DE ENERGIA,1,1,0,0,0,0,0,0,0,0,2025-1,FGA,Automotiva
915,916,FGA0214,TÓPICOS ESPECIAIS EMENGENHARIA AUTOMOTIVA,2,14,1,0,0,4,0,0,5,10,2025-1,FGA,Automotiva


In [38]:
# --- 3. PROCESSAR E CARREGAR dim_disc ---
print("\nProcessando dw.dim_disc...")

# Seleciona colunas únicas e renomeia
df_dim_disc = df_disciplinas[['codigo', 'nome']].drop_duplicates().reset_index(drop=True)
df_dim_disc = df_dim_disc.rename(columns={'codigo': 'cod_disc', 'nome': 'nm_disc'})
try:
    df_dim_disc.to_sql('dim_disc', engine, schema='dw', if_exists='append', index=False)
    print(f"Sucesso: {len(df_dim_disc)} registros carregados em dw.dim_disc.")
except Exception as e:
    print(f"Erro ao carregar dw.dim_disc: {e}")


Processando dw.dim_disc...
Sucesso: 403 registros carregados em dw.dim_disc.


In [39]:
# --- 4. PROCESSAR E CARREGAR dim_dpt ---
print("\nProcessando dw.dim_dpt...")

# Seleciona valores únicos e renomeia a coluna
df_dim_dpt = df_disciplinas[['departamento']].drop_duplicates().reset_index(drop=True)
df_dim_dpt = df_dim_dpt.rename(columns={'departamento': 'nm_dpt'})

try:
    # Carrega os dados
    df_dim_dpt.to_sql('dim_dpt', engine, schema='dw', if_exists='append', index=False)
    print(f"Sucesso: {len(df_dim_dpt)} registros carregados em dw.dim_dpt.")
except Exception as e:
    print(f"Erro ao carregar dw.dim_dpt: {e}")


Processando dw.dim_dpt...
Sucesso: 54 registros carregados em dw.dim_dpt.


In [40]:
# --- 5. PROCESSAR E CARREGAR dim_cur ---
print("\nProcessando dw.dim_cur...")

# Seleciona valores únicos e renomeia a coluna
df_dim_cur = df_disciplinas[['curso']].drop_duplicates().reset_index(drop=True)
df_dim_cur = df_dim_cur.rename(columns={'curso': 'nome_cur'})

try:
    # Carrega os dados
    df_dim_cur.to_sql('dim_cur', engine, schema='dw', if_exists='append', index=False)
    print(f"Sucesso: {len(df_dim_cur)} registros carregados em dw.dim_cur.")
except Exception as e:
    print(f"Erro ao carregar dw.dim_cur: {e}")


Processando dw.dim_cur...
Sucesso: 2 registros carregados em dw.dim_cur.


In [41]:
# --- 6. PROCESSAR E CARREGAR dim_tmp ---
print("\nProcessando dw.dim_tmp...")

# Pega os valores únicos de semestre
df_dim_tmp_raw = pd.DataFrame(df_disciplinas['semestre'].unique(), columns=['semestre_completo'])

try:
    split_data = df_dim_tmp_raw['semestre_completo'].str.split('-', expand=True)
    df_dim_tmp = pd.DataFrame({
        'ano': split_data[0].astype(int),
        'sem_ano': split_data[1]
    })
    df_dim_tmp = df_dim_tmp.drop_duplicates().reset_index(drop=True)
    
    # Carrega os dados
    df_dim_tmp.to_sql('dim_tmp', engine, schema='dw', if_exists='append', index=False)
    print(f"Sucesso: {len(df_dim_tmp)} registros carregados em dw.dim_tmp.")

except Exception as e:
    print(f"Erro ao processar ou carregar dw.dim_tmp: {e}")
    print("Verifique se o formato da coluna 'semestre' é consistentemente 'AAAA/S'.")
    raise e


Processando dw.dim_tmp...
Sucesso: 4 registros carregados em dw.dim_tmp.


In [42]:
# --- 7. LER DIMENSÕES DE VOLTA COM AS SURROGATE KEYS ---
print("\nLendo dimensões de volta para mapear Foreign Keys...")
try:
    dim_disc_sk = pd.read_sql("SELECT * FROM dw.dim_disc", engine)
    dim_dpt_sk = pd.read_sql("SELECT * FROM dw.dim_dpt", engine)
    dim_cur_sk = pd.read_sql("SELECT * FROM dw.dim_cur", engine)
    dim_tmp_sk = pd.read_sql("SELECT * FROM dw.dim_tmp", engine)

    print(f"Carregadas {len(dim_disc_sk)} chaves de disciplinas.")
    print(f"Carregadas {len(dim_dpt_sk)} chaves de departamento.")
    print(f"Carregadas {len(dim_cur_sk)} chaves de curso.")
    print(f"Carregadas {len(dim_tmp_sk)} chaves de tempo.")
    
    dim_tmp_sk['semestre'] = dim_tmp_sk['sem_ano'].astype(str)
    
except Exception as e:
    print(f"Erro ao ler as tabelas de dimensão do schema 'dw': {e}")
    raise e


Lendo dimensões de volta para mapear Foreign Keys...
Carregadas 403 chaves de disciplinas.
Carregadas 54 chaves de departamento.
Carregadas 2 chaves de curso.
Carregadas 4 chaves de tempo.


In [44]:
# --- 8. CONSTRUIR E CARREGAR A TABELA FATO ---
print("\nConstruindo a tabela fato dw.fato_insuc...")

df_fact = df_disciplinas.copy()

# Merge 1: Disciplina (usa 'codigo' e 'nome' como chave de negócio)
df_fact = pd.merge(
    df_fact,
    dim_disc_sk,
    left_on=['codigo', 'nome'],
    right_on=['cod_disc', 'nm_disc'],
    how='left'
)

# Merge 2: Departamento
df_fact = pd.merge(
    df_fact,
    dim_dpt_sk,
    left_on='departamento',
    right_on='nm_dpt',
    how='left'
)

# Merge 3: Curso
df_fact = pd.merge(
    df_fact,
    dim_cur_sk,
    left_on='curso',
    right_on='nome_cur',
    how='left'
)

# Merge 4: Tempo (requer a mesma transformação da coluna 'semestre')
try:
    split_data = df_fact['semestre'].str.split('-', expand=True)
    df_fact['ano_parsed'] = split_data[0].astype(int)
    df_fact['semestre_parsed'] = split_data[1].astype(str)

    df_fact = pd.merge(
        df_fact,
        dim_tmp_sk,
        left_on=['ano_parsed', 'semestre_parsed'],
        right_on=['ano', 'sem_ano'],
        how='left'
    )
except Exception as e:
    print(f"Erro ao fazer o parse do semestre para o merge da Fato: {e}")
    raise e

metricas = [
    'turmas',
    'discentes',
    'cancelamentos',
    'reprovacoesmedia',
    'reprovacoesnota',
    'reprovacoesfalta',
    'reprovacoesmediafalta',
    'reprovacoesnotafalta',
    'trancamentos',
    'insucessos'
]

fks = [
    'srk_disc',
    'srk_tmp',
    'srk_dpt',
    'srk_cur'
]

# Seleciona apenas as colunas necessárias para a tabela fato
df_fact_load = df_fact[fks + metricas]

df_fact_load = df_fact_load.rename(columns={'turmas' : 'turm',
    'discentes' : 'discen',
    'cancelamentos': 'canc', 
    'reprovacoesmedia' : 'rpv_med',
    'reprovacoesnota' : 'rpv_not',
    'reprovacoesfalta' : 'rpv_fal',
    'reprovacoesmediafalta' : 'rpv_med_fal',
    'reprovacoesnotafalta' : 'rpv_not_fal',
    'trancamentos' : 'tranc',
    'insucessos': 'insuc'})

# --- Verificação e Carga Final ---

null_fks = df_fact_load[fks].isnull().sum()
if null_fks.sum() > 0:
    print("\nAVISO: Foram encontradas chaves estrangeiras nulas. Isso indica falha no merge.")
    print(null_fks[null_fks > 0])
else:
    print("Todas as chaves estrangeiras foram mapeadas com sucesso.")

try:
    print(f"Carregando {len(df_fact_load)} registros em dw.fato_insuc...")
    df_fact_load.to_sql('fato_insuc', engine, schema='dw', if_exists='append', index=False)
    print("Sucesso! Tabela Fato carregada.")
except Exception as e:
    print(f"Erro ao carregar a tabela fato: {e}")

print("\nProcesso de ETL concluído.")


Construindo a tabela fato dw.fato_insuc...
Todas as chaves estrangeiras foram mapeadas com sucesso.
Carregando 917 registros em dw.fato_insuc...
Sucesso! Tabela Fato carregada.

Processo de ETL concluído.


In [45]:
# --- 9. FECHAR CONEXÃO ---
engine.dispose()
print("\nConexão com o banco de dados fechada.")


Conexão com o banco de dados fechada.


In [46]:
display(df_fact_load)

Unnamed: 0,srk_disc,srk_tmp,srk_dpt,srk_cur,turm,discen,canc,rpv_med,rpv_not,rpv_fal,rpv_med_fal,rpv_not_fal,tranc,insuc
0,1,1,1,1,1,1,0,0,0,0,0,0,0,0
1,2,1,2,1,1,1,0,0,0,0,0,0,1,1
2,3,1,3,1,1,1,0,1,0,0,0,0,0,1
3,4,1,3,1,1,1,0,0,0,1,0,0,0,1
4,5,1,4,1,1,1,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
912,381,4,2,2,2,3,0,0,0,0,0,0,1,1
913,367,4,2,2,2,4,0,1,0,0,0,0,1,2
914,403,4,2,2,1,1,0,0,0,0,0,0,0,0
915,371,4,2,2,2,14,1,0,0,4,0,0,5,10
