# ETL Silver -> Gold
Pipeline de transforma√ß√£o de dados da camada Silver para o Data Warehouse (Gold)

## 1. Importa√ß√µes e Configura√ß√£o Inicial
Importa√ß√£o de bibliotecas necess√°rias, configura√ß√£o de par√¢metros e leitura do DDL externo

In [None]:
import pandas as pd
import numpy as np
import os
import time
from sqlalchemy import create_engine, text

# ==============================================================================
# 2. CONFIGURA√á√ÉO E IN√çCIO
# ==============================================================================
print("üèÜ Iniciando ETL Gold (Silver -> DW)...")
start_time = time.time()

# CONFIGURA√á√ïES DE SCHEMA
GOLD_SCHEMA = "DW"           # Nome do Schema de destino (Mai√∫sculo)
SILVER_TABLE = "silver.acd"  # Tabela de origem
DDL_FILE_NAME = "ddl.sql"

db_name = "acidentes_db"
db_user = "postgres"
db_pass = "admin"

# ==============================================================================
# 3. LEITURA DO ARQUIVO DDL EXTERNO
# ==============================================================================
def ler_ddl_externo(nome_arquivo):
    caminhos_tentativa = [
        os.path.join("gold", nome_arquivo),                       
        os.path.join("Data_Layer", "gold", nome_arquivo),         
        os.path.join("..", "Data_Layer", "gold", nome_arquivo),   
        f"/home/jovyan/work/Data_Layer/gold/{nome_arquivo}"       
    ]
    
    for caminho in caminhos_tentativa:
        if os.path.exists(caminho):
            print(f"üìú Arquivo DDL encontrado: {caminho}")
            try:
                with open(caminho, 'r', encoding='utf-8') as f:
                    return f.read()
            except:
                with open(caminho, 'r', encoding='latin-1') as f:
                    return f.read()
    
    print(f"‚ùå ERRO: Arquivo '{nome_arquivo}' n√£o encontrado.")
    return None

DDL_CONTENT = ler_ddl_externo(DDL_FILE_NAME)

if not DDL_CONTENT:
    raise FileNotFoundError(f"Pare! O arquivo {DDL_FILE_NAME} precisa existir na pasta gold.")

# --- TRUQUE: SUBSTITUI√á√ÉO DIN√ÇMICA COM ASPAS ---
# Garante que o SQL use "DW" (com aspas) para respeitar a caixa alta
DDL_FINAL = DDL_CONTENT.replace("gold.", f'"{GOLD_SCHEMA}".')
DDL_FINAL = DDL_FINAL.replace("DW.", f'"{GOLD_SCHEMA}".') 

# Remove comandos de cria√ß√£o de schema antigos do arquivo para evitar erros
DDL_FINAL = DDL_FINAL.replace("CREATE SCHEMA IF NOT EXISTS gold", "") 
DDL_FINAL = DDL_FINAL.replace("CREATE SCHEMA IF NOT EXISTS DW", "")

## 2. Conex√£o e Prepara√ß√£o do Schema
Estabelecimento de conex√£o com o banco de dados e cria√ß√£o do schema DW

In [None]:
engine = None
print("\nüîå Conectando ao banco de dados...")

def tentar_conexao(url, nome):
    try:
        eng = create_engine(url)
        with eng.connect() as conn:
            print(f"‚úÖ Conectado via {nome}")
            
            # 1. Garante Schema (COM ASPAS PARA FOR√áAR MAI√öSCULO)
            print(f"üõ†Ô∏è Criando/Verificando schema '\"{GOLD_SCHEMA}\"'...")
            conn.execute(text(f'CREATE SCHEMA IF NOT EXISTS "{GOLD_SCHEMA}";'))
            conn.commit()
            
            # 2. Roda DDL
            print("üîÑ Executando DDL (Recriando tabelas)...")
            conn.execute(text(DDL_FINAL))
            conn.commit()
        return eng
    except Exception as e:
        print(f"‚ö†Ô∏è Falha na conex√£o {nome}: {e}")
        return None

# Tenta Localhost PRIMEIRO
db_url_local = f"postgresql+psycopg2://{db_user}:{db_pass}@localhost:5432/{db_name}"
engine = tentar_conexao(db_url_local, "LOCALHOST")

# Tenta Docker como fallback
if not engine:
    print("‚ö†Ô∏è Localhost falhou. Tentando Docker...")
    db_url_docker = f"postgresql+psycopg2://{db_user}:{db_pass}@db:5432/{db_name}"
    engine = tentar_conexao(db_url_docker, "DOCKER")

if not engine:
    raise ConnectionError("‚ùå ERRO CR√çTICO: Falha total de conex√£o com o banco.")

print(f"‚úÖ Estrutura '{GOLD_SCHEMA}' Pronta!")

## 3. Extra√ß√£o (EXTRACTION)
Leitura dos dados da tabela Silver

In [None]:
print(f"\nüì• Lendo tabela Silver: {SILVER_TABLE}")
try:
    df_silver = pd.read_sql(f"SELECT * FROM {SILVER_TABLE}", engine)
    print(f"‚úÖ Registros carregados: {len(df_silver)}")
    
    if len(df_silver) == 0: raise SystemExit("Silver Vazia")

    if 'ttl_aer_env' not in df_silver.columns:
        df_silver['ttl_aer_env'] = 1

    # --- GARANTIA DE TIPOS ---
    print("   -> Garantindo tipagem num√©rica para Lat/Lon...")
    df_silver['lat'] = pd.to_numeric(df_silver['lat'], errors='coerce').fillna(0.0)
    df_silver['lon'] = pd.to_numeric(df_silver['lon'], errors='coerce').fillna(0.0)

except Exception as e:
    print(f"‚ùå Erro ao ler Silver: {e}")
    raise e

## 4. Transforma√ß√£o (TRANSFORMATION)
Constru√ß√£o das dimens√µes do Data Warehouse

In [None]:
def save_dimension(df_unique, table_name):
    if df_unique.empty: return
    try:
        table_simple = table_name.split('.')[-1]
        print(f"---> Carga: {GOLD_SCHEMA}.{table_simple} ({len(df_unique)} linhas)")
        
        df_unique.to_sql(
            name=table_simple, 
            schema=GOLD_SCHEMA, 
            con=engine, 
            if_exists='append', 
            index=False
        )
    except Exception as e:
        print(f"‚ùå Erro em {table_name}: {e}")
        raise e

print("\nüî® Construindo Dimens√µes...")

# 1. Aeronave
df_aer = df_silver[['mat_aer', 'fab_aer', 'mdl_aer', 'tpo_aer']].drop_duplicates().copy()
df_aer.columns = ['cod_mat', 'nom_fab', 'nom_mdl', 'des_tpo']
save_dimension(df_aer, f"{GOLD_SCHEMA}.dim_aer")

# 2. Localiza√ß√£o
df_loc = df_silver[['mun', 'uf', 'lat', 'lon']].drop_duplicates().copy()
df_loc.columns = ['nom_mun', 'sgl_uf', 'num_lat', 'num_lon']
save_dimension(df_loc, f"{GOLD_SCHEMA}.dim_loc")

# 3. Tempo
df_tmp = df_silver[['ano', 'mes', 'dia']].drop_duplicates().copy()
df_tmp.columns = ['num_ano', 'num_mes', 'num_dia']
save_dimension(df_tmp, f"{GOLD_SCHEMA}.dim_tmp")

# 4. Ocorr√™ncia
cols_ocr = ['cod_ocr', 'cls_ocr', 'tpo_ocr', 'fse_ope', 'nvl_sev', 'nvl_dno']
df_ocr = df_silver[cols_ocr].drop_duplicates().copy()
df_ocr.columns = ['cod_ocr', 'des_cls', 'des_tpo', 'des_fse', 'des_sev', 'des_dno']
save_dimension(df_ocr, f"{GOLD_SCHEMA}.dim_ocr")

## 5. Carga no Data Warehouse (LOADING)
Constru√ß√£o da tabela fato atrav√©s de joins com as dimens√µes e carga final no DW

In [None]:
print("\nüîó Cruzando dados para Fato...")

try:
    # AQUI EST√Å A CORRE√á√ÉO PRINCIPAL: 
    # Usamos aspas simples (') fora e aspas duplas (") dentro para o schema
    # Ex: SELECT * FROM "DW".dim_aer
    
    print(f"   -> Lendo dimens√µes do schema \"{GOLD_SCHEMA}\"...")
    dim_aer = pd.read_sql(f'SELECT * FROM "{GOLD_SCHEMA}".dim_aer', engine)
    dim_loc = pd.read_sql(f'SELECT * FROM "{GOLD_SCHEMA}".dim_loc', engine)
    dim_tmp = pd.read_sql(f'SELECT * FROM "{GOLD_SCHEMA}".dim_tmp', engine)
    dim_ocr = pd.read_sql(f'SELECT * FROM "{GOLD_SCHEMA}".dim_ocr', engine)

    # Garante tipos float para evitar erro no merge
    dim_loc['num_lat'] = pd.to_numeric(dim_loc['num_lat'], errors='coerce').fillna(0.0)
    dim_loc['num_lon'] = pd.to_numeric(dim_loc['num_lon'], errors='coerce').fillna(0.0)

    # Merge
    print("   -> Realizando Joins...")
    df_fato = df_silver.merge(
        dim_aer, left_on=['mat_aer', 'fab_aer', 'mdl_aer', 'tpo_aer'], right_on=['cod_mat', 'nom_fab', 'nom_mdl', 'des_tpo']
    ).merge(
        dim_loc, left_on=['mun', 'uf', 'lat', 'lon'], right_on=['nom_mun', 'sgl_uf', 'num_lat', 'num_lon']
    ).merge(
        dim_tmp, left_on=['ano', 'mes', 'dia'], right_on=['num_ano', 'num_mes', 'num_dia']
    ).merge(
        dim_ocr, left_on=['cod_ocr', 'cls_ocr', 'tpo_ocr', 'fse_ope', 'nvl_sev', 'nvl_dno'], right_on=['cod_ocr', 'des_cls', 'des_tpo', 'des_fse', 'des_sev', 'des_dno']
    )

    # Sele√ß√£o
    df_fato_final = df_fato[[
        'srk_aer', 'srk_loc', 'srk_tmp', 'srk_ocr', 
        'ttl_fat', 'ttl_rec', 'qtd_ase_aer', 'ttl_aer_env'
    ]].copy()

    df_fato_final.columns = ['srk_aer', 'srk_loc', 'srk_tmp', 'srk_ocr', 'num_fat', 'num_rec', 'num_ase', 'num_env']

    print(f"\nüíæ Salvando Fato (\"{GOLD_SCHEMA}\".fat_ocr)...")
    
    df_fato_final.to_sql(
        name='fat_ocr', 
        schema=GOLD_SCHEMA, 
        con=engine, 
        if_exists='append', 
        index=False, 
        chunksize=2000
    )
    print(f"‚úÖ SUCESSO! {len(df_fato_final)} registros carregados no DW.")
    print(f"üöÄ Tempo total: {time.time() - start_time:.2f}s")

except Exception as e:
    print(f"‚ùå Erro na etapa final: {e}")