In [3]:
import pandas as pd
import numpy as np
import os
import time
from sqlalchemy import create_engine, text

# ==============================================================================
# 1. CONFIGURA√á√ÉO E IN√çCIO
# ==============================================================================
print("üáßüá∑ Iniciando o processo ETL (Raw -> Silver) - Acidentes A√©reos...")
start_time = time.time()

# Fun√ß√£o auxiliar para encontrar arquivos
def encontrar_arquivo(nome_arquivo):
    possible_paths = [
        nome_arquivo,
        os.path.join('Data_Layer', 'raw', nome_arquivo),
        os.path.join('raw', nome_arquivo),
        os.path.join('..', 'Data_Layer', 'raw', nome_arquivo),
        # Caminho absoluto interno do Docker
        rf"/home/jovyan/work/Data_Layer/raw/{nome_arquivo}" 
    ]
    
    for path in possible_paths:
        if os.path.exists(path):
            return path
    return None

# ==============================================================================
# 2. EXTRA√á√ÉO (EXTRACTION)
# ==============================================================================
print("üìÇ Buscando arquivo de dados brutos...")

nome_arquivo_raw = 'data_raw.csv'
path_raw = encontrar_arquivo(nome_arquivo_raw)

if not path_raw:
    print(f"‚ùå [ERRO CR√çTICO] Arquivo '{nome_arquivo_raw}' n√£o encontrado.")
    exit(1)

try:
    print(f"   -> Lendo Arquivo: {path_raw}...")
    # Lendo com sep=';' e encoding latin1
    df = pd.read_csv(path_raw, sep=';', encoding='latin1', dtype=str)
    
    print(f"‚úÖ Carga Raw Completa! Registros carregados: {len(df)}")

except Exception as e:
    print(f"‚ùå Erro ao ler CSV: {e}")
    exit(1)

# ==============================================================================
# 3. TRANSFORMA√á√ÉO (TRANSFORMATION)
# ==============================================================================
print("üõ†Ô∏è Iniciando a limpeza, padroniza√ß√£o e remo√ß√£o de nulos...")
df_silver = df.copy()

# --- 3.1 RENOMEA√á√ÉO (Mapeamento Raw -> SQL Schema) ---
mapa_colunas = {
    'Codigo da Ocorrencia': 'cod_ocr',
    'Classificacao da Ocorrencia ': 'cls_ocr',
    'Classificacao da Ocorrencia': 'cls_ocr',
    'Data e Hora da Ocorrencia': 'dta_ocr',
    'Latitude da Ocorrencia': 'lat',
    'Longitude da Ocorrencia': 'lon',
    'Cidade da Ocorrencia': 'mun',
    'UF da Ocorrencia': 'uf',
    'Aerodromo da Ocorrencia': 'aer_ocr',
    'Total de Recomendacoes': 'ttl_rec',
    'Total de Aeronaves Envolvidas': 'ttl_aer_env',
    'Ocorrencia na Saida da Pista?': 'sai_pst',
    'Tipo de Ocorrencia': 'tpo_ocr',
    'Matricula da Aeronave': 'mat_aer',
    'Tipo de Aeronave': 'tpo_aer',
    'Fabricante da Aeronave': 'fab_aer',
    'Modelo de Aeronave': 'mdl_aer',
    'Aeronave Motor Tipo': 'tpo_mtr',
    'Quantidade de Assentos na Aeronave': 'qtd_ase_aer',
    'Ano de Fabricacao da Aeronave': 'ano_fab_aer',
    'Voo de Origem do Acidente': 'voo_ori',
    'Voo Destino do Acidente': 'voo_dst',
    'Fase de Operacao da Aeronave': 'fse_ope',
    'Nivel de Dano da Aeronave': 'nvl_dno',
    'Total de Fatalidades no Acidente': 'ttl_fat'
}

df_silver = df_silver.rename(columns=mapa_colunas)

# --- 3.2 LIMPEZA DE TEXTO (Strings) ---
cols_text = ['mun', 'uf', 'cls_ocr', 'tpo_ocr', 'mat_aer', 'tpo_aer', 'fab_aer', 'mdl_aer', 'fse_ope', 'nvl_dno']

for col in cols_text:
    if col in df_silver.columns:
        df_silver[col] = df_silver[col].str.strip()
        df_silver[col] = df_silver[col].replace(['****', '***', ''], np.nan)
        df_silver[col] = df_silver[col].fillna("N√ÉO INFORMADO")

# --- 3.3 TRATAMENTO DE DATAS ---
print("   -> Processando datas...")
df_silver['dta_ocr'] = pd.to_datetime(df_silver['dta_ocr'], format='%d/%m/%Y %H:%M', errors='coerce')
df_silver['dta_ocr'] = df_silver['dta_ocr'].fillna(pd.Timestamp('1900-01-01 00:00:00'))

df_silver['ano'] = df_silver['dta_ocr'].dt.year
df_silver['mes'] = df_silver['dta_ocr'].dt.month
df_silver['dia'] = df_silver['dta_ocr'].dt.day
df_silver['hor'] = df_silver['dta_ocr'].dt.hour

# --- 3.4 TRATAMENTO DE COORDENADAS ---
print("   -> Corrigindo Lat/Lon cient√≠fica...")

def limpar_coord(valor):
    if pd.isna(valor) or valor == '': return 0.0
    try:
        val_str = str(valor).replace(',', '.')
        val_float = float(val_str)
        if abs(val_float) > 180: return 0.0
        return val_float
    except:
        return 0.0

if 'lat' in df_silver.columns: df_silver['lat'] = df_silver['lat'].apply(limpar_coord)
if 'lon' in df_silver.columns: df_silver['lon'] = df_silver['lon'].apply(limpar_coord)

# --- 3.5 TRATAMENTO NUM√âRICO ---
print("   -> Convertendo n√∫meros...")
cols_int = ['ttl_fat', 'ttl_rec', 'ttl_aer_env', 'ano_fab_aer', 'qtd_ase_aer']

for col in cols_int:
    if col in df_silver.columns:
        df_silver[col] = pd.to_numeric(df_silver[col], errors='coerce').fillna(0).astype(int)

# --- 3.6 SEVERIDADE ---
def calcular_severidade(fatais):
    if fatais == 0: return 'LEVE'
    elif fatais <= 10: return 'MODERADA'
    elif fatais <= 50: return 'GRAVE'
    else: return 'CRITICA'

df_silver['nvl_sev'] = df_silver['ttl_fat'].apply(calcular_severidade)

# --- 3.7 SELE√á√ÉO FINAL ---
cols_finais = [
    'cod_ocr', 'dta_ocr', 'ano', 'mes', 'dia', 'hor', 
    'uf', 'mun', 'lat', 'lon', 
    'cls_ocr', 'tpo_ocr', 'fse_ope', 
    'tpo_aer', 'fab_aer', 'mdl_aer', 'mat_aer', 'ano_fab_aer', 'qtd_ase_aer',
    'nvl_dno', 'ttl_fat', 'ttl_rec', 'nvl_sev'
]
cols_existentes = [c for c in cols_finais if c in df_silver.columns]
df_final = df_silver[cols_existentes].copy()

print(f"‚ú® Transforma√ß√£o conclu√≠da! Base Silver Final: {len(df_final)} registros.")

# ==============================================================================
# 4. CARGA NO BANCO DE DADOS (LOADING)
# ==============================================================================
print("\nüîå Conectando ao Banco de Dados...")

# --- CONFIGURA√á√ÉO ATUALIZADA (DOCKER) ---
# Se o script roda no Container 'jupyter-lab', o host do banco √© o nome do servi√ßo 'db'
jdbc_hostname = "db"            
jdbc_port     = "5432"
jdbc_database = "acidentes_db"  
db_user       = "postgres"
db_password   = "admin"

# URL de Conex√£o
db_url = f"postgresql+psycopg2://{db_user}:{db_password}@{jdbc_hostname}:{jdbc_port}/{jdbc_database}"

# 4.1 Cria√ß√£o da Engine
engine = None
try:
    engine = create_engine(db_url)
    with engine.connect() as conn:
        pass 
    print(f"‚úÖ Conectado com sucesso ao Host: {jdbc_hostname} | DB: {jdbc_database}")

except Exception as e:
    print(f"‚ö†Ô∏è Falha ao conectar em '{jdbc_hostname}'. Tentando 'localhost' (caso esteja rodando localmente)...")
    try:
        # Fallback para localhost se voc√™ rodar fora do Docker
        db_url_local = f"postgresql+psycopg2://{db_user}:{db_password}@localhost:5432/{jdbc_database}"
        engine = create_engine(db_url_local)
        with engine.connect() as conn:
            pass
        print("‚úÖ Conectado via Localhost!")
    except Exception as e2:
        print(f"‚ùå Erro fatal de conex√£o: {e2}")
        exit(1)

# 4.2 EXECU√á√ÉO DO DDL
print("üìú Verificando DDL...")
possible_ddl_paths = [
    "ddl.sql",
    os.path.join("Data_Layer", "silver", "ddl.sql"),
    os.path.join("silver", "ddl.sql")
]

for path in possible_ddl_paths:
    if os.path.exists(path):
        try:
            with open(path, 'r') as file:
                ddl_content = file.read()
            with engine.connect() as conn:
                conn.execute(text(ddl_content))
                conn.commit()
            print(f"‚úÖ DDL executado: {path}")
            break
        except Exception as e:
            print(f"‚ö†Ô∏è Erro no DDL: {e}")

# 4.3 INSER√á√ÉO
try:
    print(f"üíæ Inserindo {len(df_final)} registros na tabela 'public.acd'...")
    
    df_final.to_sql(
        name='acd',         
        schema='public',    
        con=engine,
        if_exists='replace', 
        index=False,
        chunksize=1000,
        method='multi'
    )
    print("‚úÖ SUCESSO! Dados carregados na tabela 'public.acd'.")

except Exception as e:
    print(f"‚ùå Erro na inser√ß√£o: {e}")
    exit(1)

print(f"\nüöÄ Job ETL finalizado em {time.time() - start_time:.2f} segundos!")

üáßüá∑ Iniciando o processo ETL (Raw -> Silver) - Acidentes A√©reos...
üìÇ Buscando arquivo de dados brutos...
   -> Lendo Arquivo: ..\Data_Layer\raw\data_raw.csv...
‚úÖ Carga Raw Completa! Registros carregados: 6114
üõ†Ô∏è Iniciando a limpeza, padroniza√ß√£o e remo√ß√£o de nulos...
   -> Processando datas...
   -> Corrigindo Lat/Lon cient√≠fica...
   -> Convertendo n√∫meros...
‚ú® Transforma√ß√£o conclu√≠da! Base Silver Final: 6114 registros.

üîå Conectando ao Banco de Dados...
‚ö†Ô∏è Falha ao conectar em 'db'. Tentando 'localhost' (caso esteja rodando localmente)...
‚úÖ Conectado via Localhost!
üìú Verificando DDL...
üíæ Inserindo 6114 registros na tabela 'public.acd'...
‚úÖ SUCESSO! Dados carregados na tabela 'public.acd'.

üöÄ Job ETL finalizado em 7.00 segundos!
