# ETL Raw -> Silver
Pipeline de transforma√ß√£o de dados brutos para a camada Silver (Acidentes A√©reos)

## 1. Importa√ß√µes e Configura√ß√£o Inicial
Importa√ß√£o de bibliotecas necess√°rias e inicializa√ß√£o do processo ETL

In [1]:
import pandas as pd
import numpy as np
import os
import time
from sqlalchemy import create_engine, text

# ==============================================================================
# 2. CONFIGURA√á√ÉO E IN√çCIO
# ==============================================================================
print("üáßüá∑ Iniciando ETL Raw -> Silver (Acidentes A√©reos)...")
start_time = time.time()

# Fun√ß√£o auxiliar para encontrar arquivos (Robustez de path)
def encontrar_arquivo(nome_arquivo):
    possible_paths = [
        nome_arquivo,
        os.path.join('Data_Layer', 'raw', nome_arquivo),
        os.path.join('raw', nome_arquivo),
        os.path.join('..', 'Data_Layer', 'raw', nome_arquivo),
        f"/home/jovyan/work/Data_Layer/raw/{nome_arquivo}" 
    ]
    
    for path in possible_paths:
        if os.path.exists(path):
            return path
    return None

üáßüá∑ Iniciando ETL Raw -> Silver (Acidentes A√©reos)...


## 2. Extra√ß√£o (EXTRACTION)
Carregamento dos dados brutos do arquivo CSV

In [2]:
print("üìÇ Buscando arquivo de dados brutos...")

nome_arquivo_raw = 'data_raw.csv'
path_raw = encontrar_arquivo(nome_arquivo_raw)

if not path_raw:
    print(f"‚ùå [ERRO CR√çTICO] Arquivo '{nome_arquivo_raw}' n√£o encontrado.")
    exit(1)

try:
    print(f"   -> Lendo Arquivo: {path_raw}...")
    
    df = pd.read_csv(path_raw, sep=';', encoding='utf-8', dtype=str)
    
    print(f"‚úÖ Carga Raw Completa! Registros carregados: {len(df)}")

except UnicodeDecodeError:
    print("‚ö†Ô∏è Falha com UTF-8. Tentando Latin-1...")
    df = pd.read_csv(path_raw, sep=';', encoding='latin1', dtype=str)

except Exception as e:
    print(f"‚ùå Erro ao ler CSV: {e}")
    exit(1)

üìÇ Buscando arquivo de dados brutos...
   -> Lendo Arquivo: ../Data_Layer/raw/data_raw.csv...
‚úÖ Carga Raw Completa! Registros carregados: 6114


## 3. Transforma√ß√£o (TRANSFORMATION)
Fase de limpeza, padroniza√ß√£o e remo√ß√£o de dados inv√°lidos

In [3]:
print("üõ†Ô∏è Iniciando a limpeza e padroniza√ß√£o...")
df_silver = df.copy()

# 4.1 RENOMEA√á√ÉO (Mapeamento Raw -> SQL Schema)
mapa_colunas = {
    'Codigo da Ocorrencia': 'cod_ocr',
    'Classificacao da Ocorrencia ': 'cls_ocr',
    'Classificacao da Ocorrencia': 'cls_ocr',
    'Data e Hora da Ocorrencia': 'dta_ocr',
    'Latitude da Ocorrencia': 'lat',
    'Longitude da Ocorrencia': 'lon',
    'Cidade da Ocorrencia': 'mun',
    'UF da Ocorrencia': 'uf',
    'Aerodromo da Ocorrencia': 'aer_ocr',
    'Total de Recomendacoes': 'ttl_rec',
    'Total de Aeronaves Envolvidas': 'ttl_aer_env',
    'Ocorrencia na Saida da Pista?': 'sai_pst',
    'Tipo de Ocorrencia': 'tpo_ocr',
    'Matricula da Aeronave': 'mat_aer',
    'Tipo de Aeronave': 'tpo_aer',
    'Fabricante da Aeronave': 'fab_aer',
    'Modelo de Aeronave': 'mdl_aer',
    'Aeronave Motor Tipo': 'tpo_mtr',
    'Quantidade de Assentos na Aeronave': 'qtd_ase_aer',
    'Ano de Fabricacao da Aeronave': 'ano_fab_aer',
    'Voo de Origem do Acidente': 'voo_ori',
    'Voo Destino do Acidente': 'voo_dst',
    'Fase de Operacao da Aeronave': 'fse_ope',
    'Nivel de Dano da Aeronave': 'nvl_dno',
    'Total de Fatalidades no Acidente': 'ttl_fat'
}

df_silver = df_silver.rename(columns=mapa_colunas)

# 4.2 LIMPEZA DE TEXTO (Strings)
cols_text = ['mun', 'uf', 'cls_ocr', 'tpo_ocr', 'mat_aer', 'tpo_aer', 'fab_aer', 'mdl_aer', 'fse_ope', 'nvl_dno']

for col in cols_text:
    if col in df_silver.columns:
        df_silver[col] = df_silver[col].str.strip()
        df_silver[col] = df_silver[col].replace(['****', '***', ''], np.nan)
        df_silver[col] = df_silver[col].fillna("N√ÉO INFORMADO")

# 4.3 TRATAMENTO DE DATAS
print("   -> Processando datas...")
df_silver['dta_ocr'] = pd.to_datetime(df_silver['dta_ocr'], format='%d/%m/%Y %H:%M', errors='coerce')
df_silver['dta_ocr'] = df_silver['dta_ocr'].fillna(pd.Timestamp('1900-01-01 00:00:00'))

df_silver['ano'] = df_silver['dta_ocr'].dt.year
df_silver['mes'] = df_silver['dta_ocr'].dt.month
df_silver['dia'] = df_silver['dta_ocr'].dt.day
df_silver['hor'] = df_silver['dta_ocr'].dt.hour

# 4.4 TRATAMENTO DE COORDENADAS
print("   -> Corrigindo Lat/Lon cient√≠fica...")
def limpar_coord(valor):
    if pd.isna(valor) or valor == '': return 0.0
    try:
        val_str = str(valor).replace(',', '.')
        val_float = float(val_str)
        if abs(val_float) > 180: return 0.0
        return val_float
    except:
        return 0.0

if 'lat' in df_silver.columns: df_silver['lat'] = df_silver['lat'].apply(limpar_coord)
if 'lon' in df_silver.columns: df_silver['lon'] = df_silver['lon'].apply(limpar_coord)

# 4.5 TRATAMENTO NUM√âRICO
print("   -> Convertendo n√∫meros...")
cols_int = ['ttl_fat', 'ttl_rec', 'ttl_aer_env', 'ano_fab_aer', 'qtd_ase_aer']

for col in cols_int:
    if col in df_silver.columns:
        df_silver[col] = pd.to_numeric(df_silver[col], errors='coerce').fillna(0).astype(int)

# --- 4.6 REMO√á√ÉO DE OUTLIERS (L√ìGICA CORRIGIDA PARA DADOS ESPARSOS) ---
print("   -> üßπ Removendo Outliers de Fatalidades...")
total_antes = len(df_silver)

df_fatais = df_silver[df_silver['ttl_fat'] > 0]

if not df_fatais.empty:
    Q1 = df_fatais['ttl_fat'].quantile(0.25)
    Q3 = df_fatais['ttl_fat'].quantile(0.75)
    IQR = Q3 - Q1
    
    limite_superior = Q3 + 1.5 * IQR
    
    print(f"      [Estat√≠stica] Q1: {Q1} | Q3: {Q3} | Limite de Corte: {limite_superior}")
    
    df_silver = df_silver[
        (df_silver['ttl_fat'] == 0) | 
        (df_silver['ttl_fat'] <= limite_superior)
    ].copy()
else:
    print("      [Aviso] N√£o h√° fatalidades suficientes para c√°lculo de IQR.")

total_removido = total_antes - len(df_silver)
print(f"      [Limpeza] Registros removidos (Outliers extremos): {total_removido}")
# ----------------------------------------------------------------------

# 4.7 SEVERIDADE (L√≥gica de Neg√≥cio)
def calcular_severidade(fatais):
    if fatais == 0: return 'LEVE'
    elif fatais <= 10: return 'MODERADA'
    elif fatais <= 50: return 'GRAVE'
    else: return 'CRITICA'

df_silver['nvl_sev'] = df_silver['ttl_fat'].apply(calcular_severidade)

# 4.8 SELE√á√ÉO FINAL
cols_finais = [
    'cod_ocr', 'dta_ocr', 'ano', 'mes', 'dia', 'hor', 
    'uf', 'mun', 'lat', 'lon', 
    'cls_ocr', 'tpo_ocr', 'fse_ope', 
    'tpo_aer', 'fab_aer', 'mdl_aer', 'mat_aer', 'ano_fab_aer', 'qtd_ase_aer',
    'nvl_dno', 'ttl_fat', 'ttl_rec', 'ttl_aer_env', 'nvl_sev'
]
cols_existentes = [c for c in cols_finais if c in df_silver.columns]
df_final = df_silver[cols_existentes].copy()

print(f"‚ú® Transforma√ß√£o conclu√≠da! Base Silver Final: {len(df_final)} registros.")

üõ†Ô∏è Iniciando a limpeza e padroniza√ß√£o...
   -> Processando datas...
   -> Corrigindo Lat/Lon cient√≠fica...
   -> Convertendo n√∫meros...
   -> üßπ Removendo Outliers de Fatalidades...
      [Estat√≠stica] Q1: 1.0 | Q3: 2.0 | Limite de Corte: 3.5
      [Limpeza] Registros removidos (Outliers extremos): 64
‚ú® Transforma√ß√£o conclu√≠da! Base Silver Final: 6050 registros.


## 4. Carga no Banco de Dados (LOADING)
Conex√£o ao banco de dados, execu√ß√£o de DDL e inser√ß√£o dos dados transformados

In [4]:
print("\nüîå Conectando ao Banco de Dados...")

db_name = "acidentes_db"
db_user = "postgres"
db_pass = "admin"

engine = None
try:
    url = f"postgresql+psycopg2://{db_user}:{db_pass}@localhost:5432/{db_name}"
    engine = create_engine(url)
    with engine.connect() as conn: pass
    print("‚úÖ Conectado via LOCALHOST")
except:
    print("‚ö†Ô∏è Localhost falhou. Tentando Docker...")
    try:
        url = f"postgresql+psycopg2://{db_user}:{db_pass}@db:5432/{db_name}"
        engine = create_engine(url)
        with engine.connect() as conn: pass
        print("‚úÖ Conectado via DOCKER")
    except Exception as e:
        print(f"‚ùå Erro fatal de conex√£o: {e}")
        exit(1)

try:
    with engine.connect() as conn:
        print("üõ†Ô∏è Verificando schema 'silver'...")
        conn.execute(text("CREATE SCHEMA IF NOT EXISTS silver;"))
        conn.commit()
        print("‚úÖ Schema 'silver' garantido!")
except Exception as e:
    print(f"‚ùå Erro ao criar schema: {e}")
    exit(1)

# INSER√á√ÉO
try:
    print(f"üíæ Inserindo {len(df_final)} registros na tabela 'silver.acd'...")
    
    df_final.to_sql(
        name='acd',         
        schema='silver',    
        con=engine,
        if_exists='replace', 
        index=False,
        chunksize=1000,
        method='multi'
    )
    print("‚úÖ SUCESSO! Dados carregados na tabela 'silver.acd'.")

except Exception as e:
    print(f"‚ùå Erro na inser√ß√£o: {e}")
    exit(1)

print(f"\nüöÄ Job ETL Raw->Silver finalizado em {time.time() - start_time:.2f} segundos!")


üîå Conectando ao Banco de Dados...
‚úÖ Conectado via LOCALHOST
üõ†Ô∏è Verificando schema 'silver'...
‚úÖ Schema 'silver' garantido!
üíæ Inserindo 6050 registros na tabela 'silver.acd'...
‚úÖ SUCESSO! Dados carregados na tabela 'silver.acd'.

üöÄ Job ETL Raw->Silver finalizado em 2.10 segundos!
