# Processamento de Dados: Camada Silver para Gold (DW)
**Projeto:** Sinistros_Transito (DATATRAN 2025)  

---

## Contextualização e Objetivos
Este notebook executa o ETL da camada **Silver** (`silver.silver_sinistros`) para a camada **Gold** (`dw`), criando um **Star Schema** (dimensões + fato) conforme o DDL definido em `Data Layer/gold/ddl.sql`.

**Medida principal (Fato):** quantidade de mortos (`qtd_mor`).


In [1]:
import pandas as pd
import sqlparse
from sqlalchemy import create_engine, text
import warnings

warnings.simplefilter(action='ignore', category=FutureWarning)

# ==============================
# Configurações de conexão
# (conforme docker-compose.yml do projeto)
# ==============================
DB_URI = "postgresql://postgres:dan1920@localhost:5433/sinistros_2025"

# Caminho do DDL GOLD (DW)
ARQUIVO_DDL = "../Data Layer/gold/ddl.sql"

engine = create_engine(DB_URI)
print("Bibliotecas importadas e conexão configurada!")


Bibliotecas importadas e conexão configurada!


In [2]:
# ==============================
# 1) Executar DDL da Camada Gold
# ==============================
with open(ARQUIVO_DDL, "r", encoding="utf-8") as f:
    sql_ddl_clean = sqlparse.format(f.read(), strip_comments=True)

commands = [cmd.strip() for cmd in sqlparse.split(sql_ddl_clean) if cmd.strip()]

with engine.begin() as conn:
    for cmd in commands:
        conn.execute(text(cmd))

print("DDL executado! Tabelas criadas no schema dw.")


DDL executado! Tabelas criadas no schema dw.


In [3]:
# ==============================
# 2) Ler One Big Table (Silver)
# ==============================
df_silver = pd.read_sql("SELECT * FROM silver.silver_sinistros", engine)
print(f"{len(df_silver):,} registros extraídos de silver.silver_sinistros")
df_silver.head()


65,683 registros extraídos de silver.silver_sinistros


Unnamed: 0,id,data_acidente,hora_acidente,uf,municipio,br,latitude,longitude,area_urbana,dia_semana,...,classificacao_acidente,sentido_via,condicao_metereologica,tipo_pista,tracado_via,pessoas,mortos,feridos,ilesos,veiculos
0,652493,2025-01-01,06:20:00,SP,GUARULHOS,116,-23.485868,-46.540753,True,QUARTA-FEIRA,...,COM VÍTIMAS FERIDAS,DECRESCENTE,CÉU CLARO,MÚLTIPLA,RETA;DECLIVE,2,0,1,0,2
1,652519,2025-01-01,07:50:00,CE,PENAFORTE,116,-7.812288,-39.083333,False,QUARTA-FEIRA,...,COM VÍTIMAS FATAIS,CRESCENTE,CÉU CLARO,SIMPLES,RETA,6,1,1,1,6
2,652522,2025-01-01,08:45:00,PR,CORNELIO PROCOPIO,369,-23.182565,-50.637228,True,QUARTA-FEIRA,...,COM VÍTIMAS FERIDAS,CRESCENTE,SOL,DUPLA,RETA;ACLIVE,5,0,3,2,2
3,652544,2025-01-01,11:00:00,PR,CAMPINA GRANDE DO SUL,116,-25.365177,-49.04223,False,QUARTA-FEIRA,...,COM VÍTIMAS FERIDAS,CRESCENTE,CÉU CLARO,DUPLA,RETA,5,0,1,4,2
4,652549,2025-01-01,09:30:00,MG,FRANCISCO SA,251,-16.468013,-43.431213,False,QUARTA-FEIRA,...,COM VÍTIMAS FERIDAS,DECRESCENTE,CHUVA,SIMPLES,CURVA;DECLIVE,5,0,2,1,4


In [4]:
# ==============================
# 3) Função auxiliar para dimensões
# ==============================
def prep_dim(df, mapping):
    """Filtra colunas da Silver, remove duplicatas e renomeia para o DW."""
    return df[list(mapping.keys())].drop_duplicates().rename(columns=mapping)


In [5]:
# ==============================
# 4) Preparar Dimensões (conforme DDL específico)
# ==============================

# 4.1 Dimensão Temporal (dw.dim_tmp)
dim_tmp = df_silver[[
    "data_acidente", "hora_acidente", "dia_semana", "fase_dia"
]].copy()

dim_tmp["fim_sem"] = pd.to_datetime(dim_tmp["data_acidente"]).dt.dayofweek >= 5  # sábado/domingo

dim_tmp = dim_tmp.rename(columns={
    "data_acidente": "dat_aci",
    "hora_acidente": "hor_aci",
    "dia_semana": "dia_sem",
    "fase_dia": "fas_dia"
}).drop_duplicates()

# 4.2 Dimensão Localização (dw.dim_loc)
dim_loc = prep_dim(df_silver, {
    "uf": "uni",
    "municipio": "mun",
    "br": "rod",
    "area_urbana": "ara_urb",
    "latitude": "lat",
    "longitude": "lon"
})

# 4.3 Dimensão Sinistro (dw.dim_sin)
dim_sin = prep_dim(df_silver, {
    "tipo_acidente": "tip_aci",
    "causa_acidente": "cau_aci",
    "classificacao_acidente": "cla_aci"
})

# 4.4 Dimensão Via (dw.dim_via)
dim_via = prep_dim(df_silver, {
    "sentido_via": "sen_via",
    "tipo_pista": "tip_pis",
    "tracado_via": "tra_via"
})

# 4.5 Dimensão Clima (dw.dim_cli)
dim_cli = prep_dim(df_silver, {
    "condicao_metereologica": "con_met"
})

print("Dimensões preparadas em dataframes!")


Dimensões preparadas em dataframes!


In [6]:
# ==============================
# 5) Carregar Dimensões no DW
# ==============================
dim_tmp.to_sql("dim_tmp", engine, schema="dw", if_exists="append", index=False)
dim_loc.to_sql("dim_loc", engine, schema="dw", if_exists="append", index=False)
dim_sin.to_sql("dim_sin", engine, schema="dw", if_exists="append", index=False)
dim_via.to_sql("dim_via", engine, schema="dw", if_exists="append", index=False)
dim_cli.to_sql("dim_cli", engine, schema="dw", if_exists="append", index=False)

print("TODAS AS DIMENSÕES CARREGADAS NO BANCO!")


TODAS AS DIMENSÕES CARREGADAS NO BANCO!


In [7]:
# ==============================
# 6) Ler dimensões do banco (com surrogate keys)
# ==============================
dim_tmp_db = pd.read_sql("SELECT * FROM dw.dim_tmp", engine)
dim_loc_db = pd.read_sql("SELECT * FROM dw.dim_loc", engine)
dim_sin_db = pd.read_sql("SELECT * FROM dw.dim_sin", engine)
dim_via_db = pd.read_sql("SELECT * FROM dw.dim_via", engine)
dim_cli_db = pd.read_sql("SELECT * FROM dw.dim_cli", engine)

print("Dimensões lidas do banco com surrogate keys!")


Dimensões lidas do banco com surrogate keys!


In [8]:
# ==============================
# 7) Preparar e montar a Tabela Fato (dw.fat_mor)
# ==============================
df_fact_prep = df_silver.copy()

# Renomear para facilitar merges com as dimensões (mnemônicos do DDL)
df_fact_prep = df_fact_prep.rename(columns={
    "data_acidente": "dat_aci",
    "hora_acidente": "hor_aci",
    "dia_semana": "dia_sem",
    "fase_dia": "fas_dia",
    "uf": "uni",
    "municipio": "mun",
    "br": "rod",
    "area_urbana": "ara_urb",
    "latitude": "lat",
    "longitude": "lon",
    "tipo_acidente": "tip_aci",
    "causa_acidente": "cau_aci",
    "classificacao_acidente": "cla_aci",
    "sentido_via": "sen_via",
    "tipo_pista": "tip_pis",
    "tracado_via": "tra_via",
    "condicao_metereologica": "con_met",
})

df_fact_prep["fim_sem"] = pd.to_datetime(df_fact_prep["dat_aci"]).dt.dayofweek >= 5

# Merge dim_tmp
df_fact = df_fact_prep.merge(
    dim_tmp_db[["srk_tmp", "dat_aci", "hor_aci", "dia_sem", "fas_dia"]],
    on=["dat_aci", "hor_aci", "dia_sem", "fas_dia"],
    how="left"
)

# Merge dim_loc
df_fact = df_fact.merge(
    dim_loc_db[["srk_loc", "uni", "mun", "rod", "ara_urb", "lat", "lon"]],
    on=["uni", "mun", "rod", "ara_urb", "lat", "lon"],
    how="left"
)

# Merge dim_sin
df_fact = df_fact.merge(
    dim_sin_db[["srk_sin", "tip_aci", "cau_aci", "cla_aci"]],
    on=["tip_aci", "cau_aci", "cla_aci"],
    how="left"
)

# Merge dim_via
df_fact = df_fact.merge(
    dim_via_db[["srk_via", "sen_via", "tip_pis", "tra_via"]],
    on=["sen_via", "tip_pis", "tra_via"],
    how="left"
)

# Merge dim_cli
df_fact = df_fact.merge(
    dim_cli_db[["srk_cli", "con_met"]],
    on=["con_met"],
    how="left"
)

# Selecionar colunas finais conforme DDL
fat_mor = df_fact[[
    "srk_tmp",
    "srk_loc",
    "srk_sin",
    "srk_via",
    "srk_cli",
    "id",
    "mortos",
    "pessoas",
    "feridos",
    "ilesos",
    "veiculos"
]].rename(columns={
    "id": "sin_id",
    "mortos": "qtd_mor",
    "pessoas": "qtd_pes",
    "feridos": "qtd_fer",
    "ilesos": "qtd_ile",
    "veiculos": "qtd_vei",
})

print("Tabela fato preparada!")
fat_mor.head()


Tabela fato preparada!


Unnamed: 0,srk_tmp,srk_loc,srk_sin,srk_via,srk_cli,sin_id,qtd_mor,qtd_pes,qtd_fer,qtd_ile,qtd_vei
0,1,1,1,1,1,652493,0,2,1,0,2
1,2,2,2,2,1,652519,1,6,1,1,6
2,3,3,3,3,2,652522,0,5,3,2,2
3,4,4,4,4,1,652544,0,5,1,4,2
4,5,5,5,5,3,652549,0,5,2,1,4


In [9]:
# ==============================
# 8) Carregar Fato no DW
# ==============================
fat_mor.to_sql("fat_mor", engine, schema="dw", if_exists="append", index=False)
print("TABELA FATO CARREGADA NO BANCO!")


TABELA FATO CARREGADA NO BANCO!


In [10]:
# ==============================
# 9) Validação simples (Silver x Gold)
# ==============================
silver_mortos = pd.read_sql("SELECT COALESCE(SUM(mortos),0) AS mortos FROM silver.silver_sinistros", engine)["mortos"].iloc[0]
gold_mortos = pd.read_sql("SELECT COALESCE(SUM(qtd_mor),0) AS mortos FROM dw.fat_mor", engine)["mortos"].iloc[0]
rows_gold = pd.read_sql("SELECT COUNT(*) AS linhas FROM dw.fat_mor", engine)["linhas"].iloc[0]

print(f"Mortos (Silver): {silver_mortos}")
print(f"Mortos (Gold - fat_mor): {gold_mortos}")
print(f"Linhas na fato (Gold): {rows_gold}")


Mortos (Silver): 5466
Mortos (Gold - fat_mor): 5466
Linhas na fato (Gold): 65683
