# Processamento de Dados: Camada Raw para Silver
**Disciplina:** Sistemas de Banco de Dados 2  
**Semestre:** 2025/2  
**Professor:** Thiago Luiz de Souza Gomes  
**Grupo 15**

**Integrantes:**
* Caio Ferreira Duarte (231026901)
* Laryssa Felix Ribeiro Lopes (231026840)
* Luísa de Souza Ferreira (232014807)
* Henrique Fontenelle Galvão Passos (231030771)
* Marjorie Mitzi Cavalcante Rodrigues (231039140)

---

## 1. Contextualização e Objetivos
O objetivo deste script é extrair os dados da silver, onde está a one big table(`silver.aviao`) e orgánizá-los em um data warehouse(star schema) na camada gold. 

In [1]:
import pandas as pd
import numpy as np
import os
import warnings
from sqlalchemy import create_engine, text


warnings.simplefilter(action='ignore', category=FutureWarning)


pd.set_option('display.max_columns', None)

ARQUIVO_DDL = '../Data Layer/gold/ddl.sql'

DB_URI = "postgresql://admin:admin@localhost:5432/db_aviao"

print("Bibliotecas importadas e variáveis de ambiente configuradas.")

Bibliotecas importadas e variáveis de ambiente configuradas.


## 2. Extração dos dados da One Big Table (Camada Silver)

Utilizamos uma query pra conectar com one big table e verificar se o select retorna algo, se sim ele é armazenado como dataframe.

In [2]:
try:
    engine = create_engine(DB_URI)
    print("Conexão com o banco de dados estabelecida com sucesso.")

except Exception as e:
    print(f"Ocorreu um erro durante a conexão no banco: {e}")
    

Conexão com o banco de dados estabelecida com sucesso.


In [3]:
QUERY = """
SELECT *
FROM silver.aviao
"""

df_obt = pd.read_sql(QUERY, engine)
df_obt.head()

Unnamed: 0,event_id,investigation_type,accident_number,event_date,publication_date,location,country,latitude,longitude,airport_code,airport_name,aircraft_category,registration_number,make,model,amateur_built,number_of_engines,engine_type,aircraft_damage,far_description,schedule,purpose_of_flight,air_carrier,broad_phase_of_flight,report_status,total_fatal_injuries,total_serious_injuries,total_minor_injuries,total_uninjured,injury_severity,weather_condition,created_at
0,20001218X45444,Accident,SEA87LA080,1948-10-24,,"MOOSE CREEK, ID",United States,,,,,,NC6404,Stinson,108-3,False,1,Reciprocating,Destroyed,,,Personal,,Cruise,Probable Cause,2,0,0,0,Fatal,UNK,2026-01-23 05:10:26.989898
1,20001218X45447,Accident,LAX94LA336,1962-07-19,1996-09-19,"BRIDGEPORT, CA",United States,,,,,,N5069P,Piper,PA24-180,False,1,Reciprocating,Destroyed,,,Personal,,Unknown,Probable Cause,4,0,0,0,Fatal,UNK,2026-01-23 05:10:26.989898
2,20061025X01555,Accident,NYC07LA005,1974-08-30,2007-02-26,"Saltville, VA",United States,36.922223,-81.878056,,,,N5142R,Cessna,172M,False,1,Reciprocating,Destroyed,,,Personal,,Cruise,Probable Cause,3,0,0,0,Fatal,IMC,2026-01-23 05:10:26.989898
3,20001218X45448,Accident,LAX96LA321,1977-06-19,2000-09-12,"EUREKA, CA",United States,,,,,,N1168J,Rockwell,112,False,1,Reciprocating,Destroyed,,,Personal,,Cruise,Probable Cause,2,0,0,0,Fatal,IMC,2026-01-23 05:10:26.989898
4,20041105X01764,Accident,CHI79FA064,1979-08-02,1980-04-16,"Canton, OH",United States,,,,,,N15NY,Cessna,501,False,0,,Destroyed,,,Personal,,Approach,Probable Cause,1,2,0,0,Fatal,VMC,2026-01-23 05:10:26.989898


# 3. Tranforma a one big table em um star schema

Coomo carregamos na célula a cima o one big table em um dataframe, vamos utilizar do pandas para transformar esse dataframe único, em vários dataframes, que representaram as novas tabelas do banco, estas serão dividias em fatos e dimensões.

## Cria fatos
Fato representa algo que aconteceu no negócio e que pode ser medido.
Normalmente são números agregáveis (somar, contar, tirar média).

Tabela com número totais de mortos em casos de acidentes fatais, sérios, leves e ilesos. Além de conter colunas identificadoras por se tratar da tabela centro.

In [18]:
fat_acident = (df_obt[["event_id", "accident_number", "total_fatal_injuries", "total_serious_injuries", "total_minor_injuries", "total_uninjured"]])
fat_acident.head()



Unnamed: 0,event_id,accident_number,total_fatal_injuries,total_serious_injuries,total_minor_injuries,total_uninjured
0,20001218X45444,SEA87LA080,2,0,0,0
1,20001218X45447,LAX94LA336,4,0,0,0
2,20061025X01555,NYC07LA005,3,0,0,0
3,20001218X45448,LAX96LA321,2,0,0,0
4,20041105X01764,CHI79FA064,1,2,0,0


## Cria dimensões
Dimensão descreve o contexto do fato.
Ela responde quem, quando, onde, como, o quê.

Serve para filtrar, agrupar e analisar os fatos.

Tabela com aspectos relacionado ao tempo, como data do acidente e data de publicação do relatorio do acidente

In [None]:
dim_time = (df_obt[["event_date", "publication_date"]])
dim_time.head()

Unnamed: 0,event_date,publication_date
0,1948-10-24,
1,1962-07-19,1996-09-19
2,1974-08-30,2007-02-26
3,1977-06-19,2000-09-12
4,1979-08-02,1980-04-16


Tabela com aspectos relacionados ao acidente, como grau de fatalidade do acidente, tipo do acidente e status do relatório de investigação

In [None]:
dim_severity = (df_obt[["injury_severity", "investigation_type", "report_status"]])
dim_severity.head()

Unnamed: 0,injury_severity,investigation_type,report_status
0,Fatal,Accident,Probable Cause
1,Fatal,Accident,Probable Cause
2,Fatal,Accident,Probable Cause
3,Fatal,Accident,Probable Cause
4,Fatal,Accident,Probable Cause


Tabela sobre assuntos relacionados a aeronave, como categoria da aeronave, fabricadora, modelo, número de registro, tipo do motor, número de motores, se a construção é amadora e o grau de dano da aeronave

In [None]:
dim_aircraft = (df_obt[["aircraft_category", "make", "model", "registration_number", "engine_type", "number_of_engines", "amateur_built", "aircraft_damage"]])
dim_aircraft.head()

Unnamed: 0,aircraft_category,make,model,registration_number,engine_type,number_of_engines,amateur_built,aircraft_damage
0,,Stinson,108-3,NC6404,Reciprocating,1,False,Destroyed
1,,Piper,PA24-180,N5069P,Reciprocating,1,False,Destroyed
2,,Cessna,172M,N5142R,Reciprocating,1,False,Destroyed
3,,Rockwell,112,N1168J,Reciprocating,1,False,Destroyed
4,,Cessna,501,N15NY,,0,False,Destroyed


Tabela sobre aspectos geográficos na qual envolve o acidente, como país, latitude, longitude, código do aeroporto de destino, nome do aeroporto de destino, localização do acidente

In [33]:
dim_geograph = (df_obt[["country", "latitude", "longitude", "airport_code", "airport_name", "location"]])
dim_geograph.head()

Unnamed: 0,country,latitude,longitude,airport_code,airport_name,location
0,United States,,,,,"MOOSE CREEK, ID"
1,United States,,,,,"BRIDGEPORT, CA"
2,United States,36.922223,-81.878056,,,"Saltville, VA"
3,United States,,,,,"EUREKA, CA"
4,United States,,,,,"Canton, OH"


Tabela sobre a fase do voo na qual houve o acidente 

In [30]:
dim_flight_phase = (df_obt[["broad_phase_of_flight"]].reset_index(drop=True))
dim_flight_phase.head()

Unnamed: 0,broad_phase_of_flight
0,Cruise
1,Unknown
2,Cruise
3,Cruise
4,Approach


Tabela de dados operacionais sobre do voo, tratando do propósito do voo, se é voo comercial, a companinha a aérea, a regulamentação do voo

In [None]:
dim_operation = (df_obt[["purpose_of_flight", "schedule", "air_carrier", "far_description"]])
dim_operation.head()

Unnamed: 0,purpose_of_flight,schedule,air_carrier,far_description
0,Personal,,,
1,Personal,,,
2,Personal,,,
3,Personal,,,
4,Personal,,,


Tabela de condições metereológicas

In [None]:
dim_weather = (df_obt[["weather_condition"]])
dim_weather.head()

Unnamed: 0,weather_condition
0,UNK
1,UNK
2,IMC
3,IMC
4,VMC


# 4. Carrega os dados no Postgres