# ETL Silver to Gold - Dengue Data Warehouse
## Pipeline Medallion: Star Schema com 1 Fato e 6 Dimens√µes

**Objetivo**: Transformar dados Silver em modelo dimensional Gold

**Modelo**: Star Schema
- 1 Tabela Fato: `ft_dengue`
- 6 Dimens√µes: `dim_tempo`, `dim_localizacao`, `dim_paciente`, `dim_classificacao`, `dim_evolucao`, `dim_sintomas`

**Tecnologia**: Pandas + PostgreSQL (conforme recomendado no documento)

**Volumetria**: 1.661.634 registros

## 1. Configura√ß√£o Inicial

In [3]:
# Imports
import pandas as pd
import psycopg2
from psycopg2 import sql
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o de conex√£o PostgreSQL
DB_CONFIG = {
    'host': 'localhost',
    'port': 5432,
    'database': 'gis',
    'user': 'postgres',
    'password': 'postgres'
}

def get_connection():
    """Cria conex√£o com PostgreSQL"""
    return psycopg2.connect(**DB_CONFIG)

print("‚úÖ Configura√ß√£o carregada")

‚úÖ Configura√ß√£o carregada


## 2. Cria√ß√£o do Schema Gold (DDL)

In [4]:
# Executar DDL Gold Schema
ddl_path = '../Data_Layer/gold/ddl_gold_schema.sql'

with open(ddl_path, 'r') as f:
    ddl_script = f.read()

conn = get_connection()
cursor = conn.cursor()

try:
    # Executar cada comando separadamente
    for statement in ddl_script.split(';'):
        statement = statement.strip()
        if statement and not statement.startswith('--'):
            try:
                cursor.execute(statement)
            except Exception as e:
                # Ignorar erros de tabela j√° existente
                if 'already exists' not in str(e):
                    print(f"Aviso: {e}")
    conn.commit()
    print("‚úÖ Schema Gold criado com sucesso")
except Exception as e:
    conn.rollback()
    print(f"‚ùå Erro: {e}")
finally:
    cursor.close()
    conn.close()

Aviso: schema "gold" does not exist

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction block

Aviso: current transaction is aborted, commands ignored until end of transaction bl

## 3. Extra√ß√£o dos Dados Silver

In [5]:
# Extrair dados da camada Silver
query_silver = """
SELECT 
    id_notificacao,
    fl_confirmado,
    fl_grave,
    fl_obito,
    fl_hospitalizado,
    ano_notificacao,
    mes_notificacao,
    semana_epi,
    data_notificacao,
    data_sintomas,
    uf_sigla,
    faixa_etaria,
    sexo_desc,
    raca_desc,
    classificacao_desc,
    evolucao_desc,
    qtd_sintomas,
    qtd_alarmes,
    idade_anos
FROM public.dengue_silver
"""

conn = get_connection()
df_silver = pd.read_sql(query_silver, conn)
conn.close()

print(f"‚úÖ Dados Silver extra√≠dos: {len(df_silver):,} registros")
print(f"   Colunas: {list(df_silver.columns)}")

‚úÖ Dados Silver extra√≠dos: 1,661,634 registros
   Colunas: ['id_notificacao', 'fl_confirmado', 'fl_grave', 'fl_obito', 'fl_hospitalizado', 'ano_notificacao', 'mes_notificacao', 'semana_epi', 'data_notificacao', 'data_sintomas', 'uf_sigla', 'faixa_etaria', 'sexo_desc', 'raca_desc', 'classificacao_desc', 'evolucao_desc', 'qtd_sintomas', 'qtd_alarmes', 'idade_anos']


In [6]:
# Validar volumetria esperada
VOLUMETRIA_ESPERADA = 1661634

if len(df_silver) == VOLUMETRIA_ESPERADA:
    print(f"‚úÖ Volumetria validada: {len(df_silver):,} registros")
else:
    print(f"‚ö†Ô∏è Volumetria diferente: esperado {VOLUMETRIA_ESPERADA:,}, obtido {len(df_silver):,}")

‚úÖ Volumetria validada: 1,661,634 registros


## 4. Cria√ß√£o das Dimens√µes

### 4.1 dim_tempo (Temporal)

In [7]:
# Criar dimens√£o tempo a partir das datas de notifica√ß√£o
datas_unicas = df_silver['data_notificacao'].dropna().unique()

# Mapeamento dia da semana (ISO: Segunda=1)
DIAS_SEMANA = {
    0: 'Segunda', 1: 'Ter√ßa', 2: 'Quarta', 3: 'Quinta',
    4: 'Sexta', 5: 'S√°bado', 6: 'Domingo'
}

dim_tempo_data = []
for data in datas_unicas:
    if pd.isna(data):
        continue
    d = pd.to_datetime(data)
    dia_semana_python = d.weekday()  # 0=Segunda
    
    dim_tempo_data.append({
        'data_completa': d.date(),
        'ano': d.year,
        'mes': d.month,
        'dia': d.day,
        'trimestre': (d.month - 1) // 3 + 1,
        'semana_epi': d.isocalendar()[1],  # Semana ISO
        'dia_semana': dia_semana_python + 1,  # ISO: Segunda=1
        'nome_dia': DIAS_SEMANA[dia_semana_python],
        'flag_fim_semana': dia_semana_python >= 5,  # S√°bado=5, Domingo=6
        'mes_ano': f"{d.year}-{d.month:02d}",
        'ano_trimestre': f"{d.year}-Q{(d.month - 1) // 3 + 1}"
    })

df_dim_tempo = pd.DataFrame(dim_tempo_data)
df_dim_tempo = df_dim_tempo.drop_duplicates(subset=['data_completa'])
df_dim_tempo = df_dim_tempo.sort_values('data_completa').reset_index(drop=True)

# Gerar surrogate key (come√ßando em 1)
df_dim_tempo['sk_tempo'] = range(1, len(df_dim_tempo) + 1)

print(f"‚úÖ dim_tempo criada: {len(df_dim_tempo)} registros")
print(f"   Per√≠odo: {df_dim_tempo['data_completa'].min()} a {df_dim_tempo['data_completa'].max()}")
df_dim_tempo.head()

‚úÖ dim_tempo criada: 373 registros
   Per√≠odo: 2024-12-29 a 2026-01-05


Unnamed: 0,data_completa,ano,mes,dia,trimestre,semana_epi,dia_semana,nome_dia,flag_fim_semana,mes_ano,ano_trimestre,sk_tempo
0,2024-12-29,2024,12,29,4,52,7,Domingo,True,2024-12,2024-Q4,1
1,2024-12-30,2024,12,30,4,1,1,Segunda,False,2024-12,2024-Q4,2
2,2024-12-31,2024,12,31,4,1,2,Ter√ßa,False,2024-12,2024-Q4,3
3,2025-01-01,2025,1,1,1,1,3,Quarta,False,2025-01,2025-Q1,4
4,2025-01-02,2025,1,2,1,1,4,Quinta,False,2025-01,2025-Q1,5


### 4.2 dim_localizacao (Geogr√°fica)

In [8]:
# Dados de refer√™ncia UFs brasileiras
UFS_BRASIL = {
    'AC': {'nome': 'Acre', 'regiao': 'Norte', 'ibge': 12, 'capital': 'Rio Branco'},
    'AL': {'nome': 'Alagoas', 'regiao': 'Nordeste', 'ibge': 27, 'capital': 'Macei√≥'},
    'AM': {'nome': 'Amazonas', 'regiao': 'Norte', 'ibge': 13, 'capital': 'Manaus'},
    'AP': {'nome': 'Amap√°', 'regiao': 'Norte', 'ibge': 16, 'capital': 'Macap√°'},
    'BA': {'nome': 'Bahia', 'regiao': 'Nordeste', 'ibge': 29, 'capital': 'Salvador'},
    'CE': {'nome': 'Cear√°', 'regiao': 'Nordeste', 'ibge': 23, 'capital': 'Fortaleza'},
    'DF': {'nome': 'Distrito Federal', 'regiao': 'Centro-Oeste', 'ibge': 53, 'capital': 'Bras√≠lia'},
    'ES': {'nome': 'Esp√≠rito Santo', 'regiao': 'Sudeste', 'ibge': 32, 'capital': 'Vit√≥ria'},
    'GO': {'nome': 'Goi√°s', 'regiao': 'Centro-Oeste', 'ibge': 52, 'capital': 'Goi√¢nia'},
    'MA': {'nome': 'Maranh√£o', 'regiao': 'Nordeste', 'ibge': 21, 'capital': 'S√£o Lu√≠s'},
    'MG': {'nome': 'Minas Gerais', 'regiao': 'Sudeste', 'ibge': 31, 'capital': 'Belo Horizonte'},
    'MS': {'nome': 'Mato Grosso do Sul', 'regiao': 'Centro-Oeste', 'ibge': 50, 'capital': 'Campo Grande'},
    'MT': {'nome': 'Mato Grosso', 'regiao': 'Centro-Oeste', 'ibge': 51, 'capital': 'Cuiab√°'},
    'PA': {'nome': 'Par√°', 'regiao': 'Norte', 'ibge': 15, 'capital': 'Bel√©m'},
    'PB': {'nome': 'Para√≠ba', 'regiao': 'Nordeste', 'ibge': 25, 'capital': 'Jo√£o Pessoa'},
    'PE': {'nome': 'Pernambuco', 'regiao': 'Nordeste', 'ibge': 26, 'capital': 'Recife'},
    'PI': {'nome': 'Piau√≠', 'regiao': 'Nordeste', 'ibge': 22, 'capital': 'Teresina'},
    'PR': {'nome': 'Paran√°', 'regiao': 'Sul', 'ibge': 41, 'capital': 'Curitiba'},
    'RJ': {'nome': 'Rio de Janeiro', 'regiao': 'Sudeste', 'ibge': 33, 'capital': 'Rio de Janeiro'},
    'RN': {'nome': 'Rio Grande do Norte', 'regiao': 'Nordeste', 'ibge': 24, 'capital': 'Natal'},
    'RO': {'nome': 'Rond√¥nia', 'regiao': 'Norte', 'ibge': 11, 'capital': 'Porto Velho'},
    'RR': {'nome': 'Roraima', 'regiao': 'Norte', 'ibge': 14, 'capital': 'Boa Vista'},
    'RS': {'nome': 'Rio Grande do Sul', 'regiao': 'Sul', 'ibge': 43, 'capital': 'Porto Alegre'},
    'SC': {'nome': 'Santa Catarina', 'regiao': 'Sul', 'ibge': 42, 'capital': 'Florian√≥polis'},
    'SE': {'nome': 'Sergipe', 'regiao': 'Nordeste', 'ibge': 28, 'capital': 'Aracaju'},
    'SP': {'nome': 'S√£o Paulo', 'regiao': 'Sudeste', 'ibge': 35, 'capital': 'S√£o Paulo'},
    'TO': {'nome': 'Tocantins', 'regiao': 'Norte', 'ibge': 17, 'capital': 'Palmas'}
}

# Criar dimens√£o localiza√ß√£o
ufs_silver = df_silver['uf_sigla'].dropna().unique()

dim_localizacao_data = []
for uf in ufs_silver:
    if uf in UFS_BRASIL:
        info = UFS_BRASIL[uf]
        dim_localizacao_data.append({
            'uf_sigla': uf,
            'uf_nome': info['nome'],
            'regiao': info['regiao'],
            'codigo_ibge': info['ibge'],
            'capital': info['capital']
        })

df_dim_localizacao = pd.DataFrame(dim_localizacao_data)
df_dim_localizacao = df_dim_localizacao.sort_values('uf_sigla').reset_index(drop=True)

# Gerar surrogate key (come√ßando em 1)
df_dim_localizacao['sk_localizacao'] = range(1, len(df_dim_localizacao) + 1)

print(f"‚úÖ dim_localizacao criada: {len(df_dim_localizacao)} UFs")
print(f"   Regi√µes: {df_dim_localizacao['regiao'].unique().tolist()}")
df_dim_localizacao

‚úÖ dim_localizacao criada: 27 UFs
   Regi√µes: ['Norte', 'Nordeste', 'Centro-Oeste', 'Sudeste', 'Sul']


Unnamed: 0,uf_sigla,uf_nome,regiao,codigo_ibge,capital,sk_localizacao
0,AC,Acre,Norte,12,Rio Branco,1
1,AL,Alagoas,Nordeste,27,Macei√≥,2
2,AM,Amazonas,Norte,13,Manaus,3
3,AP,Amap√°,Norte,16,Macap√°,4
4,BA,Bahia,Nordeste,29,Salvador,5
5,CE,Cear√°,Nordeste,23,Fortaleza,6
6,DF,Distrito Federal,Centro-Oeste,53,Bras√≠lia,7
7,ES,Esp√≠rito Santo,Sudeste,32,Vit√≥ria,8
8,GO,Goi√°s,Centro-Oeste,52,Goi√¢nia,9
9,MA,Maranh√£o,Nordeste,21,S√£o Lu√≠s,10


### 4.3 dim_paciente (Demogr√°fica)

In [9]:
# Criar combina√ß√µes demogr√°ficas √∫nicas
df_paciente_unique = df_silver[['faixa_etaria', 'sexo_desc', 'raca_desc']].drop_duplicates()

# Criar business key (combina√ß√£o demogr√°fica)
df_paciente_unique['combinacao_demografica'] = (
    df_paciente_unique['faixa_etaria'].fillna('UNKNOWN') + '|' +
    df_paciente_unique['sexo_desc'].fillna('UNKNOWN') + '|' +
    df_paciente_unique['raca_desc'].fillna('UNKNOWN')
)

# Faixa et√°ria detalhada (conforme documento: Subcategorias mais granulares)
def get_faixa_etaria_detalhada(faixa):
    if pd.isna(faixa):
        return 'N√£o informado'
    faixa_str = str(faixa)
    # Mapeamento para subcategorias
    if '< 1' in faixa_str or 'menor' in faixa_str.lower():
        return 'Lactente (< 1 ano)'
    elif '1-4' in faixa_str:
        return 'Pr√©-escolar (1-4 anos)'
    elif '5-9' in faixa_str:
        return 'Escolar (5-9 anos)'
    elif '10-14' in faixa_str:
        return 'Adolescente inicial (10-14 anos)'
    elif '15-19' in faixa_str:
        return 'Adolescente final (15-19 anos)'
    elif '20-39' in faixa_str:
        return 'Adulto jovem (20-39 anos)'
    elif '40-59' in faixa_str:
        return 'Adulto (40-59 anos)'
    elif '60+' in faixa_str or '>=' in faixa_str or 'idoso' in faixa_str.lower():
        return 'Idoso (60+ anos)'
    else:
        return faixa_str

df_paciente_unique['faixa_etaria_detalhada'] = df_paciente_unique['faixa_etaria'].apply(get_faixa_etaria_detalhada)

# Ordenar e criar surrogate key
df_dim_paciente = df_paciente_unique.sort_values('combinacao_demografica').reset_index(drop=True)
df_dim_paciente['sk_paciente'] = range(1, len(df_dim_paciente) + 1)

# Preencher valores nulos
df_dim_paciente['faixa_etaria'] = df_dim_paciente['faixa_etaria'].fillna('UNKNOWN')
df_dim_paciente['sexo_desc'] = df_dim_paciente['sexo_desc'].fillna('UNKNOWN')
df_dim_paciente['raca_desc'] = df_dim_paciente['raca_desc'].fillna('UNKNOWN')

print(f"‚úÖ dim_paciente criada: {len(df_dim_paciente)} combina√ß√µes demogr√°ficas")
print(f"   Faixas et√°rias: {df_dim_paciente['faixa_etaria'].nunique()}")
print(f"   Sexos: {df_dim_paciente['sexo_desc'].unique().tolist()}")
df_dim_paciente.head(10)

‚úÖ dim_paciente criada: 123 combina√ß√µes demogr√°ficas
   Faixas et√°rias: 8
   Sexos: ['Feminino', 'Ignorado', 'Masculino', 'Nao informado']


Unnamed: 0,faixa_etaria,sexo_desc,raca_desc,combinacao_demografica,faixa_etaria_detalhada,sk_paciente
0,1-4 anos,Feminino,Amarela,1-4 anos|Feminino|Amarela,Pr√©-escolar (1-4 anos),1
1,1-4 anos,Feminino,Branca,1-4 anos|Feminino|Branca,Pr√©-escolar (1-4 anos),2
2,1-4 anos,Feminino,Ignorado,1-4 anos|Feminino|Ignorado,Pr√©-escolar (1-4 anos),3
3,1-4 anos,Feminino,Indigena,1-4 anos|Feminino|Indigena,Pr√©-escolar (1-4 anos),4
4,1-4 anos,Feminino,Parda,1-4 anos|Feminino|Parda,Pr√©-escolar (1-4 anos),5
5,1-4 anos,Feminino,Preta,1-4 anos|Feminino|Preta,Pr√©-escolar (1-4 anos),6
6,1-4 anos,Ignorado,Branca,1-4 anos|Ignorado|Branca,Pr√©-escolar (1-4 anos),7
7,1-4 anos,Ignorado,Ignorado,1-4 anos|Ignorado|Ignorado,Pr√©-escolar (1-4 anos),8
8,1-4 anos,Ignorado,Parda,1-4 anos|Ignorado|Parda,Pr√©-escolar (1-4 anos),9
9,1-4 anos,Masculino,Amarela,1-4 anos|Masculino|Amarela,Pr√©-escolar (1-4 anos),10


### 4.4 dim_classificacao (Cl√≠nica/Epidemiol√≥gica)

In [10]:
# Classifica√ß√µes √∫nicas do Silver
classificacoes = df_silver['classificacao_desc'].dropna().unique()

# Mapeamentos conforme documento
def get_classificacao_grupo(desc):
    if pd.isna(desc):
        return 'UNKNOWN'
    desc_lower = str(desc).lower()
    if 'descart' in desc_lower:
        return 'Descartado'
    elif 'investig' in desc_lower or 'inconclu' in desc_lower:
        return 'Em Investiga√ß√£o'
    else:
        return 'Confirmado'

def get_gravidade(desc):
    if pd.isna(desc):
        return 'UNKNOWN'
    desc_lower = str(desc).lower()
    if 'grave' in desc_lower:
        return 'Grave'
    elif 'alarme' in desc_lower:
        return 'Moderado'
    else:
        return 'Leve'

def get_codigo_cid(desc):
    """C√≥digo CID-10 relacionado"""
    if pd.isna(desc):
        return None
    desc_lower = str(desc).lower()
    if 'grave' in desc_lower:
        return 'A91.0'  # Febre hemorr√°gica da dengue
    elif 'alarme' in desc_lower:
        return 'A90'    # Dengue cl√°ssico
    elif 'dengue' in desc_lower:
        return 'A90'    # Dengue cl√°ssico
    else:
        return None

def is_confirmado(desc):
    if pd.isna(desc):
        return False
    desc_lower = str(desc).lower()
    return 'dengue' in desc_lower and 'descart' not in desc_lower

dim_classificacao_data = []
for classif in classificacoes:
    dim_classificacao_data.append({
        'classificacao_codigo': str(classif),
        'classificacao_desc': str(classif),
        'classificacao_grupo': get_classificacao_grupo(classif),
        'gravidade': get_gravidade(classif),
        'codigo_cid': get_codigo_cid(classif),
        'flag_confirmado': is_confirmado(classif)
    })

df_dim_classificacao = pd.DataFrame(dim_classificacao_data)
df_dim_classificacao = df_dim_classificacao.sort_values('classificacao_desc').reset_index(drop=True)
df_dim_classificacao['sk_classificacao'] = range(1, len(df_dim_classificacao) + 1)

print(f"‚úÖ dim_classificacao criada: {len(df_dim_classificacao)} classifica√ß√µes")
df_dim_classificacao

‚úÖ dim_classificacao criada: 5 classifica√ß√µes


Unnamed: 0,classificacao_codigo,classificacao_desc,classificacao_grupo,gravidade,codigo_cid,flag_confirmado,sk_classificacao
0,Dengue,Dengue,Confirmado,Leve,A90,True,1
1,Dengue Grave,Dengue Grave,Confirmado,Grave,A91.0,True,2
2,Dengue com Sinais de Alarme,Dengue com Sinais de Alarme,Confirmado,Moderado,A90,True,3
3,Em investigacao,Em investigacao,Em Investiga√ß√£o,Leve,,False,4
4,Inconclusivo,Inconclusivo,Em Investiga√ß√£o,Leve,,False,5


### 4.5 dim_evolucao (Desfecho Cl√≠nico)

In [11]:
# Evolu√ß√µes √∫nicas do Silver
evolucoes = df_silver['evolucao_desc'].dropna().unique()

def get_tipo_evolucao(desc):
    if pd.isna(desc):
        return 'UNKNOWN'
    desc_lower = str(desc).lower()
    if '√≥bito' in desc_lower or 'obito' in desc_lower:
        return '√ìbito'
    elif 'cura' in desc_lower:
        return 'Cura'
    else:
        return 'Em investiga√ß√£o'

def is_obito(desc):
    if pd.isna(desc):
        return False
    desc_lower = str(desc).lower()
    return '√≥bito' in desc_lower or 'obito' in desc_lower

def get_gravidade_desfecho(desc):
    if pd.isna(desc):
        return 'Indeterminado'
    desc_lower = str(desc).lower()
    if '√≥bito' in desc_lower or 'obito' in desc_lower:
        return 'Desfavor√°vel'
    elif 'cura' in desc_lower:
        return 'Favor√°vel'
    else:
        return 'Indeterminado'

dim_evolucao_data = []
for evol in evolucoes:
    dim_evolucao_data.append({
        'evolucao_codigo': str(evol),
        'evolucao_desc': str(evol),
        'tipo_evolucao': get_tipo_evolucao(evol),
        'flag_obito': is_obito(evol),
        'gravidade_desfecho': get_gravidade_desfecho(evol)
    })

df_dim_evolucao = pd.DataFrame(dim_evolucao_data)
df_dim_evolucao = df_dim_evolucao.sort_values('evolucao_desc').reset_index(drop=True)
df_dim_evolucao['sk_evolucao'] = range(1, len(df_dim_evolucao) + 1)

print(f"‚úÖ dim_evolucao criada: {len(df_dim_evolucao)} evolu√ß√µes")
df_dim_evolucao

‚úÖ dim_evolucao criada: 6 evolu√ß√µes


Unnamed: 0,evolucao_codigo,evolucao_desc,tipo_evolucao,flag_obito,gravidade_desfecho,sk_evolucao
0,Cura,Cura,Cura,False,Favor√°vel,1
1,Em investigacao,Em investigacao,Em investiga√ß√£o,False,Indeterminado,2
2,Ignorado,Ignorado,Em investiga√ß√£o,False,Indeterminado,3
3,Obito em investigacao,Obito em investigacao,√ìbito,True,Desfavor√°vel,4
4,Obito pelo agravo,Obito pelo agravo,√ìbito,True,Desfavor√°vel,5
5,Obito por outras causas,Obito por outras causas,√ìbito,True,Desfavor√°vel,6


### 4.6 dim_sintomas (Agregada)

In [13]:
# Criar faixas de sintomas conforme documento
def get_faixa_sintomas(qtd):
    """Categorias: 0, 1-2, 3-5, 6+ sintomas"""
    if pd.isna(qtd):
        return 'UNKNOWN'
    qtd = int(qtd)
    if qtd == 0:
        return '0'
    elif qtd <= 2:
        return '1-2'
    elif qtd <= 5:
        return '3-5'
    else:
        return '6+'

def get_faixa_alarmes(qtd):
    """Categorias: 0, 1, 2+, 3+ alarmes"""
    if pd.isna(qtd):
        return 'UNKNOWN'
    qtd = int(qtd)
    if qtd == 0:
        return '0'
    elif qtd == 1:
        return '1'
    elif qtd == 2:
        return '2+'
    else:
        return '3+'

def get_perfil_clinico(qtd_sint, qtd_alarm):
    """Perfis: Assintomatico, Leve, Moderado, Grave"""
    if pd.isna(qtd_sint) or pd.isna(qtd_alarm):
        return 'UNKNOWN'
    qtd_sint = int(qtd_sint)
    qtd_alarm = int(qtd_alarm)
    
    if qtd_sint == 0:
        return 'Assintom√°tico'
    elif qtd_alarm >= 3:
        return 'Grave'
    elif qtd_alarm >= 1:
        return 'Moderado'
    else:
        return 'Leve'

# Criar combina√ß√µes √∫nicas de sintomas
df_sintomas_unique = df_silver[['qtd_sintomas', 'qtd_alarmes']].drop_duplicates()

df_sintomas_unique['qtd_sintomas_faixa'] = df_sintomas_unique['qtd_sintomas'].apply(get_faixa_sintomas)
df_sintomas_unique['qtd_alarmes_faixa'] = df_sintomas_unique['qtd_alarmes'].apply(get_faixa_alarmes)
df_sintomas_unique['perfil_clinico'] = df_sintomas_unique.apply(
    lambda row: get_perfil_clinico(row['qtd_sintomas'], row['qtd_alarmes']), axis=1
)
df_sintomas_unique['flag_tem_sintomas'] = df_sintomas_unique['qtd_sintomas'].fillna(0).astype(int) > 0
df_sintomas_unique['flag_tem_alarmes'] = df_sintomas_unique['qtd_alarmes'].fillna(0).astype(int) > 0

# Business key
df_sintomas_unique['combinacao_sintomas'] = (
    df_sintomas_unique['qtd_sintomas_faixa'] + '|' +
    df_sintomas_unique['qtd_alarmes_faixa']
)

# Agrupar por combina√ß√£o √∫nica de faixas
df_dim_sintomas = df_sintomas_unique[[
    'combinacao_sintomas', 'qtd_sintomas_faixa', 'qtd_alarmes_faixa',
    'perfil_clinico', 'flag_tem_sintomas', 'flag_tem_alarmes'
]].drop_duplicates()

df_dim_sintomas = df_dim_sintomas.sort_values('combinacao_sintomas').reset_index(drop=True)
df_dim_sintomas['sk_sintomas'] = range(1, len(df_dim_sintomas) + 1)

print(f"‚úÖ dim_sintomas criada: {len(df_dim_sintomas)} combina√ß√µes")
df_dim_sintomas

‚úÖ dim_sintomas criada: 16 combina√ß√µes


Unnamed: 0,combinacao_sintomas,qtd_sintomas_faixa,qtd_alarmes_faixa,perfil_clinico,flag_tem_sintomas,flag_tem_alarmes,sk_sintomas
0,0|0,0,0,Assintom√°tico,False,False,1
1,0|1,0,1,Assintom√°tico,False,True,2
2,0|2+,0,2+,Assintom√°tico,False,True,3
3,0|3+,0,3+,Assintom√°tico,False,True,4
4,1-2|0,1-2,0,Leve,True,False,5
5,1-2|1,1-2,1,Moderado,True,True,6
6,1-2|2+,1-2,2+,Moderado,True,True,7
7,1-2|3+,1-2,3+,Grave,True,True,8
8,3-5|0,3-5,0,Leve,True,False,9
9,3-5|1,3-5,1,Moderado,True,True,10


## 5. Carga das Dimens√µes no PostgreSQL

In [14]:
from io import StringIO

def truncate_table(cursor, table_name):
    """Limpa tabela mantendo registro UNKNOWN"""
    cursor.execute(f"DELETE FROM {table_name} WHERE sk_{table_name.split('.')[-1].replace('dim_', '')} > 0 OR sk_{table_name.split('.')[-1].replace('dim_', '')} IS NULL")

def load_dimension(conn, df, table_name, columns):
    """Carrega dimens√£o via COPY (mais eficiente)"""
    cursor = conn.cursor()
    
    # Preparar dados
    df_load = df[columns].copy()
    
    # Criar buffer
    buffer = StringIO()
    df_load.to_csv(buffer, index=False, header=False, sep='\t', na_rep='\\N')
    buffer.seek(0)
    
    # Carregar via COPY
    cursor.copy_from(buffer, table_name, sep='\t', null='\\N', columns=columns)
    
    return len(df_load)

print("Iniciando carga das dimens√µes...")

Iniciando carga das dimens√µes...


In [15]:
# Carga dim_tempo
conn = get_connection()
cursor = conn.cursor()

try:
    # Limpar dados existentes (exceto UNKNOWN)
    cursor.execute("DELETE FROM gold.dim_tempo WHERE sk_tempo > 0")
    
    # Reset sequence
    cursor.execute("SELECT setval('gold.dim_tempo_sk_tempo_seq', 1, false)")
    
    # Inserir dados
    cols_tempo = ['data_completa', 'ano', 'mes', 'dia', 'trimestre', 'semana_epi',
                  'dia_semana', 'nome_dia', 'flag_fim_semana', 'mes_ano', 'ano_trimestre']
    
    for _, row in df_dim_tempo.iterrows():
        cursor.execute("""
            INSERT INTO gold.dim_tempo (data_completa, ano, mes, dia, trimestre, semana_epi,
                                        dia_semana, nome_dia, flag_fim_semana, mes_ano, ano_trimestre)
            VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
        """, (row['data_completa'], row['ano'], row['mes'], row['dia'], row['trimestre'],
              row['semana_epi'], row['dia_semana'], row['nome_dia'], row['flag_fim_semana'],
              row['mes_ano'], row['ano_trimestre']))
    
    conn.commit()
    print(f"‚úÖ dim_tempo carregada: {len(df_dim_tempo)} registros")
except Exception as e:
    conn.rollback()
    print(f"‚ùå Erro dim_tempo: {e}")
finally:
    cursor.close()
    conn.close()

‚úÖ dim_tempo carregada: 373 registros


In [16]:
# Carga dim_localizacao
conn = get_connection()
cursor = conn.cursor()

try:
    cursor.execute("DELETE FROM gold.dim_localizacao WHERE sk_localizacao > 0")
    cursor.execute("SELECT setval('gold.dim_localizacao_sk_localizacao_seq', 1, false)")
    
    for _, row in df_dim_localizacao.iterrows():
        cursor.execute("""
            INSERT INTO gold.dim_localizacao (uf_sigla, uf_nome, regiao, codigo_ibge, capital)
            VALUES (%s, %s, %s, %s, %s)
        """, (row['uf_sigla'], row['uf_nome'], row['regiao'], row['codigo_ibge'], row['capital']))
    
    conn.commit()
    print(f"‚úÖ dim_localizacao carregada: {len(df_dim_localizacao)} registros")
except Exception as e:
    conn.rollback()
    print(f"‚ùå Erro dim_localizacao: {e}")
finally:
    cursor.close()
    conn.close()

‚úÖ dim_localizacao carregada: 27 registros


In [17]:
# Carga dim_paciente
conn = get_connection()
cursor = conn.cursor()

try:
    cursor.execute("DELETE FROM gold.dim_paciente WHERE sk_paciente > 0")
    cursor.execute("SELECT setval('gold.dim_paciente_sk_paciente_seq', 1, false)")
    
    for _, row in df_dim_paciente.iterrows():
        cursor.execute("""
            INSERT INTO gold.dim_paciente (combinacao_demografica, faixa_etaria, sexo_desc, raca_desc, faixa_etaria_detalhada)
            VALUES (%s, %s, %s, %s, %s)
        """, (row['combinacao_demografica'], row['faixa_etaria'], row['sexo_desc'], 
              row['raca_desc'], row['faixa_etaria_detalhada']))
    
    conn.commit()
    print(f"‚úÖ dim_paciente carregada: {len(df_dim_paciente)} registros")
except Exception as e:
    conn.rollback()
    print(f"‚ùå Erro dim_paciente: {e}")
finally:
    cursor.close()
    conn.close()

‚úÖ dim_paciente carregada: 123 registros


In [18]:
# Carga dim_classificacao
conn = get_connection()
cursor = conn.cursor()

try:
    cursor.execute("DELETE FROM gold.dim_classificacao WHERE sk_classificacao > 0")
    cursor.execute("SELECT setval('gold.dim_classificacao_sk_classificacao_seq', 1, false)")
    
    for _, row in df_dim_classificacao.iterrows():
        cursor.execute("""
            INSERT INTO gold.dim_classificacao (classificacao_codigo, classificacao_desc, 
                                                 classificacao_grupo, gravidade, codigo_cid, flag_confirmado)
            VALUES (%s, %s, %s, %s, %s, %s)
        """, (row['classificacao_codigo'], row['classificacao_desc'], row['classificacao_grupo'],
              row['gravidade'], row['codigo_cid'], row['flag_confirmado']))
    
    conn.commit()
    print(f"‚úÖ dim_classificacao carregada: {len(df_dim_classificacao)} registros")
except Exception as e:
    conn.rollback()
    print(f"‚ùå Erro dim_classificacao: {e}")
finally:
    cursor.close()
    conn.close()

‚úÖ dim_classificacao carregada: 5 registros


In [19]:
# Carga dim_evolucao
conn = get_connection()
cursor = conn.cursor()

try:
    cursor.execute("DELETE FROM gold.dim_evolucao WHERE sk_evolucao > 0")
    cursor.execute("SELECT setval('gold.dim_evolucao_sk_evolucao_seq', 1, false)")
    
    for _, row in df_dim_evolucao.iterrows():
        cursor.execute("""
            INSERT INTO gold.dim_evolucao (evolucao_codigo, evolucao_desc, tipo_evolucao, 
                                           flag_obito, gravidade_desfecho)
            VALUES (%s, %s, %s, %s, %s)
        """, (row['evolucao_codigo'], row['evolucao_desc'], row['tipo_evolucao'],
              row['flag_obito'], row['gravidade_desfecho']))
    
    conn.commit()
    print(f"‚úÖ dim_evolucao carregada: {len(df_dim_evolucao)} registros")
except Exception as e:
    conn.rollback()
    print(f"‚ùå Erro dim_evolucao: {e}")
finally:
    cursor.close()
    conn.close()

‚úÖ dim_evolucao carregada: 6 registros


In [20]:
# Carga dim_sintomas
conn = get_connection()
cursor = conn.cursor()

try:
    cursor.execute("DELETE FROM gold.dim_sintomas WHERE sk_sintomas > 0")
    cursor.execute("SELECT setval('gold.dim_sintomas_sk_sintomas_seq', 1, false)")
    
    for _, row in df_dim_sintomas.iterrows():
        cursor.execute("""
            INSERT INTO gold.dim_sintomas (combinacao_sintomas, qtd_sintomas_faixa, qtd_alarmes_faixa,
                                           perfil_clinico, flag_tem_sintomas, flag_tem_alarmes)
            VALUES (%s, %s, %s, %s, %s, %s)
        """, (row['combinacao_sintomas'], row['qtd_sintomas_faixa'], row['qtd_alarmes_faixa'],
              row['perfil_clinico'], row['flag_tem_sintomas'], row['flag_tem_alarmes']))
    
    conn.commit()
    print(f"‚úÖ dim_sintomas carregada: {len(df_dim_sintomas)} registros")
except Exception as e:
    conn.rollback()
    print(f"‚ùå Erro dim_sintomas: {e}")
finally:
    cursor.close()
    conn.close()

‚úÖ dim_sintomas carregada: 16 registros


## 6. Criar Lookups para Tabela Fato

In [21]:
# Recarregar dimens√µes do banco para obter SKs corretos
conn = get_connection()

# Lookup tempo: data_completa -> sk_tempo
df_lookup_tempo = pd.read_sql("SELECT sk_tempo, data_completa FROM gold.dim_tempo", conn)
lookup_tempo = dict(zip(df_lookup_tempo['data_completa'], df_lookup_tempo['sk_tempo']))

# Lookup localizacao: uf_sigla -> sk_localizacao
df_lookup_loc = pd.read_sql("SELECT sk_localizacao, uf_sigla FROM gold.dim_localizacao", conn)
lookup_localizacao = dict(zip(df_lookup_loc['uf_sigla'], df_lookup_loc['sk_localizacao']))

# Lookup paciente: combinacao_demografica -> sk_paciente
df_lookup_pac = pd.read_sql("SELECT sk_paciente, combinacao_demografica FROM gold.dim_paciente", conn)
lookup_paciente = dict(zip(df_lookup_pac['combinacao_demografica'], df_lookup_pac['sk_paciente']))

# Lookup classificacao: classificacao_codigo -> sk_classificacao
df_lookup_class = pd.read_sql("SELECT sk_classificacao, classificacao_codigo FROM gold.dim_classificacao", conn)
lookup_classificacao = dict(zip(df_lookup_class['classificacao_codigo'], df_lookup_class['sk_classificacao']))

# Lookup evolucao: evolucao_codigo -> sk_evolucao
df_lookup_evol = pd.read_sql("SELECT sk_evolucao, evolucao_codigo FROM gold.dim_evolucao", conn)
lookup_evolucao = dict(zip(df_lookup_evol['evolucao_codigo'], df_lookup_evol['sk_evolucao']))

# Lookup sintomas: combinacao_sintomas -> sk_sintomas
df_lookup_sint = pd.read_sql("SELECT sk_sintomas, combinacao_sintomas FROM gold.dim_sintomas", conn)
lookup_sintomas = dict(zip(df_lookup_sint['combinacao_sintomas'], df_lookup_sint['sk_sintomas']))

conn.close()

print(f"‚úÖ Lookups criados:")
print(f"   - tempo: {len(lookup_tempo)} registros")
print(f"   - localizacao: {len(lookup_localizacao)} registros")
print(f"   - paciente: {len(lookup_paciente)} registros")
print(f"   - classificacao: {len(lookup_classificacao)} registros")
print(f"   - evolucao: {len(lookup_evolucao)} registros")
print(f"   - sintomas: {len(lookup_sintomas)} registros")

‚úÖ Lookups criados:
   - tempo: 374 registros
   - localizacao: 28 registros
   - paciente: 124 registros
   - classificacao: 6 registros
   - evolucao: 7 registros
   - sintomas: 17 registros


## 7. Transforma√ß√£o e Carga da Tabela Fato

In [22]:
# Preparar DataFrame da fato
print("Preparando tabela fato...")

df_fato = df_silver.copy()

# FK Tempo (data_notificacao -> sk_tempo)
df_fato['fk_tempo'] = df_fato['data_notificacao'].map(lookup_tempo)
# Usar -1 (UNKNOWN) para valores n√£o encontrados
df_fato['fk_tempo'] = df_fato['fk_tempo'].fillna(-1).astype(int)

# FK Localiza√ß√£o (uf_sigla -> sk_localizacao)
df_fato['fk_localizacao'] = df_fato['uf_sigla'].map(lookup_localizacao)
df_fato['fk_localizacao'] = df_fato['fk_localizacao'].fillna(-1).astype(int)

# FK Paciente (combina√ß√£o demogr√°fica -> sk_paciente)
df_fato['combinacao_demografica'] = (
    df_fato['faixa_etaria'].fillna('UNKNOWN') + '|' +
    df_fato['sexo_desc'].fillna('UNKNOWN') + '|' +
    df_fato['raca_desc'].fillna('UNKNOWN')
)
df_fato['fk_paciente'] = df_fato['combinacao_demografica'].map(lookup_paciente)
df_fato['fk_paciente'] = df_fato['fk_paciente'].fillna(-1).astype(int)

# FK Classifica√ß√£o (classificacao_desc -> sk_classificacao)
df_fato['fk_classificacao'] = df_fato['classificacao_desc'].astype(str).map(lookup_classificacao)
df_fato['fk_classificacao'] = df_fato['fk_classificacao'].fillna(-1).astype(int)

# FK Evolu√ß√£o (evolucao_desc -> sk_evolucao)
df_fato['fk_evolucao'] = df_fato['evolucao_desc'].astype(str).map(lookup_evolucao)
df_fato['fk_evolucao'] = df_fato['fk_evolucao'].fillna(-1).astype(int)

# FK Sintomas (combina√ß√£o sintomas -> sk_sintomas)
df_fato['qtd_sintomas_faixa'] = df_fato['qtd_sintomas'].apply(get_faixa_sintomas)
df_fato['qtd_alarmes_faixa'] = df_fato['qtd_alarmes'].apply(get_faixa_alarmes)
df_fato['combinacao_sintomas'] = df_fato['qtd_sintomas_faixa'] + '|' + df_fato['qtd_alarmes_faixa']
df_fato['fk_sintomas'] = df_fato['combinacao_sintomas'].map(lookup_sintomas)
df_fato['fk_sintomas'] = df_fato['fk_sintomas'].fillna(-1).astype(int)

# M√©tricas (conforme documento)
df_fato['vl_caso_confirmado'] = df_fato['fl_confirmado'].fillna(0).astype(int)
df_fato['vl_caso_grave'] = df_fato['fl_grave'].fillna(0).astype(int)
df_fato['vl_obito'] = df_fato['fl_obito'].fillna(0).astype(int)
df_fato['vl_hospitalizado'] = df_fato['fl_hospitalizado'].fillna(0).astype(int)
df_fato['vl_qtd_sintomas'] = df_fato['qtd_sintomas'].fillna(0).astype(int)
df_fato['vl_qtd_alarmes'] = df_fato['qtd_alarmes'].fillna(0).astype(int)
df_fato['vl_idade_anos'] = df_fato['idade_anos']  # Pode ser NULL

# Timestamps
df_fato['ts_notificacao'] = df_fato['data_notificacao']
df_fato['ts_sintomas'] = df_fato['data_sintomas']  # Pode ser NULL

print(f"‚úÖ Tabela fato preparada: {len(df_fato):,} registros")

# Verificar FKs √≥rf√£s
print(f"\nüìä Verifica√ß√£o de FKs:")
print(f"   - fk_tempo=-1 (UNKNOWN): {(df_fato['fk_tempo'] == -1).sum():,}")
print(f"   - fk_localizacao=-1 (UNKNOWN): {(df_fato['fk_localizacao'] == -1).sum():,}")
print(f"   - fk_paciente=-1 (UNKNOWN): {(df_fato['fk_paciente'] == -1).sum():,}")
print(f"   - fk_classificacao=-1 (UNKNOWN): {(df_fato['fk_classificacao'] == -1).sum():,}")
print(f"   - fk_evolucao=-1 (UNKNOWN): {(df_fato['fk_evolucao'] == -1).sum():,}")
print(f"   - fk_sintomas=-1 (UNKNOWN): {(df_fato['fk_sintomas'] == -1).sum():,}")

Preparando tabela fato...
‚úÖ Tabela fato preparada: 1,661,634 registros

üìä Verifica√ß√£o de FKs:
   - fk_tempo=-1 (UNKNOWN): 0
   - fk_localizacao=-1 (UNKNOWN): 0
   - fk_paciente=-1 (UNKNOWN): 0
   - fk_classificacao=-1 (UNKNOWN): 0
   - fk_evolucao=-1 (UNKNOWN): 0
   - fk_sintomas=-1 (UNKNOWN): 0


In [23]:
# Selecionar colunas finais da fato
cols_fato = [
    'id_notificacao',  # id_notificacao_original
    'fk_tempo',
    'fk_localizacao',
    'fk_paciente',
    'fk_classificacao',
    'fk_evolucao',
    'fk_sintomas',
    'vl_caso_confirmado',
    'vl_caso_grave',
    'vl_obito',
    'vl_hospitalizado',
    'vl_qtd_sintomas',
    'vl_qtd_alarmes',
    'vl_idade_anos',
    'ts_notificacao',
    'ts_sintomas'
]

df_fato_final = df_fato[cols_fato].copy()
df_fato_final = df_fato_final.rename(columns={'id_notificacao': 'id_notificacao_original'})

print(f"‚úÖ DataFrame fato final: {len(df_fato_final):,} registros, {len(cols_fato)} colunas")
df_fato_final.head()

‚úÖ DataFrame fato final: 1,661,634 registros, 16 colunas


Unnamed: 0,id_notificacao_original,fk_tempo,fk_localizacao,fk_paciente,fk_classificacao,fk_evolucao,fk_sintomas,vl_caso_confirmado,vl_caso_grave,vl_obito,vl_hospitalizado,vl_qtd_sintomas,vl_qtd_alarmes,vl_idade_anos,ts_notificacao,ts_sintomas
0,533023,70,18,49,1,1,9,1,0,0,0,5,0,20.0,2025-03-08,2025-03-04
1,533024,70,18,86,1,1,13,1,0,0,0,6,0,67.0,2025-03-08,2025-03-04
2,533025,72,18,34,1,1,13,1,0,0,0,6,0,20.0,2025-03-10,2025-03-08
3,533026,75,18,28,1,1,9,1,0,0,0,5,0,12.0,2025-03-13,2025-03-11
4,533027,75,18,86,1,1,13,1,0,0,0,6,0,60.0,2025-03-13,2025-03-07


In [24]:
# Carga da tabela fato em lotes (para performance)
BATCH_SIZE = 50000

conn = get_connection()
cursor = conn.cursor()

try:
    # Limpar tabela fato
    print("Limpando tabela fato...")
    cursor.execute("TRUNCATE TABLE gold.ft_dengue RESTART IDENTITY")
    conn.commit()
    
    # Inserir em lotes
    total_rows = len(df_fato_final)
    total_batches = (total_rows + BATCH_SIZE - 1) // BATCH_SIZE
    
    print(f"Inserindo {total_rows:,} registros em {total_batches} lotes...")
    
    insert_sql = """
        INSERT INTO gold.ft_dengue (
            id_notificacao_original, fk_tempo, fk_localizacao, fk_paciente,
            fk_classificacao, fk_evolucao, fk_sintomas,
            vl_caso_confirmado, vl_caso_grave, vl_obito, vl_hospitalizado,
            vl_qtd_sintomas, vl_qtd_alarmes, vl_idade_anos,
            ts_notificacao, ts_sintomas
        ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
    """
    
    for batch_num in range(total_batches):
        start_idx = batch_num * BATCH_SIZE
        end_idx = min(start_idx + BATCH_SIZE, total_rows)
        
        batch_df = df_fato_final.iloc[start_idx:end_idx]
        
        # Preparar dados do lote
        batch_data = []
        for _, row in batch_df.iterrows():
            batch_data.append((
                int(row['id_notificacao_original']),
                int(row['fk_tempo']),
                int(row['fk_localizacao']),
                int(row['fk_paciente']),
                int(row['fk_classificacao']),
                int(row['fk_evolucao']),
                int(row['fk_sintomas']),
                int(row['vl_caso_confirmado']),
                int(row['vl_caso_grave']),
                int(row['vl_obito']),
                int(row['vl_hospitalizado']),
                int(row['vl_qtd_sintomas']),
                int(row['vl_qtd_alarmes']),
                float(row['vl_idade_anos']) if pd.notna(row['vl_idade_anos']) else None,
                row['ts_notificacao'],
                row['ts_sintomas'] if pd.notna(row['ts_sintomas']) else None
            ))
        
        # Executar batch insert
        cursor.executemany(insert_sql, batch_data)
        conn.commit()
        
        progress = (batch_num + 1) / total_batches * 100
        print(f"   Lote {batch_num + 1}/{total_batches} ({progress:.1f}%) - {end_idx:,} registros")
    
    print(f"\n‚úÖ Carga da tabela fato conclu√≠da: {total_rows:,} registros")
    
except Exception as e:
    conn.rollback()
    print(f"‚ùå Erro na carga da fato: {e}")
    raise
finally:
    cursor.close()
    conn.close()

Limpando tabela fato...
Inserindo 1,661,634 registros em 34 lotes...
   Lote 1/34 (2.9%) - 50,000 registros
   Lote 2/34 (5.9%) - 100,000 registros
   Lote 3/34 (8.8%) - 150,000 registros
   Lote 4/34 (11.8%) - 200,000 registros
   Lote 5/34 (14.7%) - 250,000 registros
   Lote 6/34 (17.6%) - 300,000 registros
   Lote 7/34 (20.6%) - 350,000 registros
   Lote 8/34 (23.5%) - 400,000 registros
   Lote 9/34 (26.5%) - 450,000 registros
   Lote 10/34 (29.4%) - 500,000 registros
   Lote 11/34 (32.4%) - 550,000 registros
   Lote 12/34 (35.3%) - 600,000 registros
   Lote 13/34 (38.2%) - 650,000 registros
   Lote 14/34 (41.2%) - 700,000 registros
   Lote 15/34 (44.1%) - 750,000 registros
   Lote 16/34 (47.1%) - 800,000 registros
   Lote 17/34 (50.0%) - 850,000 registros
   Lote 18/34 (52.9%) - 900,000 registros
   Lote 19/34 (55.9%) - 950,000 registros
   Lote 20/34 (58.8%) - 1,000,000 registros
   Lote 21/34 (61.8%) - 1,050,000 registros
   Lote 22/34 (64.7%) - 1,100,000 registros
   Lote 23/34 

## 8. Valida√ß√µes de Qualidade

In [25]:
# Valida√ß√µes conforme documento - Se√ß√£o 8
print("="*60)
print("VALIDA√á√ïES DE QUALIDADE - GOLD LAYER")
print("="*60)

conn = get_connection()

# 8.1 Valida√ß√µes de Integridade
print("\nüìã 8.1 VALIDA√á√ïES DE INTEGRIDADE")

# Contagem Silver vs Gold
count_silver = pd.read_sql("SELECT COUNT(*) as cnt FROM public.dengue_silver", conn)['cnt'][0]
count_gold = pd.read_sql("SELECT COUNT(*) as cnt FROM gold.ft_dengue", conn)['cnt'][0]

print(f"   ‚úÖ Registros Silver: {count_silver:,}")
print(f"   ‚úÖ Registros Gold (ft_dengue): {count_gold:,}")
print(f"   {'‚úÖ' if count_silver == count_gold else '‚ùå'} Volumetria: {'V√ÅLIDA' if count_silver == count_gold else 'INV√ÅLIDA'}")

VALIDA√á√ïES DE QUALIDADE - GOLD LAYER

üìã 8.1 VALIDA√á√ïES DE INTEGRIDADE
   ‚úÖ Registros Silver: 1,661,634
   ‚úÖ Registros Gold (ft_dengue): 1,661,634
   ‚úÖ Volumetria: V√ÅLIDA


In [26]:
# Verificar FKs √≥rf√£s
print("\n   Verifica√ß√£o de integridade referencial:")

# Verificar cada FK
fk_checks = [
    ('fk_tempo', 'dim_tempo', 'sk_tempo'),
    ('fk_localizacao', 'dim_localizacao', 'sk_localizacao'),
    ('fk_paciente', 'dim_paciente', 'sk_paciente'),
    ('fk_classificacao', 'dim_classificacao', 'sk_classificacao'),
    ('fk_evolucao', 'dim_evolucao', 'sk_evolucao'),
    ('fk_sintomas', 'dim_sintomas', 'sk_sintomas')
]

for fk_col, dim_table, sk_col in fk_checks:
    query = f"""
        SELECT COUNT(*) as orphans 
        FROM gold.ft_dengue f
        LEFT JOIN gold.{dim_table} d ON f.{fk_col} = d.{sk_col}
        WHERE d.{sk_col} IS NULL
    """
    orphans = pd.read_sql(query, conn)['orphans'][0]
    status = '‚úÖ' if orphans == 0 else '‚ùå'
    print(f"   {status} {fk_col} ‚Üí {dim_table}: {orphans} √≥rf√£os")


   Verifica√ß√£o de integridade referencial:
   ‚úÖ fk_tempo ‚Üí dim_tempo: 0 √≥rf√£os
   ‚úÖ fk_localizacao ‚Üí dim_localizacao: 0 √≥rf√£os
   ‚úÖ fk_paciente ‚Üí dim_paciente: 0 √≥rf√£os
   ‚úÖ fk_classificacao ‚Üí dim_classificacao: 0 √≥rf√£os
   ‚úÖ fk_evolucao ‚Üí dim_evolucao: 0 √≥rf√£os
   ‚úÖ fk_sintomas ‚Üí dim_sintomas: 0 √≥rf√£os


In [27]:
# 8.2 Valida√ß√µes de Neg√≥cio (conforme documento)
print("\nüìã 8.2 VALIDA√á√ïES DE NEG√ìCIO")

# Valores esperados do documento
EXPECTED = {
    'casos_confirmados': 1445765,
    'casos_graves': 37208,
    'obitos': 1773,
    'hospitalizacoes': 72684
}

# Buscar valores reais
metricas = pd.read_sql("""
    SELECT 
        SUM(vl_caso_confirmado) as casos_confirmados,
        SUM(vl_caso_grave) as casos_graves,
        SUM(vl_obito) as obitos,
        SUM(vl_hospitalizado) as hospitalizacoes
    FROM gold.ft_dengue
""", conn)

for metrica, esperado in EXPECTED.items():
    real = int(metricas[metrica][0])
    status = '‚úÖ' if real == esperado else '‚ö†Ô∏è'
    diff = real - esperado
    print(f"   {status} {metrica}: {real:,} (esperado: {esperado:,}, diff: {diff:+,})")


üìã 8.2 VALIDA√á√ïES DE NEG√ìCIO
   ‚úÖ casos_confirmados: 1,445,765 (esperado: 1,445,765, diff: +0)
   ‚úÖ casos_graves: 37,208 (esperado: 37,208, diff: +0)
   ‚úÖ obitos: 1,773 (esperado: 1,773, diff: +0)
   ‚úÖ hospitalizacoes: 72,684 (esperado: 72,684, diff: +0)


In [28]:
# Taxa de letalidade
letalidade = pd.read_sql("""
    SELECT 
        ROUND(100.0 * SUM(vl_obito) / SUM(vl_caso_confirmado), 3) as taxa_letalidade
    FROM gold.ft_dengue
    WHERE vl_caso_confirmado = 1
""", conn)

taxa = letalidade['taxa_letalidade'][0]
print(f"   ‚úÖ Taxa de letalidade: {taxa}% (esperado: ~0.1%)")

   ‚úÖ Taxa de letalidade: 0.123% (esperado: ~0.1%)


In [29]:
# Per√≠odo dos dados
periodo = pd.read_sql("""
    SELECT 
        MIN(ts_notificacao) as data_min,
        MAX(ts_notificacao) as data_max
    FROM gold.ft_dengue
""", conn)

print(f"   ‚úÖ Per√≠odo: {periodo['data_min'][0]} a {periodo['data_max'][0]}")
print(f"      (esperado: 29/12/2024 a 05/01/2026)")

   ‚úÖ Per√≠odo: 2024-12-29 a 2026-01-05
      (esperado: 29/12/2024 a 05/01/2026)


In [30]:
# Distribui√ß√£o por UF (top 5)
print("\n   Top 5 UFs por casos:")
top_ufs = pd.read_sql("""
    SELECT 
        l.uf_sigla,
        SUM(f.vl_caso_confirmado) as casos
    FROM gold.ft_dengue f
    JOIN gold.dim_localizacao l ON f.fk_localizacao = l.sk_localizacao
    GROUP BY l.uf_sigla
    ORDER BY casos DESC
    LIMIT 5
""", conn)

for _, row in top_ufs.iterrows():
    print(f"      {row['uf_sigla']}: {int(row['casos']):,} casos")

print(f"      (esperado: SP l√≠der com 876.832 casos)")


   Top 5 UFs por casos:
      SP: 876,832 casos
      MG: 119,016 casos
      GO: 96,685 casos
      PR: 92,514 casos
      RS: 44,075 casos
      (esperado: SP l√≠der com 876.832 casos)


In [31]:
# 8.3 Valida√ß√µes de Qualidade
print("\nüìã 8.3 VALIDA√á√ïES DE QUALIDADE")

# FKs obrigat√≥rias n√£o nulas
fks_null = pd.read_sql("""
    SELECT 
        SUM(CASE WHEN fk_tempo IS NULL THEN 1 ELSE 0 END) as tempo_null,
        SUM(CASE WHEN fk_localizacao IS NULL THEN 1 ELSE 0 END) as loc_null,
        SUM(CASE WHEN fk_paciente IS NULL THEN 1 ELSE 0 END) as pac_null,
        SUM(CASE WHEN fk_classificacao IS NULL THEN 1 ELSE 0 END) as class_null,
        SUM(CASE WHEN fk_evolucao IS NULL THEN 1 ELSE 0 END) as evol_null,
        SUM(CASE WHEN fk_sintomas IS NULL THEN 1 ELSE 0 END) as sint_null
    FROM gold.ft_dengue
""", conn)

total_nulls = sum(fks_null.iloc[0])
print(f"   {'‚úÖ' if total_nulls == 0 else '‚ùå'} FKs nulas: {total_nulls}")

# Flags booleanos apenas 0 ou 1
flags_invalid = pd.read_sql("""
    SELECT COUNT(*) as invalid
    FROM gold.ft_dengue
    WHERE vl_caso_confirmado NOT IN (0,1)
       OR vl_caso_grave NOT IN (0,1)
       OR vl_obito NOT IN (0,1)
       OR vl_hospitalizado NOT IN (0,1)
""", conn)['invalid'][0]

print(f"   {'‚úÖ' if flags_invalid == 0 else '‚ùå'} Flags inv√°lidos (fora 0/1): {flags_invalid}")

# Idades v√°lidas (0-120 ou NULL)
idades_invalid = pd.read_sql("""
    SELECT COUNT(*) as invalid
    FROM gold.ft_dengue
    WHERE vl_idade_anos IS NOT NULL 
      AND (vl_idade_anos < 0 OR vl_idade_anos > 120)
""", conn)['invalid'][0]

print(f"   {'‚úÖ' if idades_invalid == 0 else '‚ùå'} Idades inv√°lidas (fora 0-120): {idades_invalid}")

conn.close()


üìã 8.3 VALIDA√á√ïES DE QUALIDADE
   ‚úÖ FKs nulas: 0
   ‚úÖ Flags inv√°lidos (fora 0/1): 0
   ‚úÖ Idades inv√°lidas (fora 0-120): 0


## 9. M√©tricas de Qualidade

In [32]:
# M√©tricas conforme documento - Se√ß√£o 9
print("\n" + "="*60)
print("M√âTRICAS DE QUALIDADE - GOLD LAYER")
print("="*60)

conn = get_connection()

# Completude (campos obrigat√≥rios preenchidos)
completude = pd.read_sql("""
    SELECT 
        ROUND(100.0 * SUM(CASE WHEN fk_tempo > 0 THEN 1 ELSE 0 END) / COUNT(*), 2) as tempo,
        ROUND(100.0 * SUM(CASE WHEN fk_localizacao > 0 THEN 1 ELSE 0 END) / COUNT(*), 2) as localizacao,
        ROUND(100.0 * SUM(CASE WHEN fk_paciente > 0 THEN 1 ELSE 0 END) / COUNT(*), 2) as paciente,
        ROUND(100.0 * SUM(CASE WHEN fk_classificacao > 0 THEN 1 ELSE 0 END) / COUNT(*), 2) as classificacao,
        ROUND(100.0 * SUM(CASE WHEN fk_evolucao > 0 THEN 1 ELSE 0 END) / COUNT(*), 2) as evolucao,
        ROUND(100.0 * SUM(CASE WHEN fk_sintomas > 0 THEN 1 ELSE 0 END) / COUNT(*), 2) as sintomas
    FROM gold.ft_dengue
""", conn)

avg_completude = completude.iloc[0].mean()
print(f"\nüìä COMPLETUDE (esperado: 95%+)")
print(f"   M√©dia geral: {avg_completude:.2f}%")
for col in completude.columns:
    print(f"   - {col}: {completude[col][0]}%")

# Consist√™ncia (FKs v√°lidas)
print(f"\nüìä CONSIST√äNCIA (esperado: 100%)")
print(f"   Integridade referencial: 100% (verificado acima)")

# Acur√°cia (regras de neg√≥cio)
print(f"\nüìä ACUR√ÅCIA (esperado: 99%+)")
print(f"   Regras de neg√≥cio: VALIDADAS (verificado acima)")

conn.close()

print("\n" + "="*60)
print("‚úÖ ETL SILVER TO GOLD CONCLU√çDO COM SUCESSO!")
print("="*60)


M√âTRICAS DE QUALIDADE - GOLD LAYER

üìä COMPLETUDE (esperado: 95%+)
   M√©dia geral: 100.00%
   - tempo: 100.0%
   - localizacao: 100.0%
   - paciente: 100.0%
   - classificacao: 100.0%
   - evolucao: 100.0%
   - sintomas: 100.0%

üìä CONSIST√äNCIA (esperado: 100%)
   Integridade referencial: 100% (verificado acima)

üìä ACUR√ÅCIA (esperado: 99%+)
   Regras de neg√≥cio: VALIDADAS (verificado acima)

‚úÖ ETL SILVER TO GOLD CONCLU√çDO COM SUCESSO!


## 10. Queries de Exemplo (BI)

In [33]:
# Queries t√≠picas de BI conforme documento - Se√ß√£o 10
conn = get_connection()

print("üìä QUERY 1: Top 5 UFs com maior taxa de letalidade")
print("-" * 50)

query1 = """
SELECT 
    l.uf_sigla,
    SUM(f.vl_caso_confirmado) as casos,
    SUM(f.vl_obito) as obitos,
    ROUND(100.0 * SUM(f.vl_obito) / NULLIF(SUM(f.vl_caso_confirmado), 0), 3) as taxa_letalidade
FROM gold.ft_dengue f
JOIN gold.dim_localizacao l ON f.fk_localizacao = l.sk_localizacao
GROUP BY l.uf_sigla
HAVING SUM(f.vl_caso_confirmado) > 1000
ORDER BY taxa_letalidade DESC
LIMIT 5
"""

pd.read_sql(query1, conn)

üìä QUERY 1: Top 5 UFs com maior taxa de letalidade
--------------------------------------------------


Unnamed: 0,uf_sigla,casos,obitos,taxa_letalidade
0,MS,8962,21,0.234
1,PA,14182,32,0.226
2,RN,4228,7,0.166
3,PR,92514,145,0.157
4,PI,7449,11,0.148


In [34]:
print("üìä QUERY 2: Evolu√ß√£o semanal de casos graves")
print("-" * 50)

query2 = """
SELECT 
    t.ano,
    t.semana_epi,
    SUM(f.vl_caso_grave) as casos_graves
FROM gold.ft_dengue f
JOIN gold.dim_tempo t ON f.fk_tempo = t.sk_tempo
GROUP BY t.ano, t.semana_epi
ORDER BY t.ano, t.semana_epi
LIMIT 20
"""

pd.read_sql(query2, conn)

üìä QUERY 2: Evolu√ß√£o semanal de casos graves
--------------------------------------------------


Unnamed: 0,ano,semana_epi,casos_graves
0,2024,1,34
1,2024,52,2
2,2025,1,263
3,2025,2,701
4,2025,3,886
5,2025,4,1078
6,2025,5,1232
7,2025,6,1264
8,2025,7,1337
9,2025,8,1469


In [36]:
print("üìä QUERY 3: Perfil demogr√°fico mais afetado")
print("-" * 50)

query3 = """
SELECT 
    p.faixa_etaria,
    p.sexo_desc,
    COUNT(*) as total_casos,
    SUM(f.vl_caso_confirmado) as casos_confirmados,
    ROUND(AVG(f.vl_idade_anos)::numeric, 1) as idade_media
FROM gold.ft_dengue f
JOIN gold.dim_paciente p ON f.fk_paciente = p.sk_paciente
GROUP BY p.faixa_etaria, p.sexo_desc
ORDER BY casos_confirmados DESC
LIMIT 10
"""

pd.read_sql(query3, conn)

üìä QUERY 3: Perfil demogr√°fico mais afetado
--------------------------------------------------


Unnamed: 0,faixa_etaria,sexo_desc,total_casos,casos_confirmados,idade_media
0,20-39 anos,Feminino,319843,274735,29.3
1,40-59 anos,Feminino,257793,229903,48.7
2,20-39 anos,Masculino,267704,229568,29.1
3,40-59 anos,Masculino,191312,170703,48.5
4,60+ anos,Feminino,137272,125163,69.5
5,10-19 anos,Masculino,121508,103861,14.8
6,10-19 anos,Feminino,116904,99151,15.1
7,60+ anos,Masculino,99518,90304,69.5
8,5-9 anos,Masculino,47327,39608,7.1
9,5-9 anos,Feminino,41265,34744,7.2


In [37]:
conn.close()
print("\n‚úÖ Demonstra√ß√£o de queries BI conclu√≠da!")


‚úÖ Demonstra√ß√£o de queries BI conclu√≠da!
