## MODELAGEM DIMENSIONAL: TRANSFORMANDO DADOS TRANSACIONAIS EM ATIVOS ESTRATÉGICOS

### Contexto e Impacto

O sistema de compras públicas gerou 263.562 registros transacionais com estrutura plana, onde informações repetitivas eram duplicadas em cada transação. A análise revelou:

---

### Volume e redundância identificados

Total de registros transacionais = 263.562

Entidades Únicas:
 - Fabricantes: 4.380
 - Fornecedores: 4.795
 - Instituições: 1.132
 - Produtos: 21.257
 - Datas: 1.563

Total Dimensional: 32.127

Redução de Armazenamento: 87,8% (1 - 32.127/263.562) × 100 )

---

### Objetivo da Modelagem

Transformar dados operacionais em base analítica para:

 * Gestão estratégica de preços (PMP benchmarking)

 * Otimização de processos de compras públicas

 *  Gestão proativa de demanda e prevenção de desabastecimento

 ---

### Justificativa Técnica

| Desafio Identificado | Solução Profissional Implementada | Justificativa Técnica |
| :--- | :--- | :--- |
| **Redundância de dados descritivos** - 1.3M+ instâncias repetidas | Star Schema com chaves surrogate. | Normalização lógica reduz armazenamento em 87.8% e elimina inconsistências |
| **Complexidade analítica** - Cruzamentos multidimensionais inviáveis | Tabelas fato-dimensão relacionáveis | Permite agregações hierárquicas (UF→Município→Instituição) e drill-down |
| **Performance em ferramentas BI** - Consultas lentas com múltiplos JOINs | Modelo otimizado para Power BI | Star Schema é padrão industry para ferramentas de visualização |
| **Gestão de preços (PMP)** - Dificuldade em benchmarking | Dimensões Produto × Instituição × Tempo | Base para cálculo de variação de preços e identificação de outliers |
| **Gestão de demanda** - Padrões ocultos na granularidade transacional | Agregações temporais e por produto | Habilita análise de sazonalidade e intermitência de compras |

### Etapas do Processo

| Etapa | Método | Justificativa Técnica |
| :--- | :--- | :--- |
| **Análise de Entidades** | Identificação de atributos repetitivos e cardinalidade | Fundamentação para definição das dimensões e granularidade da fato |
| **Design do Star Schema** | Definição de fato central + dimensões relacionais | Padrão industry que balanceia performance e simplicidade analítica |
| **Geração de Chaves Surrogate** | Prefixos mnemônicos (Ins, Pro, For, Fab) + sequencial |	Garante unicidade e legibilidade, independente de chaves naturais |
| **Integração Dimensional** | Merge das SKs na fato + drop de colunas originais | Mantém integridade referencial enquanto elimina redundância |
| **Exportação para BI** | CSV com encoding UTF-8-SIG e separador ponto-vírgula | Compatibilidade total com Power BI e outras ferramentas analíticas |

### Benefícios e Implicações

##### GESTÃO DE PREÇOS (PMP)

##### Implicação Técnica:

 - Base única de comparação entre instituições e regiões

 - Cálculo consistente de preço médio ponderado (PMP)

 - Identificação automática de outliers de preço

 - Impacto na Gestão Pública:

 - Negociação estratégica com fornecedores baseada em dados históricos

 - Auditoria eficiente de preços praticados

 - Transparência nos processos de compra

---

#### GESTÃO DE DEMANDA

##### Implicação Técnica:

 - Agregações temporais por múltiplas granularidades (mês, trimestre, ano)

 - Análise de padrões de consumo por produto e região

 - Cálculo de métricas de intermitência e sazonalidade

 - Impacto na Gestão Pública:

 - Previsão de demanda mais precisa para planejamento de compras

 - Redução de risco de desabastecimento através de alertas proativos

 - Otimização de estoques baseada em padrões reais de consumo

---

#### GOVERNANÇA E TRANSPARÊNCIA

##### Implicação Técnica:

 - Rastreabilidade completa de cada transação

 - Análise de concentração de fornecedores por produto/região

 - Benchmarking institucional para melhores práticas

 - Impacto na Gestão Pública:

 - Controle reforçado sobre compras públicas

 - Identificação de oportunidades de economia em escala

 - Base factual para políticas públicas de saúde

---

#### EFICIÊNCIA OPERACIONAL

##### Implicação Técnica:

 - Redução de 87.8% no armazenamento de dados descritivos

 - Consultas 3-5x mais rápidas para agregações multidimensionais

 - Manutenção centralizada de dados mestres

 - Impacto na Gestão Pública:

 - Economia de recursos computacionais e de armazenamento

 - Agilidade na tomada de decisão através de análises rápidas

 - Escalabilidade para inclusão de novos anos e datasets

---

#### STATUS E PRÓXIMOS PASSOS

##### CONCLUÍDO:

 - Modelo dimensional implementado e validado

 - Integração com Power BI estabelecida

 - Pipeline ETL para atualizações incrementais

---

##### EVOLUÇÃO ESTRATÉGICA:

 - Análise preditiva de preços e demanda

 - Expansão para outros itens além de medicamentos

 ---

##### LEGADO TÉCNICO:

Foundation sólida para analytics avançado e transformação digital na gestão de compras públicas de saúde.

---

##### IMPLICAÇÕES IDENTIFICADAS:

Dos 263.562 registros processados, conseguimos gerar 263.259 IDs únicos

303 registros apresentaram combinações idênticas de atributos, sugerindo:

 - Possíveis duplicidades reais na base

 - Limitações no método de HASH com os dados disponíveis


##### RECOMENDAÇÃO ESTRATÉGICA:

Implementar na origem dos dados um sistema de numeração única de pedidos que:

 - Garanta identificação única desde a criação do pedido

 - Permita rastreabilidade completa ao longo do ciclo de compras

 - Elimine a dependência de métodos correticos pós-processamento


In [None]:
# src/dimensoes.py - VERSÃO NOTEBOOK

import pandas as pd
import os

def criar_e_integrar_dimensoes(df_fato: pd.DataFrame, pasta_outputs: str) -> pd.DataFrame:
    """
    Cria as tabelas dimensão (Instituição, Produto, Tempo, Fornecedor, Fabricante) a partir da Tabela Fato
    e integra suas chaves primárias (Surrogate Keys) de volta na Fato, usando prefixos intuitivos.
    """
    print(" INICIANDO CRIAÇÃO DAS DIMENSÕES")
    print("=" * 50)
    
    # Lista para armazenar as chaves de dimensão criadas para reordenação final
    chaves_dimensao = ['id_pedido']

    # --- FUNÇÃO AUXILIAR PARA CRIAR DIMENSÃO (COM PREFIXO) ---
    def _criar_dimensao(df_base: pd.DataFrame, nome_dim: str, colunas_atributos: list, chave_primaria: str, prefixo: str):
        
        print(f"\n Criando Dimensão: {nome_dim.capitalize()}")
        print(f"   Colunas: {', '.join(colunas_atributos)}")
        
        # 1. Extrair e Limpar Duplicatas
        df_dim = df_base[colunas_atributos].drop_duplicates(subset=colunas_atributos).reset_index(drop=True)
        
        # 2. Criar a Chave Primária (Surrogate Key - SK) com prefixo
        indices_sequenciais = pd.Series(df_dim.index + 1)
        df_dim[chave_primaria] = indices_sequenciais.apply(lambda x: f"{prefixo}{x:05d}")
        
        # 3. Reordenar e Exportar
        df_dim = df_dim[[chave_primaria] + colunas_atributos]
        df_dim.to_csv(f"{pasta_outputs}/dim_{nome_dim}.csv", index=False, sep=';', encoding='utf-8-sig')
        
        print(f"  {len(df_dim):,} registros | Exemplo: {df_dim[chave_primaria].iloc[0]}")
        print(f" Primeiras linhas:")
        print(df_dim.head(3).to_string(index=False))
        
        # 4. Integrar (Merge)
        df_fato_integrada = pd.merge(
            df_base,
            df_dim,
            on=colunas_atributos,
            how='left'
        )
        
        # 5. Remover colunas naturais da Fato
        df_fato_integrada.drop(columns=colunas_atributos, inplace=True, errors='ignore')
        
        # Adicionar a nova SK à lista de chaves
        chaves_dimensao.append(chave_primaria)
        
        return df_fato_integrada
    
    # --- PROCESSO DE CRIAÇÃO DAS DIMENSÕES ---
    
    # 1. DIMENSÃO INSTITUIÇÃO (Comprador)
    print("\n" + "="*40)
    col_inst = ['cnpj_instituicao', 'nome_instituicao', 'municipio_instituicao', 'uf']
    df_fato = _criar_dimensao(df_fato, 'instituicao', col_inst, 'id_instituicao', 'Ins')

    # 2. DIMENSÃO PRODUTO/ITEM (Medicamento/CATMAT)
    print("\n" + "="*40)
    col_prod = ['codigo_br', 'descricao_catmat', 'generico', 'unidade_fornecimento']
    df_fato = _criar_dimensao(df_fato, 'produto', col_prod, 'id_produto', 'Pro')

    # 3. DIMENSÃO FORNECEDOR
    print("\n" + "="*40)
    col_forn = ['cnpj_fornecedor', 'fornecedor']
    if all(col in df_fato.columns for col in col_forn):
        df_fato = _criar_dimensao(df_fato, 'fornecedor', col_forn, 'id_fornecedor', 'For')
    else:
        print(f"  Colunas de Fornecedor não encontradas. Dimensão pulada.")
        
    # 4. DIMENSÃO FABRICANTE
    print("\n" + "="*40)
    col_fabr = ['cnpj_fabricante', 'fabricante']
    if all(col in df_fato.columns for col in col_fabr):
        df_fato = _criar_dimensao(df_fato, 'fabricante', col_fabr, 'id_fabricante', 'Fab')
    else:
        print(f"  Colunas de Fabricante não encontradas. Dimensão pulada.")

    # 5. DIMENSÃO TEMPO
    print("\n" + "="*40)
    print(" Criando Dimensão: Tempo")
    
    try:
        dim_tempo_natural = df_fato[['compra']].drop_duplicates().reset_index(drop=True)
        dim_tempo_natural['data_completa'] = pd.to_datetime(dim_tempo_natural['compra'], errors='coerce')
        dim_tempo_natural.dropna(subset=['data_completa'], inplace=True)
        
        dim_tempo_natural['id_tempo'] = dim_tempo_natural['data_completa'].dt.strftime('%Y%m%d').astype(int)
        dim_tempo_natural['ano'] = dim_tempo_natural['data_completa'].dt.year
        dim_tempo_natural['mes'] = dim_tempo_natural['data_completa'].dt.month
        dim_tempo_natural['dia'] = dim_tempo_natural['data_completa'].dt.day
        dim_tempo_natural['trimestre'] = dim_tempo_natural['data_completa'].dt.quarter
        
        dim_tempo = dim_tempo_natural[['id_tempo', 'data_completa', 'ano', 'mes', 'dia', 'trimestre']]
        
        df_fato = pd.merge(
            df_fato,
            dim_tempo_natural[['compra', 'id_tempo']], 
            on='compra',
            how='left'
        )
        
        df_fato.rename(columns={'compra': 'data_compra'}, inplace=True) 
        chaves_dimensao.append('id_tempo')
        
        print(f"    {len(dim_tempo):,} registros | Exemplo: {dim_tempo['id_tempo'].iloc[0]}")
        print(f"    Primeiras linhas:")
        print(dim_tempo.head(3).to_string(index=False))
        
        dim_tempo.to_csv(f"{pasta_outputs}/dim_tempo.csv", index=False, sep=';', encoding='utf-8-sig')
        
    except Exception as e:
        print(f" Erro ao processar Dimensão Tempo: {e}")
        df_fato.rename(columns={'data_compra': 'compra'}, inplace=True, errors='ignore')

    # 6. FINALIZAÇÃO DA FATO
    print("\n" + "="*50)
    print(" CRIAÇÃO DE DIMENSÕES CONCLUÍDA!")
    
    chaves_dimensao_finais = [c for c in chaves_dimensao if c in df_fato.columns]
    colunas_contexto = ['modalidade_compra', 'tipo_compra'] 
    
    colunas_finais_ordenadas = chaves_dimensao_finais
    colunas_finais_ordenadas += [col for col in colunas_contexto if col in df_fato.columns]
    colunas_finais_ordenadas += [col for col in df_fato.columns if col not in chaves_dimensao_finais + colunas_contexto]
    
    df_fato = df_fato[colunas_finais_ordenadas]
    
    print(f"\n RESUMO FINAL DA TABELA FATO:")
    print(f"   • Total de registros: {len(df_fato):,}")
    print(f"   • Colunas finais: {len(df_fato.columns)}")
    print(f"   • Dimensões integradas: {len(chaves_dimensao_finais)}")
    print(f"\n Estrutura da Tabela Fato:")
    print(df_fato.head(3).to_string(index=False))
    
    return df_fato

### TABELAS DIMENSIONAIS GERADAS

#### 1.  **Dimensão Fabricante** (4.380 registros)

| id_fabricante | cnpj_fabricante | fabricante |
| :--- | :--- | :--- |
| Fab00001 | 73856593000166 | PRATI, DONADUZZI E CIA LTDA |
| Fab00002 | 61150447000131 | LABORATÓRIOS BALDACCI S/A |
| Fab00003 | 10877926000113 | LABORATORIO FARMACEUTICO DO ESTADO DE PERNAMBUCO GOVERNADOR MIGUEL |

#### 2. **Dimensão Fornecedor** (4.795 registros)

| id_fornecedor | cnpj_fornecedor | fornecedor |
| :--- | :--- | :--- |
| For00001 | 06974929000106 | NOROESTE MEDICAMENTO LTDA - EPP |
| For00002 | 01140868000150 | CIRURGICA OLIMPIO - EIRELI - EPP |
| For00003 | 61718946000182 | DROGARIA DIAMARC LTDA |

#### 3. **Dimensão Instituição** (1.132 registros)

| id_instituicao | cnpj_instituicao | nome_instituicao | municipio_instituicao | uf |
| :--- | :--- | :--- | :--- | :--- |
| Ins00001 | 08533932000101 | FUNDO MUNICIPAL DE SAUDE - MUNICIPIO DE ALTO PARANA | ALTO PARANA | PR |
| Ins00002 | 43976166000150 | MUNICIPIO DE AMERICO BRASILIENSE | AMERICO BRASILIENSE | SP |
| Ins00003 | 01572597000101 | MUNICIPIO DE TRABIJU | TRABIJU | SP |

#### 4. **Dimensão Produto** (21.257 registros)

| id_produto | codigo_br | descricao_catmat | generico | unidade_fornecimento |
| :--- | :--- | :--- | :--- | :--- |
| Pro00001 | 243488 | BOLSA VENTILAÇÃO PULMONAR, MATERIAL:BORRACHA, CAPACIDADE:1 L, APLICAÇÃO:VENTILAÇÃO / REINALAÇÃO | NÃO | UNIDADE |
| Pro00002 | 267565 | CARVEDILOL, DOSAGEM:6,25 MG | NÃO | COMPRIMIDO |
| Pro00003 | 267567 | CARVEDILOL, DOSAGEM:25 MG | NÃO | COMPRIMIDO |

#### 5. **Dimensão Tempo** (1.563 registros)

| id_tempo | data_completa | ano | mes | dia | trimestre |
| :--- | :--- | :--- | :--- | :--- | :---|
| 20200101 | 2020-01-01 | 2020 | 1 | 1 | 1 |
| 20200102 | 2020-01-02 | 2020 | 1 | 2 | 1 |
| 20200103 | 2020-01-03 | 2020 | 1 | 3 | 1 |

#### 6. **Tabela Fato - Compras de Medicamentos** (263.562 registros)

| id_pedido                           | id_instituicao | id_produto | id_fornecedor | id_fabricante | id_tempo | modalidade_compra      | tipo_compra  | ano_compra | data_compra | qtd_itens_comprados | preco_unitario | preco_total | pmp_individual | score_z_risco | indice_priorizacao | demanda_valor   | Risco_Intermitencia | %_Gasto_Unico_Forn |
|-------------------------------------|----------------|------------|---------------|---------------|----------|------------------------|--------------|------------|-------------|---------------------|----------------|-------------|----------------|---------------|--------------------|-----------------|---------------------|-------------------|
| 6482ef28f6d9f1f4ec1b83b6e9b2172b | Ins00001       | Pro00001   | For00001      | Fab00001      | 20200101 | Pregão                 | ADMINISTRATIVA | 2020       | 2020-01-01  | 3                   | 6,9            | 20,70       | 6,90           | -0,71         | 0,0576             | 1387,50         | 0,9692             | 0,9851           |
| df750bba9e0ccdd2c3b126b93af11c0f | Ins00002       | Pro00002   | For00002      | Fab00002      | 20200101 | Pregão                 | ADMINISTRATIVA | 2020       | 2020-01-01  | 36000               | 0,086          | 3096,00     | 0,086          | -0,17         | 0,0176             | 5946015,26      | 0,4462             | 0,4292           |
| 656fc50d1a0a3e9e3f2a74cd25aa04d6 | Ins00002       | Pro00003   | For00002      | Fab00002      | 20200101 | Pregão                 | ADMINISTRATIVA | 2020       | 2020-01-01  | 36000               | 0,155          | 5580,00     | 0,155          | -0,18         | 0,0242             | 5821545,71      | 0,4462             | 0,2226           |

#### 7. **Tabela Fato Radar - Oportunidades** (263.367 registros)

| id_pedido                           | id_produto | id_instituicao | id_fabricante | id_fornecedor | id_tempo | PMP_Pago_Linha | PMP_Benchmark_Referencia | Desvio_%_Oportunidade | Economia_por_Linha |
|-------------------------------------|------------|----------------|---------------|---------------|----------|----------------|--------------------------|---------------------|-------------------|
| 6482ef28f6d9f1f4ec1b83b6e9b2172b | Pro00001   | Ins00001       | Fab00001      | For00001      | 20200101 | 6,9            | 6,9                      | 0,0                  | 0,0               |
| df750bba9e0ccdd2c3b126b93af11c0f | Pro00002   | Ins00002       | Fab00002      | For00002      | 20200101 | 0,086          | 0,086                    | 0,0                  | 0,0               |
| 656fc50d1a0a3e9e3f2a74cd25aa04d6 | Pro00003   | Ins00002       | Fab00002      | For00002      | 20200101 | 0,155          | 0,155                    | 0,0                  | 0,0               |