# üöë Pipeline ELT: Integra√ß√£o de Dados do SAMU (2023-2025)

### üìã Sobre o Projeto
Este notebook implementa um pipeline de dados seguindo a arquitetura **ELT (Extract, Load, Transform)** para integrar e analisar dados de atendimentos do SAMU. O objetivo √© construir um **Data Warehouse** (Esquema Estrela) para responder a perguntas de neg√≥cio sobre a efici√™ncia e demanda do servi√ßo.

### üõ†Ô∏è Tecnologias e Justificativas
Para a execu√ß√£o deste projeto, selecionamos uma *stack* tecnol√≥gica enxuta e eficiente:

* **Python (Pandas):**
    * *Por que?* O Pandas oferece fun√ß√µes robustas (`read_csv`, `to_sql`) para lidar com a leitura de arquivos CSV com sujeiras (como o arquivo de 2025 que veio sem cabe√ßalho) e gerenciar a conex√£o com o banco de dados.

* **SQLite3:** Utilizado como motor de **Banco de Dados (Data Warehouse Local)**.
    * *Por que?* Por ser um banco de dados *serverless* (baseado em arquivo), ele elimina a necessidade de configurar servidores complexos, sendo ideal para prototipagem r√°pida e garantindo que todo o processamento ocorra em ambiente SQL nativo.

* **SQL:** Utilizado para **Transforma√ß√£o, Limpeza e Modelagem**.
    * *Por que?* Em uma abordagem ELT, delegar o processamento pesado para o banco de dados √© mais perform√°tico do que iterar linhas em mem√≥ria. Usamos SQL para normalizar textos (`UPPER`), tratar nulos (`COALESCE`) e realizar *Joins* complexos para criar as Tabelas Fato e Dimens√£o.

* **Matplotlib & Seaborn:** Utilizados para **Analytics e Visualiza√ß√£o**.
    * *Por que?* Bibliotecas padr√£o de mercado para gera√ß√£o de gr√°ficos est√°ticos de alta qualidade, essenciais para compor o relat√≥rio final.

In [1]:
import pandas as pd
import sqlite3
import matplotlib.pyplot as plt
import seaborn as sns
import os

## Setup - Cria√ß√£o da Estrutura de Arquivos

In [2]:
# Configura√ß√£o est√©tica dos gr√°ficos
sns.set_theme(style="whitegrid")
sns.set_context("talk")

In [3]:
# Fun√ß√£o auxiliar para gravar os scripts SQL no disco.
# Isso garante que a l√≥gica de transforma√ß√£o fique separada da l√≥gica de orquestra√ß√£o (Python).
def criar_arquivo_sql(caminho, conteudo):
    os.makedirs(os.path.dirname(caminho), exist_ok=True)
    with open(caminho, 'w') as f:
        f.write(conteudo)
    print(f"üìÅ Script SQL criado: {caminho}")

In [4]:
# Tenta fechar a conex√£o antiga se ela existir na mem√≥ria
try:
    conn.close()
except:
    pass # Se n√£o existir conex√£o aberta, segue o jogo

# Agora tenta remover o arquivo
db_path = 'samu_dw.db'
if os.path.exists(db_path):
    try:
        os.remove(db_path)
        print(f"‚ôªÔ∏è Banco antigo '{db_path}' removido com sucesso.")
    except PermissionError:
        print(f"‚ö†Ô∏è AVISO: N√£o foi poss√≠vel apagar '{db_path}' porque ele est√° em uso.")
        print("   -> O c√≥digo vai reutilizar o banco existente (sem recriar do zero).")
        print("   -> Dica: Para recriar do zero, Reinicie o Kernel do notebook.")

# Cria a nova conex√£o
conn = sqlite3.connect(db_path)
print("‚úÖ Conex√£o estabelecida.")

# --- 2. DEFINI√á√ÉO DE SCHEMA (Necess√°rio para o arquivo sem cabe√ßalho) ---
colunas_padrao = [
    '_id', 'data', 'hora_minuto', 'municipio', 'bairro', 'endereco',
    'origem_chamado', 'tipo', 'subtipo', 'sexo', 'idade',
    'motivo_finalizacao', 'motivo_desfecho'
]

‚ôªÔ∏è Banco antigo 'samu_dw.db' removido com sucesso.
‚úÖ Conex√£o estabelecida.


DEFINI√á√ÉO DOS SCRIPTS SQL (L√ìGICA DE NEG√ìCIO)

In [5]:
# Staging: Seleciona colunas √∫teis e padroniza textos (UPPER) para evitar duplicatas.

sql_stg = """
DROP TABLE IF EXISTS stg_samu;
CREATE TABLE stg_samu AS
SELECT
    _id as id_atendimento,
    ano_origem,
    data as data_ocorrencia,
    hora_minuto,
    UPPER(municipio) as municipio, -- Normaliza√ß√£o: 'Recife' vira 'RECIFE'
    UPPER(bairro) as bairro,
    UPPER(tipo) as tipo_ocorrencia,
    UPPER(COALESCE(subtipo, 'NAO INFORMADO')) as subtipo, -- Tratamento de Nulos
    motivo_desfecho,
    idade,
    sexo
FROM stg_samu_raw;
"""

In [6]:
# Dimens√£o Local: Cria tabela √∫nica de locais para o Esquema Estrela.
sql_dim_local = """
DROP TABLE IF EXISTS dim_local;
CREATE TABLE dim_local AS
SELECT DISTINCT 
    municipio, 
    bairro
FROM stg_samu
WHERE municipio IS NOT NULL;
"""

In [7]:
# Dimens√£o Tempo: Explode a data em atributos anal√≠ticos (Ano, M√™s, Dia).

sql_dim_tempo = """
DROP TABLE IF EXISTS dim_tempo;
CREATE TABLE dim_tempo AS
SELECT DISTINCT
    data_ocorrencia as id_tempo,
    strftime('%Y', data_ocorrencia) as ano,
    strftime('%m', data_ocorrencia) as mes,
    strftime('%d', data_ocorrencia) as dia,
    strftime('%w', data_ocorrencia) as dia_semana
FROM stg_samu
WHERE data_ocorrencia IS NOT NULL;
"""

In [8]:
# Dimens√£o Motivo: Limpeza pesada de strings.
# Removemos n√∫meros (ex: "1. SUCESSO") para padronizar o motivo.

sql_dim_motivo = """
DROP TABLE IF EXISTS dim_motivo;
CREATE TABLE dim_motivo AS
SELECT DISTINCT
    tipo_ocorrencia as tipo,
    subtipo,
    CASE 
        WHEN motivo_desfecho LIKE '%1. %' THEN SUBSTR(motivo_desfecho, 4)
        WHEN motivo_desfecho LIKE '%2. %' THEN SUBSTR(motivo_desfecho, 4)
        WHEN motivo_desfecho LIKE '%3. %' THEN SUBSTR(motivo_desfecho, 4)
        ELSE UPPER(motivo_desfecho)
    END as motivo_desfecho_limpo
FROM stg_samu;
"""

In [9]:
# Tabela Fato: O cora√ß√£o do Data Warehouse.
# Usa CTEs (Common Table Expressions) para organizar os joins.

sql_fato = """
-- Garante limpeza pr√©via
DROP TABLE IF EXISTS fato_atendimentos;

-- Define estrutura tipada (Boa pr√°tica de Engenharia)
CREATE TABLE fato_atendimentos (
    id_atendimento TEXT,
    ano_origem INTEGER,
    id_tempo TEXT,
    id_local INTEGER,
    id_motivo INTEGER,
    idade INTEGER,
    sexo TEXT,
    hora_minuto TEXT
);

-- Insere dados transformados
INSERT INTO fato_atendimentos
WITH 
source   AS ( SELECT * FROM stg_samu ),
d_local  AS ( SELECT rowid as id_local, municipio, bairro FROM dim_local ),
d_motivo AS ( SELECT rowid as id_motivo, tipo, subtipo, motivo_desfecho_limpo FROM dim_motivo ),
d_tempo  AS ( SELECT id_tempo FROM dim_tempo )

SELECT 
    base.id_atendimento,
    base.ano_origem,
    t.id_tempo,
    l.id_local,
    m.id_motivo,
    base.idade,
    base.sexo,
    base.hora_minuto
FROM source AS base
-- Join por texto normalizado (garante match mesmo com diferen√ßas de caixa)
LEFT JOIN d_local l ON base.municipio = l.municipio AND base.bairro = l.bairro
LEFT JOIN d_motivo m 
    ON base.tipo_ocorrencia = m.tipo 
    AND base.subtipo = m.subtipo
    AND ((base.motivo_desfecho LIKE '%1. %' AND m.motivo_desfecho_limpo = SUBSTR(base.motivo_desfecho, 4)) 
         OR (m.motivo_desfecho_limpo = UPPER(base.motivo_desfecho)))
LEFT JOIN d_tempo t ON base.data_ocorrencia = t.id_tempo;
"""

In [10]:
# Cria√ß√£o f√≠sica dos arquivos na pasta sql/
criar_arquivo_sql('../sql/staging/stg_samu.sql', sql_stg)
criar_arquivo_sql('../sql/marts/dim_local.sql', sql_dim_local)
criar_arquivo_sql('../sql/marts/dim_tempo.sql', sql_dim_tempo)
criar_arquivo_sql('../sql/marts/dim_motivo.sql', sql_dim_motivo)
criar_arquivo_sql('../sql/marts/fato_atendimentos.sql', sql_fato)

üìÅ Script SQL criado: ../sql/staging/stg_samu.sql
üìÅ Script SQL criado: ../sql/marts/dim_local.sql
üìÅ Script SQL criado: ../sql/marts/dim_tempo.sql
üìÅ Script SQL criado: ../sql/marts/dim_motivo.sql
üìÅ Script SQL criado: ../sql/marts/fato_atendimentos.sql


### Etapa 1: Extract & Load (EL)

Nesta etapa, ingerimos os arquivos CSV. 
Foi identificado um **desafio de qualidade de dados**: o arquivo de **2025 n√£o possui cabe√ßalho**, enquanto os de 2023 e 2024 possuem.

**Estrat√©gia:**
1.  Definimos manualmente os nomes das colunas para garantir alinhamento (Schema Enforcement).
2.  Adicionamos a coluna `ano_origem` para rastrear de qual arquivo o dado veio.
3.  Carregamos tudo para uma tabela de *Staging* (`stg_samu_raw`) no banco, sem filtros, preservando o dado original.

In [11]:
try:
    # Leitura dos CSVs (Extract)
    # 2023 e 2024 possuem cabe√ßalho, o Pandas l√™ automaticamente
    df_23 = pd.read_csv('../data/samu_2023.csv')
    df_24 = pd.read_csv('../data/samu_2024.csv')
    
    # 2025 N√ÉO tem cabe√ßalho. Usamos 'header=None' e passamos os nomes manualmente
    df_25 = pd.read_csv('../data/samu_2025.csv', header=None, names=colunas_padrao)

    # Enriquecimento (Linhagem do dado)
    df_23['ano_origem'] = 2023
    df_24['ano_origem'] = 2024
    df_25['ano_origem'] = 2025

    # Consolida√ß√£o e Carga (Load)
    # Concatenamos os 3 anos em um √∫nico DataFrame
    df_total = pd.concat([df_23, df_24, df_25])
    
    # Enviamos para o SQLite. 
    # if_exists='replace': recria a tabela se ela j√° existir.
    # index=False: n√£o queremos salvar o √≠ndice num√©rico do Pandas.
    df_total.to_sql('stg_samu_raw', conn, if_exists='replace', index=False)
    
    print(f"‚úÖ Sucesso! {len(df_total)} registros carregados na tabela 'stg_samu_raw'.")

except Exception as e:
    print(f"‚ùå Erro cr√≠tico na extra√ß√£o: {e}")

  df_25 = pd.read_csv('../data/samu_2025.csv', header=None, names=colunas_padrao)


‚úÖ Sucesso! 539519 registros carregados na tabela 'stg_samu_raw'.


### Etapa 2: Transforma√ß√£o - SQL

Aqui ocorre a transforma√ß√£o. Utilizamos SQL para criar o **Esquema Estrela**.
O objetivo √© normalizar os dados para evitar repeti√ß√£o de strings (como nomes de bairros repetidos milhares de vezes) e padronizar inconsist√™ncias.

**Tabelas Criadas:**
1.  **Dimens√µes (`dim_`):** Tabelas auxiliares que cont√™m os atributos descritivos (Onde? Quando? Por qu√™?).
2.  **Fato (`fato_`):** Tabela central que cont√©m as m√©tricas e as chaves estrangeiras (IDs) apontando para as dimens√µes.

In [12]:
def executar_script_sql(caminho, conn):
    print(f"üîÑ Executando modelo: {os.path.basename(caminho)}...")
    try:
        with open(caminho, 'r') as f:
            query = f.read()
        
        # 'executescript' permite rodar m√∫ltiplos comandos (DROP + CREATE + INSERT)
        conn.executescript(query)
        print(f"   ‚úÖ Sucesso.")
    except Exception as e:
        print(f"   ‚ùå Erro: {e}")

In [13]:
# 1. Staging (Limpeza Inicial)
executar_script_sql('../sql/staging/stg_samu.sql', conn)

üîÑ Executando modelo: stg_samu.sql...
   ‚úÖ Sucesso.


In [14]:
# 2. Dimens√µes (Devem ser criadas antes da Fato)
executar_script_sql('../sql/marts/dim_local.sql', conn)
executar_script_sql('../sql/marts/dim_tempo.sql', conn)
executar_script_sql('../sql/marts/dim_motivo.sql', conn)

üîÑ Executando modelo: dim_local.sql...
   ‚úÖ Sucesso.
üîÑ Executando modelo: dim_tempo.sql...
   ‚úÖ Sucesso.
üîÑ Executando modelo: dim_motivo.sql...
   ‚úÖ Sucesso.


In [15]:
# 3. Fato (Tabela final que une tudo)
executar_script_sql('../sql/marts/fato_atendimentos.sql', conn)

üîÑ Executando modelo: fato_atendimentos.sql...
   ‚úÖ Sucesso.


### Etapa 3: Sanity Check (Qualidade de Dados)

Ap√≥s a carga, √© crucial verificar se os dados est√£o √≠ntegros.
Identificamos uma sujeira: **linhas de cabe√ßalho do CSV original foram importadas como dados**.

Isso acontece porque, ao juntar m√∫ltiplos arquivos, se n√£o tratarmos corretamente, o cabe√ßalho do segundo arquivo vira uma linha de registro no meio da tabela.
Abaixo, detectamos esses registros (onde o ID √© a string `_id`) e aplicamos uma limpeza via `DELETE`.

In [16]:
# --- Sanity Check ---
print("\nüîç Verificando integridade dos dados...")
lixo = conn.execute("SELECT COUNT(*) FROM fato_atendimentos WHERE id_atendimento = '_id'").fetchone()[0]

if lixo > 0:
    print(f"‚ö†Ô∏è ALERTA: {lixo} registros sujos detectados (cabe√ßalho duplicado).")
    conn.execute("DELETE FROM fato_atendimentos WHERE id_atendimento = '_id'")
    conn.commit()
    print("üßπ Limpeza autom√°tica realizada com sucesso.")
else:
    print("‚úÖ Dados √≠ntegros. Nenhuma anomalia detectada.")


üîç Verificando integridade dos dados...
‚ö†Ô∏è ALERTA: 1 registros sujos detectados (cabe√ßalho duplicado).
üßπ Limpeza autom√°tica realizada com sucesso.
