# 1. Configuração do Ambiente e Conexão
Nesta etapa, realizamos a importação das bibliotecas essenciais para análise de dados (`pandas`, `matplotlib`, `seaborn`) e conexão com o banco de dados (`sqlalchemy`).
Também definimos a função `run_query`, que encapsula a lógica de conexão e execução de SQL, retornando os resultados diretamente em um DataFrame do Pandas.

In [None]:
# Configuração
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine, text

# Conexão com o Banco (A mesma do ELT)
DB_STRING = "postgresql://postgres:admin123@localhost:5432/postgres"
engine = create_engine(DB_STRING)

def run_query(query):
    with engine.connect() as conn:
        return pd.read_sql_query(text(query), conn)

print("Conectado ao Data Warehouse para análises!")

# 2. Perfil dos Atendimentos por Ano e Sexo
Esta análise agrupa os atendimentos para entender a distribuição demográfica dos pacientes ao longo dos anos.
* **Objetivo:** Identificar se há prevalência de atendimentos para um sexo específico e como isso varia anualmente.
* **Visualização:** Gráfico de barras agrupado.                                 

In [None]:
# Consulta para agrupar atendimentos por ano e sexo do paciente
query_validacao = """
SELECT 
    T.ano,
    P.sexo,
    COUNT(*) as total_atendimentos
FROM dw.fato_atendimentos F
JOIN dw.dim_tempo T ON F.fk_tempo = T.id_tempo
JOIN dw.dim_paciente P ON F.fk_paciente = P.id_paciente
GROUP BY T.ano, P.sexo
ORDER BY T.ano, total_atendimentos DESC;
"""

# Execução da query e exibição dos dados
df_analise = run_query(query_validacao)
from IPython.display import display
display(df_analise)

# Geração de gráfico de barras para visualização
plt.figure(figsize=(10, 6))
sns.barplot(data=df_analise, x='ano', y='total_atendimentos', hue='sexo')
plt.title("Total de Atendimentos por Ano e Sexo")
plt.show()

# 3. Top 10 Tipos de Ocorrência
Listagem geral dos tipos de incidentes mais comuns registrados pelo SAMU. Esta visão macro ajuda a entender a natureza predominante das chamadas (ex: Clínico, Traumático, Psiquiátrico, etc.).

In [None]:
# Consulta dos tipos de ocorrência mais frequentes
query_ocorrencias = """
SELECT 
    O.tipo,
    COUNT(*) as total
FROM dw.fato_atendimentos F
JOIN dw.dim_ocorrencia O ON F.fk_ocorrencia = O.id_ocorrencia
GROUP BY O.tipo
ORDER BY total DESC
LIMIT 10;
"""

# Exibição dos resultados em tabela
df_ocorrencias = run_query(query_ocorrencias)
display(df_ocorrencias)

# 4. Foco Geográfico: Top 5 Bairros do Recife
Filtramos os dados especificamente para o município de **Recife** para identificar as zonas de maior calor (hotspots) de atendimento.
* **Visualização:** Gráfico de barras destacando os bairros com maior volume absoluto de chamados.

In [None]:
# Consulta dos 5 bairros com mais chamados no Recife
query_top_bairros = """
SELECT 
    L.bairro,
    COUNT(*) as total_chamados
FROM dw.fato_atendimentos F
JOIN dw.dim_localidade L ON F.fk_local = L.id_local
WHERE UPPER(L.municipio) = 'RECIFE'
GROUP BY L.bairro
ORDER BY total_chamados DESC
LIMIT 5;
"""

# Execução da query e exibição dos dados
df_bairros = run_query(query_top_bairros)
print("Top 5 Bairros com mais chamados em Recife:")
display(df_bairros)

# Geração de gráfico de barras para visualização.
plt.figure(figsize=(10, 6))
sns.barplot(data=df_bairros, x='total_chamados', y='bairro', palette='viridis')
plt.title("Top 5 Bairros com mais Chamados - Recife")
plt.xlabel("Total de Chamados")
plt.ylabel("Bairro")
plt.show()

# 5. Detalhamento dos Motivos de Acionamento
Aprofundamos a análise combinando a **Natureza** (Tipo) e o **Detalhe** (Subtipo) da ocorrência.
Calculamos também o percentual de representatividade de cada motivo em relação ao total geral, permitindo focar nos problemas que mais demandam recursos da equipe.

In [None]:
# Consulta: Top 5 Motivos de Acionamentos (Tipo + Subtipo)
query_motivos = """
SELECT
    d.tipo AS natureza_ocorrencia,
    d.subtipo AS detalhe_motivo,
    COUNT(f.id_fato) AS total_acionamentos,
    ROUND((COUNT(f.id_fato) * 100.0 / (SELECT COUNT(*) FROM dw.fato_atendimentos)), 2) AS percentual_valor
FROM dw.fato_atendimentos f
INNER JOIN dw.dim_ocorrencia d
    ON f.fk_ocorrencia = d.id_ocorrencia
GROUP BY
    d.tipo,
    d.subtipo
ORDER BY
    total_acionamentos DESC
LIMIT 5;
"""

# Execução da query
df_motivos = run_query(query_motivos)

# Criação da coluna formatada com "%" para exibição na tabela e gráfico
df_motivos['percentual'] = df_motivos['percentual_valor'].astype(str) + '%'

print("Top 5 Motivos de Acionamentos:")
display(df_motivos[['natureza_ocorrencia', 'detalhe_motivo', 'total_acionamentos', 'percentual']])

# Preparação para o gráfico: Criar um rótulo combinado (Tipo - Subtipo)
df_motivos['rotulo'] = df_motivos['natureza_ocorrencia'] + ' - ' + df_motivos['detalhe_motivo']

# Gráfico de Barras Horizontais
plt.figure(figsize=(12, 6))
sns.barplot(data=df_motivos, x='total_acionamentos', y='rotulo', palette='magma')
plt.title("Top 5 Motivos de Acionamentos SAMU")
plt.xlabel("Total de Chamados")
plt.ylabel("Motivo")

# Adicionando os percentuais ao lado das barras
for index, row in df_motivos.iterrows():
    # O '+ 1' dá um pequeno espaçamento da barra
    plt.text(row['total_acionamentos'], index, f" {row['percentual']}", va='center', color='black', fontsize=10)

plt.show()

# 6. Evolução Temporal (2023 - 2025)
Análise da tendência de volume de atendimentos ao longo do tempo. O gráfico de linha permite visualizar rapidamente se a demanda pelo serviço está crescendo, diminuindo ou se mantendo estável.

In [None]:
# Análise de Evolução Temporal (2023-2025)

query_evolucao = """
SELECT 
    T.ano,
    COUNT(*) as total_atendimentos
FROM dw.fato_atendimentos F
JOIN dw.dim_tempo T ON F.fk_tempo = T.id_tempo
GROUP BY T.ano
ORDER BY T.ano ASC;
"""

print("Consulta SQL Executada:")
print(query_evolucao)
print("-" * 50)

df_evolucao = run_query(query_evolucao)

print("Resultado Tabular:")
display(df_evolucao)

plt.figure(figsize=(10, 5))
sns.lineplot(data=df_evolucao, x='ano', y='total_atendimentos', marker='o', linewidth=2.5, color='#2ecc71')
plt.title("Evolução dos Atendimentos SAMU (2023 - 2025)", fontsize=14)
plt.ylabel("Quantidade de Atendimentos")
plt.xlabel("Ano")
plt.xticks(df_evolucao['ano'].astype(int))
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

# 7. Matriz de Sazonalidade: Dia da Semana x Turno
Cruzamento de dados para identificar padrões de comportamento.
* **Turnos definidos:** Manhã (06-12h), Tarde (12-18h), Noite (18-23h) e Madrugada (outros).
* **Saída:** Uma tabela pivô que mostra a frequência de chamados para cada combinação de dia e turno, útil para planejamento de escalas de plantão.

In [None]:
# Análise de Sazonalidade (Tabela Cruzada: Dia x Turno)

query_sazonalidade = """
SELECT 
    T.dia_semana,
    CASE 
        WHEN EXTRACT(HOUR FROM F.hora_exata) >= 6 AND EXTRACT(HOUR FROM F.hora_exata) < 12 THEN 'MANHA'
        WHEN EXTRACT(HOUR FROM F.hora_exata) >= 12 AND EXTRACT(HOUR FROM F.hora_exata) < 18 THEN 'TARDE'
        WHEN EXTRACT(HOUR FROM F.hora_exata) >= 18 AND EXTRACT(HOUR FROM F.hora_exata) <= 23 THEN 'NOITE'
        ELSE 'MADRUGADA'
    END as turno,
    COUNT(*) as total
FROM dw.fato_atendimentos F
JOIN dw.dim_tempo T ON F.fk_tempo = T.id_tempo
GROUP BY 1, 2;
"""

df_sazonalidade = run_query(query_sazonalidade)

ordem_dias = ['SEGUNDA-FEIRA', 'TERCA-FEIRA', 'QUARTA-FEIRA', 'QUINTA-FEIRA', 'SEXTA-FEIRA', 'SABADO', 'DOMINGO']
ordem_turnos = ['MANHA', 'TARDE', 'NOITE', 'MADRUGADA']

pivot_table = df_sazonalidade.pivot(index="dia_semana", columns="turno", values="total")

pivot_table = pivot_table.reindex(ordem_dias) 
pivot_table = pivot_table[ordem_turnos]

from IPython.display import display

print("Tabela de Frequência de Chamados (Dia da Semana x Turno):")
display(pivot_table)

# 8. Relatório de Integridade e Consistência (QA)
Esta etapa final valida se os dois pipelines de dados (ELT via SQL e ETL via Python) produziram resultados idênticos no Data Warehouse.
* **Verificação de Volume:** Compara a contagem total de linhas (`count`).
* **Verificação de Conteúdo:** Realiza uma soma de controle (checksum) na coluna de idades para garantir que os dados não foram alterados ou corrompidos durante a carga.

In [None]:
# Comparativo tecnico entre os dois pipelines
print("RELATÓRIO DE INTEGRIDADE: ELT (SQL) vs ETL (Python)")

# Contagem total de linhas na Fato
qtd_elt = run_query("SELECT count(*) FROM dw.fato_atendimentos").iloc[0,0]
qtd_etl = run_query("SELECT count(*) FROM dw_etl.fato_atendimentos").iloc[0,0]

print(f"Total de Registros ELT: {qtd_elt}")
print(f"Total de Registros ETL: {qtd_etl}")
print(f"Diferença: {qtd_elt - qtd_etl}")

# Soma de controle (Idade) para garantir que os dados sao os mesmos
# Se a soma das idades bater, significa que nao so a quantidade, mas o conteudo esta igual
soma_elt = run_query("SELECT sum(idade_paciente) FROM dw.fato_atendimentos").iloc[0,0]
soma_etl = run_query("SELECT sum(idade_paciente) FROM dw_etl.fato_atendimentos").iloc[0,0]

print(f"\nSoma de Controle (Idades) ELT: {soma_elt}")
print(f"Soma de Controle (Idades) ETL: {soma_etl}")

if qtd_elt == qtd_etl and soma_elt == soma_etl:
    print("\nSUCESSO ABSOLUTO: Os dois pipelines geraram resultados matematicamente idênticos!")
else:
    print("\nATENÇÃO: Existem pequenas divergências.")