In [None]:
# Configuração
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine, text

# Conexão com o Banco (A mesma do ELT)
DB_STRING = "postgresql://postgres:admin123@localhost:5432/postgres"
engine = create_engine(DB_STRING)

def run_query(query):
    with engine.connect() as conn:
        return pd.read_sql_query(text(query), conn)

print("Conectado ao Data Warehouse para análises!")

In [None]:
# Consulta para agrupar atendimentos por ano e sexo do paciente
query_validacao = """
SELECT 
    T.ano,
    P.sexo,
    COUNT(*) as total_atendimentos
FROM dw.fato_atendimentos F
JOIN dw.dim_tempo T ON F.fk_tempo = T.id_tempo
JOIN dw.dim_paciente P ON F.fk_paciente = P.id_paciente
GROUP BY T.ano, P.sexo
ORDER BY T.ano, total_atendimentos DESC;
"""

# Execução da query e exibição dos dados
df_analise = run_query(query_validacao)
from IPython.display import display
display(df_analise)

# Geração de gráfico de barras para visualização
plt.figure(figsize=(10, 6))
sns.barplot(data=df_analise, x='ano', y='total_atendimentos', hue='sexo')
plt.title("Total de Atendimentos por Ano e Sexo")
plt.show()

In [None]:
# Consulta dos tipos de ocorrência mais frequentes
query_ocorrencias = """
SELECT 
    O.tipo,
    COUNT(*) as total
FROM dw.fato_atendimentos F
JOIN dw.dim_ocorrencia O ON F.fk_ocorrencia = O.id_ocorrencia
GROUP BY O.tipo
ORDER BY total DESC
LIMIT 10;
"""

# Exibição dos resultados em tabela
df_ocorrencias = run_query(query_ocorrencias)
display(df_ocorrencias)

In [None]:
# Comparativo tecnico entre os dois pipelines
print("RELATÓRIO DE INTEGRIDADE: ELT (SQL) vs ETL (Python)")

# Contagem total de linhas na Fato
qtd_elt = run_query("SELECT count(*) FROM dw.fato_atendimentos").iloc[0,0]
qtd_etl = run_query("SELECT count(*) FROM dw_etl.fato_atendimentos").iloc[0,0]

print(f"Total de Registros ELT: {qtd_elt}")
print(f"Total de Registros ETL: {qtd_etl}")
print(f"Diferença: {qtd_elt - qtd_etl}")

# Soma de controle (Idade) para garantir que os dados sao os mesmos
# Se a soma das idades bater, significa que nao so a quantidade, mas o conteudo esta igual
soma_elt = run_query("SELECT sum(idade_paciente) FROM dw.fato_atendimentos").iloc[0,0]
soma_etl = run_query("SELECT sum(idade_paciente) FROM dw_etl.fato_atendimentos").iloc[0,0]

print(f"\nSoma de Controle (Idades) ELT: {soma_elt}")
print(f"Soma de Controle (Idades) ETL: {soma_etl}")

if qtd_elt == qtd_etl and soma_elt == soma_etl:
    print("\nSUCESSO ABSOLUTO: Os dois pipelines geraram resultados matematicamente idênticos!")
else:
    print("\nATENÇÃO: Existem pequenas divergências.")