# Biblioteca

In [52]:
!pip install psycopg2-binary
!pip install sqlalchemy sqlalchemy-schemadisplay pydot
!pip install pydot
import psycopg2
import pandas as pd
from pathlib import Path





[notice] A new release of pip is available: 24.0 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 24.0 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip





[notice] A new release of pip is available: 24.0 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


# Utilidades

In [53]:
def get_dataframe_from_csv(file_path, delimiter=','):
    try:
        df = pd.read_csv(file_path, dtype=str, delimiter=delimiter)
        print(f"Arquivo CSV '{file_path}' lido com sucesso.")
        return df
    except Exception as e:
        print(f"Erro ao ler o arquivo CSV: {e}")
        return pd.DataFrame()
    
def insert_dataframe_to_table(conn, cur, df, sql_query, columns, table_name):
    """
    Insere dados de um DataFrame em uma tabela.
    
    Args:
        conn: Conexão com o banco
        cur: Cursor do banco
        df: DataFrame com os dados
        sql_query: Query SQL de inserção
        columns: Lista com nomes das colunas do DataFrame
        table_name: Nome da tabela para mensagens
    """
    if conn is not None and cur is not None and not df.empty:
        try:
            data_tuples = [tuple(row[col] for col in columns) for _, row in df.iterrows()]
            cur.executemany(sql_query, data_tuples)
            conn.commit()
            print(f"Dados inseridos na tabela '{table_name}' com sucesso. ({len(data_tuples)} registros)")
            return True
        except psycopg2.Error as e:
            print(f"Erro ao inserir dados na tabela '{table_name}': {e}")
            conn.rollback()
            return False
    else:
        print(f"Não foi possível inserir dados na tabela '{table_name}': conexão inválida ou DataFrame vazio.")
        return False

# Conexão

In [54]:
db_config = {
    "host": "localhost",
    "port": "5432",
    "database": "tebd_db",
    "user": "tebd",
    "password": "tebd"
}

conn = None
cur = None

# --- Conectar ao Banco de Dados ---
try:
    conn = psycopg2.connect(**db_config)
    print("Conexão com o PostgreSQL bem-sucedida!")
    cur = conn.cursor()
except psycopg2.Error as e:
    print(f"Erro ao conectar ao PostgreSQL: {e}")


Conexão com o PostgreSQL bem-sucedida!


# Criação das tabelas

In [55]:
sql_create_municipio = """
    CREATE TABLE IF NOT EXISTS Municipio (
        municipio_id VARCHAR(6) PRIMARY KEY UNIQUE,
        municipio_nome VARCHAR(100)
    );
"""

sql_create_estabelecimento = """
    CREATE TABLE IF NOT EXISTS Estabelecimento (
        cnes_id VARCHAR(7) PRIMARY KEY UNIQUE,
        cnpj VARCHAR(15),
        municipio_id VARCHAR(6) REFERENCES Municipio(municipio_id)
    );
"""

sql_create_procedimento = """
    CREATE TABLE IF NOT EXISTS Procedimento (
        procedimento_id VARCHAR(10) PRIMARY KEY UNIQUE,
        procedimento_nome VARCHAR(255)
    );
"""

sql_create_cid = """
    CREATE TABLE IF NOT EXISTS Cid (
        cid_id VARCHAR(4) PRIMARY KEY UNIQUE,
        cid_nome VARCHAR(500)
    );
"""

sql_create_pessoa = """
    CREATE TABLE IF NOT EXISTS Pessoa (
        pessoa_id SERIAL PRIMARY KEY UNIQUE,
        nasc DATE,
        sexo VARCHAR(1),
        idade NUMERIC(2),
        raca_cor VARCHAR(4),
        etnia VARCHAR(4),
        cod_idade VARCHAR(1)
    );
"""

sql_create_internamento = """
    CREATE TABLE IF NOT EXISTS Internamento (
        internamento_id VARCHAR(13) PRIMARY KEY UNIQUE,
        qt_diarias NUMERIC(3),
        val_sh NUMERIC(13, 2),
        val_sp NUMERIC(13, 2),
        val_tot NUMERIC(14, 2),
        dt_inter DATE,
        morte NUMERIC(1),
        cid_morte VARCHAR(4),
        cnes_id VARCHAR(7) REFERENCES Estabelecimento(cnes_id),
        procedimento_id VARCHAR(10) REFERENCES Procedimento(procedimento_id),
        cid_id VARCHAR(4) REFERENCES Cid(cid_id),
        pessoa_id INT REFERENCES Pessoa(pessoa_id)
    );
"""

if conn is not None and cur is not None:
    try:
        cur.execute(sql_create_municipio)
        print("Tabela 'Municipio' criada com sucesso.")

        cur.execute(sql_create_estabelecimento)
        print("Tabela 'Estabelecimento' criada com sucesso.")

        cur.execute(sql_create_procedimento)
        print("Tabela 'Procedimento' criada com sucesso.")

        cur.execute(sql_create_cid)
        print("Tabela 'Cid' criada com sucesso.")

        cur.execute(sql_create_pessoa)
        print("Tabela 'Pessoa' criada com sucesso.")

        cur.execute(sql_create_internamento)
        print("Tabela 'Internamento' criada com sucesso.")

        conn.commit()
    except psycopg2.Error as e:
        print(f"Erro ao criar as tabelas: {e}")
        conn.rollback()

Tabela 'Municipio' criada com sucesso.
Tabela 'Estabelecimento' criada com sucesso.
Tabela 'Procedimento' criada com sucesso.
Tabela 'Cid' criada com sucesso.
Tabela 'Pessoa' criada com sucesso.
Tabela 'Internamento' criada com sucesso.


# Inserção nas tabelas

## Municipios

In [56]:
df_municipios = get_dataframe_from_csv('data/municipios_tratado.csv')

Arquivo CSV 'data/municipios_tratado.csv' lido com sucesso.


In [57]:
sql_insert_municipio = """
    INSERT INTO Municipio (municipio_id, municipio_nome)
    VALUES (%s, %s)
    ON CONFLICT (municipio_id) DO NOTHING;
"""

_ = insert_dataframe_to_table(
    conn, cur, df_municipios, 
    sql_insert_municipio, 
    ['codigo', 'municipio'], 
    'Municipio'
)

Dados inseridos na tabela 'Municipio' com sucesso. (185 registros)


## Estabelecimentos

In [58]:
df_estabelecimentos = get_dataframe_from_csv('data/CNES_tratado.csv')

Arquivo CSV 'data/CNES_tratado.csv' lido com sucesso.


In [59]:
sql_insert_estabelecimento = """
    INSERT INTO Estabelecimento (cnes_id, cnpj, municipio_id)
    VALUES (%s, %s, %s)
    ON CONFLICT (cnes_id) DO NOTHING;
"""

_ = insert_dataframe_to_table(
    conn, cur, df_estabelecimentos, 
    sql_insert_estabelecimento, 
    ['CNES', 'CPF_CNPJ', 'CODUFMUN'], 
    'Estabelecimento'
)

Dados inseridos na tabela 'Estabelecimento' com sucesso. (14586 registros)


## Procedimentos

In [60]:
df_procedimentos = get_dataframe_from_csv('data/procedimentos_tratado.csv', delimiter=';')

Arquivo CSV 'data/procedimentos_tratado.csv' lido com sucesso.


In [61]:
sql_insert_procedimento = """
    INSERT INTO Procedimento (procedimento_id, procedimento_nome)
    VALUES (%s, %s)
    ON CONFLICT (procedimento_id) DO NOTHING;
"""

_ = insert_dataframe_to_table(
    conn, cur, df_procedimentos, 
    sql_insert_procedimento, 
    ['codproc', 'nome'], 
    'Procedimento'
)


Dados inseridos na tabela 'Procedimento' com sucesso. (5286 registros)


## Cid

In [62]:
df_cid = get_dataframe_from_csv('data/cid_tratado.csv', delimiter=';')

Arquivo CSV 'data/cid_tratado.csv' lido com sucesso.


In [63]:
sql_insert_cid = """
    INSERT INTO Cid (cid_id, cid_nome)
    VALUES (%s, %s)
    ON CONFLICT (cid_id) DO NOTHING;
"""
_ = insert_dataframe_to_table(
    conn, cur, df_cid,
    sql_insert_cid,
    ['codigo', 'descricao'],
    'Cid'
)

Dados inseridos na tabela 'Cid' com sucesso. (14232 registros)


## Pessoa e Internamento

O dataframe para pessoa e internamento é o mesmo.

In [64]:
DEBUG = False

df_internamentos_list = []

if DEBUG:
    df_internamento = get_dataframe_from_csv('data/sus/selected_data_500lines.csv')
    df_internamentos_list.append(df_internamento)
else:
    df_internamento = get_dataframe_from_csv('data/sus/selected_data.csv')
    df_internamentos_list.append(df_internamento)


Arquivo CSV 'data/sus/selected_data.csv' lido com sucesso.


In [65]:
cidid_list = df_cid['codigo'].tolist()
procedimentoid_list = df_procedimentos['codproc'].tolist()

cidid_internamento = df_internamento['CID_MORTE'].unique().tolist()
procedimentoid_internamento = (
    df_internamento['PROC_REA'].dropna().astype(str).unique().tolist()
)

procedimentoid_internamento = [
    ''.join(filter(str.isdigit, p)).zfill(10)
    for p in procedimentoid_internamento
    if ''.join(filter(str.isdigit, p)) != ''
]

cidid_not_in_cid = [cid for cid in cidid_internamento if cid not in cidid_list]
procedimentoid_not_in_procedimentos = [proc for proc in procedimentoid_internamento if proc not in procedimentoid_list]

if cidid_not_in_cid:
    print(f"Códigos CID no internamento que não estão na tabela Cid: {cidid_not_in_cid}")

if procedimentoid_not_in_procedimentos:
    df_proc_missing = pd.DataFrame({'procedimento_id': procedimentoid_not_in_procedimentos})
    print(f"Códigos Procedimento no internamento que não estão na tabela Procedimento ({len(df_proc_missing)}):")
    print(df_proc_missing['procedimento_id'].apply(lambda x: f"{x:010}").to_string(index=False))


In [66]:
sql_insert_pessoa = """
    INSERT INTO Pessoa (nasc, sexo, idade, raca_cor, etnia, cod_idade)
    VALUES (%s, %s, %s, %s, %s, %s)
    RETURNING pessoa_id;
"""

sql_insert_internamento = """
    INSERT INTO Internamento (
        internamento_id, qt_diarias, val_sh, val_sp, val_tot, dt_inter, 
        morte, cid_morte, cnes_id, procedimento_id, cid_id, pessoa_id
    )
    VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
    ON CONFLICT (internamento_id) DO NOTHING;
"""

if conn is None or cur is None:
    print("Conexão com o banco de dados não estabelecida. Não é possível inserir dados na tabela 'Internamento'.")
    exit(1)

for df_internamento in df_internamentos_list:
    if not df_internamento.empty:
        try:
            for _, row in df_internamento.iterrows():
                cur.execute(sql_insert_pessoa, (
                    row['NASC'], row['SEXO'], row['IDADE'], 
                    row['RACA_COR'], row['ETNIA'], row['COD_IDADE']
                ))
                pessoa_id = cur.fetchone()[0]

                # Garantir que PROC_REA tenha sempre 10 dígitos
                proc_rea = str(row['PROC_REA']).zfill(10)

                cur.execute(sql_insert_internamento, (
                    row['N_AIH'], row['QT_DIARIAS'], row['VAL_SH'], 
                    row['VAL_SP'], row['VAL_TOT'], row['DT_INTER'], 
                    row['MORTE'], row['CID_MORTE'], row['CNES'], 
                    proc_rea, row['DIAG_PRINC'], pessoa_id
                ))
            conn.commit()
            print(f"Dados inseridos na tabela 'Internamento' com sucesso. ({len(df_internamento)} registros)")
        except psycopg2.Error as e:
            print(f"Erro ao inserir dados na tabela 'Internamento': {e}")
            conn.rollback()
    else:
        print(f"DataFrame: {df_internamento} está vazio. Nenhum dado será inserido na tabela 'Internamento'.")


Dados inseridos na tabela 'Internamento' com sucesso. (3570342 registros)


# Preview output

In [67]:
# Função para executar consultas e exibir resultados
def execute_query_and_display(query, title, limit=10):
    """
    Executa uma consulta SQL e exibe os resultados de forma formatada
    """
    if conn is not None and cur is not None:
        try:
            cur.execute(query)
            results = cur.fetchall()
            columns = [desc[0] for desc in cur.description]
            
            print(f"\n{'='*60}")
            print(f"{title}")
            print(f"{'='*60}")
            
            if results:
                # Criar DataFrame para melhor visualização
                df_result = pd.DataFrame(results, columns=columns)
                print(f"Total de registros: {len(df_result)}")
                print(f"\nPrimeiros {min(limit, len(df_result))} resultados:")
                print(df_result.head(limit).to_string(index=False))
                return df_result
            else:
                print("Nenhum resultado encontrado.")
                return pd.DataFrame()
        except psycopg2.Error as e:
            print(f"Erro ao executar consulta: {e}")
            return pd.DataFrame()
    else:
        print("Conexão com o banco não estabelecida.")
        return pd.DataFrame()

# Consultas Analíticas para Dashboard

Aqui vamos criar várias consultas que demonstram diferentes perspectivas dos dados de internação do DATASUS, úteis para visualizações em dashboard.

## 1. Análise Temporal de Internações

In [68]:
# Internações por mês/ano
query_internacoes_tempo = """
    SELECT 
        EXTRACT(YEAR FROM dt_inter) AS ano,
        EXTRACT(MONTH FROM dt_inter) AS mes,
        COUNT(*) AS total_internacoes,
        AVG(qt_diarias) AS media_diarias,
        SUM(val_tot) AS valor_total
    FROM Internamento 
    WHERE dt_inter IS NOT NULL
    GROUP BY EXTRACT(YEAR FROM dt_inter), EXTRACT(MONTH FROM dt_inter)
    ORDER BY ano, mes;
"""

df_tempo = execute_query_and_display(query_internacoes_tempo, "INTERNAÇÕES POR PERÍODO")


INTERNAÇÕES POR PERÍODO
Total de registros: 146

Primeiros 10 resultados:
 ano mes  total_internacoes       media_diarias valor_total
2008   1                  8 31.0000000000000000    12325.92
2008   5                  2 31.0000000000000000     3081.48
2008   9                  1 31.0000000000000000     1540.74
2008  10                  1 31.0000000000000000     1540.74
2009   2                  1 31.0000000000000000     1540.74
2009   7                  1 31.0000000000000000     1540.74
2010   1                 83 31.0000000000000000   133420.22
2010   3                  1 31.0000000000000000     1540.74
2010   4                  3 31.0000000000000000     4622.22
2010   5                 15 31.0000000000000000    23594.70


## 2. Top Diagnósticos (CID) mais Frequentes

In [69]:
# Top 15 diagnósticos mais frequentes
query_top_cid = """
    SELECT 
        c.cid_id,
        c.cid_nome,
        COUNT(i.internamento_id) AS total_casos,
        AVG(i.val_tot) AS valor_medio,
        AVG(i.qt_diarias) AS media_diarias,
        COUNT(CASE WHEN i.morte = 1 THEN 1 END) AS obitos,
        ROUND(
            (COUNT(CASE WHEN i.morte = 1 THEN 1 END) * 100.0 / COUNT(i.internamento_id)), 2
        ) AS taxa_mortalidade_pct
    FROM Cid c
    JOIN Internamento i ON c.cid_id = i.cid_id
    GROUP BY c.cid_id, c.cid_nome
    ORDER BY total_casos DESC
    LIMIT 15;
"""

df_top_cid = execute_query_and_display(query_top_cid, "TOP 15 DIAGNÓSTICOS MAIS FREQUENTES")


TOP 15 DIAGNÓSTICOS MAIS FREQUENTES
Total de registros: 15

Primeiros 10 resultados:
cid_id                                                                           cid_nome  total_casos           valor_medio      media_diarias  obitos taxa_mortalidade_pct
  O800                                                          Parto espontâneo cefálico       192428  600.0410718814309768 2.1261250961398549      44                 0.02
  B342                           Infecção por coronavírus de localização não especificada       103743 6171.6600763425002169 5.9802010738073894   22168                21.37
  O809                                           Parto único espontâneo, não especificado        69462  652.2115861910109124 2.2042843569145720       6                 0.01
   I64         Acidente vascular cerebral, não especificado como hemorrágico ou isquêmico        62362 1155.1601233122734999 7.2392482601584298    8591                13.78
  L989                         Afecções da pele e

## 3. Análise por Faixa Etária e Sexo

In [70]:
# Distribuição por faixa etária e sexo
query_idade_sexo = """
    SELECT 
        CASE 
            WHEN p.idade BETWEEN 0 AND 17 THEN '0-17 anos'
            WHEN p.idade BETWEEN 18 AND 39 THEN '18-39 anos'
            WHEN p.idade BETWEEN 40 AND 59 THEN '40-59 anos'
            WHEN p.idade BETWEEN 60 AND 79 THEN '60-79 anos'
            WHEN p.idade >= 80 THEN '80+ anos'
            ELSE 'Não informado'
        END AS faixa_etaria,
        CASE 
            WHEN p.sexo = 'M' THEN 'Masculino'
            WHEN p.sexo = 'F' THEN 'Feminino'
            ELSE 'Não informado'
        END AS sexo,
        COUNT(i.internamento_id) AS total_internacoes,
        AVG(i.val_tot) AS valor_medio,
        AVG(i.qt_diarias) AS media_diarias
    FROM Pessoa p
    JOIN Internamento i ON p.pessoa_id = i.pessoa_id
    WHERE p.idade IS NOT NULL AND p.sexo IS NOT NULL
    GROUP BY faixa_etaria, sexo
    ORDER BY faixa_etaria, sexo;
"""

df_idade_sexo = execute_query_and_display(query_idade_sexo, "DISTRIBUIÇÃO POR FAIXA ETÁRIA E SEXO")


DISTRIBUIÇÃO POR FAIXA ETÁRIA E SEXO
Total de registros: 10

Primeiros 10 resultados:
faixa_etaria          sexo  total_internacoes           valor_medio      media_diarias
   0-17 anos Não informado             324386 1387.7574871911858095 4.2598663320858483
   0-17 anos Não informado             308047 1297.1751305807230715 4.2063321506133804
  18-39 anos Não informado             297496 1669.0441411985371232 5.2741986446876597
  18-39 anos Não informado             859974  888.3506734622209509 3.1106231118615214
  40-59 anos Não informado             371646 2191.2594759798302686 6.0003094342465680
  40-59 anos Não informado             389775 1902.1108726316464627 4.7427387595407607
  60-79 anos Não informado             363201 2463.8199788271508063 6.2301370315610365
  60-79 anos Não informado             355753 2340.1334964427566317 5.8272621734742926
    80+ anos Não informado              93920 2056.9774722103918228 6.3635966780238501
    80+ anos Não informado             1295

## 4. Ranking de Municípios por Volume de Internações

In [71]:
# Top 10 municípios com mais internações
query_ranking_municipios = """
    SELECT 
        m.municipio_nome,
        COUNT(i.internamento_id) AS total_internacoes,
        SUM(i.val_tot) AS valor_total,
        AVG(i.val_tot) AS valor_medio_internacao,
        COUNT(DISTINCT e.cnes_id) AS num_estabelecimentos
    FROM Municipio m
    JOIN Estabelecimento e ON m.municipio_id = e.municipio_id
    JOIN Internamento i ON e.cnes_id = i.cnes_id
    GROUP BY m.municipio_id, m.municipio_nome
    ORDER BY total_internacoes DESC
    LIMIT 10;
"""

df_ranking_municipios = execute_query_and_display(query_ranking_municipios, "TOP 10 MUNICÍPIOS POR VOLUME DE INTERNAÇÕES")


TOP 10 MUNICÍPIOS POR VOLUME DE INTERNAÇÕES
Total de registros: 10

Primeiros 10 resultados:
         municipio_nome  total_internacoes   valor_total valor_medio_internacao  num_estabelecimentos
                 Recife            1795885 3864090209.39  2151.6356611865459091                    47
                Caruaru             245593  314783859.30  1281.7297695781231550                    13
              Petrolina             169038  184106500.81  1089.1426827695547747                    13
Jaboatão dos Guararapes             133538  234369737.90  1755.0789880034147583                     8
              Garanhuns              76682   72190657.74   941.4289890717508672                     6
Cabo de Santo Agostinho              70735  141043413.01  1993.9692232982257722                     5
               Paulista              70375   95182275.48  1352.5012501598579041                     9
          Serra Talhada              69238   87835989.13  1268.6095659897744013           

## 5. Análise de Procedimentos Mais Custosos

In [72]:
# Top 10 procedimentos mais custosos (por valor total)
query_procedimentos_custosos = """
    SELECT 
        p.procedimento_nome,
        COUNT(i.internamento_id) AS total_realizacoes,
        SUM(i.val_tot) AS valor_total_gasto,
        AVG(i.val_tot) AS valor_medio_procedimento,
        AVG(i.qt_diarias) AS media_dias_internacao
    FROM Procedimento p
    JOIN Internamento i ON p.procedimento_id = i.procedimento_id
    GROUP BY p.procedimento_id, p.procedimento_nome
    HAVING COUNT(i.internamento_id) >= 2  -- Filtra procedimentos com pelo menos 2 casos
    ORDER BY valor_total_gasto DESC
    LIMIT 10;
"""

df_procedimentos_custosos = execute_query_and_display(query_procedimentos_custosos, "TOP 10 PROCEDIMENTOS MAIS CUSTOSOS")


TOP 10 PROCEDIMENTOS MAIS CUSTOSOS
Total de registros: 10

Primeiros 10 resultados:
                                                                                                                                                                                                                                         procedimento_nome  total_realizacoes valor_total_gasto valor_medio_procedimento media_dias_internacao
TRATAMENTO C/ CIRURGIAS MULTIPLAS                                                                                                                                                                                                                                      193715      763846471.53    3943.1457116382314225    4.9449758666081615
TRATAMENTO DE INFECÇÃO PELO CORONAVIRUS – COVID 19                                                                                                                                                                                                   

## 6. Análise de Mortalidade por Diagnóstico

In [73]:
# Diagnósticos com maiores taxas de mortalidade (mínimo 10 casos)
query_mortalidade_cid = """
    SELECT 
        c.cid_id,
        c.cid_nome,
        COUNT(i.internamento_id) AS total_casos,
        COUNT(CASE WHEN i.morte = 1 THEN 1 END) AS total_obitos,
        ROUND(
            (COUNT(CASE WHEN i.morte = 1 THEN 1 END) * 100.0 / COUNT(i.internamento_id)), 2
        ) AS taxa_mortalidade_pct,
        AVG(i.qt_diarias) AS media_dias_internacao
    FROM Cid c
    JOIN Internamento i ON c.cid_id = i.cid_id
    GROUP BY c.cid_id, c.cid_nome
    HAVING COUNT(i.internamento_id) >= 10  -- Mínimo de 10 casos para análise estatística
    ORDER BY taxa_mortalidade_pct DESC
    LIMIT 10;
"""

df_mortalidade_cid = execute_query_and_display(query_mortalidade_cid, "TOP 10 DIAGNÓSTICOS COM MAIOR TAXA DE MORTALIDADE")


TOP 10 DIAGNÓSTICOS COM MAIOR TAXA DE MORTALIDADE
Total de registros: 10

Primeiros 10 resultados:
cid_id                                                            cid_nome  total_casos  total_obitos taxa_mortalidade_pct media_dias_internacao
  A483                                           Síndrome do choque tóxico           56            50                89.29    6.2678571428571429
  R578                                             Outras formas de choque           79            70                88.61    3.7848101265822785
  A327                                             Septicemia listeriótica          572           502                87.76    8.7534965034965035
  I469                                    Parada cardíaca não especificada          356           300                84.27    2.2865168539325843
  R579                                             Choque não especificado          211           168                79.62    4.3933649289099526
  R570                        

## 7. Análise por Estabelecimentos (CNES)

In [74]:
# Top 10 estabelecimentos por volume de internações
query_ranking_estabelecimentos = """
    SELECT 
        e.cnes_id,
        m.municipio_nome,
        COUNT(i.internamento_id) AS total_internacoes,
        SUM(i.val_tot) AS valor_total_movimentado,
        AVG(i.val_tot) AS valor_medio_internacao,
        AVG(i.qt_diarias) AS media_dias_internacao,
        COUNT(CASE WHEN i.morte = 1 THEN 1 END) AS total_obitos,
        ROUND(
            (COUNT(CASE WHEN i.morte = 1 THEN 1 END) * 100.0 / COUNT(i.internamento_id)), 2
        ) AS taxa_mortalidade_pct
    FROM Estabelecimento e
    JOIN Municipio m ON e.municipio_id = m.municipio_id
    JOIN Internamento i ON e.cnes_id = i.cnes_id
    GROUP BY e.cnes_id, m.municipio_nome
    ORDER BY total_internacoes DESC
    LIMIT 10;
"""

df_ranking_estabelecimentos = execute_query_and_display(query_ranking_estabelecimentos, "TOP 10 ESTABELECIMENTOS POR VOLUME DE INTERNAÇÕES")


TOP 10 ESTABELECIMENTOS POR VOLUME DE INTERNAÇÕES
Total de registros: 10

Primeiros 10 resultados:
cnes_id municipio_nome  total_internacoes valor_total_movimentado valor_medio_internacao media_dias_internacao  total_obitos taxa_mortalidade_pct
    434         Recife             275373            704798232.73  2559.4311451376859750    4.3338308403510874          8803                 3.20
    655         Recife             205627            452884060.05  2202.4542499282681749    7.6132754939769583         21451                10.43
    426         Recife             124228            241205738.90  1941.6374641787680716    6.6320636249476769          7242                 5.83
2802783         Recife             118219            268225451.85  2268.8861507033556366    7.6437797646740372          8762                 7.41
    477         Recife             108181            227271977.88  2100.8492977509913941    3.6003272293656002          2864                 2.65
2427427         Recife  

## 8. Análise de Tempo de Internação

In [75]:
# Análise de distribuição do tempo de internação
query_tempo_internacao = """
    SELECT 
        CASE 
            WHEN qt_diarias = 0 THEN 'Menos de 1 dia'
            WHEN qt_diarias BETWEEN 1 AND 3 THEN '1-3 dias'
            WHEN qt_diarias BETWEEN 4 AND 7 THEN '4-7 dias'
            WHEN qt_diarias BETWEEN 8 AND 15 THEN '8-15 dias'
            WHEN qt_diarias BETWEEN 16 AND 30 THEN '16-30 dias'
            WHEN qt_diarias > 30 THEN 'Mais de 30 dias'
        END AS faixa_dias,
        COUNT(*) AS total_internacoes,
        AVG(val_tot) AS valor_medio,
        COUNT(CASE WHEN morte = 1 THEN 1 END) AS total_obitos,
        ROUND(
            (COUNT(CASE WHEN morte = 1 THEN 1 END) * 100.0 / COUNT(*)), 2
        ) AS taxa_mortalidade_pct
    FROM Internamento
    WHERE qt_diarias IS NOT NULL
    GROUP BY faixa_dias
    ORDER BY 
        CASE 
            WHEN qt_diarias = 0 THEN 1
            WHEN qt_diarias BETWEEN 1 AND 3 THEN 2
            WHEN qt_diarias BETWEEN 4 AND 7 THEN 3
            WHEN qt_diarias BETWEEN 8 AND 15 THEN 4
            WHEN qt_diarias BETWEEN 16 AND 30 THEN 5
            WHEN qt_diarias > 30 THEN 6
        END;
"""

df_tempo_internacao = execute_query_and_display(query_tempo_internacao, "DISTRIBUIÇÃO DO TEMPO DE INTERNAÇÃO")

Erro ao executar consulta: column "internamento.qt_diarias" must appear in the GROUP BY clause or be used in an aggregate function
LINE 22:             WHEN qt_diarias = 0 THEN 1
                          ^



## 9. Análise Resumo - KPIs Gerais

In [76]:
# KPIs gerais do sistema
query_kpis_gerais = """
    SELECT 
        'Indicadores Gerais' AS categoria,
        COUNT(DISTINCT i.internamento_id) AS total_internacoes,
        COUNT(DISTINCT e.cnes_id) AS total_estabelecimentos,
        COUNT(DISTINCT m.municipio_id) AS total_municipios,
        COUNT(DISTINCT c.cid_id) AS total_diagnosticos_utilizados,
        COUNT(DISTINCT p.procedimento_id) AS total_procedimentos_utilizados,
        ROUND(SUM(i.val_tot), 2) AS valor_total_gasto,
        ROUND(AVG(i.val_tot), 2) AS valor_medio_internacao,
        ROUND(AVG(i.qt_diarias), 1) AS media_dias_internacao,
        COUNT(CASE WHEN i.morte = 1 THEN 1 END) AS total_obitos,
        ROUND(
            (COUNT(CASE WHEN i.morte = 1 THEN 1 END) * 100.0 / COUNT(i.internamento_id)), 2
        ) AS taxa_mortalidade_geral_pct
    FROM Internamento i
    JOIN Estabelecimento e ON i.cnes_id = e.cnes_id
    JOIN Municipio m ON e.municipio_id = m.municipio_id
    JOIN Cid c ON i.cid_id = c.cid_id
    JOIN Procedimento p ON i.procedimento_id = p.procedimento_id;
"""

df_kpis_gerais = execute_query_and_display(query_kpis_gerais, "KPIs GERAIS DO SISTEMA", limit=20)

Erro ao executar consulta: current transaction is aborted, commands ignored until end of transaction block



## 10. Consulta Customizada - Análise Combinada

In [77]:
# Análise combinada: diagnóstico + procedimento + faixa etária
query_analise_combinada = """
    SELECT 
        c.cid_nome,
        proc.procedimento_nome,
        CASE 
            WHEN pe.idade BETWEEN 0 AND 17 THEN '0-17 anos'
            WHEN pe.idade BETWEEN 18 AND 39 THEN '18-39 anos'
            WHEN pe.idade BETWEEN 40 AND 59 THEN '40-59 anos'
            WHEN pe.idade BETWEEN 60 AND 79 THEN '60-79 anos'
            WHEN pe.idade >= 80 THEN '80+ anos'
            ELSE 'Não informado'
        END AS faixa_etaria,
        COUNT(i.internamento_id) AS total_casos,
        AVG(i.val_tot) AS valor_medio,
        AVG(i.qt_diarias) AS media_dias,
        COUNT(CASE WHEN i.morte = 1 THEN 1 END) AS obitos,
        ROUND(
            (COUNT(CASE WHEN i.morte = 1 THEN 1 END) * 100.0 / COUNT(i.internamento_id)), 2
        ) AS taxa_mortalidade_pct
    FROM Internamento i
    JOIN Cid c ON i.cid_id = c.cid_id
    JOIN Procedimento proc ON i.procedimento_id = proc.procedimento_id
    JOIN Pessoa pe ON i.pessoa_id = pe.pessoa_id
    WHERE pe.idade IS NOT NULL
    GROUP BY c.cid_nome, proc.procedimento_nome, faixa_etaria
    HAVING COUNT(i.internamento_id) >= 3  -- Pelo menos 3 casos para análise
    ORDER BY total_casos DESC
    LIMIT 15;
"""

df_analise_combinada = execute_query_and_display(query_analise_combinada, "ANÁLISE COMBINADA: DIAGNÓSTICO + PROCEDIMENTO + FAIXA ETÁRIA")

Erro ao executar consulta: current transaction is aborted, commands ignored until end of transaction block



## Resumo das Análises Criadas

As consultas acima cobrem várias perspectivas importantes dos dados de internação:

### Para Dashboard - Visualizações Sugeridas:
1. **Série Temporal**: Gráfico de linha mostrando evolução das internações ao longo do tempo
2. **Ranking CID**: Gráfico de barras com os diagnósticos mais frequentes
3. **Demografia**: Pirâmide etária ou gráfico de barras por faixa etária/sexo
4. **Mapa Geográfico**: Heatmap dos municípios por volume de internações
5. **Análise Financeira**: Gráficos de custo por procedimento
6. **Indicadores de Qualidade**: Dashboards de mortalidade e tempo médio de internação
7. **Performance Hospitalar**: Ranking de estabelecimentos
8. **Análise Integrada**: Tabelas e gráficos combinando múltiplas dimensões

### KPIs Principais:
- Total de internações
- Valor total movimentado
- Taxa de mortalidade geral
- Tempo médio de internação
- Número de estabelecimentos/municípios atendidos