# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. Flávio Martins, turno L05

### Grupo 7
<dl>
    <dt>10 horas (33.3%)</dt>
    <dd>ist1107502 Francisco Pereira</dd>
    <dt>10 horas (33.3%)</dt>
    <dd>ist1106340 Francisco Uva</dd>
    <dt>10 horas (33.3%)</dt>
    <dd>ist1107482 Pedro Pais</dd>
<dl>



In [None]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql
-- (RI-1)
-- Remover a função e o trigger existentes, se houver
DROP TRIGGER IF EXISTS tg_verifica_horario_consulta ON consulta;
DROP FUNCTION IF EXISTS verifica_horario_consulta;

-- Criar a função ajustada sem exceções
CREATE FUNCTION verifica_horario_consulta() 
RETURNS TRIGGER AS $$
BEGIN
    -- Verificar se os minutos são 0 ou 30
    IF (EXTRACT(MINUTE FROM NEW.hora) NOT IN (0, 30)) THEN
        RAISE EXCEPTION 'A consulta deve ser agendada na hora exata ou meia-hora.';
    END IF;

    -- Verificar se a hora está no intervalo de 8-13h ou 14-19h, excluindo 13-14h
   IF (EXTRACT(HOUR FROM NEW.hora) < 8 OR 
        (EXTRACT(HOUR FROM NEW.hora) >= 13 AND EXTRACT(HOUR FROM NEW.hora) < 14 AND EXTRACT(MINUTE FROM NEW.hora) <> 0) OR 
        EXTRACT(HOUR FROM NEW.hora) >= 19) THEN
        RAISE EXCEPTION 'A consulta deve ser agendada dentro do horário 8-13h e 14-19h.';
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

-- Criar o trigger ajustado
CREATE TRIGGER tg_verifica_horario_consulta
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW
EXECUTE FUNCTION verifica_horario_consulta();

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql
-- (RI-2)
-- Remover a função e o trigger existentes, se houver
DROP TRIGGER IF EXISTS tg_check_medico_paciente ON consulta;
DROP FUNCTION IF EXISTS check_medico_paciente;

-- Criar a função que verifica se um médico está tentando consultar a si próprio
CREATE FUNCTION check_medico_paciente() 
RETURNS TRIGGER AS $$
BEGIN
    -- Verificar se o nif do médico é igual ao nif do paciente
    IF EXISTS (
        SELECT 1
        FROM paciente
        WHERE ssn = NEW.ssn AND nif = NEW.nif
    ) THEN
        RAISE EXCEPTION 'Um médico não pode consultar a si próprio';
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

-- Criar o trigger que chama a função antes da inserção ou atualização na tabela consulta
CREATE TRIGGER tg_check_medico_paciente
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW
EXECUTE FUNCTION check_medico_paciente(); 


(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
-- (RI-3)
-- Remover a função e o trigger existentes, se houver
DROP TRIGGER IF EXISTS tg_check_medico_clinica_dia_semana ON consulta;
DROP FUNCTION IF EXISTS check_medico_clinica_dia_semana;

-- Criar a função que verifica se um médico está autorizado a dar consulta na clínica na data especificada
CREATE OR REPLACE FUNCTION check_medico_clinica_dia_semana() 
RETURNS TRIGGER AS $$
DECLARE
    dia_semana_consulta INTEGER;
    medico_trabalha BOOLEAN;
BEGIN
    -- Obter o dia da semana correspondente à data da consulta
    dia_semana_consulta := EXTRACT(DOW FROM NEW.data);

    -- Verificar se o médico trabalha na clínica naquele dia da semana
    SELECT EXISTS (
        SELECT 1
        FROM trabalha
        WHERE nif = NEW.nif AND nome = NEW.nome AND dia_da_semana = dia_semana_consulta
    ) INTO medico_trabalha;

    -- Se o médico não trabalha na clínica naquele dia da semana, lançar uma exceção
    IF NOT medico_trabalha THEN
        RAISE EXCEPTION 'O médico não está autorizado a dar consultas nesta clínica no dia da semana correspondente à data da consulta';
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

-- Criar o trigger que chama a função antes da inserção ou atualização na tabela consulta
CREATE TRIGGER tg_check_medico_clinica_dia_semana
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW
EXECUTE FUNCTION check_medico_clinica_dia_semana();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

...

A nossa aplicação foi implementada no ficheiro app.py. Utilizamos a microframework Flask e o adaptador de postgres, psycopg.

Na pasta app estão presentes o generator.py que gerou os dados para a nossa base de dados. Todos ficheiros gerados por esse gerador estão também na pasta app e são do formato .csv.

Para além disso, existe também um ficheiro chamado comandos_populate.txt que contém todos os comandos copy para popular a base de dados a partir dos ficheiros  de dados .csv.

EXPLICAÇÃO GERAL DA APLICAÇÃO

1º Endpoint ('/') - Lista todas as clínicas. Implementado na função get_clinics(). O método usado para o request é GET. Devolve uma resposta em json listando as diferentes clínicas na base de dados.

2º Endpoint ('/c/<clinica>/')- Lista todas as especialidades oferecidas numa certa clinica. Implementado na função get_specialities_on_clinic(clinica) que recebe como argumento o nome de uma clinica. O método usado para o request é GET. É feita a verificação da validade dos argumentos. É usada parameterização nas queries para evitar SQL injection, usando placeholders %s que são substituídos pelos valores das variéveis. Devolve uma resposta em json com todas as especialidades oferecidas na clinica especificada.

3º Endpoint ('/c/<clinica>/<especialidade>/') - Lista todos os nomes dos médicos de uma especialidade que trabalham numa certa clinica e os seus primeiros 3 horarios disponiveis para consulta. Implementado na função get_doctor_schedules_clinic_specialty(clinica, especialidade). O método usado para o resquest é GET. É feita a verificação da validade dos argumentos. É usada parameterização nas queries para evitar SQL injection, usando placeholders %s que são substituídos pelos valores das variéveis. Devolve uma resposta em json listando os nomes dos médicos e os 3 primeiros horários para cada médico na especialidade e na clinica.

4º Endpoint ('/a/<clinica>/registar/') - Regista uma marcação de consulta na clinica. Implementado na função register_consultation(clinica). Os métodos permitidos no request para este endpoint são POST e PUT, o que permite a flexibilidade de usar POSTS para criar novos recursos e PUTs para dar update a recursos existentes. Faz a verificação dos argumentos. Usa parameterizacao de queries para evitar SQL injection, usando placeholders %s que são substituídos pelos valores das variéveis. Devolve uma resposta em json indicando o estado de sucesso quando o request tem sucesso e error quando falha. Além disso, a resposta contém uma mensagem informativa indicando o sucesso ou a razão do insucesso da execução da query.

5º Endpoint ('/a/<clinica>/cancelar/') - Cancela uma marcação de consulta na clinica. Implementado na função cancel_consultation(clinica). Os métodos permitidos no request para este endpoint são POST e DELETE, o que permite a flexibilidade de usar POSTS para enviar requests de cancelamento e DELETEs para remover as consultas a cancelar. Faz a verificação dos argumentos. Usa parameterizacao de queries para evitar SQL injection, usando placeholders %s que são substituídos pelos valores das variéveis. Devolve uma resposta em json indicando o estado de sucesso quando o request tem sucesso e error quando falha. Além disso, a resposta contém uma mensagem informativa indicando o sucesso ou a razão do insucesso da execução da query.

As respostas aos requests vêm acompanhadas de um código que indica o sucesso ou não da execução desse endpoint. 400 se é um erro do utilizador, 403 se é uma ação proíbida, 404 se algo não foi encontrado na base de dados e 200 se tiver sucesso.

Para além dos endpoints, temos também várias funções de verificação que validam os argumentos, como verificação do formato, da hora, da data, do NIF e do SSN, evitando por isso executar queries sobre argumentos inválidos.

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [None]:
%%sql

CREATE MATERIALIZED VIEW historial_paciente AS
SELECT
    c.id,
    p.ssn,
    m.nif,
    cl.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    TRIM(SUBSTRING(cl.morada FROM '\d{4}-\d{3}\s+(.*)$')) AS localidade,
    m.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave,
    o.valor AS valor
FROM
    consulta c
JOIN
    paciente p ON c.ssn = p.ssn
JOIN
    clinica cl ON c.nome = cl.nome
JOIN
    medico m ON c.nif = m.nif
LEFT JOIN
    observacao o ON c.id = o.id
WHERE
    o.parametro IS NOT NULL

UNION ALL

SELECT
    c.id,
    p.ssn,
    m.nif,
    cl.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    TRIM(SUBSTRING(cl.morada FROM '\d{4}-\d{3}\s+(.*)$')) AS localidade,
    m.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave,
    r.quantidade AS valor
FROM
    consulta c
JOIN
    paciente p ON c.ssn = p.ssn
JOIN
    clinica cl ON c.nome = cl.nome
JOIN
    medico m ON c.nif = m.nif
LEFT JOIN
    receita r ON c.codigo_sns = r.codigo_sns
WHERE
    r.medicamento IS NOT NULL;

## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [None]:
%%sql

WITH filtered_data AS (
    SELECT 
        hp.id, 
        hp.ssn, 
        hp.data, 
        hp.chave,
        LAG(hp.data) OVER (PARTITION BY hp.ssn, hp.chave ORDER BY hp.data) AS previous_data
    FROM 
        historial_paciente hp
    WHERE 
        hp.especialidade = 'Ortopedia' 
        AND hp.tipo = 'observacao' 
        AND hp.valor IS NULL
),
intervals AS (
    SELECT 
        id,
        ssn, 
        chave, 
        data, 
        previous_data,
        CASE 
            WHEN previous_data IS NOT NULL THEN data - previous_data
            ELSE NULL
        END AS interval_days
    FROM 
        filtered_data
),
max_interval_patient AS (
    SELECT 
        ssn, 
        MAX(interval_days) AS max_interval
    FROM 
        intervals
    GROUP BY 
        ssn
)
SELECT 
    p.ssn, 
    p.nome
FROM 
    max_interval_patient mip
JOIN 
    paciente p ON mip.ssn = p.ssn
WHERE 
    mip.max_interval = (SELECT MAX(max_interval) FROM max_interval_patient)
ORDER BY 
    mip.max_interval DESC;

2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante pelo menos doze meses consecutivos, em consultas de cardiologia.

In [None]:
%%sql
WITH monthly_prescriptions AS (
    SELECT
        ssn,
        chave AS medicamento,
        DATE_TRUNC('month', data) AS prescription_month,
        COUNT(*) AS prescriptions_count
    FROM
        historial_paciente
    WHERE
        tipo = 'receita'
        AND data >= CURRENT_DATE - INTERVAL '12 months'
        AND especialidade = 'Cardiologia'
    GROUP BY
        ssn,
        medicamento,
        DATE_TRUNC('month', data)
),
monthly_prescriptions_count AS (
    SELECT
        ssn,
        medicamento,
        COUNT(*) AS months_prescribed
    FROM
        monthly_prescriptions
    GROUP BY
        ssn,
        medicamento
)
SELECT DISTINCT medicamento, ssn
FROM monthly_prescriptions_count
WHERE months_prescribed >= 12;

3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [None]:
%%sql
                       
SELECT
    hp.localidade AS localidade,
    hp.nome AS clinica,
    TO_CHAR(hp.data, 'Month') AS mes,
    EXTRACT(DAY FROM hp.data) AS dia_do_mes,
    hp.especialidade AS especialidade,
    m.nome AS nome,
    hp.chave AS medicamento,
    SUM(hp.valor) AS quantidade_total
FROM 
    historial_paciente hp
JOIN
    medico m ON m.nif = hp.nif
WHERE
    tipo = 'receita' 
    AND EXTRACT(YEAR FROM data) = 2023
GROUP BY GROUPING SETS (                                
    (hp.chave),                                                                                     -- drilldown por medicamento (globalmente)
    (hp.localidade, hp.chave),                                                                      -- drilldown por localidade
    (hp.localidade, hp.nome, hp.chave),                                                             -- drilldown por clinica
    (EXTRACT(MONTH FROM hp.data), TO_CHAR(hp.data, 'Month'), hp.chave),                             -- drilldown por mes
    (EXTRACT(DAY FROM hp.data), EXTRACT(MONTH FROM hp.data), TO_CHAR(hp.data, 'Month'), hp.chave),  -- drilldown por dia_do_mes
    (hp.especialidade, hp.chave),                                                                   -- drilldown por especialidade
    (hp.especialidade, m.nome, hp.chave)                                                            -- drilldown por nome de medico
)
ORDER BY
    CASE                                                                                            
        WHEN hp.localidade IS NOT NULL AND hp.nome IS NULL THEN 2                                   
        WHEN hp.nome IS NOT NULL THEN 3                                                             
        WHEN EXTRACT(MONTH FROM hp.data) IS NOT NULL AND EXTRACT(DAY FROM hp.data) IS NULL THEN 4   
        WHEN EXTRACT(DAY FROM hp.data) IS NOT NULL THEN 5                                           
        WHEN hp.especialidade IS NOT NULL AND m.nome is NULL THEN 6                                 
        WHEN m.nome IS NOT NULL THEN 7                                                             
        ELSE 1                                                                                     
    END,
    localidade, 
    clinica, 
    EXTRACT(MONTH FROM hp.data), 
    dia_do_mes, 
    especialidade, 
    nome, 
    medicamento;
    


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [None]:
%%sql
 
SELECT
    hp.nome AS clinica, 
    hp.especialidade especialidade,
    m.nome AS nome,
    hp.chave AS parametro,
    AVG(hp.valor) AS valor_medio,
    STDDEV(hp.valor) AS desvio_padrao
    
FROM 
    historial_paciente hp
JOIN
    medico m ON m.nif = hp.nif
WHERE
    hp.tipo = 'observacao' 
    AND hp.valor IS NOT NULL
GROUP BY GROUPING SETS(
    (parametro),                                        -- drilldown por parametero
    (hp.especialidade, parametro),                      -- drilldown por especialidade
    (m.nome, hp.especialidade, parametro),              -- drilldown por medico
    (clinica, m.nome, hp.especialidade)                 -- drilldown adicional por clinica
)
ORDER BY
    CASE
        WHEN hp.especialidade IS NOT NULL AND m.nome IS NULL THEN 2
        WHEN m.nome IS NOT NULL AND hp.nome is NULL THEN 3
        WHEN hp.nome IS NOT NULL THEN 4        
        ELSE 1
    END,
    hp.especialidade,
    m.nome,
    clinica,
    parametro;

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql
-- CREATE INDEX ...
CREATE INDEX idx_observacao_parametro_valor
ON observacao (parametro, valor);

CREATE INDEX idx_consulta_ssn
ON consulta (ssn);

CREATE INDEX idx_paciente_ssn
ON paciente (ssn);

CREATE INDEX idx_observacao_id
ON observacao (id);

### Justificação

idx_observacao_parametro_valor: Este índice composto B-tree é criado para as colunas parametro e valor na tabela observacao. Ele é particularmente eficaz para consultas que necessitem de filtragem e ordenação simultâneas por essas duas colunas. Por exemplo, se uma consulta procura todas as observações onde o parametro é “pressão diastólica” e o valor é maior ou igual a 9, este índice permite que o SGBD encontre esses resultados de forma muito mais rápida do que faria sem o índice. Isto é especialmente útil em tabelas grandes, onde a busca sequencial seria pouco prática.

idx_consulta_ssn: O índice B-tree para a coluna ssn na tabela consulta melhora significativamente a eficiência das operações de busca e JOIN que envolvem o número de segurança social (SSN) dos pacientes. Isto é crucial para consultas que precisem de aceder rapidamente aos detalhes das consultas médicas de um paciente específico, baseando-se no seu identificador único SSN.

idx_paciente_ssn: De forma semelhante ao índice na tabela consulta, este índice B-tree na coluna ssn da tabela paciente acelera a recuperação de informações de pacientes.

idx_observacao_id: Este índice B-tree é criado para a coluna id na tabela observacao, que é a chave primária. Índices em chaves primárias são fundamentais para garantir a eficiência de buscas por registos individuais, além de serem essenciais para manter a integridade dos dados e otimizar as operações de JOIN.
O uso de índices B-tree é comum porque eles são eficientes tanto para buscas de igualdade quanto para comparações de intervalo. Além disso, os índices B-tree têm um tempo de busca que é logarítmico em relação ao número de elementos, o que significa que mesmo com um grande aumento no tamanho dos dados, o aumento no tempo de busca é relativamente pequeno.

Após a implementação destes índices, foi observada uma melhoria na performance da consulta de 0.030s para 0.005s o que pode ser considerado com uma melhoria substancial.

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_sns) 
WHERE data BETWEEN '2023-01-01' AND '2023-12-31' 
GROUP BY especialidade
ORDER BY qtd;

In [None]:
%%sql
-- CREATE INDEX ...
CREATE INDEX idx_consulta_data ON consulta USING BRIN (data);
CREATE INDEX idx_receita_codigo_sns ON receita (codigo_sns);
CREATE INDEX idx_consulta_nif ON consulta (nif);
CREATE INDEX idx_medico_especialidade ON medico (especialidade);


### Justificação

idx_consulta_data: Este índice usa o método BRIN (Block Range Index), que é eficiente para colunas com dados ordenados ou com pouca variação dentro de blocos físicos de armazenamento. O índice BRIN armazena um resumo dos valores em cada bloco, o que permite uma busca rápida para determinar se um bloco contém ou não os dados procurados, tornando as buscas por intervalos de datas muito mais eficientes.

idx_receita_codigo_sns: Este comando cria um índice B-tree, que é o tipo de índice padrão e mais comum. Os índices B-tree são adequados para operações de igualdade e intervalo em dados que podem ser ordenados. Eles são particularmente úteis em operações de JOIN que relacionam a tabela receita com outras tabelas.

idx_consulta_nif: O índice idx_consulta_nif na coluna nif da tabela consulta facilita a busca rápida por registos específicos de pacientes, otimizando consultas que filtram por NIF. 

idx_medico_especialidade: Similarmente ao idx_consulta_nif, o índice idx_medico_especialidade na coluna especialidade da tabela medico ajuda a localizar rapidamente todos os médicos de uma determinada especialidade, melhorando o desempenho de consultas que envolvem essa coluna. Ambos os comandos criam índices B-tree para as colunas especificadas, otimizando buscas e ordenações baseadas nessas colunas.

Após a implementação destes índices, foi observada uma melhoria na performance das consultas, reduzindo o tempo de resposta de aproximadamente 0.11s  para a faixa de 0.070-0.080 segundos. Isto demonstra o impacto positivo que a indexação adequada pode ter no desempenho de um SGBD.
