# Projeto de Bases de Dados - Parte 2

### Docentes Responsáveis
Prof. Flávio Martins \
Prof. João Caldeira

### Grupo 11
<dl>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1102637 Gabriel Silva</dd>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1106245 Guilherme Silva</dd>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1105994 Jorge Mendes</dd>
<dl>

In [None]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@localhost/postgres

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);

## Criação da tabela auxiliar com os horários de 2024
Criação da tabela acessória "horario" que possui os horários possíveis a consultas em 2024 (para uso no exercício 3). Esta criação também se encontra no "populate.sql".

In [None]:
%%sql

DROP TABLE IF EXISTS horario;

CREATE TABLE horario (
    data_e_hora TIMESTAMP
);

## Preenchimento da tabela auxiliar com os horários de 2024
Preenchimento da tabela acessória que possui os horários possíveis a consultas em 2024 (para uso no exercício 3). Este preenchemento também se encontra no "populate.sql".

In [None]:
%%sql

INSERT INTO horario (data_e_hora)
SELECT *
-- Todos os dias/horas de 2024 entre dia 1 de janeiro às 8 e dia 31 de dezembro às 19
FROM generate_series('2024-01-01 08:00:00'::TIMESTAMP, '2024-12-31 19:00:00'::TIMESTAMP, '30 minutes'::INTERVAL) AS valores_gerados
-- Filtra para as horas serem 8..12 com minutos iguais a 0 ou 30
WHERE (EXTRACT(HOUR FROM valores_gerados) BETWEEN 8 AND 12 AND (EXTRACT(MINUTE FROM valores_gerados) = 0 OR EXTRACT(MINUTE FROM valores_gerados) = 30))
-- Filtra para as horas serem 14..18 com minutos iguais a 0 ou 30
	OR (EXTRACT(HOUR FROM valores_gerados) BETWEEN 14 AND 18 AND (EXTRACT(MINUTE FROM valores_gerados) = 0 OR EXTRACT(MINUTE FROM valores_gerados) = 30));

## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql
-- (RI-1)

ALTER TABLE consulta
ADD CONSTRAINT horario_consulta_check
CHECK (
    (EXTRACT(HOUR FROM hora) BETWEEN 8 AND 12 OR EXTRACT(HOUR FROM hora) BETWEEN 14 AND 18) -- Se a hora está entre as 8 (inclusive) e 13 (exclusive) ou entre as 14 (inclusive) e 19 (exclusive)
    AND (EXTRACT(MINUTE FROM hora) = 0 OR EXTRACT(MINUTE FROM hora) = 30) -- Se os minutos são 0 ou 30
);


(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql
-- (RI-2)

CREATE OR REPLACE FUNCTION autoconsulta_check()
RETURNS TRIGGER AS $$
DECLARE
    paciente_nif CHAR(9); -- irá armazenar o NIF do paciente.
BEGIN
    -- Procura o NIF do paciente e guarda-o
    SELECT nif INTO paciente_nif
    FROM paciente
    WHERE ssn = NEW.ssn;

    -- Verifica se o NIF do paciente é igual ao NIF do médico (i.e. se o médico se está a consultar a ele mesmo)
    IF NEW.nif = paciente_nif THEN
        RAISE EXCEPTION 'Um médico não se pode consultar a si mesmo.';
    END IF;
    
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER trigger_autoconsulta_check
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW
EXECUTE FUNCTION autoconsulta_check();


(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
-- (RI-3)

CREATE OR REPLACE FUNCTION medico_trabalha_clinica_check() RETURNS TRIGGER AS $$
BEGIN
    -- Verifica se o médico inserido trabalha na clínica especificada no dia da semana da consulta
    IF NEW.nif NOT IN (SELECT t.nif FROM trabalha t WHERE t.nome = NEW.nome AND t.dia_da_semana = EXTRACT(DOW FROM NEW.data)) THEN
        RAISE EXCEPTION 'O médico com NIF % não trabalha na Clínica % no dia da semana %.', NEW.nif, NEW.nome, EXTRACT(DOW FROM NEW.data);
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER trigger_medico_trabalha_clinica_check
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW
EXECUTE FUNCTION medico_trabalha_clinica_check();


## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, indicando a correspondência entre as funções app.py e os endpoints pedidos

A nossa aplicação web consiste numa REST API, implementada com a biblioteca Flask, que contém rotas para todos os endpoints especificados no enunciado. A sua conexão com a base de dados PostgreSQL é realizada através da biblioteca psycopg por meio de um pool de conexões (psycopg_pool.ConnectionPool), o que garante que as conexões sejam reutilizadas e gerenciadas de forma eficiente.

##### Endpoints e Funções Correspondentes:
- `/`: Corresponde à função `list_clinics_endpoint()` que executa uma consulta SQL para listar todas as clínicas presentes na base de dados, retornando todos os seus nomes e moradas.

- `/c/<clinica>/`: Corresponde à função `list_clinic_specialties_endpoint()` que executa uma consulta SQL para listar todas as especialidades oferecidas na clínica cujo nome foi especificado pelo endpoint.

- `/c/<clinica>/<especialidade>/`: Corresponde à função `list_doctors_and_free_hours_endpoint()` que executa consultas SQL para obter a informação de quais médicos trabalham na clínica e, posteriormente, executa, para cada médico, uma consulta SQL que obtém os seus primeiros 3 horários livres futuros.

- `/a/<clinica>/registar/`: Corresponde à função `book_appointment()` que faz 4 requests (o SSN do paciente, o NIF do médico, a data e a hora da consulta a marcar), verifica se os dados fornecidos são válidos e, posteriormente, executa uma transação de inserção na base de dados para registrar a consulta.

- `/a/<clinica>/cancelar/`: Corresponde à função `remove_appointment()` que faz 4 requests (o SSN do paciente, o NIF do médico, a data e a hora da consulta a cancelar), verifica se os dados fornecidos são válidos e, posteriormente, executa uma transação para apagar da base de dados.

##### Validação de Dados:
Tanto a função `book_appointment()` como a `remove_appointment()` (as únicas que fazem requests) validam, de forma programática, os dados recebidos para garantir que estejam corretos e adequados antes de executar operações na base de dados. Desta forma, conseguimos informar detalhadamente o utilizador sobre qualquer erro nos argumentos introduzidos, permitindo-lhe corrigi-los.

##### Tratamento de Erros:
Além da validação inicial de erros, cada endpoint possui um tratamento de erros abrangente para lidar com exceções que possam ocorrer durante a execução das consultas SQL ou operações na base de dados, informando o utilizador sobre qualquer problema adicional que possa surgir.

##### Prevenção de Injeções SQL:
A nossa aplicação utiliza prepared statements nas suas consultas para prevenir ataques de injeção SQL ao utilizar os argumentos, o que é feito automaticamente pela função `execute(query, {'arg1': valor1, ...})` do psycopg.

##### Transações:
As partes cruciais em termos de modificação da base de dados que temos no nosso código são realizadas através de transações.

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano*, *mes* e *dia_do_mes*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [None]:
%%sql

CREATE MATERIALIZED VIEW historial_paciente AS (
    -- CTE com a parte comum entre os dois selects abaixo (para evitar redundância)
    WITH consulta_info AS ( 
        SELECT c.id, c.ssn, c.nif, c.nome, c.data,
            EXTRACT(YEAR FROM c.data) AS ano,
            EXTRACT(MONTH FROM c.data) AS mes,
            EXTRACT(DAY FROM c.data) AS dia_do_mes,
            -- Usa a parte da string que vem após o código postal como Localidade
            substring(cl.morada FROM '\s+[0-9]{4}-[0-9]{3}\s+(.*)') AS localidade,
            m.especialidade,
            c.codigo_sns
        FROM consulta c
        JOIN clinica cl ON c.nome = cl.nome
        JOIN medico m ON c.nif = m.nif
    )
    -- Parte correspondente às observações
    SELECT c.id, c.ssn, c.nif, c.nome, c.data, c.ano, c.mes, c.dia_do_mes,
        c.localidade, c.especialidade, 'observacao' AS tipo,  o.parametro AS chave, o.valor
    FROM consulta_info c
    JOIN observacao o ON c.id = o.id
    WHERE o.parametro IS NOT NULL

    UNION ALL -- Une as duas partes

    -- Parte correspondente às receitas
    SELECT c.id, c.ssn, c.nif, c.nome, c.data, c.ano, c.mes, c.dia_do_mes,
        c.localidade, c.especialidade, 'receita' AS tipo, r.medicamento AS chave, r.quantidade AS valor
    FROM consulta_info c
    JOIN receita r ON c.codigo_sns = r.codigo_sns
    WHERE r.medicamento IS NOT NULL
    -- Apenas para melhor visualização (não necessário)
    ORDER BY id
); 

## 5. Análise de Dados (SQL e OLAP)

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [None]:
%%sql
-- Seleciona os ssn's dos pacientes com consultas de ortopedia, as suas datas e sintomas
WITH historico_consultas_pacientes_ortopedia AS (
    SELECT ssn, data, chave
    FROM historial_paciente
    WHERE especialidade = 'ortopedia' AND valor IS NULL
),
-- Seleciona os ssn's dos pacientes e os seus sintomas pela CTE acima, mais a menor e e a maior data onde registaram o sintoma
intervalos_pacientes_ortopedia AS (
    SELECT hpco1.ssn, hpco1.chave, MAX(hpco1.data) AS data_max, MIN(hpco2.data) AS data_min
    FROM historico_consultas_pacientes_ortopedia hpco1
    JOIN historico_consultas_pacientes_ortopedia hpco2 ON hpco1.ssn = hpco2.ssn
    WHERE hpco1.chave = hpco2.chave
    GROUP BY hpco1.ssn, hpco1.chave
)
-- Seleciona os ssn's dos pacientes cujo indicador de de falta de progresso é máximo para a oferta da consulta.
SELECT ssn 
FROM intervalos_pacientes_ortopedia
GROUP BY ssn, data_max, data_min
-- Garante que o indicador (data maior - data menor) é o maior
HAVING data_max - data_min >= ALL (SELECT data_max - data_min FROM intervalos_pacientes_ortopedia);


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [None]:
%%sql
-- Seleciona os ssn's dos pacientes, medicamentos e mês de emissão das receitas de cardiologia no último ano
WITH paciente_meses_cardiologia AS (
	SELECT hp.ssn, hp.chave, hp.mes
	FROM historial_paciente hp
	WHERE hp.especialidade = 'cardiologia' 
        AND hp.tipo = 'receita' 
        AND hp.data >= CURRENT_DATE - interval '1 year'
	GROUP BY hp.ssn, hp.chave, hp.mes
)

SELECT DISTINCT tp.chave
FROM paciente_meses_cardiologia tp
GROUP BY tp.ssn, tp.chave 
-- Verifica se o medicamento foi receitado ao paciente em 12 meses diferentes (ou seja, pelo menos 1 vez por cada mês há 1 ano)
HAVING COUNT(DISTINCT tp.mes) = 12;

3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [None]:
%%sql

SELECT hp.chave AS medicamento, hp.localidade, hp.nome as nome_clinica,
    hp.mes, hp.dia_do_mes, hp.especialidade, m.nome as nome_medico, SUM(valor) AS total
FROM historial_paciente as hp
JOIN medico as m ON m.nif = hp.nif
WHERE hp.tipo = 'receita' AND hp.ano = 2023
-- De forma global e depois Drill Down segundo as 3 dimensões SEPARADAMENTE
GROUP BY GROUPING SETS(
    (hp.chave), -- Para cada medicamento, globalmente
    (hp.chave, hp.localidade), (hp.chave, hp.localidade, hp.nome), -- Pela dimensão espaço
    (hp.chave, hp.mes), (hp.chave, hp.mes, hp.dia_do_mes), -- Pela dimensão tempo
    (hp.chave, hp.especialidade), (hp.chave, hp.especialidade, m.nome) -- Pela dimensão médico
); 


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [None]:
%%sql

SELECT hp.especialidade, m.nome as nome_medico, hp.nome as nome_clinica,
    AVG(hp.valor::numeric) AS valor_medio, STDDEV(hp.valor::numeric) AS desvio_padrao
FROM historial_paciente hp
JOIN medico m ON hp.nif = m.nif
WHERE hp.tipo = 'observacao' AND hp.valor IS NOT NULL
-- Drill Down sequencial, o primeiro entre global - especialidade - nome do medico e o segundo, que é aplicado ao primeiro, sobre a clinica
GROUP BY ROLLUP(hp.especialidade, m.nome, hp.nome)
ORDER BY hp.especialidade;

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql
CREATE INDEX idx_consulta_id_ssn ON consulta(id, ssn);
CREATE INDEX idx_observacao_parametro_valor ON observacao(parametro, valor);

### Justificação

Na seleção dos índices, e conforme a questão colocada, é crucial escolher cuidadosamente os índices para tornar a consulta eficiente, evitando, no entanto, o uso excessivo de índices. Assim, para a primeira consulta, optamos por utilizar 2 índices.

Iniciamos a análise pelo critério do WHERE. Neste caso, existe uma condição de filtragem para valor >= 9, o que se beneficiaria de um índice btree (devido ao operador <=). No entanto, também temos uma igualdade para o parâmetro = 'pressão diastólica', que poderia ser incluída no mesmo índice. Portanto, decidimos criar um índice composto com estas duas dimensões (valor e parâmetro). No índice, a ordem escolhida foi primeiro o parâmetro e em segundo o valor, pois na prática, o sistema de gestão de bases de dados pode filtrar inicialmente pela igualdade (acessando o primeiro nível do índice) e, posteriormente, através do segundo nível do índice, identificar o ponto de divisão da árvore onde o valor é >= 9.
Por outro lado, ao examinarmos os JOIN's, decidimos criar um novo índice que facilitaria estas operações. Este índice é um índice btree (id, ssn), que permite a junção da tabela de observação com a tabela de consulta (usando o id) e onde, em seguida, o seu segundo nível facilita a junção dessas tabelas com os pacientes (usando o ssn).

Além disso, a ordem deste índice também se beneficia do fato de que a seletividade dos id's das consultas (que são únicos) é maior do que a dos ssn's dos pacientes, já que é mais fácil encontrar uma consulta específica pelo id do que pelo ssn. Isso ocorre porque um ssn pode estar associado a várias consultas, enquanto cada id é único para uma consulta.

Em termos de operações no PostgreSQL, onde estava inicialmente a ser realizado um index scan através consulta_pkey, este foi substituído por um index only scan pelo índice consulta(id, ssn), o que é extremamente eficiente. Além disso, o mesmo possibilitou a transição do parallel seq scan em observação com filtragem por valor (uma operação custosa) para um simples bitmap index em observação. Para finalizar, ajudou também na conversão de um parallel Seq Scan num Bitmap Heap Scan.

```sql
----------- EXPLAIN SEM ÍNDICES ------------
Gather  (cost=5436.46..7488.33 rows=985 width=31) (actual time=43.569..78.911 rows=3158 loops=1)
    Workers Planned: 1
    Workers Launched: 1
    -> Nested Loop (cost=4436.46..6389.83 rows=579 width=31) (actual time=23.989..51.613 rows=1579 loops=2)
        -> Parallel Hash Join (cost=4436.17..6213.06 rows=579 width=12) (actual time=23.951..38.714 rows=1579 loops=2)
                Hash Cond: (consulta.id = observacao.id)
                -> Parallel Seq Scan on consulta (cost=0.00..1639.46 rows=52346 width=16) (actual time=0.009..6.013 rows=44495 loops=2)
                -> Parallel Hash (cost=4428.94..4428.94 rows=579 width=4) (actual time=23.367..23.368 rows=1579 loops=2)
                    Buckets: 4096 (originally 1024)  Batches: 1 (originally 1)  Memory Usage: 216kB
                    -> Parallel Seq Scan on observacao (cost=0.00..4428.94 rows=579 width=4) (actual time=0.040..22.700 rows=1579 loops=2)
                            Filter: ((valor >= '1'::double precision) AND ((parametro)::text = 'Ferro baixo'::text))
                            Rows Removed by Filter: 140424
        -> Index Scan using paciente_pkey on paciente (cost=0.28..0.31 rows=1 width=43) (actual time=0.007..0.007 rows=1 loops=3158)
                Index Cond: (ssn = consulta.ssn)
Planning Time: 0.821 ms
Execution Time: 79.207 ms

----------- EXPLAIN COM ÍNDICES ------------
Hash Join  (cost=244.11..3783.35 rows=1051 width=31) (actual time=5.039..18.333 rows=3158 loops=1)
    Hash Cond: (consulta.ssn = paciente.ssn)
    -> Nested Loop (cost=35.61..3572.09 rows=1051 width=12) (actual time=1.522..13.313 rows=3158 loops=1)
            -> Bitmap Heap Scan on observacao (cost=35.20..1730.90 rows=1051 width=4) (actual time=1.509..4.673 rows=3158 loops=1)
               Recheck Cond: (((parametro)::text = 'Ferro baixo'::text) AND (valor >= '1'::double precision))
               Heap Blocks: exact=1615
                -> Bitmap Index Scan on idx_observacao_parametro_valor  (cost=0.00..34.93 rows=1051 width=0) (actual time=0.951..0.952 rows=3158 loops=1)
                    Index Cond: (((parametro)::text = 'Ferro baixo'::text) AND (valor >= '1'::double precision))
        -> Index Only Scan using idx_consulta_id_ssn on consulta (cost=0.42..1.75 rows=1 width=16) (actual time=0.002..0.002 rows=1 loops=3158)
            Index Cond: (id = observacao.id)
            Heap Fetches: 0
    -> Hash  (cost=146.00..146.00 rows=5000 width=43) (actual time=3.504..3.505 rows=5000 loops=1)
        Buckets: 8192 Batches: 1 Memory Usage: 431kB
        ->  Seq Scan on paciente (cost=0.00..146.00 rows=5000 width=43) (actual time=0.007..1.187 rows=5000 loops=1)
Planning Time: 0.796 ms
Execution Time: 18.581 ms
 ```

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_sns) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
ORDER BY qtd;

In [None]:
%%sql
CREATE INDEX idx_consulta_data_codigo_sns_nif ON consulta(data, codigo_sns, nif);

### Justificação

Dada a query apresentada, sabemas á partida que devemos usar B-Tree para os índice visto dada a condição da cláusula WHERE ser um BETWEEN (e, portanto, utiliza operações <= e >=).

Pelo motivo acima, o nosso índice terá como primeiro elemento a data, pois este será o elemento que mais restringe a procura e, portanto, que beneficiaria mais de estar pesente no primeiro nível.

Uma vez que esta query também tem dois JOIN's sobre as tabelas consulta e receita, adicionamos também as suas chaves na tabela pela seguinte ordem, codigo_sns e nif. Relativamente à ordem destes 2 últimos, a ordem entre eles, deve ser, a nosso ver, o codigo_sns deve estar antes do nif, pois possui maior seletividade comparativamente com o nif.

Sendo que todos estes elementos estão presentes na tabela consulta, que é usada na query, o nosso índice vai então ser sobre essa tabela com a seguinte ordem (data, codigo_sns, nif).

Em termos de operações do PostgreSQL, a única mudança significativa foi a conversão do Seq Scan na tabela consulta para um Index Only Scan, que é muito mais eficiente.

Vale referir que, apesar de termos considerarmos outros índices, o efeito deles seria, no nosso ponto de vista, residual na maioria dos casos. Até porque, com a existência do SUM(quantidade) vai ter sempre que se percorrer a tabela correspondente.

```sql
----------- EXPLAIN SEM ÍNDICES ------------
Sort  (cost=4212.06..4212.07 rows=6 width=21) (actual time=67.315..67.320 rows=6 loops=1)
    Sort Key: (sum(receita.quantidade))
    Sort Method: quicksort  Memory: 25kB
    -> HashAggregate (cost=4211.92..4211.98 rows=6 width=21) (actual time=67.304..67.310 rows=6 loops=1)
        Group Key: medico.especialidade
        Batches: 1 Memory Usage: 24kB
        -> Hash Join  (cost=3008.30..4086.51 rows=25082 width=15) (actual time=28.049..58.312 rows=36500 loops=1)
               Hash Cond: (consulta.nif = medico.nif)
                -> Hash Join (cost=3004.95..4012.67 rows=25082 width=12) (actual time=27.981..48.646 rows=36500 loops=1)
                    Hash Cond: ((receita.codigo_sns)::bpchar = consulta.codigo_sns)
                    -> Seq Scan on receita  (cost=0.00..875.53 rows=50353 width=15) (actual time=0.005..4.469 rows=50353 loops=1)
                    -> Hash (cost=2450.85..2450.85 rows=44328 width=23) (actual time=27.921..27.922 rows=44437 loops=1)
                           Buckets: 65536 Batches: 1 Memory Usage: 2899kB
                            -> Seq Scan on consulta (cost=0.00..2450.85 rows=44328 width=23) (actual time=0.006..14.462 rows=44437 loops=1)
                                Filter: ((data >= '2023-01-01'::date) AND (data <= '2023-12-31'::date))
                                Rows Removed by Filter: 44553
                -> Hash (cost=2.60..2.60 rows=60 width=23) (actual time=0.061..0.062 rows=60 loops=1)
                    Buckets: 1024 Batches: 1 Memory Usage: 12kB
                    -> Seq Scan on medico (cost=0.00..2.60 rows=60 width=23) (actual time=0.011..0.028 rows=60 loops=1)
Planning Time: 0.933 ms
Execution Time: 67.388 ms

----------- EXPLAIN COM ÍNDICES ------------
Sort (cost=3607.74..3607.75 rows=6 width=21) (actual time=58.277..58.281 rows=6 loops=1)
   Sort Key: (sum(receita.quantidade))
   Sort Method: quicksort  Memory: 25kB
    -> HashAggregate (cost=3607.60..3607.66 rows=6 width=21) (actual time=58.265..58.270 rows=6 loops=1)
        Group Key: medico.especialidade
        Batches: 1 Memory Usage: 24kB
        -> Hash Join (cost=2403.77..3482.05 rows=25110 width=15) (actual time=23.104..50.139 rows=36500 loops=1)
               Hash Cond: (consulta.nif = medico.nif)
               -> Hash Join (cost=2400.42..3408.14 rows=25110 width=12) (actual time=23.038..41.433 rows=36500 loops=1)
                    Hash Cond: ((receita.codigo_sns)::bpchar = consulta.codigo_sns)
                    -> Seq Scan on receita (cost=0.00..875.53 rows=50353 width=15) (actual time=0.004..4.094 rows=50353 loops=1)
                    -> Hash (cost=1845.71..1845.71 rows=44377 width=23) (actual time=22.978..22.979 rows=44437 loops=1)
                           Buckets: 65536 Batches: 1 Memory Usage: 2899kB
                           -> Index Only Scan using idx_consulta_data_codigo_sns_nif on consulta (cost=0.42..1845.71 rows=44377 width=23) (actual time=0.028..8.822 rows=44437 loops=1)
                                Index Cond: ((data >= '2023-01-01'::date) AND (data <= '2023-12-31'::date))
                                Heap Fetches: 0
               -> Hash (cost=2.60..2.60 rows=60 width=23) (actual time=0.060..0.061 rows=60 loops=1)
                    Buckets: 1024 Batches: 1 Memory Usage: 12kB
                    -> Seq Scan on medico (cost=0.00..2.60 rows=60 width=23) (actual time=0.011..0.027 rows=60 loops=1)
Planning Time: 0.930 ms
Execution Time: 58.353 ms
```