# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. FirstName Teste

### Grupo 19
<dl>
    <dt>12 horas (33.3%)</dt>
    <dd>---------- ----------</dd>
    <dt>12 horas (33.3%)</dt>
    <dd>---------- ----------</dd>
    <dt>12 horas (33.3%)</dt>
    <dd>---------- ----------</dd>
<dl>

In [190]:
%reload_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [670]:
%%sql
DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns CHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);

-- For some reason the docker container is defaulting to Universal Time,
-- to avoid confusion we will change to Portuguese time
SET timezone TO 'Europe/Lisbon';

## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [82]:
%%sql
ALTER TABLE consulta
DROP CONSTRAINT IF EXISTS consulta_time_check;

ALTER TABLE consulta ADD CONSTRAINT consulta_time_check CHECK (
  (
    (
      EXTRACT(
        HOUR
        FROM
          hora
      ) BETWEEN 8 AND 12
    )
    OR (
      EXTRACT(
        HOUR
        FROM
          hora
      ) BETWEEN 14 AND 18
    )
    AND EXTRACT(
      MINUTE
      FROM
        hora
    ) IN (0, 30)
  )
);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [3]:
%%sql
CREATE OR REPLACE FUNCTION consulta_medico() RETURNS TRIGGER AS $$
    BEGIN
        IF EXISTS (
            SELECT * FROM paciente p
            WHERE NEW.ssn = p.ssn AND NEW.nif = p.nif
        ) THEN
            RAISE EXCEPTION 'Um médico não se pode consultar a si próprio.';
        END IF;
        RETURN NEW;
    END;
$$ LANGUAGE plpgsql;
CREATE OR REPLACE TRIGGER consulta_medico_trigger BEFORE INSERT ON consulta
    FOR EACH ROW EXECUTE FUNCTION consulta_medico();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [4]:
%%sql
CREATE OR REPLACE FUNCTION consulta_clinica() RETURNS TRIGGER AS $$
    BEGIN
        IF NOT EXISTS (
            SELECT * FROM trabalha t
            WHERE NEW.nif = t.nif AND NEW.nome = t.nome AND EXTRACT(ISODOW FROM NEW.data) = t.dia_da_semana
        ) THEN
            RAISE EXCEPTION 'Um médico só pode dar consultas na clínica em que trabalha nesse dia.';
        END IF;
        RETURN NEW;
    END;
$$ LANGUAGE plpgsql;
CREATE OR REPLACE TRIGGER consulta_clinica_trigger BEFORE INSERT ON consulta
    FOR EACH ROW EXECUTE FUNCTION consulta_clinica();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

Para preencher a base de dados correr o comando no terminal
```bash
psql -h postgres -U postgres
\i ~/data/populate.sql
```

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e moradaccount_indexa).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

A app recorre ao uso de uma tabela auxiliar para as datas do horário de funcionamento das clínicas.

(Por favor corra a query seguinte):

In [None]:
%%sql
DROP TABLE distinct_horas;
CREATE TABLE distinct_horas AS
SELECT DISTINCT hora
FROM consulta ORDER BY hora;

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta app/arquivos e a relação entre eles

A nossa pasta app está dividida em 4 elementos. 
* Uma primeira pasta saude que contém a coleção de todas as requests da app realizadas no 
programa Bruno. 
* O ficheiro "app.py" de código da nossa app onde desenvolvemos os vários comandos solicitados no enunciado. 
* temos ainda os dois ficheiros "Dockerfile.development" e "requirements.txt" que nos permitem correr a app no Docker.

Os endpoints são implementados pelas seguintes funções da app.py:
|Endpoint|Função|Método|
|--------|---------|---------|
|/|clinic_index()|GET|
|/c/\<clinica>/|especialidade_index()|GET|
|/c/\<clinica>/\<especialidade>/|medic_index()|GET|
|/a/\<clinica>/registar/|consultas_regista()|POST|
|/a/\<clinica>/cancelar/|consulta_delete()|DELETE|

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [61]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS historial_paciente;

CREATE MATERIALIZED VIEW historial_paciente AS
SELECT
  consulta.id,
  consulta.ssn,
  consulta.nif,
  consulta.nome,
  consulta.data,
  EXTRACT(
    YEAR
    FROM
      consulta.data
  ) AS ano,
  EXTRACT(
    MONTH
    FROM
      consulta.data
  ) AS mes,
  EXTRACT(
    DAY
    FROM
      consulta.data
  ) AS dia_do_mes,
  regexp_replace (clinica.morada, '.*\d{4}-\d{3} ', '') AS localidade,
  medico.especialidade,
  'observacao' AS tipo,
  observacao.parametro AS chave,
  observacao.valor AS valor
FROM
  consulta
  JOIN medico ON consulta.nif = medico.nif
  JOIN clinica ON consulta.nome = clinica.nome
  JOIN observacao ON consulta.id = observacao.id
UNION
SELECT
  consulta.id,
  consulta.ssn,
  consulta.nif,
  consulta.nome,
  consulta.data,
  EXTRACT(
    YEAR
    FROM
      consulta.data
  ) AS ano,
  EXTRACT(
    MONTH
    FROM
      consulta.data
  ) AS mes,
  EXTRACT(
    DAY
    FROM
      consulta.data
  ) AS dia_do_mes,
  regexp_replace (clinica.morada, '.*\d{4}-\d{3} ', '') AS localidade,
  medico.especialidade,
  'receita' AS tipo,
  receita.medicamento AS chave,
  receita.quantidade AS valor
FROM
  consulta
  JOIN medico ON consulta.nif = medico.nif
  JOIN clinica ON consulta.nome = clinica.nome
  JOIN receita ON consulta.codigo_sns = receita.codigo_sns;

## 5. Análise de Dados (SQL e OLAP)

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [62]:
%%sql
SELECT
  p.nome,
  ssn,
  MAX(dias_sem_melhoria) AS dias_sem_melhoria
FROM
  (
    SELECT
      h.ssn,
      h.chave,
      (MAX(h.data) - MIN(h.data)) AS dias_sem_melhoria
    FROM
      historial_paciente h
    WHERE
      h.tipo = 'observacao'
      AND h.valor IS NULL
      AND h.especialidade = 'ortopedia'
    GROUP BY
      h.ssn,
      h.chave
  )
  JOIN paciente p USING (ssn)
GROUP BY
  ssn,
  p.nome
ORDER BY
  dias_sem_melhoria DESC
LIMIT
  10;

nome,ssn,dias_sem_melhoria
Priscila Vidal,12391152709,726
Neusa Macedo,11522403520,720
Beatriz Klein,12438510339,720
Catarina Vieira,12382704452,719
Patrícia Ramos,12494101774,707
Cátia Gonçalves,12332138012,702
Washington Antunes,12328191599,701
Zoraide Santos,12367295145,699
Osvaldo Ulhoa,11566412635,694
Matheus Vasconcelos,12432192274,692


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [191]:
%%sql
SELECT DISTINCT
  h.chave AS medicamento
FROM
  historial_paciente h
WHERE
  h.tipo = 'receita'
  AND especialidade = 'cardiologia'
  AND h.data BETWEEN CURRENT_DATE - INTERVAL '1 year' AND CURRENT_DATE
GROUP BY
  h.ssn,
  h.chave
HAVING
  COUNT(DISTINCT h.mes) = 12;

medicamento
Ethinamate
Fonazepam
Gestrinone
Methadone


3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [192]:
%%sql
WITH
  medicamentos AS (
    SELECT mes, dia_do_mes, 
      localidade, h.nome AS clinica,
      h.especialidade, m.nome AS nome_medico,
      chave AS medicamento, valor AS qtd
    FROM historial_paciente h
      JOIN medico m USING (nif)
    WHERE tipo = 'receita'
      AND ano = 2023
  )
SELECT
  medicamento, localidade, clinica, especialidade, nome_medico, mes, dia_do_mes,
  SUM(qtd)
FROM
  medicamentos
GROUP BY
  GROUPING SETS (
    (medicamento),
    (medicamento, localidade),
    (medicamento, localidade, clinica),
    (medicamento, mes),
    (medicamento, mes, dia_do_mes),
    (medicamento, especialidade),
    (medicamento, especialidade, nome_medico)
  )
ORDER BY
  medicamento, localidade, clinica , especialidade, nome_medico, mes, dia_do_mes
;

medicamento,localidade,clinica,especialidade,nome_medico,mes,dia_do_mes,sum
Alfentanil,Carcavelos,Clinica Sabeanas,,,,,291.0
Alfentanil,Carcavelos,,,,,,291.0
Alfentanil,Carregado,Clinica Dentejo,,,,,115.0
Alfentanil,Carregado,,,,,,115.0
Alfentanil,Lisboa,Centro Clinico dos Anjos,,,,,107.0
Alfentanil,Lisboa,Clinica Sorriso Famoso,,,,,465.0
Alfentanil,Lisboa,,,,,,572.0
Alfentanil,Rio de Mouro,Clinica Joaquim Chaves Sintra,,,,,441.0
Alfentanil,Rio de Mouro,,,,,,441.0
Alfentanil,,,neurologia,Erica Tavares,,,691.0


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [193]:
%%sql
WITH
  medicamentos AS (
    SELECT
      h.especialidade, m.nome AS nome_medico,
      h.nome AS clinica,
      chave AS parametro,
      valor
    FROM
      historial_paciente h
      JOIN medico m USING (nif)
    WHERE
      tipo = 'observacao' AND valor IS NOT NULL
  )
SELECT parametro, especialidade, nome_medico, clinica, AVG(valor), STDDEV_POP(valor)
FROM medicamentos
GROUP BY ROLLUP (parametro, especialidade, nome_medico, clinica)
ORDER BY parametro, especialidade DESC, nome_medico DESC, clinica DESC;

parametro,especialidade,nome_medico,clinica,avg,stddev_pop
Batimentos cardíacos por minuto,,,,79.91895320623915,6.698803925642661
Batimentos cardíacos por minuto,ortopedia,,,79.8239327024185,6.446660992429103
Batimentos cardíacos por minuto,ortopedia,Tadeu Kuhn,,79.98112299465241,7.035481984929913
Batimentos cardíacos por minuto,ortopedia,Tadeu Kuhn,Clinica Sabeanas,80.08924999999999,6.959245967595912
Batimentos cardíacos por minuto,ortopedia,Tadeu Kuhn,Clinica Joaquim Chaves Sintra,79.88076923076922,7.547464639546657
Batimentos cardíacos por minuto,ortopedia,Tadeu Kuhn,Centro Clinico dos Anjos,79.90654320987653,6.9379271036129
Batimentos cardíacos por minuto,ortopedia,Paula Nascimento,,79.1993650793651,6.632443237644744
Batimentos cardíacos por minuto,ortopedia,Paula Nascimento,Clinica Sabeanas,78.60178571428571,6.967429354591586
Batimentos cardíacos por minuto,ortopedia,Paula Nascimento,Clinica Joaquim Chaves Sintra,77.98035714285717,6.293563311683079
Batimentos cardíacos por minuto,ortopedia,Paula Nascimento,Clinica Dentejo,80.31489361702127,5.703714307674979


## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
Queremos otimizar a seguinte query: (modificada para aumentar a seletividade de acordo com os dados populados)

In [189]:
%%sql
-- Atualizar as estatísticas para o query planner
VACUUM ANALYZE;

EXPLAIN (ANALYZE, BUFFERS)
SELECT
  paciente.nome
FROM
  paciente
  JOIN consulta USING (ssn)
  JOIN observacao USING (id)
WHERE
  -- ~0,2% de seletividade
  parametro = 'Pressão arterial diastólica'
  AND valor >= 100;

QUERY PLAN
Nested Loop (cost=0.84..2952.42 rows=1164 width=15) (actual time=0.026..3.877 rows=1439 loops=1)
Buffers: shared hit=6658 read=556
-> Nested Loop (cost=0.84..2928.96 rows=1164 width=12) (actual time=0.018..2.721 rows=1439 loops=1)
Buffers: shared hit=3779 read=556
-> Index Only Scan using idx_obs on observacao (cost=0.42..59.70 rows=1164 width=4) (actual time=0.013..0.163 rows=1439 loops=1)
Index Cond: ((parametro = 'Pressão arterial diastólica'::text) AND (valor >= '100'::double precision))
Heap Fetches: 0
Buffers: shared hit=1 read=15
-> Index Only Scan using idx_consulta_sns on consulta (cost=0.42..2.46 rows=1 width=16) (actual time=0.002..0.002 rows=1 loops=1439)
Index Cond: (id = observacao.id)


In [188]:
%%sql
DROP INDEX IF EXISTS idx_obs;
CREATE INDEX idx_obs ON observacao USING BTREE (parametro, valor, id);

DROP INDEX IF EXISTS idx_consulta_sns;
CREATE INDEX idx_consulta_sns ON consulta USING BTREE (id, ssn);

DROP INDEX IF EXISTS idx_paciente_hash;
CREATE INDEX idx_paciente_hash ON paciente USING HASH (ssn);

-- Em caso de número maior de pacientes pode ser benéfico
-- o seguinte índice, que permite Index Only Scans:
DROP INDEX IF EXISTS idx_paciente_nome;
CREATE INDEX idx_paciente_nome ON paciente USING BTREE (ssn, nome);

### Justificação

Sendo que o que queremos filtrar, está na tabela "observacao", é mais prático começar por aí. Queremos um "parametro" = a um certo valor e um "valor" >= a um certo valor.

Uma maneira eficiente para seletividades baixas é com a utilização de um indíce para "observacao" com ("parametro", "valor") como chaves compostas, sendo BTREE a melhor opção, pois queremos uma range de "valor".

Isto deve resultar num Bitmap Index Scan para filtrar o "parametro" e "valor", mas depois teremos de voltar à tabela para obter o "id" da consulta, com um Bitmap Heap Scan.

Mas podemos fazer melhor - Se usarmos um covering index e incluirmos o id no índice, podemos fazer na "observacao" apenas um Index Only Scan!

Depois temos o "id" que já é chave primária de "consulta", e queremos da "consulta" o "ssn", que é chave primária de "paciente" de qual queremos o "nome".

Isto resulta em um Index Scan em "consulta" e depois um Seq Scan em "paciente" (apesar de existir o índice da pkey ssn, poderia ser um Index Scan sobre ssn).

Podemos também tentar evitar acessos à heap de todo, com dois índices novos de chaves compostas ("id", "ssn") em "consulta" e ("ssn", "nome") (B-Tree pois Hash não suporta chaves compostas), isto substituiria os Scans a estas tabelas por Index Only Scans mas na verdade depois de experimentar no query planner, apesar de funcionar para a consulta, o SGBD está a decidir fazer um Seq Scan sobre o paciente (pelo menos para a dimensão de dados que temos, pois 5000 é um número não muito elevado de pacientes), por isso optamos por um HASH sobre o ssn para o paciente, e agora o query planner está a decidir fazer um Index Scan.

Para um número maior de dados é possível haver Index Only Scans.

### 6.2
Queremos otimizar a seguinte query: (modificada para aumentar a seletividade de acordo com os dados populados)

In [153]:
%%sql
-- Atualizar as estatísticas para o query planner se necessário
VACUUM ANALYZE;

EXPLAIN ANALYZE
SELECT
  especialidade,
  SUM(quantidade) AS qtd
FROM
  medico
  JOIN consulta USING (nif)
  JOIN receita USING (codigo_sns)
WHERE
  -- ~1% de seletividade 
  data BETWEEN '2023-01-01' AND '2023-01-07'
GROUP BY
  especialidade
ORDER BY
  qtd;

QUERY PLAN
Sort (cost=4814.92..4814.93 rows=6 width=20) (actual time=4.491..4.492 rows=6 loops=1)
Sort Key: (sum(receita.quantidade))
Sort Method: quicksort Memory: 25kB
-> HashAggregate (cost=4814.78..4814.84 rows=6 width=20) (actual time=4.485..4.487 rows=6 loops=1)
Group Key: medico.especialidade
Batches: 1 Memory Usage: 24kB
-> Nested Loop (cost=1.13..4793.43 rows=4270 width=14) (actual time=0.022..4.035 rows=4183 loops=1)
-> Nested Loop (cost=0.71..134.43 rows=1523 width=25) (actual time=0.016..0.582 rows=1496 loops=1)
-> Index Only Scan using idx_consulta_data on consulta (cost=0.42..72.63 rows=1523 width=23) (actual time=0.008..0.132 rows=1496 loops=1)
Index Cond: ((data >= '2023-01-01'::date) AND (data <= '2023-01-07'::date))


In [152]:
%%sql
DROP INDEX IF EXISTS idx_consulta_data;
CREATE INDEX idx_consulta_data ON consulta USING BTREE (data, codigo_sns, nif);

DROP INDEX IF EXISTS idx_receita;
CREATE INDEX idx_receita ON receita USING BTREE (codigo_sns, quantidade);

-- Em caso de número maior de medicos pode ser benéfico
-- o seguinte índice, que permite Index Only Scans:
DROP INDEX IF EXISTS idx_medico;
CREATE INDEX idx_medico ON medico USING BTREE (nif, especialidade);

### Justificação

Sendo que o que queremos filtrar, está na tabela "consulta", é mais prático começar por aí. Queremos consultas com a "data" dentro de uma range entre duas datas, e também queremos o \"codigo_sns" para a "receita" e "nif" para o "medico", logo, pelas mesmas razões do 6.1 é proveitoso uma chave composta ("data", "codigo_sns", "nif") para obter um Index Only Scan, B-Tree é indicado para esta situação.

Agora precisamos da "quantidade" de "receita" e "especialidade" de "medico", e para isto o SGBD decide fazer Seq Scan a receita e Seq Scan a médico, isto podemos melhorar

Para receita semelhantemente ao 6.1 podemos usar uma BTREE que cobre codigo_sns e quantidade, o que resulta num Index Only Scan.

Para o médico, na verdade o query planner opta por um Seq Scan, em vez de um Index Scan pela primary key 'nif', devido ao número baixo de médicos (60), por isso qualquer índice vai ser pouco benéfico.
Mas como não devemos basear a escolha de índices em particularidades dos dados, podemos fazer um índice para "medico" com chaves ("nif", "especialidade") (B-Tree pois Hash não suporta chaves compostas) e depois de verificar experimentalmente com a inserção de 6000 médicos foi verificado que o query planner de facto escolhe um Index Only Scan.

Assim é possível haver apenas Index Only Scans com um Hash Aggregate sobre especialidade no fim.