# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. Francisco Regateiro

### Grupo 14 - BD25L11
<dl>
    <dt>26 horas (33.3%)</dt>
    <dd>ist1105894 Eduardo Palricas</dd>
    <dt>26 horas (33.3%)</dt>
    <dd>ist1106329 Tiago Santos</dd>
    <dt>26 horas (33.3%)</dt>
    <dd>ist1106427 Martim Rito</dd>
<dl>

In [134]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/saude

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [135]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
    nif CHAR(9) NOT NULL REFERENCES medico,
    nome VARCHAR(80) NOT NULL REFERENCES clinica,
    dia_da_semana SMALLINT,
    PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
    nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
    PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [136]:
%%sql
    
ALTER TABLE consulta 
ADD CONSTRAINT restricaoTempo 
CHECK ((hora BETWEEN '08:00:00' AND '12:30:00' OR hora BETWEEN '14:00:00' AND '18:30:00') 
      AND
      (EXTRACT(MINUTE FROM hora) = 0 OR EXTRACT(MINUTE FROM hora) = 30));

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [137]:
%%sql

CREATE OR REPLACE FUNCTION verifica_auto_consulta() RETURNS TRIGGER AS
$$
DECLARE paciente_nif CHAR(9);
BEGIN
    SELECT nif INTO paciente_nif
    FROM paciente
    WHERE
        paciente.ssn = NEW.ssn;
    
    IF paciente_nif = NEW.nif THEN
            RAISE EXCEPTION 'Médico não se pode consultar a si próprio.';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;


CREATE OR REPLACE TRIGGER verifica_auto_consulta_trigger
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION verifica_auto_consulta();


(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [138]:
%%sql

CREATE OR REPLACE FUNCTION verifica_clinica() RETURNS TRIGGER AS
$$
DECLARE nome_clinica VARCHAR(80);
BEGIN
    SELECT nome INTO nome_clinica
    FROM trabalha
    WHERE
        trabalha.nif = NEW.nif
        AND
        trabalha.dia_da_semana = EXTRACT(DOW FROM NEW.data);
    
    IF nome_clinica != NEW.nome THEN
            RAISE EXCEPTION 'Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta.';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;


CREATE OR REPLACE TRIGGER verifica_clinnica_trigger
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION  verifica_clinica();


## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

1) Endpoint "/" (GET):<br>
A função que executamos neste endpoint é a 'listaClinicas' que executa uma query SELECT que lista o nome e morada de todas as clinicas do banco de dados

2) Endpoint: "/c/\<clinica\>" (GET):<br>
A função que executamos neste endpoint é a 'listaEspecialidadesClinica' que verifica se a clínica existe (retornando uma mensagem de erro se não existir) e executa uma query SELECT que lista todas as especialidades de médicos que trabalham na clinica, consultando as tabelas medico, trabalha e clinica para este efeito

3) Endpoint: "/c/\<clinica\>/\<especialidade\>" (GET):<br>
A função que executamos neste endpoint é a 'listaMedicosSlots' que verifica se a clínica e a especialidade existem (retornando uma mensagem de erro se alguma delas não existir) e executa uma query SELECT para guardar, num dicionário, as informações dos médicos que trabalham nessa clínica e nessa especialidade (associando a cada chave (nif,nome do médico) a lista dos dias da semana em que este trabalha na correspondente clinica e especialidade).<br>
De seguida, para cada médico, executamos outra query SELECT que seleciona os primeiros 3 horários disponíveis para marcação de consulta para esse medico na clinica e na especialidade correspondente (subtraindo a todos os horários possíveis (tabela calendario filtrada pelos dias da semana correspondentes ao medico no dicionario) aqueles em que ele já tem marcação)

4) Endpoint: "/a/\<clinica\>/marcar" (POST):<br>
A função que executamos neste endpoint é a 'marcaConsulta' que verifica se a clínica existe e os dados de input (existencia do medico, do paciente e não existencia de consulta para o medico ou para o paciente a essa hora e data, retornando uma mensagem de erro caso alguma destas condições não se verifique) e executa uma query INSERT na tabela das consultas, adicionando uma consulta com esse paciente, médico, clínica e horário.

5) Endpoint: "/a/\<clinica\>/desmarcar" (POST):<br>
A função que executamos neste endpoint é a 'cancelarConsulta' que verifica se a clínica existe e os dados de input (existencia do medico, do paciente e existencia de consulta para o medico, paciente, horario e clinica, retornando uma mensagem de erro caso alguma destas condições não se verifique) e realiza uma transação onde se executam quatro queries.<br>
A primeira é um SELECT que vai buscar o id e condigo_sns da consulta correspondente aos dados do input.<br>
A segunda apaga todas as observações associadas a essa consulta (tabela observação onde o id é o correspondente à consulta).<br>
A terceira apaga todas as receitas associadas à consulta (tabela receita onde o codigo_sns é o 
correspondente à consulta).<br>
A quarta apaga a própria consulta (tabela consulta com o id correspondente).
Note-se que não basta apagar a própria consulta, mas também todos os dados de outras tabelas associados a
essa consulta. Para além disso, executamos estas quatro queries numa só transação para, a nenhum momento, termos dados inconsistentes nas tabelas.

## 3. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [142]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS historial_paciente;

CREATE MATERIALIZED VIEW historial_paciente AS
SELECT
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    SUBSTRING(cl.morada FROM LENGTH(cl.morada) - POSITION('-' IN REVERSE(cl.morada)) + 6) AS localidade,
    m.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave,
    o.valor
FROM
    consulta c
JOIN
    observacao o ON c.id = o.id
JOIN
    clinica cl ON c.nome = cl.nome
JOIN
    medico m ON c.nif = m.nif

UNION ALL

SELECT
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    SUBSTRING(cl.morada FROM LENGTH(cl.morada) - POSITION('-' IN REVERSE(cl.morada)) + 6) AS localidade,
    m.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave,
    r.quantidade AS valor
FROM
    consulta c
JOIN
    receita r ON c.codigo_sns = r.codigo_sns
JOIN
    clinica cl ON c.nome = cl.nome
JOIN
    medico m ON c.nif = m.nif;


## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [159]:
%%sql

SELECT DISTINCT ssn, (MAX(data) - MIN(data)) AS intervalo_progresso
FROM historial_paciente
WHERE especialidade='ortopedia' AND tipo='observacao' AND valor IS NULL
GROUP BY ssn, chave
HAVING MAX(data) - MIN(data) >= ALL(
    SELECT MAX(data) - MIN(data)
    FROM historial_paciente
    WHERE especialidade='ortopedia' AND tipo='observacao' AND valor IS NULL
    GROUP BY ssn, chave
    );

ssn,intervalo_progresso
465522333,500
2932970295,500
6652953004,500
9034146379,500
9203734084,500
12851548549,500
20106421458,500
21640582904,500
26064397309,500
26149662839,500


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante pelo menos doze meses consecutivos, em consultas de cardiologia.

In [144]:
%%sql

WITH consultas_cardiologia AS (
    SELECT
        chave,
        ssn,
        COUNT(DISTINCT mes) AS numero_meses
    FROM
        historial_paciente
    WHERE
        tipo = 'receita' AND
        especialidade = 'cardiologia' AND
        data >= CURRENT_DATE - INTERVAL '1 year' AND
        NOT (mes = EXTRACT(MONTH FROM CURRENT_DATE) AND ano != EXTRACT(YEAR FROM CURRENT_DATE))
    GROUP BY
        chave, ssn
)

SELECT DISTINCT chave AS medicamento
FROM 
   consultas_cardiologia 
WHERE numero_meses = 12;

medicamento


3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [145]:
%%sql
WITH historial_paciente_com_nome_medico AS (
    SELECT id, chave AS medicamento, localidade, hp.nome AS clinica, mes, dia_do_mes, hp.especialidade, medico.nome AS nome_medico, valor
    FROM
        historial_paciente hp JOIN medico USING(nif)
    WHERE tipo='receita' AND ano=2023
)

SELECT medicamento, mes, dia_do_mes, localidade, clinica, especialidade, nome_medico, SUM(valor) AS qtd_total_receitadas
FROM
    historial_paciente_com_nome_medico
GROUP BY GROUPING SETS(
    (medicamento), 
    (medicamento, localidade), (medicamento, localidade, clinica),
    (medicamento, mes), (medicamento, mes, dia_do_mes),
    (medicamento, especialidade), (medicamento, especialidade, nome_medico)
    )
ORDER BY medicamento, mes, dia_do_mes, localidade, clinica, especialidade, nome_medico;

medicamento,mes,dia_do_mes,localidade,clinica,especialidade,nome_medico,qtd_total_receitadas
Amlodipino,1,1.0,,,,,30.0
Amlodipino,1,2.0,,,,,32.0
Amlodipino,1,3.0,,,,,49.0
Amlodipino,1,4.0,,,,,43.0
Amlodipino,1,5.0,,,,,45.0
Amlodipino,1,6.0,,,,,36.0
Amlodipino,1,7.0,,,,,44.0
Amlodipino,1,8.0,,,,,39.0
Amlodipino,1,9.0,,,,,39.0
Amlodipino,1,10.0,,,,,36.0


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [146]:
%%sql

WITH historial_paciente_com_nome_medico_2 AS (
    SELECT id, hp.nome AS clinica, hp.especialidade, medico.nome AS nome_medico, valor 
    FROM
        historial_paciente hp JOIN medico USING(nif) 
    WHERE valor IS NOT NULL
)

SELECT especialidade, nome_medico, clinica, AVG(valor) AS qtd_media, STDDEV(valor) AS desvio_padrao_qtd
FROM
    historial_paciente_com_nome_medico_2
GROUP BY GROUPING SETS(
    (), (especialidade), (especialidade, nome_medico),
    (clinica), (especialidade, clinica), (especialidade, nome_medico, clinica)
    ) 
ORDER BY especialidade, nome_medico, clinica;


especialidade,nome_medico,clinica,qtd_media,desvio_padrao_qtd
cardiologia,Anita Vicente,Cuf,22.65486145069272,50.94999722597545
cardiologia,Anita Vicente,Joaquim Chaves,22.24766460905352,50.11757151923623
cardiologia,Anita Vicente,,22.47487266939516,50.57841240607428
cardiologia,Bianca Amaral-Fernandes,Cuf,22.196048856145765,49.67502327692626
cardiologia,Bianca Amaral-Fernandes,Joaquim Chaves,22.77148787061994,50.89830083174202
cardiologia,Bianca Amaral-Fernandes,,22.4367884528642,50.185515491428745
cardiologia,Carolina da Reis,Cuf,23.06577120315581,51.16785130228918
cardiologia,Carolina da Reis,Joaquim Chaves,23.80731681602529,51.79171707335479
cardiologia,Carolina da Reis,,23.38317012635382,51.43129114298575
cardiologia,Eduardo Figueiredo,Cuf,22.917480916030527,51.38858367493987


## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [147]:
%%sql

CREATE INDEX idx_param_valor ON observacao (parametro, valor);

### Justificação

Em relação ao filtro aplicado na query, as linhas da tabela observacao são filtradas considerando-se só aquelas com parametro = ‘pressão diastólica’ e valor >= 9. Como inicialmente não temos índice para parametro e valor em observacao, para executar esta operação temos de fazer uma leitura sequencial da tabela (Seq Scan), onde filtramos muitas linhas, o que nos leva a criar o índice: (parametro, valor) nessa tabela. Este índice deve ser B-Tree, já que temos uma filtragem por range, e deve ser criado por essa ordem de atributos já que o atributo que usamos para a restrição de igualdade é parametro. 

Desta forma, usamos o índice, realizando-se um Bitmap Index Scan (lendo-se sequencialmente o índice de forma a criar um Bitmap para a condição do filtro, indicando-se as linhas que seguem essas condições) e de seguida usamos um Bitmap Heap Scan (para ler as linhas da tabela que satisfazem o filtro, usando-se o Bitmap Index Scan como base). 

Assim, não precisamos de consultar todas as linhas da tabela e verificar se estas seguem a condição do filtro, tornando esta operação mais eficiente.

Considerando agora as operações de Join (entre a tabela observação e consulta usando o id e entre a tabela resultante e o paciente usando o ssn) não se tira grande proveito da criação de índices para o ssn na tabela consulta nem para o id na tabela observação (note-se que já existe um índice de chave composta com os atributos id e parametro nesta tabela). Isto deve-se ao facto de que é usado um Hash Join para executar os JOINs (tanto com índices como sem) e este não tira grande vantagem dos índices, já que, são criadas tabelas de Hash para as tabelas mais pequenas (observacao e paciente) e as tabelas maiores (consulta e o resultado do primeiro JOIN) são percorridas, calculando para cada valor do atributo que se usa para o JOIN, o Hash que é usado para procurar a correspondência na outra tabela, e nenhuma destas operações tira grande vantagem na criação dos índices.

Além disso, todos os outros índices que poderíamos criar envolvendo os atributos desta query já existem, ou por serem chave primária ou por serem atributo único da tabela.

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

In [148]:
%%sql

CREATE INDEX idx_data ON consulta (data);

### Justificação

Comecemos por considerar o filtro feito na tabela consulta (data BETWEEN '2023-01-01' AND '2023-12-31'). Sem a criação do índice, para executar esta operação e ler as linhas que estão de acordo com o filtro, usa-se uma leitura sequencial da tabela (Seq Scan). Ao criarmos o índice B-Tree (já que o filtro é por range) na tabela consulta para o atributo data, apesar de, para os nossos dados o tempo não ter melhorado de forma significativa (devido ao facto de quase todas as consultas serem no ano de 2023, ou seja, a condição tem baixa seletividade), como podemos partir do presuposto que todos os filtros têm alta seletividade, a criação deste índice vai tornar esta operação mais eficiente, pois seria feito um Index Scan usando este índice.

Considere-se agora as operações JOIN. Como já foi referido no ponto anterior, a criação de índices nas operações de Hash Join não trazem grande eficiencia e por isso não é justificada, nem para o codigo_sns na tabela receita nem para o nif na tabela consulta. Note-se que já existe o índice de chave composta para os atributos codigo_sns e medicamento na tabela receita por ser chave primária e, para os outros atributos relacionados aos JOINs, também já existem índices, uma vez que nif é chave primária de medico e codigo_sns é único em consulta.  

Considere-se agora o atributo especialidade da tabela medico que se usa no GROUP BY. Poderia ser benéfico criar um indice para este atributo de forma a facilitar o agrupamento na execução desta operação, pois poderíamos usar o índice para verificar, para cada um dos valores de especialidade, as linhas correspondentes a este valor de forma a tornar a operação mais eficiente. No entanto, ao criarmos este índice, verificámos que o tempo não melhorou e o plano de execução não foi alterado, não se fazendo uso do índice. Isto porque o GROUP BY só é executado depois das operações JOIN e do WHERE o que faz com que a criação do índice já não seja benéfica devido a esta tabela já não corresponder à tabela em que o índice foi inicialmente criado. No entanto, se o GROUP BY fosse executado na própria tabela medico ou numa tabela pouco modificada, poder-se-ia obter outros resultados onde já se tiraria proveito da criação do índice.

Finalmente, considere-se o atributo quantidade da tabela receita que é agregado. Não é benéfico criar um índice para quantidade individualmente já que a agregação é calculada com GROUP BY (o que faz com que o índice perca a sua utilidade) e não conseguimos criar um índice de chave composta com quantidade e especialidade porque estes não são da mesma tabela. Só seria vantajoso criar um índice para o atributo que é usado na agregação se não houvesse agrupamento ou conseguíssemos criar um índice de chave composta com o atributo que usamos para agrupar e o atributo que usamos para agregar.