# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. Daniel Faria

### Grupo 39
<dl>
    <dt>20 horas (33.3%)</dt>
    <dd>ist199417 Henrique Luz</dd>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1106481 Vasco Conceição</dd>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1107273 Nuno Martins</dd>
<dl>

In [368]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 1000
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [369]:
%%sql

-- Terminate active connections
SELECT pg_terminate_backend(pid)
FROM pg_stat_activity
WHERE datname = 'saude' AND pid <> pg_backend_pid();

-- Drop the database
DROP DATABASE IF EXISTS saude;

-- Drop the user
DROP USER IF EXISTS saude;

In [370]:
%%sql

-- Terminate active connections
-- SELECT pg_terminate_backend(pid)
-- FROM pg_stat_activity
-- WHERE datname = 'saude' AND pid <> pg_backend_pid();

-- Drop the database
-- DROP DATABASE IF EXISTS saude;

-- Drop the user
-- DROP USER IF EXISTS saude;

-- Create the user
CREATE USER saude WITH PASSWORD 'saude';

-- Create the database
CREATE DATABASE saude WITH OWNER = saude ENCODING = 'UTF8';

-- Grant privileges
GRANT ALL ON DATABASE saude TO saude;

In [371]:
%sql postgresql+psycopg://saude:saude@postgres/saude

In [372]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
    nif CHAR(9) NOT NULL REFERENCES medico,
    nome VARCHAR(80) NOT NULL REFERENCES clinica,
    dia_da_semana SMALLINT,
    PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
    nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
    PRIMARY KEY (id, parametro)
);

## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [373]:
%%sql
-- (RI-1)

ALTER TABLE consulta
ADD CONSTRAINT RI_1 CHECK(((EXTRACT(HOUR FROM hora) >= 8 AND EXTRACT(HOUR FROM hora) < 13) OR (EXTRACT(HOUR FROM hora) >= 14 AND EXTRACT(HOUR FROM hora) < 19)) AND EXTRACT(MINUTE FROM hora) IN (0, 30) AND EXTRACT(SECOND FROM hora) = 0);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [374]:
%%sql
-- (RI-2)

CREATE OR REPLACE FUNCTION check_medico_paciente() RETURNS TRIGGER AS $$
  DECLARE nif_medico CHAR(9);
  BEGIN
    SELECT nif INTO nif_medico
      FROM paciente
      WHERE paciente.ssn = NEW.ssn;
    IF NEW.nif = nif_medico THEN
      RAISE EXCEPTION 'O médico não se pode consultar a si próprio.';
    END IF;
    RETURN NEW;
  END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER check_medico_paciente_trigger AFTER INSERT ON consulta
    FOR EACH ROW EXECUTE FUNCTION check_medico_paciente();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [375]:
%%sql
-- (RI-3)
    
CREATE OR REPLACE FUNCTION check_medico_clinica() RETURNS TRIGGER AS $$
  DECLARE clinica_dia_da_semana VARCHAR(80);
  BEGIN
    SELECT nome INTO clinica_dia_da_semana
      FROM trabalha
      WHERE trabalha.nif = NEW.nif AND trabalha.dia_da_semana = EXTRACT(DOW FROM NEW.data);
    IF clinica_dia_da_semana != NEW.nome THEN
      RAISE EXCEPTION 'Neste dia da semana o médico não dá consultas nesta clínica.';
    END IF;
    RETURN NEW;
  END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER check_medico_clinica_trigger AFTER INSERT ON consulta
    FOR EACH ROW EXECUTE FUNCTION check_medico_clinica();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

|Endpoint|Função|
|--------|---------|
|/|lista_clinicas|
|/c/\<clinica>/|lista_especialidades_clinica|
|/c/\<clinica>/\<especialidade>/|lista_medicos_especialidade_clinica|
|/a/\<clinica>/registar/|regista_consulta_clinica|
|/a/\<clinica>/cancelar/|cancela_consulta_clinica|

## 4 . Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [376]:
%%sql

DROP MATERIALIZED VIEW IF EXISTS historial_paciente CASCADE;

CREATE MATERIALIZED VIEW historial_paciente AS
SELECT c.id, c.ssn, c.nif, c.nome, c.data, EXTRACT(YEAR FROM c.data) AS ano, EXTRACT(MONTH FROM c.data) AS mes, EXTRACT(DAY FROM c.data) AS dia_do_mes, SUBSTRING(cl.morada FROM '[0-9]{4}-[0-9]{3}\s(.*)') AS localidade, m.especialidade, 'receita' AS tipo, r.medicamento AS chave, r.quantidade AS valor
FROM consulta c JOIN paciente p ON c.ssn = p.ssn
                JOIN medico m ON c.nif = m.nif
                JOIN clinica cl ON c.nome = cl.nome
                JOIN receita r ON c.codigo_sns = r.codigo_sns
UNION
SELECT c.id, c.ssn, c.nif, c.nome, c.data, EXTRACT(YEAR FROM c.data) AS ano, EXTRACT(MONTH FROM c.data) AS mes, EXTRACT(DAY FROM c.data) AS dia_do_mes, SUBSTRING(cl.morada FROM '[0-9]{4}-[0-9]{3}\s(.*)') AS localidade, m.especialidade, 'observacao' AS tipo, o.parametro AS chave, o.valor AS valor
FROM consulta c JOIN paciente p ON c.ssn = p.ssn
                JOIN medico m ON c.nif = m.nif
                JOIN clinica cl ON c.nome = cl.nome
                JOIN observacao o ON c.id = o.id;

## 5. Análise de Dados (SQL e OLAP)

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [None]:
%%sql

SELECT ssn
FROM historial_paciente hp1 JOIN historial_paciente hp2 USING (ssn, especialidade, chave)
WHERE hp1.id != hp2.id AND especialidade = 'Ortopedia' AND hp1.valor IS NULL AND hp1.data - hp2.data >= ALL(
    SELECT hp3.data - hp4.data
    FROM historial_paciente hp3 JOIN historial_paciente hp4 USING (ssn, especialidade, chave)
    WHERE hp3.id != hp4.id AND especialidade = 'Ortopedia' AND hp3.valor IS NULL
);

2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [None]:
%%sql

SELECT DISTINCT hp1.chave
FROM historial_paciente hp1
WHERE NOT EXISTS (
    SELECT DISTINCT hp2.mes
    FROM historial_paciente hp2
    EXCEPT
    SELECT DISTINCT hp3.mes
    FROM historial_paciente hp3
    WHERE hp3.ssn = hp1.ssn AND hp3.chave = hp1.chave AND hp3.especialidade = 'Cardiologia' AND hp3.tipo = 'receita' AND (hp3.data BETWEEN now() - interval '1 year' AND now()) 
);

3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [None]:
%%sql

SELECT chave, localidade, t.nome AS nome_clinica, mes, dia_do_mes, hp.especialidade, m.nome AS nome_medico, SUM(valor)
FROM historial_paciente hp JOIN trabalha t USING (nif) JOIN medico m USING (nif)
WHERE tipo = 'receita' AND ano = 2023 AND EXTRACT(DOW FROM data) = t.dia_da_semana
GROUP BY GROUPING SETS((chave), (chave, localidade, t.nome), (chave, mes, dia_do_mes), (chave, hp.especialidade, m.nome));

4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [None]:
%%sql

SELECT hp.especialidade, m.nome AS nome_medico, hp.nome AS nome_clinica, AVG(valor) AS valor_medio, STDDEV_POP(valor) AS desvio_padrao
FROM historial_paciente hp JOIN medico m USING (nif)
WHERE valor IS NOT NULL
GROUP BY hp.especialidade, m.nome, hp.nome;

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [271]:
%%sql
CREATE INDEX idx_observacao_param_valor ON observacao (parametro, valor);

In [284]:
%%sql

EXPLAIN ANALYSE SELECT paciente.nome
FROM paciente JOIN consulta USING (ssn) JOIN observacao USING (id)
WHERE parametro = 'Pressão arterial diastólica' AND valor >= 100;

QUERY PLAN
Nested Loop (cost=1322.49..4356.60 rows=533 width=22) (actual time=0.049..0.052 rows=0 loops=1)
-> Hash Join (cost=1322.21..4194.37 rows=533 width=12) (actual time=0.049..0.051 rows=0 loops=1)
Hash Cond: (consulta.id = observacao.id)
-> Seq Scan on consulta (cost=0.00..2576.87 rows=112487 width=16) (actual time=0.007..0.008 rows=1 loops=1)
-> Hash (cost=1315.55..1315.55 rows=533 width=4) (actual time=0.034..0.035 rows=0 loops=1)
Buckets: 1024 Batches: 1 Memory Usage: 8kB
-> Bitmap Heap Scan on observacao (cost=21.89..1315.55 rows=533 width=4) (actual time=0.033..0.034 rows=0 loops=1)
Recheck Cond: (((parametro)::text = 'Pressão arterial diastólica'::text) AND (valor >= '100'::double precision))
-> Bitmap Index Scan on idx_observacao_param_valor (cost=0.00..21.75 rows=533 width=0) (actual time=0.031..0.031 rows=0 loops=1)
Index Cond: (((parametro)::text = 'Pressão arterial diastólica'::text) AND (valor >= '100'::double precision))


### Justificação

Como ssn é PK de paciente e id é PK de observação não é necessário nenhum índice adicional para o JOIN. Mas os filtros parametro e valor beneficiam de um índice. Há igualdade no campo parametro, pelo que deve ser o primeiro num eventual índice. Há a operação de range sobre valor. Assim, a ordem correta do índice a usar é (parametro, valor). É um índice B-Tree de chave composta, dado poder ser vantajoso para consultas que requerem várias comparações, como acontece no WHERE.
Utilizando a ferramenta EXPLAIN ANALYSE, obtemos os resultados seguintes:

|Variante|Tempo de planeamento|Tempo de execução|Tempo total|
|--------|---------|---------|---------|
|sem índice|0.63|35.32|35.95|
|com índice|0.65|0.091|0.751|

Verificamos então que reduzimos o bastante o tempo, indo ao encontro das previsões teóricas. Foi uma boa escolha de índice!

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

Como codigo_ssn não é PK de receita e nif não é PK de consulta, claramente beneficiam de um índice para o JOIN. É um índice B-Tree, usado para otimizar a junção de tabelas com as keys referidas.
Para a procura em range, o tipo de índice indicado é o B-Tree, cujo propósito é acelerar a filtragem das linhas no intervalo de datas especificado.
Agrupar por especialidade beneficia de um índice. É um índice B-Tree.

In [419]:
%%sql

CREATE INDEX idx_medico_nif_especialidade ON medico(nif, especialidade);
CREATE INDEX idx_receita_codigo_sns_qtd ON receita(codigo_sns, quantidade);

In [412]:
%%sql

EXPLAIN ANALYSE SELECT especialidade, SUM(quantidade) AS qtd
FROM medico JOIN consulta USING (nif) JOIN receita USING (codigo_sns)
WHERE data BETWEEN '2023-01-01' AND '2023-12-31'
GROUP BY especialidade
ORDER BY qtd;

QUERY PLAN
Sort (cost=7216.79..7216.81 rows=6 width=20) (actual time=72.393..75.431 rows=6 loops=1)
Sort Key: (sum(receita.quantidade))
Sort Method: quicksort Memory: 25kB
-> Finalize GroupAggregate (cost=7215.93..7216.71 rows=6 width=20) (actual time=72.384..75.425 rows=6 loops=1)
Group Key: medico.especialidade
-> Gather Merge (cost=7215.93..7216.62 rows=6 width=20) (actual time=72.378..75.417 rows=12 loops=1)
Workers Planned: 1
Workers Launched: 1
-> Sort (cost=6215.92..6215.94 rows=6 width=20) (actual time=69.887..69.890 rows=6 loops=2)
Sort Key: medico.especialidade


### Justificação

O índice é B-Tree. É de chave composta por ter duas chaves.