# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. Franscisco Regateiro

### Grupo 47
<dl>
    <dt>4 horas (33.3%)</dt>
    <dd>ist1103561 Tiago Cardoso</dd>
    <dt>4 horas (33.3%)</dt>
    <dd>ist1106266 Filipe Costa</dd>
    <dt>4 horas (33.3%)</dt>
    <dd>ist1106583 Francisco Mónica</dd>
<dl>

In [84]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://saude:saude@postgres/saude

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);

-- Criação da tabela auxiliar utilizada para selecionar os horários disponíveis dos médicos no ponto 3
-- Cria todos os horários possíveis em 2024 (para cada dia, das 08:00:00 até às 13:00:00 e das 14:00:00
-- até às 19:00:00 em intervalos de meia hora, como especificado no enunciado)
CREATE TABLE datas AS (
    SELECT
        serie::date AS data, serie::time as hora
    FROM
        generate_series(timestamp '2024-01-01', timestamp '2024-12-31', interval '30 min') AS serie
    WHERE
        ((serie::time BETWEEN '08:00:00' AND '12:30:00') OR
        (serie::time BETWEEN '14:00:00' AND '18:30:00')) AND
        serie::timestamp > NOW()::timestamp
);

## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql
-- (RI-1)
ALTER TABLE consulta ADD CONSTRAINT verifica_hora
	CHECK(EXTRACT(SECOND FROM hora) = 0	AND
		(EXTRACT(MINUTE FROM hora) = 0 OR EXTRACT(MINUTE FROM hora) = 30) AND
		(hora BETWEEN '08:00:00' AND '12:30:00' OR hora BETWEEN '14:00:00' AND '18:30:00'));

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql
-- (RI-2)
CREATE OR REPLACE FUNCTION verifica_auto_consulta() RETURNS TRIGGER AS
$$
BEGIN
	IF NEW.nif = (SELECT nif FROM paciente WHERE ssn = NEW.ssn) THEN
		RAISE EXCEPTION 'O médico % não pode consultar-se a si próprio.', NEW.nif;
	END IF;
	RETURN NEW;
END;
$$
LANGUAGE plpgsql;

DROP TRIGGER IF EXISTS proibe_auto_consulta ON consulta;
CREATE CONSTRAINT TRIGGER proibe_auto_consulta
    AFTER INSERT OR UPDATE ON consulta
    FOR EACH ROW EXECUTE FUNCTION verifica_auto_consulta();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
-- (RI-3)
CREATE OR REPLACE FUNCTION verifica_local_trabalho() RETURNS TRIGGER AS
$$
BEGIN
	IF NEW.nome != (SELECT nome FROM trabalha WHERE nif = NEW.nif
		AND dia_da_semana = EXTRACT(DOW FROM NEW.data)) THEN
		RAISE EXCEPTION 'O médico % não trabalha na clínica % no dia %',
			NEW.nif, NEW.nome, NEW.data;
	END IF;
	RETURN NEW;
END;
$$
LANGUAGE plpgsql;

DROP TRIGGER IF EXISTS proibe_consultas_fora_clinica ON consulta;
CREATE CONSTRAINT TRIGGER proibe_consultas_fora_clinica 
	AFTER INSERT OR UPDATE ON consulta
	FOR EACH ROW EXECUTE FUNCTION verifica_local_trabalho();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

...

## 3. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano*, *mes* e *dia_do_mes*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [3]:
%%sql
CREATE MATERIALIZED VIEW IF NOT EXISTS historial_paciente AS
    SELECT
        con.id AS id, con.ssn AS ssn, con.nif AS nif, con.nome AS nome, con.data AS data,
        EXTRACT(YEAR FROM con.data) AS ano, EXTRACT(MONTH FROM con.data) AS mes, EXTRACT(DAY FROM con.data) AS dia_do_mes,
        cli.morada AS localidade,
        med.especialidade AS especialidade,
        'observacao' AS tipo,
        obs.parametro AS chave,
        obs.valor AS valor
    FROM
        consulta con INNER JOIN clinica cli ON con.nome = cli.nome
        INNER JOIN medico med ON con.nif = med.nif 
        INNER JOIN observacao obs ON con.id = obs.id
    UNION
    SELECT
        con.id AS id, con.ssn AS ssn, con.nif AS nif, con.nome AS nome, con.data AS data,
        EXTRACT(YEAR FROM con.data) AS ano, EXTRACT(MONTH FROM con.data) AS mes, EXTRACT(DAY FROM con.data) AS dia_do_mes,
        cli.morada AS localidade,
        med.especialidade AS especialidade,
        'receita' AS tipo,
        rec.medicamento AS chave,
        rec.quantidade AS valor
    FROM
        consulta con INNER JOIN clinica cli ON con.nome = cli.nome
        INNER JOIN medico med ON con.nif = med.nif 
        INNER JOIN receita rec ON con.codigo_sns = rec.codigo_sns;

## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [81]:
%%sql
REFRESH MATERIALIZED VIEW historial_paciente;
SELECT DISTINCT ssn
FROM historial_paciente
WHERE especialidade = 'ortopedia' AND tipo = 'observacao' AND valor IS NULL
GROUP BY ssn, chave
HAVING MAX(data) - MIN(data) >= ALL (
    SELECT MAX(data) - MIN(data)
    FROM historial_paciente
    WHERE especialidade = 'ortopedia' AND tipo = 'observacao' AND valor IS NULL
    GROUP BY ssn, chave
);

ssn
32790357928
35526350773


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [80]:
%%sql
REFRESH MATERIALIZED VIEW historial_paciente;
SELECT DISTINCT chave AS medicamento
FROM historial_paciente
WHERE especialidade = 'cardiologia' AND tipo = 'receita' AND
    data BETWEEN (CURRENT_DATE - interval '1 year') AND CURRENT_DATE
GROUP BY ssn, chave
HAVING COUNT(data) >= 12;

medicamento
vinho


3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [85]:
%%sql
REFRESH MATERIALIZED VIEW historial_paciente;
SELECT
    SUBSTRING(localidade FROM '[0-9]{4}-[0-9]{3} (.+)$') AS localidade_clinica, h.nome,
    mes, dia_do_mes,
    h.especialidade, m.nome AS nome_medico,
    chave AS medicamento, SUM(valor) AS quantidade_total
FROM
    historial_paciente h INNER JOIN medico m USING(nif)
WHERE
    tipo = 'receita' AND ano = 2023
GROUP BY medicamento, GROUPING SETS (ROLLUP(localidade_clinica, h.nome),
                              (mes), (mes, dia_do_mes),
                              (h.especialidade), (h.especialidade, nome_medico));

localidade_clinica,nome,mes,dia_do_mes,especialidade,nome_medico,medicamento,quantidade_total
Bobadela,Clínica C,,,,,Adderall,954.0
Bobadela,Clínica D,,,,,Adderall,897.0
Bobadela,,,,,,Adderall,1851.0
Moscavide,Clínica A,,,,,Adderall,948.0
Moscavide,Clínica B,,,,,Adderall,953.0
Moscavide,,,,,,Adderall,1901.0
Odivelas,Clínica E,,,,,Adderall,935.0
Odivelas,,,,,,Adderall,935.0
,,,,,,Adderall,4687.0
Bobadela,Clínica C,,,,,Advil,503.0


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [86]:
%%sql
REFRESH MATERIALIZED VIEW historial_paciente;
SELECT
    chave AS parametro, h.especialidade, m.nome AS nome_medico, h.nome,
    AVG(valor) AS media, STDDEV(valor) AS desvio_padrao
FROM
    historial_paciente h INNER JOIN medico m USING(nif)
WHERE
    tipo = 'observacao' AND valor IS NOT NULL
GROUP BY parametro, ROLLUP(h.especialidade, m.nome, h.nome);

parametro,especialidade,nome_medico,nome,media,desvio_padrao
colesterol total,cardiologia,Igor Silva,Clínica A,50.447050897712685,34.26350155609049
colesterol total,cardiologia,Igor Silva,Clínica B,52.9686254204476,22.537650353071456
colesterol total,cardiologia,Igor Silva,Clínica C,47.143351354027615,31.88897515039336
colesterol total,cardiologia,Igor Silva,Clínica D,45.21389392203725,28.10031076330684
colesterol total,cardiologia,Igor Silva,Clínica E,55.07979471059791,29.12889522133795
colesterol total,cardiologia,Igor Silva,,49.34203212139264,29.183628363734336
colesterol total,cardiologia,Lisandro Correia,Clínica A,52.89968784011404,30.507032339153326
colesterol total,cardiologia,Lisandro Correia,Clínica B,45.46558793553691,30.04246991848964
colesterol total,cardiologia,Lisandro Correia,Clínica C,61.13261447441172,27.090617932317983
colesterol total,cardiologia,Lisandro Correia,Clínica D,43.85788156856959,33.1781194214382


## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql
-- Ao utilizar um índice conjunto b-tree em (parametro, valor) na tabela observacao, o query apresentado
-- é mais eficiente a aplicar o filtro "WHERE parametro = 'pressão diastólica' AND valor >= 9" pois passa
-- de um Sequential Scan na tabela observacao para um Index Scan.
DROP INDEX IF EXISTS observacao_val_par;
CREATE INDEX observacao_val_par ON observacao (parametro, valor);

### Justificação

...

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
ORDER BY qtd;

In [None]:
%%sql
DROP INDEX IF EXISTS consulta_data;
CREATE INDEX consulta_data ON consulta (data);

DROP INDEX IF EXISTS medico_esp;
CREATE INDEX medico_esp ON medico (especialidade);

### Justificação

...