# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. João Caldeira

### Grupo 65
<dl>
    <dt>14h (33.3%)</dt>
    <dd>ist102935 Inês Cadete</dd>
    <dt>14h (33.3%)</dt>
    <dd>ist107447 Paulo Espírito Santo</dd>
    <dt>14h (33.3%)</dt>
    <dd>ist73142 Tiago Marques</dd>
<dl>

In [None]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql

CREATE OR REPLACE FUNCTION verifica_tempo_consulta()
RETURNS TRIGGER AS
$$
BEGIN
    IF NOT (NEW.hora::time BETWEEN '08:00:00' AND '13:00:00' OR NEW.hora::time BETWEEN '14:00:00' AND '19:00:00')
        OR (EXTRACT(MINUTE FROM NEW.hora) NOT IN (0, 30)) THEN
        RAISE EXCEPTION 'Cada consulta apenas pode estar marcada para a hora certa ou a meio da hora, entre as 8h-13h e as 14h-19h';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

DROP TRIGGER IF EXISTS verifica_tempo_consulta ON consulta;

CREATE CONSTRAINT TRIGGER verifica_tempo_consulta
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION verifica_tempo_consulta();


(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql

CREATE OR REPLACE FUNCTION verifica_medico_seu_paciente()
RETURNS TRIGGER AS
$$
BEGIN
    IF NEW.ssn = (SELECT ssn FROM paciente WHERE nif = NEW.nif) THEN
        RAISE EXCEPTION 'Um medico nao pode dar se uma consulta a si mesmo';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

DROP TRIGGER IF EXISTS verifica_medico_seu_paciente() ON consulta;

CREATE CONSTRAINT TRIGGER verifica_medico_seu_paciente
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION verifica_medico_seu_paciente();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
CREATE OR REPLACE FUNCTION verifica_disp_medico()
RETURNS TRIGGER AS
$$
BEGIN
    IF NOT EXISTS (
        SELECT 1
        FROM trabalha
        WHERE trabalha.nif = NEW.nif
        AND trabalha.nome = NEW.nome
        AND trabalha.data = NEW.data
    ) THEN
        RAISE EXCEPTION 'O médico % não está alocado na clínica % na data %', NEW.nif, NEW.nome, NEW.data;
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

-- Trigger que chama a função antes de inserir ou atualizar uma consulta
DROP TRIGGER IF EXISTS verifica_disp_medico ON consulta;

CREATE TRIGGER verifica_disp_medico
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION verifica_disp_medico();


## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

Em python, usando a framework Flask que permite a ligação entre um endereço url e um request à base de dados, que fazemos através da aplicação 'Bruno'. Está estruturado em endpoints com diferentes paths que associam a um pedido (GET-> para ir buscar informação à base de dados, POST-> para alterar os registos da base de dados). Isto tudo é feito no ficheiro app.py.
Os endpoints '/','/c/<Clinica>' estão a funcionar. O endpoint da '/c/<Clinica>/<especialidade>' daria as 3 primeiras consultas marcadas, quando o pedido é os 3 primeiros horários disponíveis de cada médico. Para tal, teríamos que criar uma tabela auxiliar com todos os horários disponíveis para cada médico, clínica e data, e depois fazer JOIN com as consultas já marcadas. Os valores de paciente que estivessem NULL seriam horários disponíveis. 
Quanto ao endpoint '/a/<Clinica>/registar, o problema vem do facto de no nosso populate termos inserido o valor do id de cada consulta, quando o suposto seria a própria base de dados adicionar o serial number de id. (O erro era que as consultas a inserir já existiam, pois o id era atribuído automaticamente)
O último endpoint '/a/<Clinica>/cancelar é apenas fazer DELETE da base de dados, com parâmetros, semelhante ao registar (INSERT), caso a data seja superior à data de agora (a consulta não se realizou ainda, dado que assim criava uma inconsistência nas tabelas "receita" e "observação", pois estaríamos a apagar uma entrada que é referenciada por elas. 

...

## 3. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [None]:
%%sql
------------------------------
CREATE MATERIALIZED VIEW historico_paciente AS
SELECT 
    c.id,
    c.ssn,
    c.nif,
    c.nome, 
    c.data, 
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    EXTRACT(DOW FROM c.data) AS dia_da_semana,
    substring(cl.morada from ', ([^,]+)$') AS localidade, 
    m.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave,
    o.valor AS valor 
FROM 
    consulta c
INNER JOIN 
    medico m USING(nif)
JOIN 
    clinica cl ON c.nome = cl.nome
INNER JOIN 
    observacao o USING(id)

UNION ALL

SELECT 
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    EXTRACT(DOW FROM c.data) AS dia_da_semana,
    substring(cl.morada from ', ([^,]+)$') AS localidade, 
    m.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave,
    r.quantidade AS valor 
FROM 
    consulta c
INNER JOIN 
    medico m USING(nif)
JOIN 
    clinica cl ON c.nome = cl.nome 
JOIN 
    receita r USING(codigo_sns);


## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [None]:
%%sql
 
WITH ortopedia_consultas AS (
    SELECT id, ssn, data, chave
    FROM historico_paciente
    WHERE especialidade = 'ortopedia' AND tipo = 'observacao' AND valor IS NULL
),
intervalos_observacao AS (
    SELECT ssn, chave AS parametro,
           MAX(data) - MIN(data) AS intervalo
    FROM ortopedia_consultas
    GROUP BY ssn, chave
)
SELECT p.nome, p.ssn, MAX(io.intervalo) AS maior_intervalo
FROM intervalos_observacao io
INNER JOIN paciente p ON io.ssn = p.ssn
GROUP BY p.nome, p.ssn
ORDER BY maior_intervalo DESC;

2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante pelo menos doze meses consecutivos, em consultas de cardiologia.

In [None]:
%%sql

WITH prescricoes_cardiologia AS (
    SELECT DISTINCT ssn, chave AS medicamento, mes, ano
    FROM historico_paciente
    WHERE especialidade = 'cardiologia' AND tipo = 'receita' AND data >= CURRENT_DATE - 1
),
prescricoes_mensais AS (
    SELECT ssn, medicamento, ano, mes, COUNT(*) AS contagem_prescricoes
    FROM prescricoes_cardiologia
    GROUP BY ssn, medicamento, ano, mes
),
prescricoes_mensais_consistentes AS (
    SELECT ssn, medicamento
    FROM prescricoes_mensais
    GROUP BY ssn, medicamento
    HAVING COUNT(*) = 12
)
SELECT DISTINCT medicamento
FROM prescricoes_mensais_consistentes;



3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [None]:
%%sql

WITH prescricoes_2023 AS (
    SELECT 
        chave AS medicamento,
        SUM(valor::int) AS quantidade_total,
        localidade,
        nome AS nome_clinica,
        EXTRACT(MONTH FROM data) AS mes,
        EXTRACT(DAY FROM data) AS dia_do_mes,
        especialidade,
        nif
    FROM historico_paciente
    WHERE tipo = 'receita' AND EXTRACT(YEAR FROM data) = 2023
    GROUP BY 
        chave, localidade, nome, EXTRACT(MONTH FROM data), 
        EXTRACT(DAY FROM data), especialidade, nif
)
SELECT 
    medicamento,
    SUM(quantidade_total) AS quantidade_total,
    localidade,
    nome_clinica,
    mes,
    dia_do_mes,
    especialidade,
    nif
FROM prescricoes_2023
GROUP BY 
    ROLLUP(medicamento, localidade, nome_clinica, mes, dia_do_mes, especialidade, nif)
ORDER BY 
    medicamento, localidade, nome_clinica, mes, dia_do_mes, especialidade, nif;


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [None]:
%%sql
WITH metric_observations AS (
    SELECT 
        key AS parametro,
        value::float AS valor,
        specialty,
        clinic_name,
        nif
    FROM patient_history
    WHERE type = 'symptom' AND value IS NOT NULL
),
stats_by_clinic AS (
    SELECT 
        parametro,
        clinic_name,
        specialty,
        nif,
        AVG(valor) AS media,
        STDDEV(valor) AS desvio_padrao
    FROM metric_observations
    GROUP BY 
        parametro, clinic_name, specialty, nif
)
SELECT 
    parametro,
    COALESCE(clinic_name, 'Global') AS clinic_name,
    COALESCE(specialty, 'Global') AS specialty,
    COALESCE(nif, 'Global') AS nif,
    AVG(media) AS media_global,
    STDDEV(media) AS desvio_padrao_global
FROM stats_by_clinic
GROUP BY 
    ROLLUP(parametro, clinic_name, specialty, nif)
ORDER BY 
    parametro, clinic_name, specialty, nif;

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql
CREATE INDEX idx_observacao_parametro_quantidade ON observacao (parametro, valor);


### Justificação

Esta query devolve os nomes dos pacientes cujo valor de pressão diastólica numa consulta 
foi superior a 9

Optámos por criar um índice composto (primeiro o parametro e depois o valor),
 pois, tendo uma igualdade e um intervalo, a igualdade vem obrigatoriamente primeiro. 
 Sendo uma range query, esta abordagem Tree based é a mais eficiente 

...

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

In [None]:
%%sql

-- Índice para a coluna data na tabela consulta para otimizar a filtragem por data (Tree-based)
CREATE INDEX idx_consulta_data ON consulta (data);

-- Índice para a coluna especialidade na tabela medico para otimizar o GROUP BY (Tree-based)
CREATE INDEX idx_medico_especialidade ON medico (especialidade);



### Justificação
Para a data, usando novamente uma abordagem Tree based, criámos um índice para a data, por ser uma range query
Criámos também um índice para a especialidade, de forma a facilitar o GROUP BY (presente na query).
Ambas as mudanças do 6.1 e 6.2 permitem um acesso mais rápido aos registos da base de dados,
que se pode verificar nos através do comando EXPLAIN (ANALYZE, BUFFERS)


...