# Projeto de Bases de Dados - Parte 2

### Docente Responsável
Prof. Francisco Regateiro

### Turno
BD25L12

### Grupo 03
<dl>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1106494 Mafalda Szolnoky Ramos Pinto Dias</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1106970 Francisco Lourenço Heleno</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1106630 Diogo Miguel dos Santos Almada</dd>
<dl>

In [82]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://saude:saude@postgres/saude

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [83]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [84]:
%%sql
-- (RI-1)
DROP TRIGGER IF EXISTS verifica_horario_consulta ON consulta;
CREATE OR REPLACE FUNCTION verifica_horario_consulta_func()
RETURNS TRIGGER AS $$
BEGIN
    IF NOT ((NEW.hora >= '08:00:00' AND NEW.hora <= '12:30:00' OR NEW.hora >= '14:00:00' AND NEW.hora <= '18:30:00')
            AND (date_part('minute', NEW.hora) = 0 OR date_part('minute', NEW.hora) = 30)) THEN
        RAISE EXCEPTION 'Horário da consulta inválido. Deve ser à hora exata ou meia-hora nos períodos 8-13h e 14-19h.';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

-- Criar o trigger
CREATE TRIGGER verifica_horario_consulta
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW
EXECUTE FUNCTION verifica_horario_consulta_func();

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [85]:
%%sql
-- (RI-2)
DROP TRIGGER IF EXISTS verifica_medico_nao_consulta_a_si_proprio_trigger ON consulta;
CREATE OR REPLACE FUNCTION verifica_medico_nao_consulta_a_si_proprio() RETURNS TRIGGER AS $$
DECLARE
    nif_medico_paciente CHAR(9);
BEGIN
    SELECT nif INTO nif_medico_paciente FROM paciente WHERE ssn = NEW.ssn;

    IF NEW.nif = nif_medico_paciente THEN
        RAISE EXCEPTION 'Um médico não pode consultar a si próprio.';
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

-- Criar o trigger
CREATE TRIGGER verifica_medico_nao_consulta_a_si_proprio_trigger
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION verifica_medico_nao_consulta_a_si_proprio();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [86]:
%%sql
-- (RI-3)
DROP TRIGGER IF EXISTS verifica_medico_clinica_dia_trigger ON consulta;
CREATE OR REPLACE FUNCTION verifica_medico_clinica_dia()
RETURNS TRIGGER AS $$
DECLARE
    dia_semana INT;
BEGIN
    -- Ajustar a extração do dia da semana para começar na segunda-feira
    dia_semana := (EXTRACT(DOW FROM NEW.data) + 6) % 7;

    IF NOT EXISTS (SELECT 1 FROM trabalha
                   WHERE nif = NEW.nif
                     AND nome = NEW.nome
                     AND dia_da_semana = dia_semana) THEN
        RAISE EXCEPTION 'O médico não trabalha na clínica especificada no dia da semana da consulta.';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

-- Criar o trigger
CREATE TRIGGER verifica_medico_clinica_dia_trigger
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW
EXECUTE FUNCTION verifica_medico_clinica_dia();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, indicando a correspondência entre as funções app.py e os endpoints pedidos

Para a realização da aplicação web utilizámos um módulo extra (que não era usado no Lab10) para facilitar as operações com datas e horas: datetime.
Para desenvolver a API, implementámos no ficheiro app.py funções que usam métodos de HTTP para os seguintes endpoints REST:

- Endpoint "/": função lista_clinicas(). Esta função usa o método GET ;
- Endpoint "/c/\<clinica\>/": função lista_especialidades_clinica(clinica) que recebe como argumento o nome de uma clínica. Esta função usa o método GET ;
- Endpoint "/c/\<clinica\>/\<especialidade\>/": função lista_medicos_clinica_especialidade(clinica, especialidade) que recebe como argumentos os nomes de uma clínica e especialidade. Esta função usa o método GET ;
- Endpoint "/a/\<clinica\>/registar/": função marca_consulta(clinica) que recebe como argumentos o nome de uma clínica, um paciente, um médico e uma data e hora. Esta função usa os métodos PUT e POST ;
- Endpoint "/a\<clinica\>/cancelar/": função cancela_consulta(clinica) que recebe como argumentos o nome de uma clínica, um paciente, um médico e uma data e hora. Esta função usa os métodos DELETE e POST.


Note-se que nestas funções são feitas todas as verificações necessárias para que, no caso de um eventual erro, o utilizador saiba exatamente que parâmetros tem de corrigir, e de que forma.

Foram ainda desenvolvidas duas funções auxiliares: uma para gerar horários (à hora exata ou meia hora) entre duas datas e outra para verificar se uma data está no formato correto.

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano*, *mes* e *dia_do_mes*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [87]:
%%sql

CREATE MATERIALIZED VIEW historial_paciente AS
SELECT
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    SUBSTRING(cl.morada FROM '([^ ]+)$') AS localidade,
    m.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave,
    o.valor AS valor
FROM
    consulta c
JOIN paciente p ON c.ssn = p.ssn
JOIN clinica cl ON c.nome = cl.nome
JOIN medico m ON c.nif = m.nif
LEFT JOIN observacao o ON c.id = o.id
UNION
SELECT
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    SUBSTRING(cl.morada FROM '([^ ]+)$') AS localidade,
    m.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave,
    r.quantidade AS valor
FROM
    consulta c
JOIN paciente p ON c.ssn = p.ssn
JOIN clinica cl ON c.nome = cl.nome
JOIN medico m ON c.nif = m.nif
LEFT JOIN receita r ON c.codigo_sns = r.codigo_sns
WHERE c.codigo_sns IS NOT NULL;

## 5. Análise de Dados (SQL e OLAP)

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [78]:
%%sql

WITH intervalos AS (
SELECT paciente.ssn, paciente.nome, MAX(data)- MIN(data) AS intervalo_maximo
FROM historial_paciente
JOIN paciente ON historial_paciente.ssn = paciente.ssn
WHERE
    tipo='observacao' AND
    valor IS NULL AND
    especialidade='ortopedia'
GROUP BY (paciente.ssn, chave)
)    
SELECT 
    ssn, 
    nome, 
    intervalo_maximo
FROM 
    intervalos
WHERE 
    intervalo_maximo = (SELECT MAX(intervalo_maximo) FROM intervalos);

2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [79]:
%%sql

WITH medicamentos_cardiologia_por_paciente_mensais AS (
    SELECT
        chave AS medicamento,
        ano,
        ssn,
        mes
    FROM 
        historial_paciente hp
    WHERE
        tipo = 'receita' AND
        especialidade = 'cardiologia' AND
        data >= (CURRENT_DATE - INTERVAL '1 year') AND
        data <= CURRENT_DATE
    GROUP BY
        ssn, chave, ano, mes
)
SELECT DISTINCT
    medicamento
FROM
    medicamentos_cardiologia_por_paciente_mensais
GROUP BY
    ssn, medicamento
HAVING
    COUNT (DISTINCT CONCAT (ano, mes)) >= 12;

3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [81]:
%%sql
    
SELECT
    hp.localidade,
    hp.nome AS clinica,
    EXTRACT(MONTH FROM hp.data) AS mes,
    EXTRACT(DAY FROM hp.data) AS dia_do_mes,
    hp.especialidade,
    m.nome AS nome_medico,
    hp.chave AS medicamento,
    SUM(hp.valor) AS total_quantidade
FROM
    historial_paciente hp
JOIN
    medico m ON hp.nif = m.nif
WHERE
    EXTRACT(YEAR FROM hp.data) = 2023
    AND hp.tipo = 'receita'
GROUP BY
    hp.chave,
    GROUPING SETS (
        (),
        (hp.localidade),
        (hp.localidade, hp.nome),
        (EXTRACT(MONTH FROM hp.data)),
        (EXTRACT(MONTH FROM hp.data), EXTRACT(DAY FROM hp.data)),
        (hp.especialidade),
        (hp.especialidade, m.nome)
    )
ORDER BY
    hp.especialidade NULLS FIRST,
    m.nome NULLS FIRST,
    mes NULLS FIRST,
    dia_do_mes NULLS FIRST,
    hp.localidade NULLS FIRST,
    hp.nome NULLS FIRST,
    hp.chave;

-- Neste exercício considerámos também a utilização de 3 ROLLUP (um para cada dimensão especificada), em vez do atual GROUPING SETS,
-- e obtivemos os mesmos resultados, mas com a execução da query a demorar consideravelmente mais tempo, pelo que optámos por deixar os GROUPING SETS.

4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [60]:
%%sql

SELECT
    hp.nome AS clinica,
    hp.especialidade AS especialidade,
    m.nome AS nome_medico,
    hp.chave AS parametro,
    AVG(hp.valor) AS media_valor,
    STDDEV(hp.valor) AS desvio_padrao_valor
FROM
    historial_paciente hp
JOIN
    medico m ON hp.nif = m.nif
WHERE
    hp.valor IS NOT NULL AND
    hp.tipo = 'observacao'
GROUP BY
    hp.chave,
    ROLLUP (hp.especialidade, m.nome),
    ROLLUP(clinica, hp.especialidade, m.nome)    
ORDER BY
    clinica NULLS FIRST,
    especialidade NULLS FIRST,
    nome_medico NULLS FIRST,
    parametro NULLS FIRST;

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

#### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 40;

In [76]:
%%sql

--------------------- INDICE 6.1 ---------------------
CREATE INDEX idx_observacao_parametro_valor ON observacao (parametro, valor);

### Justificação
------------------------ INDICE 6.1 ------------------

##### CREATE INDEX idx_observacao_parametro_valor ON observacao (parametro, valor);

As colunas parametro e valor são usadas nos critérios de filtragem do WHERE.
Um índice composto nestas colunas acelerará a seleção de registros que atendem aos critérios
de filtragem. A opção (parametro, valor) em vez de (valor, parametro) deve-se ao parametro ser
uma igualdade pelo que o seu grau de seletividade é superior ao de valor, que corresponde a um intervalo
na query. <br>
Os nossos valores para parâmetros são gerados entre 20 e 45 (todos maiores que 9), pelo que alterámos a última
linha da query para "AND valor >= 40;" para que o grau de seletividade justifique o uso de um índice.


#### Análise experimental (antes/depois do índice):

#### Antes:

    Buffers: shared hit=25
    Execution Time: 26.083 ms

#### Depois:

    Buffers: shared hit=25
	Execution Time: 7.418 ms

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_sns) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
ORDER BY qtd;

In [73]:
%%sql

--------------------- INDICE 6.2 ---------------------
CREATE INDEX idx_consulta_especialidade ON medico (especialidade);

CREATE INDEX idx_receita_codigo_sns ON receita (codigo_sns);

CREATE INDEX idx_consulta_data ON consulta (data);

### Justificação
------------------------ INDICE 6.2 ------------------

##### CREATE INDEX idx_consulta_especialidade ON medico (especialidade);

A especialidade é usada no GROUP BY pelo que um indice nesta coluna ajuda
a operação de agrupamento, melhorando o desempenho da query solicitada.


##### CREATE INDEX idx_receita_codigo_sns ON receita (codigo_sns);

A coluna codigo_sns é usada para junção com a tabela consulta e apesar
da PK de receita ser (codigo_sns, medicamento), nesta query, a coluna medicamento não é
utilizada pelo que um índice apenas de código_sns pode tornar ainda mais eficiente a junção
das tabelas nesta query.

<br>

#### Análise experimental (antes/depois dos 1º e 2º índices)
    
#### Antes:

    Buffers: shared hit=13
	Execution Time: 114.772 ms

#### Depois:

    Buffers: shared hit=13
    Execution Time: 95.067 ms

<br>

##### CREATE INDEX idx_consulta_data ON consulta (data);

A coluna data é usada no critério de filtragem da cláusula WHERE.
Um índice (de tipo b-tree por ser um intervalo) nesta coluna acelerará a seleção
dos registros que atendem ao critério de filtragem na maioria das bases de dados.<br>

Note-se que, no caso da nossa base de dados, este último índice não irá ter impacto, uma vez que as consultas
são geradas por ordem de data, pelo que o índice perde a sua utilidade.