# Projeto de Bases de Dados - Parte 2

### Docentes Responsáveis

Profs. Flávio Martins e João Caldeira

### Grupo 93
<dl>
    <dt>40 horas (33.3%)</dt>
    <dd>ist1106909 Guilherme Campos</dd>
    <dt>40 horas (33.3%)</dt>
    <dd>ist1105875 Maria Ramos</dd>
    <dt>40 horas (33.3%)</dt>
    <dd>ist1106336 Enzo Nunes</dd>
<dl>

In [None]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
	nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql
-- (RI-1)
ALTER TABLE consulta
ADD CONSTRAINT check_consulta_hora
CHECK (
    (EXTRACT(HOUR FROM hora) BETWEEN 8 AND 12 OR EXTRACT(HOUR FROM hora) BETWEEN 14 AND 18)
    AND (EXTRACT(MINUTE FROM hora) IN (0, 30))
);


(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql
-- (RI-2)
CREATE OR REPLACE FUNCTION check_doctor_patient() 
RETURNS TRIGGER AS $$
BEGIN
    IF EXISTS (
        SELECT 1 
        FROM paciente p 
        WHERE p.ssn = NEW.ssn AND p.nif = NEW.nif
    ) THEN
        RAISE EXCEPTION 'A doctor cannot consult himself.';
    END IF;
    RETURN NEW;
END;

$$ LANGUAGE plpgsql;

CREATE TRIGGER trg_check_doctor_patient
BEFORE INSERT ON consulta
FOR EACH ROW
EXECUTE FUNCTION check_doctor_patient();


(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
-- (RI-3)
CREATE OR REPLACE FUNCTION check_clinic_workday()
RETURNS TRIGGER AS $$
BEGIN
    IF NOT EXISTS (
        SELECT 1
        FROM trabalha t
        WHERE t.nif = NEW.nif
          AND t.nome = NEW.nome
          AND t.dia_da_semana = EXTRACT(ISODOW FROM NEW.data)
    ) THEN
        RAISE EXCEPTION 'A doctor can only give consultations in the clinic where he works on that weekday.';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER trg_check_clinic_workday
BEFORE INSERT ON consulta
FOR EACH ROW
EXECUTE FUNCTION check_clinic_workday();


## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação

A nossa aplicação é um protótipo de serviço web RESTful para a gestão de consultas na base de dados ‘Saude’. Ela oferece vários endpoints que permitem listar clínicas, especialidades, médicos e horários disponíveis, registrar e cancelar consultas. Todas as respostas são fornecidas em formato JSON e todas as operações garantem segurança contra SQL injection e atomicidade através de transações. A aplicação corre no mesmo container do docker utilizado nas aulas práticas para a base de dados 'bank'. Apenas foi alterado o ficheiro 'app.py' para uma correta interação com a base de dados, e de modo a cumprir com os endpoints pedidos no enunciado.

Garantimos a prevenção de SQL injection, através do uso de parâmetros. Por exemplo, no seguinte excerto os parâmetro são passados de forma segura utilizando o %s em vez de inserir os valores diretamente na query, evitando que qualquer conteúdo potencialmente malicioso seja interpretado como comando SQL, e consequentemente possa modificar a estrutura da consulta da base de dados.

with conn.transaction():
    cur.execute("""
        INSERT INTO consulta (ssn, nif, nome, data, hora, codigo_sns)
        VALUES (%s, %s, %s, %s, %s, %s)
    """, (patient_ssn, doctor_nif, clinic, date, time, next_codigo_sns))

A biblioteca psycopg2 trata esses valores de forma segura. Os valores de patient_ssn, doctor_nif, clinic, date, time e next_codigo_sns são passados como um tuplo para a função cur.execute().

Para além disso, garantimos a atomicidade das transações através do uso do método conn.transaction() que assegura que todas as operações dentro do bloco de transação sejam aplicadas juntas. Se uma operação falhar, todas as mudanças são revertidas, mantendo a consistência dos dados visto que nenhuma mudança será confirmada na base de dados.
O código acima exemplifica o uso deste método.

Finalmente, para realizar testes e interagir com a API desenvolvida, recorremos à ferramenta Bruno. Com o Bruno pudemos verificar a funcionalidade dos endpoints GET e POST, ou seja, tanto solicitar dados ao servidor, como enviar dados ao servidor, a fim de testar diferentes cenários.

Dentro da pasta app/, destaca-se o ficheiro app.py que implementa o serviço web que gere a base de dados, permitindo a interação programática com a mesma. 

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [None]:
%%sql
CREATE MATERIALIZED VIEW historial_paciente AS
SELECT
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
	SUBSTRING(cl.morada FROM '.* \d{4}-\d{3} (.*)') AS localidade,
    m.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave,
    o.valor
FROM
    consulta c
    JOIN clinica cl ON c.nome = cl.nome
    JOIN medico m ON c.nif = m.nif
    LEFT JOIN observacao o ON c.id = o.id

UNION ALL

SELECT
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
	SUBSTRING(cl.morada FROM '.* \d{4}-\d{3} (.*)') AS localidade,
    m.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave,
    r.quantidade AS valor
FROM
    consulta c
    JOIN clinica cl ON c.nome = cl.nome
    JOIN medico m ON c.nif = m.nif
    LEFT JOIN receita r ON c.codigo_sns = r.codigo_sns;

## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [None]:
%%sql
WITH timespans AS (
	SELECT 
		ssn,
		MAX(data) - MIN(data) as max_timespan
	FROM 
		historial_paciente 
	WHERE 
		especialidade = 'ortopedia' AND 
		tipo = 'observacao' AND 
		valor IS NULL
	GROUP BY 
		ssn
)
SELECT 
	ssn, 
	MAX(data) - MIN(data) as max_timespan
FROM 
	timespans
GROUP BY 
	ssn,
	max_timespan
HAVING 
	max_timespan >= ALL (
		SELECT 
			max_timespan
		FROM 
			timespans
		GROUP BY 
			ssn,
			max_timespan
	)
ORDER BY 
	max_timespan DESC;

2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante pelo menos doze meses consecutivos, em consultas de cardiologia.

In [None]:
%%sql
SELECT
	chave
FROM
	historial_paciente
WHERE
	especialidade = 'cardiologia' AND
	tipo = 'receita'
GROUP BY
	chave
HAVING
	MAX(data) >= NOW() - INTERVAL '1 year';

3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [None]:
%%sql
-- Drill Down Espaço
SELECT 
    localidade, 
    nome as clinica, 
    chave as medicamento, 
    SUM(valor) AS total_quantidade
FROM 
    historial_paciente
WHERE 
    ano = 2023 AND
	tipo = 'receita'
GROUP BY 
    localidade, 
    clinica, 
    medicamento
ORDER BY 
    localidade, 
    clinica;

In [None]:
%%sql
-- Drill Down Tempo
SELECT 
    mes, 
    dia_do_mes, 
    chave as medicamento, 
    SUM(valor) AS total_quantidade
FROM 
    historial_paciente
WHERE 
    ano = 2023 AND
	tipo = 'receita'
GROUP BY 
    mes, 
    dia_do_mes, 
    medicamento
ORDER BY 
    mes, 
    dia_do_mes;

In [None]:
%%sql
-- Drill Down médico
SELECT 
	hp.especialidade as especialidade_medico, 
	medico.nome as nome_medico, 
	hp.chave as medicamento, 
	SUM(hp.valor) as total_quantidade
FROM 
	historial_paciente hp
JOIN medico ON hp.nif = medico.nif
WHERE 
	hp.ano = 2023 AND
	hp.tipo = 'receita'
GROUP BY 
	hp.especialidade, 
	medico.nome, 
	hp.chave
ORDER BY 
	hp.especialidade, 
	medico.nome;

4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [None]:
%%sql
-- Drill Down Médico
SELECT
	hp.especialidade as especialidade_medico, 
	medico.nome as nome_medico, 
	hp.chave as metrica,
	AVG(hp.valor) as media_quantidade,
	STDDEV(hp.valor) as desvio_padrao_quantidade
FROM 
	historial_paciente hp
JOIN medico ON hp.nif = medico.nif
WHERE 
	hp.tipo = 'observacao' AND
	hp.valor IS NOT NULL
GROUP BY 
	hp.especialidade, 
	medico.nome, 
	hp.chave
ORDER BY 
	hp.especialidade, 
	medico.nome;

In [None]:
%%sql
-- Drill Down adicional por clínica
SELECT
	hp.nome as clinica,
	hp.especialidade as especialidade_medico, 
	medico.nome as nome_medico, 
	hp.chave as metrica,
	AVG(hp.valor) as media_quantidade,
	STDDEV(hp.valor) as desvio_padrao_quantidade
FROM 
	historial_paciente hp
JOIN medico ON hp.nif = medico.nif
WHERE 
	hp.tipo = 'observacao' AND
	hp.valor IS NOT NULL
GROUP BY
	hp.clinica,
	hp.especialidade, 
	medico.nome, 
	hp.chave
ORDER BY
	hp.nome,
	hp.especialidade, 
	medico.nome;

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql
CREATE INDEX idx_observacao_parametro_valor ON observacao (parametro, valor); --Most Important

CREATE INDEX idx_paciente_ssn ON paciente (ssn);
CREATE INDEX idx_consulta_ssn ON consulta (ssn);
CREATE INDEX idx_consulta_id ON consulta (id);
CREATE INDEX idx_observacao_id ON observacao (id);

### Justificação

Escolhemos criar um índice na tabela 'observacao' sobre o atributo 'parametro' e 'valor'. Este índice é do tipo B-Tree, ideal para este tipo de consulta que envolve uma comparação de igualdade e uma comparação de intervalo (as condições WHERE parametro = 'pressão diastólica' e valor >= 9,). O índice irá otimizar a pesquisa de 'parametro' e 'valor' na tabela 'observacao' e irá melhorar o tempo de execução da consulta.

Escolhemos adicionar também 4 outros índices que melhoram os tempos de acesso das instrução de junção (JOIN), nomeadamente nos parâmetros 'ssn' da conculta e paciente, e 'id' da consulta e observação.

Embora os índices hash sejam bons para comparações de igualdade, optámos pelo índice B-tree porque não são eficientes para intervalos, como por exemplo na condição valor >= 9.

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

In [None]:
%%sql
CREATE INDEX idx_consulta_data ON consulta (data); --Most Important

CREATE INDEX idx_medico_especialidade ON medico (especialidade);
CREATE INDEX idx_consulta_nif ON consulta (nif);
CREATE INDEX idx_receita_codigo_ssn ON receita (codigo_sns);

### Justificação

Como no caso anterior, criamos um índice do tipo B-tree, desta vez na tabela 'consulta' sobre o atributo 'data'. Como dito antes, este tipo de índice é ideal para acelerar a filtragem por intervalo de datas. O índice irá otimizar a pesquisa de 'data' na tabela 'consulta' e irá melhorar o tempo de execução da consulta.

Adicionalmente, criamos um índice na tabela 'medico' sobre o atributo 'especialidade' com vista a melhorar o agrupamento, um na tabela 'receita' sobre o atributo 'codigo_sns' e um na tabela 'consulta' sobre o atributo 'nif'. Estes índices irão melhorar o tempo de execução da consulta ao otimizar as operações JOIN da instrução, tornando a busca e a agregação bastante mais eficientes.

Embora os índices hash sejam bons para comparações de igualdade, optámos pelos índices B-tree porque são ideais para acelerar a filtragem por intervalo de datas, como no caso do índice na tabela 'consulta' sobre o atributo 'data'.