# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. FirstName LastName

### Grupo 59
<dl>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1106378 Luca Dallalana</dd>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1107157 Inês Alves</dd>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1107283 Pedro Sanguinetti</dd>
<dl>

In [1]:
%reload_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://saude:saude@postgres/saude

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [32]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [38]:
%%sql
-- RI 1 verifica se a hora é exata e numa hora válida
ALTER TABLE CONSULTA
    ADD CONSTRAINT time CHECK (EXTRACT(MINUTE FROM hora) IN (0, 30) AND (EXTRACT(HOUR FROM hora) BETWEEN 8 AND 12 OR EXTRACT(HOUR FROM hora) BETWEEN 14 AND 18))


(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [39]:
%%sql
-- RI 2 verifica se o NIF do paciente que contem SSN igual ao SSN registrado na consulta é diferente do NIF do médico que a realiza
DROP FUNCTION IF EXISTS check_doctor_patient;

CREATE OR REPLACE FUNCTION check_doctor_patient()
RETURNS TRIGGER AS
    
$$
BEGIN
    IF (SELECT p.nif 
    FROM paciente p
    WHERE p.ssn = NEW.ssn) = NEW.nif 
    THEN
        RAISE EXCEPTION 'A doctor cannot consult themselves';
    END IF;
    RETURN NEW;
END;
$$ 

LANGUAGE plpgsql;

CREATE TRIGGER check_doctor_patient_trigger
BEFORE INSERT ON consulta
FOR EACH ROW
EXECUTE FUNCTION check_doctor_patient();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [40]:
%%sql
-- RI 3 verifica se o médico da consulta esta registrado para trabalhar naquela data
DROP FUNCTION IF EXISTS check_doctor_schedule;

CREATE OR REPLACE FUNCTION check_doctor_schedule()
RETURNS TRIGGER AS 
    
$$
DECLARE
    dia_semana SMALLINT;
BEGIN
    dia_semana := EXTRACT(DOW FROM NEW.data);
    IF dia_semana = 0 THEN
        dia_semana := 7;
    END IF;
    IF NOT EXISTS (
        SELECT 1
        FROM trabalha t
        WHERE t.nif = NEW.nif
        AND t.nome = NEW.nome
        AND t.dia_da_semana = dia_semana
    ) 
    THEN
        RAISE EXCEPTION 'Doctor does not work at the clinic on the specified day';
    END IF;

    RETURN NEW;
END;
$$ 

LANGUAGE plpgsql;

CREATE TRIGGER check_doctor_schedule_trigger
BEFORE INSERT ON consulta
FOR EACH ROW
EXECUTE FUNCTION check_doctor_schedule();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

...

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [41]:
%%sql
-- CREATE MATERIALIZED VIEW ...
CREATE MATERIALIZED VIEW historial_paciente AS
SELECT 
    c.id, 
    c.ssn, 
    c.nif, 
    c.nome, 
    c.data, 
    EXTRACT(YEAR FROM c.data) AS ano, 
    EXTRACT(MONTH FROM c.data) AS mes, 
    EXTRACT(DAY FROM c.data) AS dia_do_mes, 
    SUBSTRING(cl.morada FROM POSITION(', ' IN cl.morada) + 2) AS localidade, 
    m.especialidade,
    CASE 
        WHEN o.parametro IS NOT NULL THEN 'observacao'
        WHEN r.medicamento IS NOT NULL THEN 'receita'
    END AS tipo,
    COALESCE(o.parametro, r.medicamento) AS chave,
    COALESCE(o.valor, r.quantidade) AS valor
FROM 
    consulta c
JOIN 
    clinica cl ON c.nome = cl.nome
JOIN 
    medico m ON c.nif = m.nif
LEFT JOIN 
    observacao o ON c.id = o.id
LEFT JOIN 
    receita r ON c.codigo_sns = r.codigo_sns;



## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [42]:
%%sql
WITH hp_appointments_with_dates AS(
	SELECT
		hp.ssn,
		hp.chave,
		hp.valor,
		array_agg(hp.id) AS consulta_ids,
		array_agg(hp.data ORDER BY hp.data) AS consulta_dates
	FROM
		historial_paciente hp
	WHERE hp.tipo = 'observacao' AND hp.especialidade = 'ortopedia'
	GROUP BY hp.ssn, hp.chave, hp.valor
),
max_intervals AS (
    SELECT
        ssn,
        chave,
        valor,
        consulta_ids,
        consulta_dates,
        MAX(c2.data - c1.data) OVER (PARTITION BY ssn, chave, valor) AS max_interval
    FROM
        hp_appointments_with_dates,
        LATERAL unnest(consulta_dates) WITH ORDINALITY AS c1(data, ord1),
        LATERAL unnest(consulta_dates) WITH ORDINALITY AS c2(data, ord2)
    WHERE
        ord2 > ord1
)
SELECT ssn, MAX(max_interval) as max_interval
FROM max_intervals
GROUP BY ssn
ORDER BY max_interval DESC;


ssn,max_interval
15751465469,510
19333828475,485
62782967062,478
28746401987,473
31849741665,465
18817158119,462
38294094455,457
97424729416,456
88839604875,455
99293740822,455


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante pelo menos doze meses consecutivos, em consultas de cardiologia.

In [43]:
%%sql
-- Seleciona as consultas relevantes de cardiologia, adicionando a data da consulta anterior
WITH medicamento_cardio AS (
    SELECT
        hp.ssn,
        hp.chave AS medicamento,
        hp.data,
        hp.ano,
        hp.mes,
        LAG(hp.data) OVER (PARTITION BY hp.ssn, hp.chave ORDER BY hp.data) AS prev_data
    FROM
        historial_paciente hp
    WHERE
        hp.tipo = 'receita' AND hp.especialidade = 'cardiologia'
), 
-- Calcula a diferença em meses entre a data atual e a data da consulta anterior 
-- Se a diferença for exatamente 1 mês, considera-se consecutivo 
consec_mes AS (
    SELECT
        ssn,
        medicamento,
        data,
        EXTRACT(YEAR FROM data) * 12 + EXTRACT(MONTH FROM data) AS current_month,
        EXTRACT(YEAR FROM prev_data) * 12 + EXTRACT(MONTH FROM prev_data) AS prev_month,
        CASE
            WHEN prev_data IS NULL THEN 0
            WHEN (EXTRACT(YEAR FROM data) * 12 + EXTRACT(MONTH FROM data)) -
                 (EXTRACT(YEAR FROM prev_data) * 12 + EXTRACT(MONTH FROM prev_data)) = 1 THEN 1
            ELSE 0
        END AS consecutive_flag
    FROM
        medicamento_cardio
), 
--  Cria um grupo_id que identifica sequências de meses consecutivos
grupos AS (
    SELECT
        ssn,
        medicamento,
        data,
        SUM(consecutive_flag) OVER (PARTITION BY ssn, medicamento ORDER BY data) AS grupo_id
    FROM
        consec_mes
)
SELECT
    ssn,
    medicamento,
    grupo_id
FROM
    grupos
WHERE
    grupo_id >= 12;


ssn,medicamento,grupo_id


3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [44]:
%%sql
WITH soma_por_medicamento AS(
	SELECT
		medicamento, SUM(quantidade) AS quantidade
	FROM
		receita
	GROUP BY medicamento
)

SELECT
	hp.localidade, hp.nome, hp.mes, hp.dia_do_mes, m.nome, hp.especialidade, spm.medicamento, SUM(spm.quantidade)
FROM historial_paciente hp
JOIN medico m ON hp.nif = m.nif
JOIN soma_por_medicamento spm ON spm.medicamento = hp.chave
WHERE hp.tipo = 'receita' AND hp.ano = 2023
GROUP BY CUBE((hp.localidade, hp.nome), (hp.mes, hp.dia_do_mes), (m.nome, hp.especialidade), spm.medicamento)

localidade,nome,mes,dia_do_mes,nome_1,especialidade,medicamento,sum
,,,,,,,


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [45]:
%%sql
SELECT 
    hp.especialidade, 
    hp.nome AS nome_medico, 
    hp.nome AS nome_clinica, 
    hp.chave, 
    AVG(hp.valor) AS media_valor, 
    STDDEV(hp.valor) AS desvio_padrao_valor
FROM 
    historial_paciente hp
WHERE hp.tipo = 'observacao'
GROUP BY 
    CUBE ((hp.especialidade, hp.nome), hp.nome, hp.chave)
ORDER BY 
    hp.especialidade, 
    hp.nome, 
    hp.nome, 
    hp.chave;

especialidade,nome_medico,nome_clinica,chave,media_valor,desvio_padrao_valor
cardiologia,clinica Andrade,clinica Andrade,Metrica1,52.84678477751753,28.35283714027123
cardiologia,clinica Andrade,clinica Andrade,Metrica1,52.84678477751753,28.35283714027123
cardiologia,clinica Andrade,clinica Andrade,Metrica10,49.07747537878789,28.5419482201869
cardiologia,clinica Andrade,clinica Andrade,Metrica10,49.07747537878789,28.5419482201869
cardiologia,clinica Andrade,clinica Andrade,Metrica11,50.72310148331278,29.20497548851776
cardiologia,clinica Andrade,clinica Andrade,Metrica11,50.72310148331278,29.20497548851776
cardiologia,clinica Andrade,clinica Andrade,Metrica12,50.748369902912565,28.540112607744952
cardiologia,clinica Andrade,clinica Andrade,Metrica12,50.748369902912565,28.540112607744952
cardiologia,clinica Andrade,clinica Andrade,Metrica13,47.14798554744527,29.614512510149183
cardiologia,clinica Andrade,clinica Andrade,Metrica13,47.14798554744527,29.614512510149183


## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [21]:
%%sql
-- CREATE INDEX ...
-- Aceleram as operações de JOIN
CREATE INDEX idx_consulta_observacao_id ON consulta(id), observacao(id);

-- Um índice composto (parametro, valor) permite filtrar rapidamente as linhas que atendem a ambos os critérios
-- É mais eficiente do que usar dois índices separados para cada coluna
CREATE INDEX parametro_valor_idx ON observacao(parametro,valor);
WITH soma_por_medicamento AS(
	SELECT
		medicamento, SUM(quantidade) AS quantidade
	FROM
		receita
	GROUP BY medicamento
)

SELECT
	hp.localidade, hp.nome, hp.mes, hp.dia_do_mes, m.nome, hp.especialidade, spm.medicamento, SUM(spm.quantidade)
FROM historial_paciente hp
JOIN medico m ON hp.nif = m.nif
JOIN soma_por_medicamento spm ON spm.medicamento = hp.medicamento
WHERE hp.tipo = 'receita' AND hp.ano = 2023
GROUP BY CUBE((hp.localidade, hp.nome), (hp.mes, hp.dia_do_mes), (m.nome, hp.especialidade), spm.medicamento)

SELECT nome
FROM paciente
JOIN consulta USING (ssn)
JOIN observacao USING (id)
WHERE parametro = ‘pressão diastólica’ AND valor >= 9;

RuntimeError: If using snippets, you may pass the --with argument explicitly.
For more details please refer: https://jupysql.ploomber.io/en/latest/compose.html#with-argument


Original error message from DB driver:
(psycopg.errors.SyntaxError) syntax error at or near ","
LINE 1: ...E INDEX idx_consulta_observacao_id ON consulta(id), observac...
                                                             ^
[SQL: CREATE INDEX idx_consulta_observacao_id ON consulta(id), observacao(id);]
(Background on this error at: https://sqlalche.me/e/20/f405)

If you need help solving this issue, send us a message: https://ploomber.io/community


### Justificação

...

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

In [3]:
%%sql
-- CREATE INDEX ...

-- A especialidade e a qtd aceleram a seleção e as operações GROUP BY e SORT
CREATE INDEX idx_medico_especialidade ON medico(especialidade);
CREATE INDEX idx_consulta_data ON consulta(data);

SELECT especialidade, SUM(quantidade) AS qtd FROM medico
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

RuntimeError: (psycopg.errors.DuplicateTable) relation "especialidade_idx" already exists
[SQL: CREATE INDEX especialidade_idx ON medico(especialidade);]
(Background on this error at: https://sqlalche.me/e/20/f405)
If you need help solving this issue, send us a message: https://ploomber.io/community


### Justificação

...