# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. João Caldeira

### Grupo 04
<dl>
  <dt>15 horas (33.3%)</dt>
    <dd>ist151948 Iuri Campos</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1104122 Pedro Pizarro</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1111060 Liedson Cunha</dd>
<dl>

In [2]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://saude:saude@postgres/saude

There's a new jupysql version available (0.10.10), you're running 0.10.9. To upgrade: pip install jupysql --upgrade
Deploy Flask apps for free on Ploomber Cloud! Learn more: https://ploomber.io/s/signup


## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);

CREATE TABLE horarios(hora TIME PRIMARY KEY);

## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql
ALTER TABLE consulta
ADD CONSTRAINT check_time CHECK (
    (EXTRACT(HOUR FROM hora) BETWEEN 8 AND 12 AND EXTRACT(MINUTE FROM hora) IN (0, 30))
    OR 
    (EXTRACT(HOUR FROM hora) BETWEEN 14 AND 18 AND EXTRACT(MINUTE FROM hora) IN (0, 30))
);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql
CREATE OR REPLACE FUNCTION check_consulta_proprio_medico() RETURNS TRIGGER AS $$
BEGIN 
    IF NEW.nif = (SELECT nif FROM paciente WHERE ssn = NEW.ssn) THEN
        RAISE EXCEPTION 'Um médico não pode marcar uma consulta consigo mesmo';	
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER consulta_proprio_medico
BEFORE INSERT OR UPDATE ON consulta 
FOR EACH ROW EXECUTE FUNCTION check_consulta_proprio_medico();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
CREATE OR REPLACE FUNCTION check_clinica_medico() RETURNS TRIGGER AS $$
BEGIN 
    IF NOT EXISTS (
        SELECT 1 FROM trabalha 
        WHERE NEW.nif = nif
        AND NEW.nome = nome
        AND dia_da_semana = EXTRACT(DOW FROM NEW.data)) THEN
        RAISE EXCEPTION 'O médico não trabalha nessa clínica nesse dia da semana';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER clinica_medico_dia
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION check_clinica_medico();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web: 
...

- Para o endpoint '/' que devolve toda as clinicas e a sua morada, é executada pela função clinicas_index() no ficheiro app.py
- Para o endpoint '/c/<clinica>/' que devolve todas as especialidades disponiveis na <clinica>, é executada pela função specialities_clinic(<clinica>) no ficheiro app.py
- Para o endpoint '/c/<clinica>/<especialidade>/' que devolve todos os medicos da <especialidade> que trabalham na <clinica> e os primeiros 3 horarios disponiveis é executada pela função  clinics_specialities_doctors(clinica, especialidade).
- Para o endpoint '/a/<clinica>/registar/' que regista uma consulta, executada pela função register_consult(clinica) e tem como parametros, o paciente (ssn), o medico (nif), data e hora da consulta.
    - Faz as seguintes verificações e devolve erro caso não satisfaça:
        - Se os argumentos todos são passados no post request.
        - Se data é no futuro, caso não seja, devolve erro.
        - Se o paciente existe, caso não exista, devolve erro.
        - Se medico existe e trabalha na <clinica> na data passada, caso não trabalhe, devolve erro.
    - Caso passe todas as verificações, a consulta é inserida e devolvida mensagem de sucesso.
- Para o endpoint '/a/<clinica>/cancelar/' que cancela uma conulta, é executado pela função cancel_consult(clinica) e tem como parametros o paciente(ssn), o medico (nif), data e hora da consulta a cancelar.
    - Faz as seguintes verificações e devolve erro caso não satisfaça:
        - Se os argumentos todos são passados no post request.
        - Se data é no futuro, caso não seja, devolve erro.
        - Se consulta existe, caso não exista, devolve erro
    - Caso a consulta exista e esteja no futuro, apaga o registo e devolve mensagem de sucesso.

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [16]:
%%sql
CREATE MATERIALIZED VIEW historial_paciente AS

SELECT c.id, c.ssn, c.nif, c.nome, c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    EXTRACT(DOW FROM c.data) AS dia_da_semana,
    substring(clinica.morada FROM ', [0-9]{4}-[0-9]{3} (.+)$') AS localidade,
    medico.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave,
    r.quantidade AS valor
FROM consulta c
JOIN clinica USING (nome)
JOIN medico USING (nif)
JOIN receita r USING(codigo_sns)

UNION ALL

SELECT c.id, c.ssn, c.nif, c.nome, c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    EXTRACT(DOW FROM c.data) AS dia_da_semana,
    substring(clinica.morada FROM ', [0-9]{4}-[0-9]{3} (.+)$') AS localidade,
    medico.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave,
    o.valor AS valor
FROM consulta c
JOIN clinica USING (nome)
JOIN medico USING (nif)
JOIN observacao o ON c.id = o.id;

## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [17]:
%%sql
WITH progresso AS (SELECT paciente.nome, ssn, chave,
    MAX(data) - MIN(data) AS diff
    FROM historial_paciente
    JOIN paciente USING(ssn)
    WHERE especialidade = 'ortopedia' 
    AND tipo = 'observacao' 
    AND valor IS NULL
    GROUP BY paciente.nome, ssn, chave
)
SELECT nome, ssn
FROM progresso pr
WHERE diff >= (SELECT MAX(diff) FROM progresso);

nome
Tomás Santonio


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [12]:
%%sql
WITH pacientes_cardiologia AS (
    SELECT DISTINCT
        p.ssn,
        EXTRACT(MONTH FROM c.data) AS mes,
        r.medicamento
    FROM paciente p
    JOIN consulta c USING (ssn)
    JOIN receita r USING (codigo_sns)
    JOIN medico m ON c.nif = m.nif
    WHERE m.especialidade = 'cardiologia'
    AND c.data >= (CURRENT_DATE - INTERVAL '12 months')
),
receitas_mensais AS (
    SELECT ssn, medicamento, COUNT(DISTINCT mes) AS meses_com_receita
    FROM pacientes_cardiologia
    GROUP BY ssn, medicamento
    HAVING COUNT(DISTINCT mes) = 12
)
SELECT DISTINCT medicamento
FROM receitas_mensais
ORDER BY medicamento;

medicamento


3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [13]:
%%sql
SELECT localidade, h.nome AS clinica,
    mes, dia_do_mes, 
    h.especialidade, m.nome AS medico,
    chave, SUM(valor)
FROM historial_paciente h
    JOIN medico m USING(nif)
WHERE tipo = 'receita'
AND ano = '2023'
GROUP BY GROUPING SETS (
    (chave), 
    (chave, localidade), (chave, localidade, clinica), 
    (chave, mes), (chave, mes, dia_do_mes),
    (chave, h.especialidade), (chave, h.especialidade, medico)) 
ORDER BY 
    h.especialidade DESC, medico DESC, mes DESC, dia_do_mes DESC, localidade
     DESC, clinica DESC, chave;

localidade,clinica,mes,dia_do_mes,especialidade,medico,chave,sum
,,,,,,brufen,34063.0
,,,,,,codeina,34321.0
,,,,,,ibuprofeno,34170.0
,,,,,,paracetamol,34206.0
,,,,,,valium,33955.0
,,,,,,xanax,34107.0
Mafra,,,,,,brufen,6781.0
Mafra,,,,,,codeina,6881.0
Mafra,,,,,,ibuprofeno,6770.0
Mafra,,,,,,paracetamol,6825.0


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [15]:
%%sql
SELECT h.nome AS nome_clinica, 
    h.especialidade, m.nome AS nome_medico, 
    chave, AVG(valor) AS media, STDDEV(valor) AS desvio_padrao
FROM historial_paciente h
JOIN medico m USING(nif)
WHERE h.tipo = 'observacao'
    AND valor IS NOT NULL
GROUP BY GROUPING SETS (
    (chave),
    (chave, h.especialidade), (chave, h.especialidade, nome_medico),
    (chave, h.especialidade, nome_medico, nome_clinica))   
ORDER BY nome_clinica DESC, nome_medico DESC, h.especialidade DESC, chave;

nome_clinica,especialidade,nome_medico,chave,media,desvio_padrao
,,,Capacidade vital forçada,49.82916129032258,28.545324413799385
,,,Contagem de leucócitos,50.56752496058854,29.05385884559931
,,,Frequência cardíaca,50.555786736020806,28.91430916773796
,,,Frequência respiratória,50.65881120712229,29.24291083676769
,,,Hemoglobina,50.03074901445466,28.766680811522445
,,,Índice de Massa Corporal,51.445808862786976,28.60999432867972
,,,Nível de ácido úrico,50.3536012526096,28.77614966302917
,,,Nível de bilirrubina,50.24823621635746,29.01596697810459
,,,Nível de colesterol,49.61089187056038,28.5551982044221
,,,Nível de creatinina no sangue,49.61304807184364,28.994228530713045


## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql
DROP INDEX IF EXISTS obs_param_index_valor;
DROP INDEX IF EXISTS paciente_index;
DROP INDEX IF EXISTS consulta_index_ssn_id;
CREATE INDEX obs_param_index_valor ON observacao USING BTREE (parametro, valor);
CREATE INDEX paciente_index ON paciente USING HASH (ssn);
CREATE INDEX consulta_index_ssn_id ON consulta USING BTREE (id, ssn);

### Justificação
    No codigo incial sem indexs criados, tinhamos Seq. Scan em paciente, consulta e observação.
        
    Prioridade foi incidir sobre as condições (WHERE), ao fazermos um index sobre o par (parametro, valor) conseguimos reduzir o tempo de execução para metade e eliminar todos os filters e passamos o seq. Scan de observação para Beatmap heap scan.

    Embora já exista um index na primary_key ssn da tabela paciente, decidimos fazer um novo mas desta vez Hash para facilitar a operação JOIN, e passamos a ter um 'index scan using pacient_index' e redução de alguns segundos de execução e passamos o Seq Scan de paciente para Index Scan.

    Por ultimo adicianamos o index no par id e ssn da tabela consulta, de forma a facilitar o JOIN da consulta com a observação, passamos de Seq. Scan na consulta para Index Only Scan.
    

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

In [None]:
%%sql
DROP INDEX cslt_data_index;
CREATE INDEX cslt_data_index ON consulta (data, nif, codigo_sns);


### Justificação
    No codigo inicial temos Seq. Scan em consulta, receita e medico.

    Iniciamos com um index composto na consulta, por data (cobrindo a condição WHERE), nif (facilitando o JOIN) e codigo_sns (Facilitar JOIN), e conseguimos um Index Only scan na consulta.