# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. Daniel Faria

### Grupo 32
<dl>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1106992 Mariana Santana</dd>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1106221 João Rodrigues</dd>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1107090 Duarte Ramires</dd>
<dl>

In [None]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://saude:saude@postgres/saude

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;
DROP TABLE IF EXISTS horario_disponivel CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);

CREATE TABLE horario_disponivel(
	data DATE NOT NULL,
	hora TIME NOT NULL,
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql
ALTER TABLE consulta
ADD CONSTRAINT check_horario_consulta
CHECK (
    hora >= '08:00:00' AND hora <= '18:30:00' 
    AND hora NOT IN ('13:00:00', '13:30:00')
    AND EXTRACT(MINUTE FROM hora) IN (0, 30)
    AND EXTRACT(SECOND FROM hora) = 0
);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql
CREATE OR REPLACE FUNCTION check_medico_paciente()
RETURNS TRIGGER AS $$
DECLARE
    match_count INTEGER;
BEGIN
    SELECT COUNT(*) INTO match_count
    FROM paciente p
    WHERE p.nif = NEW.nif AND p.ssn = NEW.ssn;

    IF match_count != 0 THEN
        RAISE EXCEPTION 'Paciente e médico não podem ser a mesma pessoa';
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;
CREATE TRIGGER medico_paciente_trigger
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION check_medico_paciente();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
CREATE OR REPLACE FUNCTION check_medico_clinica_dia()
RETURNS TRIGGER AS $$
BEGIN
    IF EXISTS (
        SELECT 1 FROM trabalha 
        WHERE nif = NEW.nif AND 
              nome = NEW.nome AND 
              dia_da_semana = EXTRACT(DOW FROM NEW.data)
    ) THEN
        -- O médico está programado para trabalhar nesta clínica neste dia da semana
        RETURN NEW;
    ELSE
        -- O médico não está programado para trabalhar nesta clínica neste dia da semana
        RAISE EXCEPTION 'Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta';
    END IF;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER medico_clinica_dia_trigger
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION check_medico_clinica_dia();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

...

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [None]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS historial_paciente;
CREATE MATERIALIZED VIEW historial_paciente AS
SELECT
    c.id, c.ssn, c.nif, c.nome, c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    TO_CHAR(c.data, 'Day') AS dia_da_semana,
    SUBSTRING(cl.morada FROM '[0-9]{4}-[0-9]{3} (.+)') AS localidade,
    m.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave, o.valor AS valor
FROM consulta c
JOIN clinica cl ON c.nome = cl.nome
JOIN medico m ON c.nif = m.nif
JOIN observacao o ON c.id = o.id
UNION ALL

SELECT
    c.id, c.ssn, c.nif, c.nome, c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    TO_CHAR(c.data, 'Day') AS dia_da_semana,
    SUBSTRING(cl.morada FROM '[0-9]{4}-[0-9]{3} (.+)') AS localidade,
    m.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave, r.quantidade AS valor
FROM consulta c
JOIN clinica cl ON c.nome = cl.nome
JOIN medico m ON c.nif = m.nif
JOIN receita r ON c.codigo_sns = r.codigo_sns;

-- 5.2
DROP INDEX CONCURRENTLY IF EXISTS idx_hp_ssn_chave;
CREATE INDEX CONCURRENTLY idx_hp_ssn_chave ON historial_paciente (ssn, chave);

## 5. Análise de Dados (SQL e OLAP)

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [None]:
%%sql
SELECT h1.ssn
FROM historial_paciente h1
JOIN historial_paciente h2 ON h1.ssn = h2.ssn AND h1.especialidade = h2.especialidade
    AND h1.chave = h2.chave AND h1.tipo = h2.tipo
WHERE h1.especialidade = 'ortopedia' AND h1.tipo = 'observacao' AND h1.valor IS NULL AND h2.valor IS NULL
GROUP BY h1.ssn HAVING MAX(h2.data - h1.data) >= ALL (
    SELECT MAX(h2.data - h1.data)
    FROM historial_paciente h1
    JOIN historial_paciente h2 ON h1.ssn = h2.ssn AND h1.especialidade = h2.especialidade
        AND h1.chave = h2.chave AND h1.tipo = h2.tipo
    WHERE h1.especialidade = 'ortopedia' AND h1.tipo = 'observacao' AND h1.valor IS NULL AND h2.valor IS NULL
    GROUP BY h1.ssn
);

2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [None]:
%%sql
SELECT DISTINCT h1.ssn, h1.chave AS medicamento
FROM historial_paciente h1
JOIN paciente p ON h1.ssn = p.ssn
WHERE h1.especialidade = 'cardiologia' AND h1.tipo = 'receita' 
    AND NOT EXISTS (

    SELECT to_char(generate_series(
        date_trunc('month', CURRENT_DATE - INTERVAL '1 year'),
        date_trunc('month', CURRENT_DATE), '1 month'), 'YYYY-MM') AS months

    EXCEPT

    SELECT DISTINCT (h2.ano || '-' || LPAD(h2.mes::text, 2, '0')) AS months 
    FROM historial_paciente h2
    WHERE p.ssn = h2.ssn AND h1.chave = h2.chave 
        AND h2.especialidade = 'cardiologia' AND h2.tipo = 'receita'
);

3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [None]:
%%sql
SELECT DISTINCT
    h.chave AS medicamento, 
    h.localidade, 
    h.nome, 
    h.mes, 
    h.dia_do_mes, 
    h.especialidade, 
    m.nome AS medico_nome, 
    SUM(h.valor) AS total
FROM 
    historial_paciente h
JOIN 
    medico m ON m.nif = h.nif
WHERE 
    tipo = 'receita'
GROUP BY 
    medicamento ,
    GROUPING SETS (
        ROLLUP(h.localidade, h.nome),
        ROLLUP(h.mes, h.dia_do_mes),
        ROLLUP(h.especialidade, m.nome)
    )
ORDER BY
    m.nome NULLS FIRST ,
    h.especialidade NULLS FIRST ,
    h.dia_do_mes NULLS FIRST ,
    h.mes NULLS FIRST ,
    h.nome NULLS FIRST ,
    h.localidade NULLS FIRST ;
    

4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [None]:
%%sql
SELECT hp.chave AS parametro, hp.especialidade, m.nome AS medico, hp.nome AS clinica,
    AVG(hp.valor) AS valor_medio, STDDEV_SAMP(hp.valor) AS desvio_padrao
FROM historial_paciente hp
JOIN medico m ON m.nif = hp.nif
WHERE hp.tipo = 'observacao' AND hp.valor IS NOT NULL
GROUP BY 
    hp.chave ,
    GROUPING SETS(
        ROLLUP (hp.especialidade, medico, clinica)
    )
ORDER BY
    hp.especialidade NULLS FIRST ,
    medico NULLS FIRST ,
    clinica NULLS FIRST ;
    

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql

DROP INDEX CONCURRENTLY IF EXISTS idx_consulta_ssn;
DROP INDEX CONCURRENTLY IF EXISTS idx_observacao_valor;

CREATE INDEX CONCURRENTLY idx_consulta_ssn ON consulta(ssn);
CREATE INDEX CONCURRENTLY idx_observacao_valor ON observacao(valor);


EXPLAIN (ANALYZE, BUFFERS)    
SELECT p.nome 
FROM paciente p 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = 'pressão diastólica' 
AND valor >= 90;

### Justificação

Esta consulta retorna os nomes dos pacientes cujas observações médicas indicam que o parâmetro "pressão diastólica" teve um valor maior ou igual a 90 (utilizamos o valor 90 por ser um valor bastante acima da média nos dados em que testámos o uso destes índices).

O plano de consulta mostra que a consulta está a utilizar os índices para encontrar dados nas tabelas consulta e observacao:
- idx_consulta_ssn na tabela consulta: ajuda na junção entre as tabelas paciente e consulta, permitindo uma busca eficiente dos registros de consulta por ssn. O plano de consulta indica que este índice está a ser utilizado para buscar registros na tabela consulta durante a execução da consulta.
- idx_observacao_valor na tabela observacao: é utilizado para a condição valor >= 90 na consulta, permitindo uma busca rápida e eficiente pelos valores de observação que correspondem ao critério especificado. O plano de consulta mostra que este índice está a ser utilizado para filtrar os registros na tabela observacao.

A operação de junção com a tabela paciente não beneficia da criação de um novo índice para essa tabela pois "ssn" é primary key de paciente. Também na tabela "observação" não é benéfico criar um índice com base em "id" pois também é primary key. E, por fim, apesar de ser utilizado na igualdade: parametro = 'pressão diastólica' não é benéfico criar um índice com base em "parametro" pois este é primary key de "observacao". 

Assim, podemos concluir através do plano de consulta que o uso destes índices diminui o número de acessos à memória, reduzindo a necessidade de acessos completos às tabelas. Isso, por sua vez, melhora temporalmente a query, pois as operações de busca e filtragem são realizadas de forma mais eficiente, resultando num tempo total (planeamento + execução) mais rápido.




### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

In [None]:
%%sql
DROP INDEX CONCURRENTLY IF EXISTS idx_medico;
DROP INDEX CONCURRENTLY IF EXISTS idx_consulta;
DROP INDEX CONCURRENTLY IF EXISTS idx_receita;

CREATE INDEX CONCURRENTLY idx_medico ON medico(especialidade);
CREATE INDEX CONCURRENTLY idx_consulta ON consulta(data, nif, codigo_sns);
CREATE INDEX CONCURRENTLY idx_receita ON receita(quantidade);    

EXPLAIN (ANALYZE, BUFFERS)    
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_sns) 
WHERE data BETWEEN '2023-01-01' AND '2023-12-31' 
GROUP BY especialidade
ORDER BY qtd;

### Justificação

Esta consulta serve para obter a quantidade total de prescrições para cada especialidade médica para consultas que ocorreram no ano de 2023. Para aumentar aumentar a eficiência desta query utilizamos índices e utilizando EXPLAIN ANALISE podemos verificar que são utilizados da seguinte forma:
- idx_medico: Para localizar as linhas da tabela “medico” com base na “especialidade” tornando mais eficiente a operação de junção das tabelas “medico” e “consulta”. 
- idx_consulta: Para filtrar as linhas de "consulta" com base na coluna “data” (utilizada em “WHERE data BETWEEN '2023-01-01' AND '2023-12-31'”) e com base no “nif” e “codigo_sns” para tornar mais eficientes as operações de junção entre “consulta”, “medico” e “receita”.
- idx_receita: Para localizar as linhas da tabela "receita" com base na “quantidade”. Útil para melhorar a eficiência da operação de ordenação pelos valores “quantidade” e para a soma destes. 

Assim, podemos concluir através do plano de consulta que o estes índices otimizam as operações de busca, junção e agregação, resultando num melhor tempo de resposta e maior eficiência na consulta.





