# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. João Caldeira

### Grupo 94
<dl>
    <dt>30 horas (33.3%)</dt>
    <dd>ist1106491 Adriana Lourenço</dd>
    <dt>30 horas (33.3%)</dt>
    <dd>ist1106748 Inês Antunes</dd>
    <dt>30 horas (33.3%)</dt>
    <dd>ist1106369 Sophia Alencar </dd>
<dl>

In [None]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;
DROP TABLE IF EXISTS slots CASCADE;

CREATE TABLE slots(
	hora TIME NOT NULL
);

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	dia_da_semana SMALLINT,
	PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
	nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql
-- (RI-1)
ALTER TABLE consulta DROP CONSTRAINT IF EXISTS check_hour;
ALTER TABLE consulta ADD CONSTRAINT check_hour CHECK (
    (EXTRACT(MINUTE FROM hora) = 0 OR EXTRACT(MINUTE FROM hora) = 30) AND
    ((EXTRACT(HOUR FROM hora) BETWEEN 8 AND 12) OR (EXTRACT(HOUR FROM hora) BETWEEN 14 AND 18))
);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql
-- (RI-2)
CREATE OR REPLACE FUNCTION get_patients_nif (IN patients_ssn CHAR(11), OUT patients_nif CHAR(9))
AS $$
BEGIN
    SELECT paciente.nif INTO patients_nif FROM paciente WHERE paciente.ssn = patients_ssn;
END;
$$ LANGUAGE plpgsql;

ALTER TABLE consulta ADD CONSTRAINT prevent_self_patient CHECK (
    nif <> get_patients_nif(ssn)
);

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
-- (RI-3)

CREATE OR REPLACE FUNCTION check_doctor_schedule(
    doctor_nif CHAR(9),
    clinic_name VARCHAR(80),
    consultation_date DATE
) RETURNS BOOLEAN AS $$
BEGIN
    RETURN EXISTS (
        SELECT 
        FROM trabalha 
        WHERE trabalha.nif = doctor_nif
        AND trabalha.nome = clinic_name
        AND trabalha.dia_da_semana = EXTRACT(DOW FROM consultation_date)
    );
END;
$$ LANGUAGE plpgsql;

ALTER TABLE consulta ADD CONSTRAINT enforce_working_schedule CHECK (
    check_doctor_schedule(nif, nome, data)
);

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

- A função list_clinics() faz uma query para buscar todas as clinicas existentes na base de dados a partir do nome e morada, usando um método GET que acessa o endpoint "/" .

- A função list_specialties(clinica) retorna todos os médicos da clinica especificada no endpoint "/c/<clinica>" acessado por um método GET.  

- A função list_all_doctors(clinica,especialidade) retorna uma lista de slots dos 3 primeiros horários disponiveis para cada médico da dada clinica e especialidade espeecificada no endpoint "/c/<clinica>/<especialidade>", acessado por um método GET. 

- A função register_appointment(clinica) permite registar uma nova consulta na base de dados (populando-a) com um respetivo médico, paciente, data e hora (que recebe como argumentos), e uma dada clinica especificada no endpoint "/a/<clinica>/registar" acessada pelo método POST.

- A função cancel_appointment(clinica) permite cancelar uma  consulta (que ainda nao se realizou) na base de dados como um respetivo médico, paciente, data e hora (que recebe como argumentos), e uma dada clinica especificada no endpoint "/a/<clinica>/registar" acessada pelo método DELETE. Remove a entrada da respetiva tabela.


## 3. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [None]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS historial_paciente;

CREATE MATERIALIZED VIEW historial_paciente AS
SELECT
    c.id, c.ssn, c.nif, c.nome, c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    EXTRACT(DOW FROM c.data) AS dia_da_semana,
    SUBSTRING(cl.morada FROM ', (.*)') AS localidade,
    m.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave,
    o.valor
FROM consulta c
    JOIN medico m ON c.nif = m.nif
    JOIN clinica cl ON c.nome = cl.nome
    JOIN observacao o ON c.id = o.id
UNION ALL
SELECT
    c.id, c.ssn, c.nif, c.nome, c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    EXTRACT(DOW FROM c.data) AS dia_da_semana,
    SUBSTRING(cl.morada FROM ', (.*)') AS localidade,
    m.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave,
    r.quantidade::FLOAT AS valor
FROM consulta c
    JOIN medico m ON c.nif = m.nif
    JOIN clinica cl ON c.nome = cl.nome
    JOIN receita r ON c.codigo_sns = r.codigo_sns;

REFRESH MATERIALIZED VIEW historial_paciente;

## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [None]:
%%sql
WITH observacoes_ortopedia AS (
    SELECT ssn, nome, chave,data
    FROM historial_paciente
    WHERE especialidade = 'Ortopedia' AND tipo = 'observacao' AND valor IS NULL
),
intervalos_observacoes AS (
    SELECT o1.ssn, o1.nome, MAX(o1.data - o2.data) AS max_intervalo
    FROM observacoes_ortopedia o1
    JOIN observacoes_ortopedia o2
    ON
        o1.ssn = o2.ssn AND
        o1.chave = o2.chave AND
        o1.data > o2.data
    GROUP BY o1.ssn, o1.nome
)
SELECT ssn,nome
FROM intervalos_observacoes;

2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante pelo menos doze meses consecutivos, em consultas de cardiologia.

In [None]:
%%sql
WITH cardiologia_receitas AS (
    SELECT c.ssn, r.medicamento, EXTRACT(YEAR FROM c.data) AS ano,EXTRACT(MONTH FROM c.data) AS mes
    FROM consulta c
    JOIN receita r ON c.codigo_sns = r.codigo_sns
    JOIN medico m ON c.nif = m.nif
    WHERE m.especialidade = 'cardiologia'
),
receitas_mes AS (
    SELECT DISTINCT ssn, medicamento, ano, mes
    FROM cardiologia_receitas
),
meses AS (
    SELECT ssn, medicamento, MIN(ano * 12 + mes) AS start_month, MAX(ano * 12 + mes) AS end_month, COUNT(DISTINCT ano * 12 + mes) AS months_count
    FROM receitas_mes
    GROUP BY ssn, medicamento
    HAVING COUNT(DISTINCT ano * 12 + mes) >= 12
       AND MAX(ano * 12 + mes) - MIN(ano * 12 + mes) + 1 = COUNT(DISTINCT ano * 12 + mes)
)
SELECT DISTINCT medicamento
FROM meses
ORDER BY medicamento;

3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [None]:
%%sql
SELECT
    r.medicamento,
    SUBSTRING(cl.morada FROM ', (.*)') AS localidade,
    c.nome AS clinica,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    m.especialidade,
    m.nome AS nome_medico,
    SUM(r.quantidade::FLOAT) AS quantidade_total
FROM consulta c
JOIN medico m ON c.nif = m.nif
JOIN clinica cl ON c.nome = cl.nome
JOIN receita r ON c.codigo_sns = r.codigo_sns
WHERE EXTRACT(YEAR FROM c.data) = 2023
GROUP BY GROUPING SETS (
    (r.medicamento),
    (r.medicamento, localidade),
    (r.medicamento, localidade, clinica),
    (r.medicamento, mes),
    ( r.medicamento,mes, dia_do_mes),
    (r.medicamento, especialidade),
    (r.medicamento, especialidade, nome_medico)
)
ORDER BY r.medicamento, localidade, clinica, mes, dia_do_mes, especialidade, nome_medico;

4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [None]:
%%sql
WITH observacoes_metricas AS (
    SELECT
        m.nome AS nome_medico,
        m.especialidade,
        cl.nome AS clinica,
        o.parametro,
        o.valor
    FROM historial_paciente h
    JOIN medico m ON h.nif = m.nif
    JOIN clinica cl ON h.nome = cl.nome
    JOIN observacao o ON h.id = o.id
    WHERE o.valor IS NOT NULL
)
SELECT
    especialidade AS especialidade,
    nome_medico AS nome_medico,
    clinica AS clinica,
    parametro,
    AVG(valor) AS media,
    STDDEV(valor) AS desvio_padrao
FROM observacoes_metricas
GROUP BY GROUPING SETS (
    (parametro),
    (parametro,especialidade),
    (parametro,especialidade, nome_medico),
    
    ( parametro, clinica),
    ( parametro,especialidade, clinica),
    ( parametro,especialidade, nome_medico,clinica)
)
ORDER BY especialidade, nome_medico, clinica, parametro;

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql
DROP INDEX IF EXISTS idx_observacao_parametro_valor;
DROP INDEX IF EXISTS idx_paciente_ssn;
DROP INDEX IF EXISTS idx_observacao_ssn_id;

CREATE INDEX idx_observacao_parametro_valor ON observacao USING btree (parametro, valor);
CREATE INDEX idx_paciente_ssn ON paciente USING hash (ssn);
CREATE INDEX idx_observacao_ssn_id ON consulta USING btree (ssn, id);

### Justificação

A consulta filtra a tabela observacao usando parametro e valor. Um índice B-tree é eficiente para consultas que envolvem intervalos e ordenação, e neste caso, vai ajudar-nos a localizar rapidamente os registos onde parametro = 'pressão diastólica' e valor >= 9.
A junção entre paciente e consulta é feita pelo atributo ssn. O índice idx_paciente_ssn com hash é extremamente eficiente para procuras de igualdade, como aquelas realizadas com o JOIN.
O índice idx_observacao_ssn_id foi criado com a intenção de ajudar na junção entre consulta e observacao usando o id.
Ao utilizar os índices escolhidos tentámos otimizar a filtragem e as junções realizadas na consulta. O uso de índices B-tree em parametro, valor e id, sns melhora a eficiência da filtragem e das junções, enquanto o índice hash em ssn garante uma procura rápida de igualdade para junções.
Após testar vários tipos de índices diferentes com recurso ao ANALYZE percebemos que estes eram os mais eficientes para esta consulta.

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

In [None]:
%%sql

DROP INDEX IF EXISTS idx_consulta_data;

CREATE INDEX idx_consulta_data ON consulta USING btree (data);

### Justificação

A consulta filtra a tabela consulta usando um intervalo de datas (data BETWEEN '2023-01-01' AND '2023-12-31'). Um índice B-tree é particularmente eficiente para consultas que envolvem intervalos e ordenação, pois permite uma procura rápida e eficiente dentro do intervalo de datas especificado. Recorrendo ao ANALYZE, testámos outros tipos de índices para otimizar esta consulta, por exemplo:

CREATE INDEX idx_consulta_nif ON consulta USING btree (nif, codigo_sns);                                                               
CREATE INDEX idx_consulta_data ON consulta USING btree (data);                                                                          
CREATE INDEX idx_medico_especialidade ON medico USING btree(especialidade);

mas como as diferenças de custo não eram significativas decidimos deixar este tipo de índice.