# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. Alessandro Gianola


### Grupo 25
<dl>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1106827 Cecília Correia</dd>
    <dt>20 horas (33.3%)</dt>
    <dd>ist105918 Gabriel Bispo</dd>
    <dt>20 horas (33.3%)</dt>
    <dd>ist106326 Guilherme Filipe</dd>
<dl>

In [2]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

Deploy Dash apps for free on Ploomber Cloud! Learn more: https://ploomber.io/s/signup


## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [47]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [3]:
%%sql
-- (RI-1)
ALTER TABLE consulta ADD CONSTRAINT horario_consulta CHECK (
  (hora >= '08:00:00' AND hora < '13:00:00' AND date_part('minute', hora) IN (0, 30)) OR
  (hora >= '14:00:00' AND hora < '19:00:00' AND date_part('minute', hora) IN (0, 30))
);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [4]:
%%sql
-- (RI-2)
CREATE OR REPLACE FUNCTION check_doctor_patient() RETURNS TRIGGER AS 
$$
BEGIN
  IF NEW.ssn = (SELECT ssn FROM paciente WHERE nif = NEW.nif) THEN
    RAISE EXCEPTION 'A doctor cannot consult themselves';
  END IF;
  RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER trg_check_doctor_patient
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION check_doctor_patient();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [5]:
%%sql
-- (RI-3)
CREATE OR REPLACE FUNCTION check_doctor_clinic_day() RETURNS TRIGGER AS 
$$
DECLARE
  work_count INT;
BEGIN
  SELECT COUNT(*) INTO work_count
  FROM trabalha
  WHERE trabalha.nif = NEW.nif AND trabalha.nome = NEW.nome AND trabalha.dia_da_semana = EXTRACT(DOW FROM DATA(NEW.data));

  IF work_count = 0 THEN
    RAISE EXCEPTION 'Doctor cannot consult in a clinic where they do not work on the given day';
  END IF;

  RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER trg_check_doctor_clinic_day
BEFORE INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION check_doctor_clinic_day();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles
...

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes e dia_do_mes: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [31]:
%%sql
-- Drop the materialized view if it exists
DROP MATERIALIZED VIEW IF EXISTS historial_paciente;

-- Create the materialized view
CREATE MATERIALIZED VIEW historial_paciente AS
SELECT 
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    SUBSTRING(cl.morada FROM '.*\ ([^ ]+)$') AS localidade,
    m.especialidade,
    CASE
        WHEN r.medicamento IS NOT NULL THEN 'receita'
        WHEN o.parametro IS NOT NULL THEN 'observacao'
        
    END AS tipo,
    COALESCE(o.parametro, r.medicamento) AS chave,
    COALESCE(o.valor, r.quantidade) AS valor
FROM 
    consulta c
    JOIN paciente p ON c.ssn = p.ssn
    JOIN clinica cl ON c.nome = cl.nome
    JOIN medico m ON c.nif = m.nif
    LEFT JOIN observacao o ON c.id = o.id
    LEFT JOIN receita r ON c.codigo_sns = r.codigo_sns;

In [None]:
%%sql
SELECT * FROM historial_paciente
WHERE tipo = 'receita';

## 5. Análise de Dados (SQL e OLAP)

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [64]:
%%sql
WITH observacoes_ortopedia AS (
    SELECT 
        ssn,
        data,
        chave AS parametro
    FROM historial_paciente
    WHERE especialidade = 'ortopedia' AND tipo = 'observacao' AND valor IS NULL
),
intervalos AS (
    SELECT 
        ssn,
        parametro,
        data,
        LAG(data) OVER (PARTITION BY ssn, parametro ORDER BY data) AS data_anterior
    FROM observacoes_ortopedia
),
diferencas AS (
    SELECT 
        ssn,
        parametro,
        data - data_anterior AS intervalo
    FROM intervalos
    WHERE data_anterior IS NOT NULL
)
SELECT 
    ssn,
    MAX(intervalo) AS max_intervalo
FROM diferencas
GROUP BY ssn
ORDER BY max_intervalo DESC
LIMIT 1;

ssn,max_intervalo
53752978368,699


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [62]:
%%sql
SELECT 
    medicamento
FROM (
    SELECT 
        ssn,
        chave AS medicamento,
        COUNT(DISTINCT DATE_TRUNC('month', data)) AS meses_distintos
    FROM historial_paciente
    WHERE especialidade = 'cardiologia' 
        AND tipo = 'receita' 
        AND data >= (CURRENT_DATE - INTERVAL '1 year')
    GROUP BY ssn, chave
) AS cardiologia_prescricoes
WHERE meses_distintos = 12
GROUP BY medicamento;

medicamento


3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [23]:
%%sql
SELECT 
    hp.chave AS medicamento,
    hp.localidade AS clinica_localidade,
    hp.nome AS clinica_nome,
    hp.mes AS mes,
    hp.dia_do_mes AS dia_do_mes,
    hp.especialidade AS especialidade,
    m.nome AS medico_nome,
    SUM(hp.valor) AS quantidade_total
FROM historial_paciente AS hp
JOIN medico AS m ON hp.nif = m.nif
WHERE hp.tipo = 'receita' AND hp.ano = 2023
GROUP BY GROUPING SETS(
        (hp.chave),
        (hp.chave, hp.localidade),
        (hp.chave, hp.localidade, hp.nome),
        (hp.chave, hp.mes),
        (hp.chave, hp.mes, hp.dia_do_mes),
        (hp.chave, hp.especialidade),
        (hp.chave, hp.especialidade, m.nome)
    )
ORDER BY 
    hp.chave,
    hp.localidade,
    hp.nome,
    hp.mes,
    hp.dia_do_mes,
    hp.especialidade,
    m.nome;

medicamento,clinica_localidade,clinica_nome,mes,dia_do_mes,especialidade,medico_nome,quantidade_total


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [22]:
%%sql
-- média (AVG) desvio padrão (STDDEV)
WITH observacoes_metricas AS (
    SELECT 
        hp.chave AS parametro,
        hp.valor,
        hp.nome AS clinica_nome,
        hp.especialidade,
        m.nome AS medico_nome
    FROM historial_paciente AS hp
    JOIN medico AS m ON hp.nif = m.nif
    WHERE tipo = 'observacao' AND valor IS NOT NULL
)
SELECT 
    parametro,
    clinica_nome,
    especialidade,
    medico_nome,
    AVG(valor) AS valor_medio,
    STDDEV(valor) AS desvio_padrao
FROM observacoes_metricas
GROUP BY 
    parametro,
    clinica_nome,
    especialidade,
    medico_nome
ORDER BY 
    parametro,
    clinica_nome,
    especialidade,
    medico_nome;

parametro,clinica_nome,especialidade,medico_nome,valor_medio,desvio_padrao
Metrica 1,Clinica A,cardiologia,Carlos Pereira,37.40434782608695,1.3360867775851395
Metrica 1,Clinica A,cardiologia,Joao Costa,37.61079545454545,1.4901380350948563
Metrica 1,Clinica A,cardiologia,Jose Costa,37.81629213483146,1.4587796788628566
Metrica 1,Clinica A,cardiologia,Maria Pereira,37.57311320754716,1.5770221281930488
Metrica 1,Clinica A,cardiologia,Pedro Ferreira,37.274242424242416,1.3391229870579897
Metrica 1,Clinica A,dermatologia,Ana Sousa,37.5360248447205,1.6292464820827055
Metrica 1,Clinica A,dermatologia,Pedro Oliveira,37.471296296296295,1.4708991666024571
Metrica 1,Clinica A,dermatologia,Rita Martins,37.278756476683945,1.26680968536287
Metrica 1,Clinica A,medicina geral,Joao Silva,37.87379032258065,1.3330729728709865
Metrica 1,Clinica A,medicina geral,Maria Ferreira,37.01200000000001,1.5365105422562708


## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [46]:
%%sql
CREATE INDEX idx_paciente_ssn ON paciente (ssn);

CREATE INDEX idx_consulta_id ON consulta (id);

CREATE INDEX idx_observacao_parametro ON observacao (parametro);

CREATE INDEX idx_observacao_valor ON observacao (valor);

CREATE INDEX idx_observacao_parametro_valor ON observacao (parametro, valor);

### Justificação
- idx_paciente_ssn: Melhora a performance da junção entre paciente e consulta utilizando ssn.
- idx_consulta_id: Melhora a performance da junção entre consulta e observacao utilizando id.
- idx_observacao_parametro: Acelera a busca de registros na tabela observacao que possuem o parametro.
- idx_observacao_valor: Acelera a busca de registros na tabela observacao que possuem o valor maior ou igual a 9.
- idx_observacao_parametro_valor: Um índice composto (parametro, valor) pode ser ainda mais eficiente para a condição WHERE que envolve ambos os atributos, permitindo que o banco de dados otimize a busca considerando as duas condições de uma só vez.

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
ORDER BY qtd;

In [None]:
%%sql
-- CREATE INDEX ---

CREATE INDEX IF NOT EXISTS idx_medico_nif ON medico(nif);
CREATE INDEX IF NOT EXISTS idx_consulta_nif ON consulta(nif);
CREATE INDEX IF NOT EXISTS idx_consulta_codigo_sns ON consulta(codigo_sns);
CREATE INDEX IF NOT EXISTS idx_receita_codigo_sns ON receita(codigo_sns);
CREATE INDEX IF NOT EXISTS idx_consulta_data ON consulta(codigo_sns, nif, data);

### Justificação

idx_consulta_data: está mal
idx_medico_nif, idx_consulta_nif, idx_consulta_codigo_sns, idx_receita_codigo_sns: pode melhorar o join statement
idx_consulta_data: melhoria (codigo_sns, nif, data)
supostamente era um 3 em 1, mas o analyse mostra-me muito poucas informações ou eu não estou a saber interpretar...
para o sum, não é justificado um index