# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. Alessandro Gianola

### Grupo 69
<dl>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1106468 Martim Aires de Sousa</dd>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1106324 Cristiano Pantea</dd>
    <dt>20 horas (33.3%)</dt>
    <dd>ist1106074 Rodrigo Perestrelo</dd>
<dl>

In [1]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://saude:saude@postgres/saude

## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [None]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
    nif CHAR(9) NOT NULL REFERENCES medico,
    nome VARCHAR(80) NOT NULL REFERENCES clinica,
    dia_da_semana SMALLINT,
    PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
    nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
    PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [None]:
%%sql
ALTER TABLE consulta ADD CONSTRAINT right_schedule CHECK (
  (
    EXTRACT(HOUR FROM hora) BETWEEN 8 AND 12
    OR EXTRACT(HOUR FROM hora) BETWEEN 14 AND 18
  ) AND (
    EXTRACT(MINUTE FROM hora) = 0
    OR EXTRACT(MINUTE FROM hora) = 30
  )
);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [None]:
%%sql
CREATE OR REPLACE FUNCTION doctor_consulted_himself_func() RETURNS TRIGGER AS 
$$
BEGIN
    IF EXISTS (
        SELECT 1
        FROM paciente p
        WHERE p.nif = NEW.nif AND p.ssn = NEW.ssn
    ) THEN
        RAISE EXCEPTION 'Doctor cant be the same person as the pacient.';
    END IF;
    RETURN NEW;
END;
$$ 
LANGUAGE plpgsql;
    
CREATE OR REPLACE TRIGGER doctor_consulted_himself BEFORE INSERT ON consulta
    FOR EACH ROW EXECUTE FUNCTION doctor_consulted_himself_func();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [None]:
%%sql
CREATE OR REPLACE FUNCTION doctor_wrong_clinic_func() RETURNS TRIGGER AS 
$$
BEGIN
    IF NOT EXISTS (
        SELECT 1
        FROM trabalha t
        WHERE t.nif = NEW.nif AND t.dia_da_semana = EXTRACT(DOW FROM NEW.data) AND t.nome = NEW.nome
    ) THEN
        RAISE EXCEPTION 'Neste dia o médico não atende pacientes nesta clinica!';
    END IF;
    RETURN NEW;
END;
$$ 
LANGUAGE plpgsql;

    
CREATE TRIGGER doctor_wrong_clinic BEFORE INSERT ON consulta
    FOR EACH ROW EXECUTE FUNCTION doctor_wrong_clinic_func();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta app/arquivos e a relação entre eles

O ficheiro /app/app.py contém o código da aplicação app. Este ficheiro consiste em 5 funções principais (cada uma para cada um dos endpoints REST exigidos):
- lista_clinicas: Endpoint /
- lista_especialidades: Endpoint /c/\<clinica>/
- lista_medicos_especialidade: Endpoint /c/\<clinica>/\<especialidade>/
- marcar_consulta: Endpoint /a/\<clinica>/registar/
- cancelar_consulta: Endpoint /a/\<clinica>/cancelar/

O ficheiro /app/horario.sql contém o código SQL para a criação de uma tabela auxiliar (horarios) que serve de apoio às funções lista_medicos_especialidade e cancelar_consulta. Esta tabela contém todos os horários possíveis para uma consulta (que cumprem as restrições horárias), desde a data atual até ao fim de 2024. O código para a população desta tabela está também contido no ficheiro.

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [None]:
%%sql


CREATE MATERIALIZED VIEW historial_paciente AS
    SELECT
        c.id,
        c.ssn,
        c.nif,
        c.nome,
        c.data,
        EXTRACT(YEAR FROM c.data) AS ano,
        EXTRACT(MONTH FROM c.data) AS mes,
        EXTRACT(DAY FROM c.data) AS dia_do_mes,
        SUBSTRING(cl.morada FROM '[0-9]{4}-[0-9]{3}\s(.+)$') AS localidade,
        m.especialidade,
        'observacao' AS tipo,
        o.parametro AS chave,
        o.valor
    FROM
        consulta c
        JOIN clinica cl ON c.nome = cl.nome
        JOIN medico m ON c.nif = m.nif
        JOIN observacao o ON c.id = o.id

    UNION ALL

    SELECT
        c.id,
        c.ssn,
        c.nif,
        c.nome,
        c.data,
        EXTRACT(YEAR FROM c.data) AS ano,
        EXTRACT(MONTH FROM c.data) AS mes,
        EXTRACT(DAY FROM c.data) AS dia_do_mes,
        SUBSTRING(cl.morada FROM '[0-9]{4}-[0-9]{3}\s(.+)$') AS localidade,
        m.especialidade,
        'receita' AS tipo,
        r.medicamento AS chave,
        r.quantidade AS valor
    FROM
        consulta c
        JOIN clinica cl ON c.nome = cl.nome
        JOIN medico m ON c.nif = m.nif
        JOIN receita r ON c.codigo_sns = r.codigo_sns

    ORDER BY ssn;

## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [None]:
%%sql
WITH pacientes_ortopedicos AS (
    SELECT ssn, data, chave
    FROM historial_paciente
    WHERE tipo = 'observacao' AND valor IS NULL AND especialidade = 'Ortopedia'
),
intervalos AS (
    SELECT 
        po.ssn,
        po.data AS data1,
        po2.data AS data2,
        GREATEST(po2.data - po.data) AS intervalo
    FROM pacientes_ortopedicos po 
    JOIN pacientes_ortopedicos po2 ON
        po.ssn = po2.ssn
        AND po2.data > po.data
        AND po.chave = po2.chave
)

SELECT ssn
FROM intervalos
GROUP BY ssn
HAVING MAX(intervalo) >= ALL (
    SELECT MAX(intervalo)
    FROM intervalos
    GROUP BY ssn
)
ORDER BY ssn;

2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante pelo menos doze meses consecutivos, em consultas de cardiologia.

In [None]:
%%sql
CREATE OR REPLACE VIEW pacientes_receita_cardiologia AS 
SELECT
    ssn,
    chave,
    ano,
    mes,
    dia_do_mes 
FROM
    historial_paciente
WHERE 
    especialidade = 'Cardiologia'
    AND tipo = 'receita'
    AND ssn IN (
        SELECT 
            ssn
        FROM 
            historial_paciente
        GROUP BY 
            ssn,
            chave
        HAVING
            COUNT(*) >= 12
    );

WITH date_info AS (
    SELECT 
        EXTRACT(YEAR FROM CURRENT_DATE) AS current_year,
        EXTRACT(MONTH FROM CURRENT_DATE) AS current_month,
        EXTRACT(DAY FROM CURRENT_DATE) AS current_day,
        EXTRACT(YEAR FROM CURRENT_DATE) - 1 AS previous_year
),
filtered_data AS (
    SELECT 
        t.*
    FROM 
        pacientes_receita_cardiologia t,
        date_info d
    WHERE 
        (t.ano > d.previous_year) OR 
        (t.ano = d.previous_year AND t.mes > d.current_month) OR
        (t.ano = d.previous_year AND t.mes = d.current_month AND t.dia_do_mes >= d.current_day)
), meses AS (
    SELECT 1 AS Mes
    UNION ALL
    SELECT 2
    UNION ALL
    SELECT 3
    UNION ALL
    SELECT 4
    UNION ALL
    SELECT 5
    UNION ALL
    SELECT 6
    UNION ALL
    SELECT 7
    UNION ALL
    SELECT 8
    UNION ALL
    SELECT 9
    UNION ALL
    SELECT 10
    UNION ALL
    SELECT 11
    UNION ALL
    SELECT 12
)

SELECT
    f.chave AS medicamento
FROM
    filtered_data f
GROUP BY
    f.ssn,
    f.chave
HAVING NOT EXISTS (
    SELECT m.mes
    FROM meses m
    EXCEPT (
        SELECT
            f2.mes
        FROM
            filtered_data f2
        WHERE
            f2.ssn = f.ssn
            AND f2.chave = f.chave
    )
);

3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [None]:
%%sql
SELECT 
    localidade,
    hp.nome AS clinica,
    mes,
    dia_do_mes,
    hp.especialidade AS especialidade,
    m.nome AS medico,
    hp.chave AS medicamento,
    SUM(hp.valor) AS quantidade_total
FROM
    historial_paciente hp
    JOIN medico m ON (hp.nif = m.nif)
WHERE
    hp.ano = 2023
    AND hp.tipo = 'receita'
GROUP BY
    medicamento,
    GROUPING SETS((), (localidade), (localidade, clinica), (mes), (mes, dia_do_mes), (hp.especialidade), (hp.especialidade, medico))
ORDER BY
    hp.especialidade NULLS FIRST,
    medico NULLS FIRST,
    mes  NULLS FIRST,
    dia_do_mes  NULLS FIRST,
    localidade NULLS FIRST,
    clinica NULLS FIRST;

4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [None]:
%%sql
SELECT
    hp.nome clinica,
    hp.especialidade AS especialidade,
    m.nome AS medico,
    hp.chave AS parametro,
    AVG(hp.valor) AS media_valor_medico,
    STDDEV(hp.valor) AS desvio_padrao_valor_medico
FROM
    historial_paciente hp
    JOIN medico m ON (hp.nif = m.nif)
WHERE
    tipo = 'observacao'
    AND valor IS NOT NULL
GROUP BY
    hp.chave,
    GROUPING SETS (
        (),
        (clinica),
        (hp.especialidade),
        (clinica, hp.especialidade),
        (hp.especialidade, medico),
        (clinica, hp.especialidade, medico)
    )

ORDER BY
    clinica NULLS FIRST,
    especialidade NULLS FIRST,
    medico NULLS FIRST;

## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [None]:
%%sql
CREATE INDEX idx_parametro_valor ON observacao(parametro, valor);

SELECT nome
FROM paciente
JOIN consulta USING (ssn)
JOIN observacao USING (id)
WHERE parametro = 'pressão diastólica'
AND valor >= 9;

### Justificação

Como os atributos 'ssn' e 'id' são PRIMARY KEYS (ou seja, já têm um índice associado) não faz sentido criar outro índice. Assim, as cláusulas JOIN estão já otimizadas.

Sendo assim, neste caso optámos por utilizar apenas o índice composto 'idx_parametro_valor' na tabela 'observacao'. Este índice é composto pelos atributos 'parametro' e 'valor'. Como o tamanho das tabelas excede a memória disponível em várias ordens de magnitude, deduzimos um alto nível de seletividade para ambos os atributos. Desta forma, o índice composto proposto seria mais eficaz, aumentando a performance da consulta pretendida.

A ordem dos atributos no índice é, também, importante. Demos prioridade ao atributo utilizado na igualdade ('parametro') pois, geralmente, possui uma seletividade maior do que o atributo utilizado no intervalo ('valor').

Quanto ao tipo de índice, decidimos utilizar o B-tree, pois é capaz de suportar tanto operações de comparação como de intervalo, sendo este o mais geral, mais eficiente e mais frequentemente utilizado neste tipo de situações.


### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
SORT BY qtd;

In [None]:
%%sql
CREATE INDEX idx_data ON consulta(data);
CREATE INDEX idx_especialidade ON medico USING HASH(especialidade);

SELECT especialidade, SUM(quantidade) AS qtd
FROM medico
JOIN consulta USING (nif)
JOIN receita USING (codigo_ssn) WHERE data BETWEEN '2023-01-01' AND '2023-12-31'
GROUP BY especialidade
ORDER BY qtd;

### Justificação

Como referido no enunciado, os atributos 'nif' e 'codigo_ssn' já têm índices implícitos (por se tratarem de chaves primárias ou estrangeiras). Por isso, não será necessário implementar nenhum índice adicional para melhorar a performance da cláusula JOIN.

Foram criados dois índices diferentes devido ao facto de não ser viável criar um índice composto formado por dois atributos de tabelas diferentes.

Em primeiro lugar, a cláusula WHERE seleciona os dados que estão dentro de um intervalo de valores para o atributo 'data'. Desta forma, um índice b-tree será a opção mais eficiente para este atributo.

De seguida, os dados selecionados anteriormente são agrupados (na cláusula GROUP BY) pelo atributo 'especialidade'. Assim, a utilização de um índice do tipo hash vai acelerar bastante este processo.

Como, na execução da operação de soma dos valores do atributo 'quantidade', vamos ter sempre de percorrer todas as instâncias selecionadas anteriormente, chegámos à conclusão que não vale a pena associar este atributo a um índice.