# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof. Flávio Martins
BD26 L05
### Grupo 86
<dl>
    <dt>10 horas (33.3%)</dt>
    <dd>ist1102598 Alexandre Ramos</dd>
    <dt>10 horas (33.3%)</dt>
    <dd>ist1107249 David Rogério</dd>
    <dt>10 horas (33.3%)</dt>
    <dd>ist1106100 Guilherme Sousa</dd>
<dl>

In [93]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


There's a new jupysql version available (0.10.10), you're running 0.10.9. To upgrade: pip install jupysql --upgrade


## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [94]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);


## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [95]:
%%sql
-- (RI-1)
ALTER TABLE consulta
ADD CONSTRAINT hora_check 
CHECK (
    (EXTRACT(hour FROM hora) BETWEEN 8 AND 18)
    AND (EXTRACT(minute FROM hora) = 0 OR EXTRACT(minute FROM hora) = 30)
    AND EXTRACT(hour FROM hora) != 13
);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [96]:
%%sql
-- (RI-2)
CREATE OR REPLACE FUNCTION medico_check() RETURNS trigger AS $$
    BEGIN
        IF new.nif = (SELECT nif from paciente WHERE ssn = new.ssn) THEN 
            RAISE EXCEPTION 'Um médico não se pode consultar a si próprio';
        END IF;
        RETURN NEW;
    END;
$$ LANGUAGE plpgsql;
CREATE TRIGGER check_medico BEFORE INSERT ON consulta
    FOR EACH ROW EXECUTE FUNCTION medico_check();


(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [1]:
%%sql
-- (RI-3)
CREATE OR REPLACE FUNCTION medico_escala_check() RETURNS trigger AS $$
    BEGIN
        IF new.nif NOT IN (SELECT nif from medico)
            THEN RAISE EXCEPTION 'NIF não corresponde a nenhum medico';
        END IF;
        IF new.nome NOT IN (SELECT nome from clinica)
            THEN RAISE EXCEPTION 'Não temos uma clinica com esse nome';
        END IF;
        IF EXTRACT(isodow FROM new.data) NOT IN (SELECT dia_da_semana from trabalha WHERE nif = new.nif and nome =new.nome)
            THEN RAISE EXCEPTION 'O medico não trabalha nessa clinica nesse dia da semana';
        END IF;
        RETURN NEW;
    END;
$$ LANGUAGE plpgsql;
CREATE TRIGGER check_escala_medico BEFORE INSERT ON consulta
    FOR EACH ROW EXECUTE FUNCTION medico_escala_check();

UsageError: Cell magic `%%sql` not found.


## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

In [98]:
!psql -U postgres -d postgres -f ./populate.sql

BEGIN
COPY 5
COPY 30
COPY 60
COPY 300
COPY 5000
COPY 93984
COPY 299479
COPY 186183
 setval 
--------
  93984
(1 row)

INSERT 0 1
INSERT 0 13
INSERT 0 13
INSERT 0 13
COMMIT
ANALYZE


## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, indicando a correspondência entre as funções app.py e os endpoints pedidos

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

O único ficheiro na pasta web é `app.py`.
A aplicação é lançada correndo `flask --app app.py run` a partir da pasta onde está o `app.py`.

Fica uma breve descrição de cada endpoint:

### /
- **Função**: list_clinics()
- **Metodos**: GET
- **Response Codes**: 200, 500
- **Formato do Conteudo**: json
- **Exemplo de Uso**: `curl --silent -w "%{http_code}\n" -X GET "localhost:5000/" | jq`

### /c/\<clinica>
- **Função**: list_especialidades()
- **Metodos**: GET
- **Response Codes**: 200, 400, 500
- **Formato do Conteudo**: json
- **Exemplo de Uso**: `curl --silent -w "%{http_code}\n" -X GET "localhost:5000/c/Blue/" | jq`

### /c/\<clinica>/\<especialidade>
- **Função**: available_time_slots(clinica, especialidade)
- **Metodos**: GET
- **Response Codes****: 200, 400, 500
- **Formato do Conteudo**: json
- **Exemplo de Uso**: `curl --silent -w "%{http_code}\n" -X GET "localhost:5000/c/Blue/Ortopedia/" | jq`

### /a/\<clinica>/\<registar>/
- **Função**: marcar_consulta(clinica)
- **Metodos**: POST
- **Response Codes**: 200, 400, 500
- **Formato do Conteudo**: json
- **Exemplo de Uso**: `curl --silent -w "%{http_code}\n" -X POST "localhost:5000/a/Blue/registar/?medico=235777723&data=2024-06-06&hora=08:30:00&paciente=80297386184" | jq`

### /a/\<clinica>/\<cancelar>/
- **Função**: cancelar_consulta(clinica)
- **Metodos**: DELETE
- **Response Codes**: 200, 400, 500
- **Formato do Conteudo**: json
- **Exemplo de Uso**: `curl --silent -w "%{http_code}\n" -X DELETE "localhost:5000/a/Blue/cancelar/?medico=235777723&data=2024-06-06&hora=08:30:00&paciente=80297386184" | jq`

## 4. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano*, *mes* e *dia_do_mes*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [99]:
%%sql
create materialized view historial_paciente as
(   

    with part1 as(
        select
            id, ssn, nif, con.nome, data, codigo_sns,
            extract(year from con.data ) as ano,
            extract(month from con.data ) as mes,
            extract(day from con.data) as dia_do_mes,
            reverse(substring(reverse(cli.morada) from '(.*)\s-')) as localidade,
            med.especialidade
        from
            consulta con
            join clinica cli using (nome)
            join medico med using (nif)
    )
    (
    select
        id, ssn, nif, nome, data,
        ano, mes, dia_do_mes, localidade, especialidade, 
        'observacao' as tipo,
        obs.parametro as chave,
        obs.valor as valor
    from part1 join observacao obs using (id)
    )
    UNION
    (
    select
        id, ssn, nif, nome, data,
        ano, mes, dia_do_mes, localidade, especialidade,  
        'receita' as tipo,
        rec.medicamento as chave,
        rec.quantidade as valor
    from part1 join receita rec using (codigo_sns)
    )
);

## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [100]:
%%sql
with idk as(
    select ssn, chave, max(data) - min(data) as delta
    from historial_paciente
    where tipo='observacao' and valor is null and especialidade='Ortopedia'
    group by ssn,chave
)
select ssn, delta
from idk
where delta >= (select max(delta) from idk);


ssn,delta
12050229766,467
12050229766,467


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante os últimos doze meses, em consultas de cardiologia.

In [101]:
%%sql
select distinct(chave)
from historial_paciente
where especialidade='Cardiologia' and tipo='receita'
and data >= date_trunc('month', current_date) - interval '1 year'
and data < date_trunc('month', current_date) --floor of month
group by ssn, chave
having ( count(distinct(ano,mes))>=12);

chave
Edoxaban


3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [2]:
%%sql
with grouped_data as(
    select
        chave as medicamento,
        localidade, nome,
        mes, dia_do_mes,
        especialidade, nif,
        count(*) as total
    from
        historial_paciente
    where
        tipo='receita' and ano='2023'
    group by distinct
        chave,
        grouping sets
        (
            rollup(localidade, nome),
            rollup(mes,dia_do_mes),
            rollup(especialidade, nif)
            --Resultados podiam ser errados
            --se 2 medicos tiverem o mesmo nome
        )
)
select 
    medicamento,
    localidade, gp.nome as nome_clinica,
    mes, dia_do_mes,
    gp.especialidade, med.nome as nome_medico,
    total
from
    grouped_data gp
    left join medico med using (nif)
order by medicamento, localidade, gp.nome, mes , dia_do_mes, gp.especialidade, med.nome
;

UsageError: Cell magic `%%sql` not found.


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [3]:
%%sql
with grouped_data as
(
    select 
        chave as parametro,
        especialidade,
        nif,
        nome as nome_clinica,
        avg(valor) as avg,
        stddev(valor) as stddev
    from
        historial_paciente
    where 
        tipo='observacao' and valor is not null
    group by
        chave,
        grouping sets 
        (
            nome, --across clinics
            rollup(especialidade, nif, nome)
            /*chave, esp, nif, nome permite comparar
            as medições de um medico nas diferentes
            clinicas em que trabalha*/
        )
)
select 
    parametro,
    gp.especialidade,
    med.nome as nome_medico, 
    nome_clinica,
    avg,
    stddev
from
    grouped_data gp
    left join medico med using (nif)
order by
    parametro, especialidade, nome_medico, nome_clinica
;

UsageError: Cell magic `%%sql` not found.


## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [104]:
%%sql
CREATE INDEX index611 ON observacao USING btree (parametro, valor);

### Justificação

Visto que a query é da forma 'where a=constant1 and b >= constant2', usamos um index composto btree sobre observacao.
Desta forma eliminamos o passo de filtrar as linhas de observacao sequencialmente.
Não é necessário criar indices sobre ssn em consulta nem id em observacao pois esses já são primary keys das tabelas envolvidas no join. 

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_sns) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
ORDER BY qtd;

In [105]:
%%sql
create index index621 on receita (codigo_sns);
create index index622 on consulta (data);

### Justificação

Visto que codigo_sns não é primary key de consulta nem receita, um indice sobre ele pode melhorar a performance do join.
Um indice sobre data em consulta permite fazer o passo de filtragem por data, evitando um seq scan.
Não é possivel evitar o sort do group by com indices pois está a agroupar o join de tabelas distintas, e não é possivel evitar o sort do order by pois está a operar sobre um agregado de dados sobre os agrupamentos de joins de tabelas distintas.