# Projeto de Bases de Dados - Parte 2

### Docente Responsável

Prof.ª Daniela Machado

### Grupo 49 - Turno L08 - LEIC-A
<dl>
    <dt>72 horas (33.3333%)</dt>
    <dd>ist194158 | Bibiana André</dd>
    <dt>72 horas (33.3333%)</dt>
    <dd>ist1106228 | Ricardo Henriques</dd>
    <dt>72 horas (33.3333%)</dt>
    <dd>ist1106458 | Afonso Jacinto</dd>
<dl>

In [1]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/Saude

Deploy Panel apps for free on Ploomber Cloud! Learn more: https://ploomber.io/s/signup


## 0. Carregamento da Base de Dados

Crie a base de dados “Saude” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados de seguida

In [2]:
%%sql

DROP TABLE IF EXISTS clinica CASCADE;
DROP TABLE IF EXISTS enfermeiro CASCADE;
DROP TABLE IF EXISTS medico CASCADE;
DROP TABLE IF EXISTS trabalha CASCADE;
DROP TABLE IF EXISTS paciente CASCADE;
DROP TABLE IF EXISTS receita CASCADE;
DROP TABLE IF EXISTS consulta CASCADE;
DROP TABLE IF EXISTS observacao CASCADE;
DROP TABLE IF EXISTS horario CASCADE;

CREATE TABLE clinica(
	nome VARCHAR(80) PRIMARY KEY,
	telefone VARCHAR(15) UNIQUE NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) UNIQUE NOT NULL
);

CREATE TABLE enfermeiro(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	nome_clinica VARCHAR(80) NOT NULL REFERENCES clinica (nome)
);

CREATE TABLE medico(
	nif CHAR(9) PRIMARY KEY CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) UNIQUE NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	especialidade VARCHAR(80) NOT NULL
);

CREATE TABLE trabalha(
nif CHAR(9) NOT NULL REFERENCES medico,
nome VARCHAR(80) NOT NULL REFERENCES clinica,
dia_da_semana SMALLINT,
PRIMARY KEY (nif, dia_da_semana)
);

CREATE TABLE paciente(
	ssn CHAR(11) PRIMARY KEY CHECK (ssn ~ '^[0-9]+$'),
	nif CHAR(9) UNIQUE NOT NULL CHECK (nif ~ '^[0-9]+$'),
	nome VARCHAR(80) NOT NULL,
	telefone VARCHAR(15) NOT NULL CHECK (telefone ~ '^[0-9]+$'),
	morada VARCHAR(255) NOT NULL,
	data_nasc DATE NOT NULL
);

CREATE TABLE consulta(
	id SERIAL PRIMARY KEY,
	ssn CHAR(11) NOT NULL REFERENCES paciente,
	nif CHAR(9) NOT NULL REFERENCES medico,
	nome VARCHAR(80) NOT NULL REFERENCES clinica,
	data DATE NOT NULL,
	hora TIME NOT NULL,
	codigo_sns CHAR(12) UNIQUE CHECK (codigo_sns ~ '^[0-9]+$'),
	UNIQUE(ssn, data, hora),
	UNIQUE(nif, data, hora)
);

CREATE TABLE receita(
	codigo_sns VARCHAR(12) NOT NULL REFERENCES consulta (codigo_sns),
	medicamento VARCHAR(155) NOT NULL,
	quantidade SMALLINT NOT NULL CHECK (quantidade > 0),
	PRIMARY KEY (codigo_sns, medicamento)
);

CREATE TABLE observacao(
	id INTEGER NOT NULL REFERENCES consulta,
	parametro VARCHAR(155) NOT NULL,
	valor FLOAT,
PRIMARY KEY (id, parametro)
);

CREATE TABLE horario(
	data DATE NOT NULL,
	dia_da_semana SMALLINT,
	hora TIME NOT NULL
);



## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Os horários das consultas são à hora exata ou meia-hora no horário 8-13h e 14-19h

In [3]:
%%sql
-- (RI-1)
ALTER TABLE consulta
ADD CONSTRAINT hora_consulta CHECK (
    (
        EXTRACT(HOUR FROM hora) BETWEEN 14 and 18
        OR EXTRACT(HOUR FROM hora) BETWEEN 8 and 12
    )
    AND
    (EXTRACT(MINUTE FROM hora) IN (0,30))
    AND 
    (EXTRACT(SECOND FROM hora) = 0)
);

(RI-2) Um médico não se pode consultar a si próprio, embora possa ser paciente de outros médicos no sistema

In [4]:
%%sql
-- (RI-2)
CREATE OR REPLACE FUNCTION verificacao_medico() RETURNS TRIGGER AS $$
BEGIN
    IF EXISTS(SELECT ssn
                FROM paciente p, medico m
                WHERE p.ssn = NEW.ssn AND p.nif = NEW.nif)
        THEN
        RAISE EXCEPTION 'O médico com o NIF % não se pode consultar a si mesmo.',
            NEW.nif;
    END IF;
    RETURN NEW;
END
$$ LANGUAGE plpgsql;

CREATE TRIGGER cancela_consulta AFTER INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION verificacao_medico();

(RI-3) Um médico só pode dar consultas na clínica em que trabalha no dia da semana correspondente à data da consulta

In [5]:
%%sql
-- (RI-3)
CREATE OR REPLACE FUNCTION verificacao_consulta() RETURNS TRIGGER AS $$

DECLARE
    clinic_name TEXT;
BEGIN
    SELECT t.nome
    INTO clinic_name
    FROM trabalha t
    WHERE t.nif = NEW.nif AND t.nome = NEW.nome
    LIMIT 1;

    IF  NOT EXISTS(SELECT m.nif
                FROM medico m, consulta c, trabalha t
                WHERE (EXTRACT(DOW FROM NEW.data) = t.dia_da_semana) AND t.nif = NEW.nif AND t.nome = NEW.nome)
        THEN
        RAISE EXCEPTION 'O médico com o NIF % não trabalha na clínica % no dia %.',
            NEW.nif, clinic_name, NEW.data;
    END IF;
    RETURN NEW;
END
$$ LANGUAGE plpgsql;

CREATE TRIGGER cancela_consulta2 AFTER INSERT OR UPDATE ON consulta
FOR EACH ROW EXECUTE FUNCTION verificacao_consulta();

## 2. Preenchimento da Base de Dados

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- 5 clínicas, de pelo menos 3 localidades diferentes do distrito de Lisboa
- 5-6 enfermeiros por clínica
- 20 médicos de especialidade ‘clínica geral’ e 40 outros distribuídos como entender por até 5 outras especialidades médicas (incluindo pelo menos, ‘ortopedia’ e ‘cardiologia’). Cada médico deve trabalhar em pelo menos duas clínicas, e em cada clínica a cada dia da semana (incluindo fins de semana), devem estar pelo menos 8 médicos
- Cerca de 5.000 pacientes
- Um número mínimo de consultas em 2023 e 2024 tais que cada paciente tem pelo menos uma consulta, e em cada dia há pelo menos 20 consultas por clínica, e pelo menos 2 consultas por médico
- ~80% das consultas tem receita médica associada, e as receitas têm 1 a 6 medicamentos em quantidades entre 1 e 3
- Todas as consultas têm 1 a 5 observações de sintomas (com parâmetro mas sem valor) e 0 a 3 observações métricas (com parâmetro e valor). Deve haver ~50 parâmetros diferentes para os sintomas (sem valor) e ~20 parâmetros diferentes para as observações métricas (com valor) e os dois conjuntos devem ser disjuntos. 
- Todas as moradas são nacionais e seguem o formato Português, terminando com código postal: XXXX-XXX e de seguida a localidade.
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório. 

## 3. Desenvolvimento de Aplicação

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Saude’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todas as clínicas (nome e morada).|
|/c/\<clinica>/|Lista todas as especialidades oferecidas na \<clinica>.|
|/c/\<clinica>/\<especialidade>/|Lista todos os médicos (nome) da \<especialidade> que trabalham na <clínica> e os primeiros três horários disponíveis para consulta de cada um deles (data e hora).|
|/a/\<clinica>/registar/|Registra uma marcação de consulta na \<clinica> na base de dados (populando a respectiva tabela). Recebe como argumentos um paciente, um médico, e uma data e hora (posteriores ao momento de agendamento).|
|/a/\<clinica>/cancelar/|Cancela uma marcação de consulta que ainda não se realizou na \<clinica> (o seu horário é posterior ao momento do cancelamento), removendo a entrada da respectiva tabela na base de dados. Recebe como argumentos um paciente, um médico, e uma data e hora.|

### Explicação da arquitetura da aplicação web, incluindo a descrição dos vários ficheiros na pasta web/arquivos e a relação entre eles

Proceder-se-á à explicação da correspondência estabelecida entre os diversos endpoints e as funções da app.py que lhes respetivamente dizem respeito.

Endpoint 1 <br>
O endpoint **"/"** na app é tratado pela função **clinic_index()**. Não é recebido nenhum argumento, pelo que aquilo que a função trata de fazer é selecionar e devolver o conjunto de todas as clínicas existentes no sistema.

Endpoint 2 <br>
O endpoint **"/c/&lt;clinica&gt;/"** é tratado na app pela função **clinica_especialidade(clinica)**. O argumento **clinica** é fornecido por dynamic url e é feita a sua verificação de formato. Caso o argumento não corresponda ao formato pretendido, é devolvida uma mensagem de erro que comunica ao utilizador para adaptar o seu input. Após a verificação do argumento, procede-se à seleção e devolução do conjunto de especialidades médicas praticadas na clínica. Visto que é um requisito deste projeto todas as clínicas terem um número mínimo de médicos a trabalhar em cada dia da semana, então nunca existirão clínicas sem especialidades. Ou seja, se for selecionado um conjunto vazio de especialidades, então é porque a **clinica** requirida não existe no sistema e é devolvida a correspondente mensagem de erro ao utilizador ao invés do conjunto vazio.

Endpoint 3 <br>
O endpoint **"/c/&lt;clinica&gt;/&lt;especialidade&gt;/"** é tratado, do lado da app, pela função **lista_medicos(clinica, especialidade)**. Os argumentos desta função são fornecidos por dynamic url e sofrem, posteriormente, verificações exaustivas de modo a assegurar a sua correção. Caso estejam incorretos, mensagens de erro apropriadas comunicam ao utilizador, de forma clara, para deve adaptar o seu input. Após estas verificações, procede-se a averiguar se a clínica indicada realmente existe no sistema e idem para a especialidade, e verifica-se também se a clínica indicada pratica a especialidade pretendida. Por fim, caso não hajam erros, utiliza-se a tabela auxiliar, criada especificamente para esta situação, de modo a selecionar um conjunto de pares data-hora que afiguram como disponíveis para os médicos da especialidade indicada, que trabalham na clínica indicada, e apresentam-se os 3 primeiros horários disponíveis que ocorrerão brevemente, para cada médico.

Endpoint 4 <br>
O endpoint **"/a/&lt;clinica&gt;/registar/"** é tratado pela função **regista_consulta(clinica)**, e serve para registar uma consulta no sistema. O argumento "clinica" é fornecido por dynamic url e os restantes argumentos associados a este endpoint são passados por url encoding e recolhidos com o método **request.args.get()**. Os argumentos passados sofrem, posteriormente, verificações exaustivas de modo a assegurar a sua correção. Caso estejam incorretos, mensagens de erro apropriadas comunicam ao utilizador, de forma clara, que deve adaptar o seu input. Após estas verificações, procede-se a averiguar se o paciente indicado realmente existe no sistema e idem para o médico e para a clínica. Existem secções que asseguram, também, que a data pretendida não é igual ou anterior ao momento presente, que a marcação pretendida não existe já no sistema e que nem o paciente nem o médico têm uma consulta já marcada nas mesmas data e hora. Por fim procede-se ao registo da consulta, com os argumentos fornecidos, devolvendo mensagem a comunicar o sucesso no registo da consulta.

Endpoint 5 <br>
O endpoint **"/a/&lt;clinica&gt;/cancelar/"** é tratado pela função **cancela_consulta(clinica)**, e serve para cancelar uma consulta presente no sistema. O argumento "clinica" é fornecido por dynamic url e os restantes argumentos associados a este endpoint são passados por url encoding e recolhidos com o método **request.args.get()**. Os argumentos passados sofrem, posteriormente, verificações exaustivas de modo a assegurar a sua correção. Caso estejam incorretos, mensagens de erro apropriadas comunicam ao utilizador, de forma clara, que deve adaptar o seu input. Após estas verificações, procede-se a averiguar se o paciente indicado realmente existe no sistema e idem para o médico e para a clínica. Existem secções que asseguram, também, que a data do cancelamento não é igual ou anterior ao momento presente e que a marcação em questão realmente existe no sistema. Por fim procede-se ao cancelamento da consulta que corresponde aos argumentos fornecidos, devolvendo mensagem a comunicar o sucesso no cancelamento da consulta.

...

## 3. Vistas

Crie uma vista materializada que detalhe as informações mais importantes sobre as consultas dos pacientes, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

### *historial_paciente(id, ssn, nif, nome, data, ano, mes, dia_do_mes, localidade, especialidade, tipo, chave, valor)*

em que:
- *id, ssn, nif, nome* e *data*: correspondem ao atributos homónimos da tabela **consulta**
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *data* da tabela **consulta**
- *localidade*: é derivado do atributo *morada* da tabela **clinica**
- *especialidade*: corresponde ao atributo homónimo da tabela **medico**
- *tipo*: toma os valores ‘observacao’ ou ‘receita’ consoante o preenchimento dos campos seguintes
- *chave*: corresponde ao atributo *parametro* da tabela **observacao** ou ao atributo *medicamento* da tabela **receita**
- *valor*: corresponde ao atributo *valor* da tabela **observacao** ou ao atributo *quantidade* da tabela **receita**


In [6]:
%%sql
--
    CREATE MATERIALIZED VIEW historial_paciente AS
SELECT
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    SUBSTRING(cl.morada FROM '\d{4}-\d{3}\s+(.+)$') AS localidade,
    m.especialidade,
    'observacao' AS tipo,
    o.parametro AS chave,
    o.valor AS valor
FROM 
    consulta c
JOIN 
    clinica cl ON c.nome = cl.nome
JOIN 
    medico m ON c.nif = m.nif
JOIN 
    observacao o ON c.id = o.id
    
UNION ALL

SELECT 
    c.id,
    c.ssn,
    c.nif,
    c.nome,
    c.data,
    EXTRACT(YEAR FROM c.data) AS ano,
    EXTRACT(MONTH FROM c.data) AS mes,
    EXTRACT(DAY FROM c.data) AS dia_do_mes,
    SUBSTRING(cl.morada FROM '\d{4}-\d{3}\s+(.+)$') AS localidade,
    m.especialidade,
    'receita' AS tipo,
    r.medicamento AS chave,
    r.quantidade AS valor
FROM 
    consulta c
JOIN 
    clinica cl ON c.nome = cl.nome
JOIN 
    medico m ON c.nif = m.nif
JOIN 
    receita r ON c.codigo_sns = r.codigo_sns;

## 5. Análise de Dados (SQL e OLAP

Usando a vista desenvolvida no ponto anterior, complementada com outras tabelas da base de dados ‘Saude’ quando necessário, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos. Pode usar as instruções ROLLUP, CUBE, GROUPING SETS ou as cláusulas UNION of GROUP BY para os objetivos em que lhe parecer adequado.

1. Determinar que paciente(s) tiveram menos progresso no tratamento das suas doenças do foro ortopédico para atribuição de uma consulta gratuita. Considera-se que o indicador de falta de progresso é o intervalo temporal máximo entre duas observações do mesmo sintoma (i.e. registos de tipo ‘observacao’ com a mesma chave e com valor NULL) em consultas de ortopedia.

In [7]:
%%sql
    WITH ortopedia_observacoes AS (
    SELECT
        hp.ssn,
        hp.data,
        hp.chave,
        LAG(hp.data) OVER (PARTITION BY hp.ssn, hp.chave ORDER BY hp.data) AS data_anterior
    FROM
        historial_paciente hp
    WHERE
        hp.especialidade = 'Ortopedia' AND
        hp.tipo = 'observacao'
),
intervalos AS (
    SELECT
        oo.ssn,
        oo.chave,
        oo.data,
        oo.data_anterior,
        (oo.data - oo.data_anterior) AS intervalo
    FROM
        ortopedia_observacoes oo
    WHERE
        oo.data_anterior IS NOT NULL
),
max_intervalos AS (
    SELECT
        ssn,
        chave,
        MAX(intervalo) AS max_intervalo
    FROM
        intervalos
    GROUP BY
        ssn, chave
),
chave_max AS (
SELECT DISTINCT ON (i.chave)
    i.ssn,
    i.chave,
    i.intervalo
FROM
    intervalos i
JOIN
    max_intervalos mi ON i.ssn = mi.ssn AND i.chave = mi.chave AND i.intervalo = mi.max_intervalo
ORDER BY
    i.chave,
    i.intervalo DESC
)
SELECT DISTINCT ON (paciente.nome)
	paciente.ssn,paciente.nome 
FROM paciente
INNER JOIN chave_max ON chave_max.ssn=paciente.ssn
ORDER BY paciente.nome;


ssn,nome
35771679252,Anabela Teles
80795006490,André Coutinho
10466506874,André Moura
78661837731,Ângela Amaral
32371097088,Aníbal Pinto
25408185289,Artur Esteves
72116640250,Beatriz Barros
53640355614,Beatriz Fernandes
58606292940,Bruno Correia
11283112255,Catarina Vieira


2. Determinar que medicamentos estão a ser usados para tratar doenças crónicas do foro cardiológico. Considera-se que qualificam quaisquer medicamentos receitados ao mesmo paciente (qualquer que ele seja) pelo menos uma vez por mês durante pelo menos doze meses consecutivos, em consultas de cardiologia.

In [8]:
%%sql
WITH meses_receitas AS (
    SELECT
        ssn,
        chave,
        EXTRACT(YEAR FROM data) * 12 + EXTRACT(MONTH FROM data) AS mes_ano
    FROM
        historial_paciente
    WHERE
        tipo = 'receita' AND
        especialidade = 'Cardiologia'
    GROUP BY
        ssn,
        chave,
        EXTRACT(YEAR FROM data) * 12 + EXTRACT(MONTH FROM data)
),
meses_totais AS (
    SELECT 
        EXTRACT(YEAR FROM t.month::DATE) * 12 + EXTRACT(MONTH FROM t.month::DATE) AS mes_ano
    FROM 
        generate_series('2023-05-31'::TIMESTAMP,
                        '2024-05-31'::TIMESTAMP, 
                        '1 month') AS t(month)
),
meses_consecutivos AS (
    SELECT 
        ssn,
        chave,
        COUNT(*) AS meses_consecutivos
    FROM 
        meses_receitas
    JOIN 
        meses_totais USING (mes_ano)
    GROUP BY 
        ssn, chave
)
SELECT DISTINCT ON (chave)
    chave AS medicamento
FROM 
    meses_consecutivos
WHERE 
    meses_consecutivos >= 12
ORDER BY 
    chave;

    
    
    

medicamento
Bromazepam
Penicilina


3. Explorar as quantidades totais receitadas de cada medicamento em 2023, globalmente, e com drill down nas dimensões espaço (localidade > clinica), tempo (mes > dia_do_mes), e médico  (especialidade > nome \[do médico]), separadamente.

In [10]:
%%sql
WITH medicamento_global AS (
SELECT
    chave AS medicamento,
    SUM(valor::integer) AS total_quantidade
FROM
    historial_paciente
WHERE
    tipo = 'receita' AND
    EXTRACT(YEAR FROM data) = 2023
GROUP BY
    chave
ORDER BY
    chave
),

medicamento_espaco AS(
SELECT
    localidade,
    nome AS clinica,
    chave AS medicamento,
    SUM(valor::integer) AS total_quantidade
FROM
    historial_paciente
WHERE
    tipo = 'receita' AND
    EXTRACT(YEAR FROM data) = 2023
GROUP BY
    localidade, clinica, chave
ORDER BY
    localidade, clinica, chave
),

medicamento_tempo AS (
SELECT
    mes,
    dia_do_mes,
    chave AS medicamento,
    SUM(valor::integer) AS total_quantidade
FROM
    historial_paciente
WHERE
    tipo = 'receita' AND
    EXTRACT(YEAR FROM data) = 2023
GROUP BY
    mes, dia_do_mes, chave
ORDER BY
    mes,chave, dia_do_mes
    
),

medicamento_medico AS(
SELECT
    hp.especialidade,
    m.nome,
    hp.chave AS medicamento,
    SUM(hp.valor::integer) AS total_quantidade
FROM
    historial_paciente hp
JOIN
    medico m ON hp.nif=m.nif
WHERE
    tipo = 'receita' AND
    EXTRACT(YEAR FROM data) = 2023
GROUP BY
    m.nome,hp.especialidade, chave
ORDER BY
    m.nome, medicamento
)
    
SELECT 
    g.medicamento AS medicamento_global,
    g.total_quantidade AS quantidade_global,
    e.localidade,
    e.clinica,
    e.total_quantidade AS quantidade_local,
    t.mes,
    t.dia_do_mes,
    t.total_quantidade AS quantidade_diária,
    m.especialidade,
    m.nome AS medico,
    m.total_quantidade AS quantidade_medico
FROM 
    medicamento_global g
LEFT JOIN 
    medicamento_espaco e ON g.medicamento = e.medicamento
LEFT JOIN 
    medicamento_tempo t ON g.medicamento = t.medicamento
LEFT JOIN
    medicamento_medico m ON g.medicamento = m.medicamento
ORDER BY 
    g.medicamento, e.localidade, e.clinica, t.mes, t.dia_do_mes;


/opt/conda/lib/python3.11/site-packages/sql/connection/connection.py:867: JupySQLRollbackPerformed: Found invalid transaction. JupySQL executed a ROLLBACK operation.


medicamento_global,quantidade_global,localidade,clinica,quantidade_local,mes,dia_do_mes,quantidade_diária,especialidade,medico,quantidade_medico
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Neurologia,Nicolau Pacheco,39
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Clínica Geral,Helena Soares,38
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Cardiologia,José Matias,32
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Dermatologia,Iara Lopes,12
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Cardiologia,Miguel Monteiro,38
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Dermatologia,Marco Martins,10
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Clínica Geral,André Fernandes,35
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Psiquiatria,Tiago Ferreira,30
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Clínica Geral,Rui Barros,45
Alfuzosina,1850,Amadora,Clinica Amadora BemEstar,362,1,2,2,Cardiologia,Filomena Vieira,32


4. Determinar se há enviesamento na medição de algum parâmetros entre clínicas, especialidades médicas ou médicos, sendo para isso necessário listar o valor médio e desvio padrão de todos os parâmetros de observações métricas (i.e. com valor não NULL) com drill down na dimensão médico (globalmente > especialidade > nome \[do médico]) e drill down adicional (sobre o anterior) por clínica.

In [9]:
%%sql

SELECT
    m.especialidade,
    m.nome AS medico,
    hp.nome AS clinica,
    hp.chave AS parametro,
    AVG(hp.valor::numeric) AS valor_medio,
    STDDEV(hp.valor::numeric) AS desvio_padrao
FROM
    historial_paciente hp
JOIN
    medico m ON hp.nif = m.nif
WHERE
    hp.tipo = 'observacao' AND
    hp.valor IS NOT NULL
GROUP BY
    m.especialidade, m.nome, clinica, hp.chave
ORDER BY
    m.nome, hp.chave


especialidade,medico,clinica,parametro,valor_medio,desvio_padrao
Ortopedia,Adriano Correia,Clinica Amadora BemEstar,Altura,55.57142857142857,29.607753167355465
Ortopedia,Adriano Correia,Clinica Amadora CuidamosDeSi,Altura,58.93333333333333,34.50148375001256
Ortopedia,Adriano Correia,Clinica Lisboa BemEstar,Altura,78.8,20.364184245876384
Ortopedia,Adriano Correia,Clinica Lisboa CuidamosDeSi,Altura,54.0,17.59261208575918
Ortopedia,Adriano Correia,Clinica Mafra BemEstar,Altura,48.38461538461537,30.671752644027535
Ortopedia,Adriano Correia,Clinica Amadora BemEstar,Colesterol HDL,50.666666666666664,34.349187278109895
Ortopedia,Adriano Correia,Clinica Amadora CuidamosDeSi,Colesterol HDL,55.588235294117645,28.27777135739619
Ortopedia,Adriano Correia,Clinica Lisboa BemEstar,Colesterol HDL,55.45454545454545,21.662703600260222
Ortopedia,Adriano Correia,Clinica Lisboa CuidamosDeSi,Colesterol HDL,38.0,34.22474738158535
Ortopedia,Adriano Correia,Clinica Mafra BemEstar,Colesterol HDL,40.33333333333333,28.240563233843368


## 6. Índices

Apresente as instruções SQL para criação de índices para melhorar os tempos de cada uma das consultas listadas abaixo sobre a base de dados ‘Saude’. Justifique a sua escolha de tabela(s), atributo(s) e tipo(s) de índice, explicando que operações seriam otimizadas e como. Considere que não existam índices nas tabelas, além daqueles implícitos ao declarar chaves primárias e estrangeiras, e para efeitos deste exercício, suponha que o tamanho das tabelas excede a memória disponível em várias ordens de magnitude.

### 6.1
SELECT nome 
FROM paciente 
JOIN consulta USING (ssn) 
JOIN observacao USING (id) 
WHERE parametro = ‘pressão diastólica’ 
AND valor >= 9;

In [15]:
%%sql
--A instrução DROP foi incluída para facilitar o teste da query com e sem o índice.
--DROP INDEX IF EXISTS observacao_index;

CREATE INDEX observacao_index ON observacao(parametro, valor);

### Justificação
Como o JOIN de paciente com consulta é realizado utilizando o ssn, que é Primary Key de paciente, não considerámos necessário criar índice para o ssn. A mesma lógica aplica-se ao atributo id de observacao. O qual, como é Foreign Key de observacao para consulta, exige existência de índice sobre a coluna id, de consulta, que é a coluna referenciada. Por isso não achámos necessário criar índice para o atributo id. No entanto, ao correr o comando EXPLAIN(ANALYZE, BUFFERS), foi possível verificar que a cláusula "WHERE parametro = 'pressão diastólica' AND valor >= 9" provocava um "Parallel Seq Scan" na tabela observacao, com 2 loops, sendo que, neste scan, 163388 tuplos desta relação (observacao) foram removidos pelas condições de limitação previamente referidas na cláusula em questão. Casos com esta tipologia são passíveis de beneficiar de índice. Uma vez que a comparação "valor >= 9" é uma consulta de tipo "range", não se pode usar um índice de Hash, sendo necessário recorrer a um índice default do PostgreSQL, Índice B-tree. Optou-se por criar um índice de chave dupla, pois é expectável que, numa query envolvendo um parâmetro, seja provável que, juntamente, se peça o possível valor do mesmo. Uma vez que nos foi indicado considerar a seletividade dos atributos em causa como sendo de igual ordem, optou-se por colocar como 1º atributo do índice o atributo parametro, por se encontrar, na query solicitada, numa relação de igualdade, ao contrário do atributo valor, que se encontra numa consulta "range" e, portanto, ocupa a 2ª posição do índice.

...

### 6.2
SELECT especialidade, SUM(quantidade) AS qtd
FROM medico 
JOIN consulta USING (nif)
JOIN receita USING (codigo_sns) 
WHERE data BETWEEN ‘2023-01-01’ AND ‘2023-12-31’ 
GROUP BY especialidade
ORDER BY qtd;

In [16]:
%%sql
    
--As instruções DROP foram incluídas para facilitar o teste da query com e sem os índices.
--DROP INDEX IF EXISTS consulta_data_index;
--DROP INDEX IF EXISTS quantidade_receita_index;
--DROP INDEX IF EXISTS especialidade_medico_index;

CREATE INDEX especialidade_medico_index ON medico(especialidade);
CREATE INDEX consulta_data_index ON consulta(data); 
CREATE INDEX quantidade_receita_index ON receita(quantidade);

### Justificação
Como o JOIN de medico com consulta é realizado utilizando o nif, que é Primary Key de medico, não considerámos necessário criar índice para o nif. A mesma lógica aplica-se ao atributo codigo_sns, de receita. O qual, como é Foreign Key de receita para consulta, exige existência de índice sobre a coluna codigo_sns, de consulta, que é a coluna referenciada. Por isso não achámos necessário criar índice para o atributo codigo_sns. No entanto, ao correr o comando EXPLAIN(ANALYZE, BUFFERS), foi possível verificar que a cláusula "WHERE data BETWEEN '2023-01-01' AND '2023-12-31'" provocava um "Seq Scan" na tabela consulta, com 2 loops, sendo que, neste scan, 36602 tuplos desta relação (consulta) foram removidos pelas condições de limitação previamente referidas na cláusula em questão. Casos com esta tipologia são passíveis de beneficiar de índice. Uma vez que a comparação "data BETWEEN '2023-01-01' AND '2023-12-31'" é uma consulta de tipo "range", não se pode usar um índice de Hash, sendo necessário recorrer a um índice default do PostgreSQL, Índice B-tree. Optou-se por criar um índice de chave individual, uma vez que é a única instância desta análise em que temos um caso destes associado à tabela consulta. Por outro lado, visto que temos uma instrução "ORDER BY qtd;", com qtd a ser um alias de SUM(quantidade), optou-se por procurar acelerar a computação repetitiva desta soma, criando um índice para o atributo quantidade, de receita. Por fim, uma vez que o atributo especialidade, de medico, é utilizado várias vezes, e, inclusive, em agregações, como "Finalize GroupAggregate" e "Partial HashAggregate", e ainda num ciclo "Sort", procurámos criar um índice para especialidade, o que se revelou importante, pois, através da instrução EXPLAIN(ANALYZE,BUFFERS), pode-se observar uma redução do tempo médio da query de cerca de 140-160ms, para raramente mais de 120ms, frequentemente chegando perto de valores sub-100ms.

...