# Projeto de Bases de Dados - Parte 2

### Grupo 13
<dl>
    <dt>21 horas (33.3%)</dt>
    <dd>ist1110483 Chloé Romão</dd>
    <dt>21 horas (33.3%)</dt>
    <dd>ist1106078 Joana Vaz</dd>
    <dt>21 horas (33.3%)</dt>
    <dd>ist1110760 João Carvalho</dd>
<dl>

In [None]:
%reload_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://aviacao1:aviacao1@postgres/aviacao1

## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”

In [None]:
%%sql
DROP TABLE IF EXISTS aeroporto CASCADE;
DROP TABLE IF EXISTS aviao CASCADE;
DROP TABLE IF EXISTS assento CASCADE;
DROP TABLE IF EXISTS voo CASCADE;
DROP TABLE IF EXISTS venda CASCADE;
DROP TABLE IF EXISTS bilhete CASCADE;

CREATE TABLE aeroporto(
    codigo CHAR(3) PRIMARY KEY CHECK (codigo ~ '^[A-Z]{3}$'),
    nome VARCHAR(80) NOT NULL,
    cidade VARCHAR(255) NOT NULL,
    pais VARCHAR(255) NOT NULL,
    UNIQUE (nome, cidade)
);

CREATE TABLE aviao(
    no_serie VARCHAR(80) PRIMARY KEY,
    modelo VARCHAR(80) NOT NULL
);

CREATE TABLE assento (
    lugar VARCHAR(3) CHECK (lugar ~ '^[0-9]{1,2}[A-Z]$'),
    no_serie VARCHAR(80) REFERENCES aviao,
    prim_classe BOOLEAN NOT NULL DEFAULT FALSE,
    PRIMARY KEY (lugar, no_serie)
);

CREATE TABLE voo (
    id SERIAL PRIMARY KEY,
    no_serie VARCHAR(80) REFERENCES aviao,
    hora_partida TIMESTAMP,
    hora_chegada TIMESTAMP, 
    partida CHAR(3) REFERENCES aeroporto(codigo),
    chegada CHAR(3) REFERENCES aeroporto(codigo),
    UNIQUE (no_serie, hora_partida),
    UNIQUE (no_serie, hora_chegada),
    UNIQUE (hora_partida, partida, chegada),
    UNIQUE (hora_chegada, partida, chegada),
    CHECK (partida!=chegada),
    CHECK (hora_partida<=hora_chegada)
);

CREATE TABLE venda (
    codigo_reserva SERIAL PRIMARY KEY,
    nif_cliente CHAR(9) NOT NULL,
    balcao CHAR(3) REFERENCES aeroporto(codigo),
    hora TIMESTAMP
);

CREATE TABLE bilhete (
    id SERIAL PRIMARY KEY,
    voo_id INTEGER REFERENCES voo,
    codigo_reserva INTEGER REFERENCES venda,
    nome_passegeiro VARCHAR(80),
    preco NUMERIC(7,2) NOT NULL,
    prim_classe BOOLEAN NOT NULL DEFAULT FALSE,
    lugar VARCHAR(3),
    no_serie VARCHAR(80),
    UNIQUE (voo_id, codigo_reserva, nome_passegeiro),
    FOREIGN KEY (lugar, no_serie) REFERENCES assento
);

Done.
Done.
Done.
Done.
Done.
Done.
Done.
Done.
Done.
Done.
Done.
Done.


[]

## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [None]:
%%sql
-- (RI-1)
CREATE OR REPLACE FUNCTION verificar_checkin_bilhete() RETURNS TRIGGER AS $$
BEGIN
    IF NOT EXISTS (
        SELECT 1 FROM assento a
        WHERE a.no_serie = NEW.no_serie
          AND a.prim_classe = NEW.prim_classe
    ) THEN
        RAISE EXCEPTION 'Assento não encontrado ou classe do bilhete não corresponde à classe do assento.';
    END IF;

    IF NOT EXISTS (
        SELECT 1 FROM voo v
        WHERE v.id = NEW.voo_id AND v.no_serie = NEW.no_serie
    ) THEN
        RAISE EXCEPTION 'Avião do assento não corresponde ao avião do voo.';
    END IF;

    IF NEW.lugar IS NOT NULL THEN
            IF NOT EXISTS (
                SELECT 1 FROM assento a
                WHERE a.no_serie = NEW.no_serie
                  AND a.prim_classe = NEW.prim_classe
                  AND a.lugar = NEW.lugar
            ) THEN
                RAISE EXCEPTION 'Lugar indicado não existe no avião com a classe especificada.';
            END IF;
        END IF;
    
        RETURN NEW;
    END;
    $$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER checkin_bilhete_trigger BEFORE INSERT OR UPDATE ON bilhete
    FOR EACH ROW EXECUTE FUNCTION verificar_checkin_bilhete();

: 

(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [None]:
%%sql

CREATE OR REPLACE FUNCTION verificar_capacidade_bilhete() RETURNS TRIGGER AS $$
DECLARE
    total_assentos_prim_classe INT;
    total_assentos_seg_classe INT;
    ocupados_prim_classe INT;
    ocupados_seg_classe INT;

BEGIN

    SELECT COUNT(*) INTO total_assentos_prim_classe
    FROM assento a
    JOIN voo v ON a.no_serie = v.no_serie
    WHERE v.id = NEW.voo_id
      AND a.prim_classe = TRUE;

    SELECT COUNT(*) INTO total_assentos_seg_classe
    FROM assento a
    JOIN voo v ON a.no_serie = v.no_serie
    WHERE v.id = NEW.voo_id
      AND a.prim_classe = FALSE;

    SELECT COUNT(*) INTO ocupados_prim_classe
    FROM bilhete b
    JOIN assento a ON b.lugar = a.lugar AND b.no_serie = a.no_serie
    WHERE b.voo_id = NEW.voo_id
      AND a.prim_classe = TRUE;

    SELECT COUNT(*) INTO ocupados_seg_classe
    FROM bilhete b
    JOIN assento a ON b.lugar = a.lugar AND b.no_serie = a.no_serie
    WHERE b.voo_id = NEW.voo_id
      AND a.prim_classe = FALSE;

    IF NEW.prim_classe THEN
        IF ocupados_prim_classe >= total_assentos_prim_classe THEN
            RAISE EXCEPTION 'Bilhetes de primeira classe esgotados para este voo.';
        END IF;
    ELSE
        IF ocupados_seg_classe >= total_assentos_seg_classe THEN
            RAISE EXCEPTION 'Bilhetes de segunda classe esgotados para este voo.';
        END IF;
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER trigger_verificar_capacidade_bilhete BEFORE INSERT OR UPDATE ON bilhete
FOR EACH ROW EXECUTE FUNCTION verificar_capacidade_bilhete();

(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [None]:
%%sql
-- (RI-3)
CREATE OR REPLACE FUNCTION hora_venda() RETURNS TRIGGER AS $$
BEGIN
    IF EXISTS ( SELECT 1 FROM bilhete b JOIN voo v ON b.voo_id = v.id
          WHERE b.codigo_reserva = NEW.codigo_reserva
          AND NEW.hora >= v.hora_partida) THEN
        RAISE EXCEPTION 'A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes nesta venda.';
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER trigger_hora_venda BEFORE INSERT OR UPDATE ON venda
    FOR EACH ROW EXECUTE FUNCTION hora_venda();



: 

## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

## 3. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [None]:
%%sql

DROP MATERIALIZED VIEW IF EXISTS estatisticas_voos;
    
CREATE MATERIALIZED VIEW estatisticas_voos AS

WITH assentos_por_voo AS (
    SELECT 
        v.id AS voo_id,
        COUNT(*) FILTER (WHERE ass.prim_classe = TRUE) AS assentos_1c,
        COUNT(*) FILTER (WHERE ass.prim_classe = FALSE) AS assentos_2c
    FROM voo v
    JOIN aviao av ON v.no_serie = av.no_serie
    JOIN assento ass ON av.no_serie = ass.no_serie
    GROUP BY v.id
)
    
SELECT
    v.no_serie,
    v.hora_partida,
    a1.cidade AS cidade_partida, 
    a1.pais AS pais_partida, 
    a2.cidade AS cidade_chegada, 
    a2.pais AS pais_chegada,
    EXTRACT(YEAR FROM v.hora_partida) AS ano,
    EXTRACT(MONTH FROM v.hora_partida) AS mes,
    EXTRACT(DAY FROM v.hora_partida) AS dia_do_mes,
    EXTRACT(DOW FROM v.hora_partida) AS dia_da_semana,
    COUNT(*) FILTER (WHERE b.prim_classe = TRUE) AS passageiros_1c,
    COUNT(*) FILTER (WHERE b.prim_classe = FALSE) AS passageiros_2c,
    ass.assentos_1c,
    ass.assentos_2c,
    SUM(b.preco) FILTER (WHERE b.prim_classe = TRUE) AS vendas_1c,
    SUM(b.preco) FILTER (WHERE b.prim_classe = FALSE) AS vendas_2c
FROM voo v 
JOIN aeroporto a1 ON v.partida = a1.codigo 
JOIN aeroporto a2 ON v.chegada = a2.codigo 
LEFT JOIN bilhete b ON v.id = b.voo_id
JOIN assentos_por_voo ass ON v.id = ass.voo_id
GROUP BY v.no_serie, v.hora_partida, a1.cidade, a1.pais, a2.cidade, a2.pais, v.hora_partida, ass.assentos_1c, ass.assentos_2c;

## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e *sem recurso a declarações WITH ou LIMIT*, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [None]:
%%sql

EXPLAIN ANALYZE
    
SELECT
    LEAST(cidade_partida, cidade_chegada) AS cidade1,
    GREATEST(cidade_partida, cidade_chegada) AS cidade2
FROM estatisticas_voos
WHERE passageiros_1c + passageiros_2c > (assentos_1c + assentos_2c)%2
GROUP BY 
    LEAST(cidade_partida, cidade_chegada),
    GREATEST(cidade_partida, cidade_chegada)
HAVING COUNT(*) >= ALL(
    SELECT COUNT(*)
    FROM estatisticas_voos
    WHERE passageiros_1c + passageiros_2c > (assentos_1c + assentos_2c)%2
    GROUP BY
        LEAST(cidade_partida, cidade_chegada),
        GREATEST(cidade_partida, cidade_chegada)
);

2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [None]:
%%sql

EXPLAIN ANALYZE
    
SELECT DISTINCT
    LEAST(cidade_partida, cidade_chegada) AS cidade1,
    GREATEST(cidade_partida, cidade_chegada) AS cidade2
FROM estatisticas_voos ev
WHERE ev.hora_partida >= NOW() - INTERVAL '3 months'
  AND NOT EXISTS (
        SELECT DISTINCT no_serie
            FROM estatisticas_voos
            WHERE hora_partida >= NOW() - INTERVAL '3 months'
        EXCEPT 
        SELECT DISTINCT no_serie
        FROM estatisticas_voos
        WHERE hora_partida >= NOW() - INTERVAL '3 months'
          AND LEAST(cidade_partida, cidade_chegada) = LEAST(ev.cidade_partida, ev.cidade_chegada) 
          AND GREATEST(cidade_partida, cidade_chegada) = GREATEST(ev.cidade_partida, ev.cidade_chegada)
);

3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [None]:
%%sql

EXPLAIN ANALYZE
    
SELECT
    pais,
    cidade,
    ano,
    mes,
    dia_do_mes,
    SUM(vendas_1c + vendas_2c) AS vendas_globais,
    SUM(vendas_1c) AS vendas_1c,
    SUM(vendas_2c) AS vendas_2c
FROM (
    -- Localizações de partida
    SELECT
        pais_partida AS pais,
        cidade_partida AS cidade,
        ano,
        mes,
        dia_do_mes,
        vendas_1c,
        vendas_2c
    FROM estatisticas_voos

    UNION ALL

    -- Localizações de chegada
    SELECT
        pais_chegada AS pais,
        cidade_chegada AS cidade,
        ano,
        mes,
        dia_do_mes,
        vendas_1c,
        vendas_2c
    FROM estatisticas_voos
) AS todas_localizacoes
GROUP BY ROLLUP (
    (pais, cidade),
    (ano, mes, dia_do_mes)
)

4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [None]:
%%sql

EXPLAIN ANALYZE
    
SELECT
    pais,
    cidade,
    dia_da_semana,
    SUM(passageiros_1c) / SUM(assentos_1c) / SUM(passageiros_2c) / SUM(assentos_2c) AS racio_classes 
FROM (
-- Localizações de partida
SELECT
    pais_partida AS pais,
    cidade_partida AS cidade,
    dia_da_semana,
    passageiros_1c,
    passageiros_2c,
    assentos_1c,
    assentos_2c
FROM estatisticas_voos

UNION ALL

-- Localizações de chegada
SELECT
    pais_chegada AS pais,
    cidade_chegada AS cidade,
    dia_da_semana,
    passageiros_1c,
    passageiros_2c,
    assentos_1c,
    assentos_2c
FROM estatisticas_voos
) AS todas_localizacoes
GROUP BY GROUPING SETS (
    (dia_da_semana),
    (pais, dia_da_semana),
    (pais, cidade, dia_da_semana)
);

## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

Código para criação dos índices

Justificação teórica e prática (sumarizando observações com EXPLAIN ANALYSE)