# Projeto de Bases de Dados - Parte 2

### Grupo GG
<dl>
    <dt>40 horas (33.3%)</dt>
    <dd>ist1109989 Pedro Aldeia</dd>
    <dt>40 horas (33.3%)</dt>
    <dd>ist1110647 Vladislav Nargonii</dd>
    <dt>40 horas (33.3%)</dt>
    <dd>ist1110409 Francisco Silva</dd>
<dl>

In [6]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”.

## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [2]:
%%sql
-- (RI-1)

CREATE OR REPLACE FUNCTION verificar_classes_checkin() RETURNS TRIGGER AS
$$
DECLARE 
    classe_assento BOOLEAN;
    serie_voo VARCHAR(80);
BEGIN
    IF NEW.lugar IS NOT NULL THEN

        SELECT prim_classe INTO classe_assento FROM assento WHERE lugar = NEW.lugar AND no_serie = NEW.no_serie;

        IF classe_assento IS DISTINCT FROM NEW.prim_classe THEN
            RAISE EXCEPTION 'Classe do bilhete (prim_classe = %) não corresponde à classe do assento (prim_classe = %).',
            NEW.prim_classe, classe_assento;
        END IF;

        SELECT no_serie INTO serie_voo FROM voo WHERE id = NEW.voo_id;

        IF NEW.no_serie IS DISTINCT FROM serie_voo THEN
            RAISE EXCEPTION 'Número de série % em Bilhete não correspode ao número de série % em Voo', 
            NEW.no_serie, serie_voo;
        END IF;
    END IF;
    RETURN NEW;
END;
$$ LANGUAGE plpgsql;
DROP TRIGGER IF EXISTS trigger_verificar_restricoes_checkin ON bilhete;
CREATE TRIGGER trigger_verificar_restricoes_checkin
BEFORE INSERT OR UPDATE ON bilhete
FOR EACH ROW
EXECUTE FUNCTION verificar_classes_checkin();

UsageError: Cell magic `%%sql` not found.


(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [7]:
%%sql
-- (RI-2)
CREATE OR REPLACE FUNCTION verificar_n_assentos()
RETURNS TRIGGER 
AS 
$$
DECLARE
        total_bilhetes_classe INT;
        capacidade_classe INT;
        aviao_do_voo VARCHAR(80);

    BEGIN
        SELECT no_serie INTO aviao_do_voo
        FROM voo
        WHERE id = NEW.voo_id;

        SELECT COUNT(*) INTO capacidade_classe
        FROM assento
        WHERE no_serie = aviao_do_voo
        AND prim_classe = NEW.prim_classe; 

        SELECT COUNT(*) INTO total_bilhetes_classe
        FROM bilhete
        WHERE voo_id = NEW.voo_id
        AND prim_classe = NEW.prim_classe;

        IF (total_bilhetes_classe + 1) > capacidade_classe THEN
            RAISE EXCEPTION 'Excedida a capacidade da classe (prim_classe = %) para o voo %. Capacidade: %, Bilhetes já vendidos: %.',
            NEW.prim_classe, NEW.voo_id, capacidade_classe, total_bilhetes_classe;
        END IF;

        RETURN NEW;
    END;

$$ 
LANGUAGE plpgsql;
DROP TRIGGER IF EXISTS tr_verificar_n_assentos ON bilhete;
CREATE TRIGGER tr_verificar_n_assentos BEFORE INSERT OR UPDATE ON bilhete
FOR EACH ROW EXECUTE FUNCTION verificar_n_assentos();


(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [8]:
%%sql
-- (RI-3)

CREATE OR REPLACE FUNCTION verificar_hora_venda()
RETURNS TRIGGER 
AS 
$$
BEGIN
    DECLARE
        hora_venda TIMESTAMP;
        hora_partida_voo TIMESTAMP;
    BEGIN

        SELECT hora INTO hora_venda FROM venda WHERE codigo_reserva = NEW.codigo_reserva;

        SELECT hora_partida INTO hora_partida_voo FROM voo WHERE id = NEW.voo_id;

        IF hora_venda IS NOT NULL AND hora_partida_voo IS NOT NULL AND hora_partida_voo <= hora_venda THEN
            RAISE EXCEPTION 'A hora da venda deve ser anterior à hora de partida de todos os voos associados';
        END IF;
    END;

    RETURN NEW;
END;
$$ 
LANGUAGE plpgsql;

DROP TRIGGER IF EXISTS tr_verificar_hora_venda ON bilhete;
CREATE TRIGGER tr_verificar_hora_venda BEFORE INSERT OR UPDATE ON bilhete
FOR EACH ROW EXECUTE FUNCTION verificar_hora_venda();

## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

## 4. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, assentos_1c, assentos_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *assentos_1c, assentos_2c:*: correspondem ao número de assentos de primeira e segunda classe no avião que realiza o voo
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [14]:
%%sql
-- CREATE MATERIALIZED VIEW ...
DROP MATERIALIZED VIEW IF EXISTS estatisticas_voos;
CREATE MATERIALIZED VIEW estatisticas_voos AS
    SELECT f.no_serie, 
           f.hora_partida, 
           dep.cidade AS cidade_partida, 
           dep.pais AS pais_partida, 
           arr.cidade AS cidade_chegada, 
           arr.pais AS pais_chegada, 
           EXTRACT(YEAR FROM f.hora_partida) AS ano, 
           EXTRACT(MONTH FROM f.hora_partida) AS mes, 
           EXTRACT(DAY FROM f.hora_partida) AS dia_do_mes, 
           EXTRACT(DOW FROM f.hora_partida) AS dia_da_semana,
           COALESCE(bt.passageiros_1c, 0) AS passageiros_1c,
           COALESCE(bt.passageiros_2c, 0) AS passageiros_2c,
           COALESCE(a1.assentos_1c, 0) AS assentos_1c,
           COALESCE(a1.assentos_2c, 0) AS assentos_2c,
           COALESCE(bt.vendas_1c, 0) AS vendas_1c,
           COALESCE(bt.vendas_2c, 0) AS vendas_2c
    FROM voo f 
    JOIN Aeroporto dep ON f.partida = dep.codigo
    JOIN Aeroporto arr ON f.chegada = arr.codigo
    JOIN (
         SELECT a.no_serie,
                COUNT (CASE WHEN a.prim_classe THEN 1 END) AS assentos_1c,
                COUNT (CASE WHEN NOT a.prim_classe THEN 1 END) AS assentos_2c
         FROM Assento a
         GROUP BY a.no_serie
    ) a1 ON f.no_serie = a1.no_serie
    JOIN (
         SELECT b.voo_id,
                COUNT (CASE WHEN b.prim_classe THEN 1 END) AS passageiros_1c,
                COUNT (CASE WHEN NOT b.prim_classe THEN 1 END) AS passageiros_2c,
                SUM (CASE WHEN b.prim_classe THEN b.preco END) AS vendas_1c,
                SUM (CASE WHEN NOT b.prim_classe THEN b.preco END) AS vendas_2c
         FROM Bilhete b 
         GROUP BY b.voo_id
    ) bt ON f.id = bt.voo_id
    ORDER BY f.hora_partida;

## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e **sem recurso ao operador LIMIT e com recurso ao operador WITH apenas se estritamente necessário**, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [30]:
%%sql 
-- SELECT olap1...

WITH info_lotacao AS (
    SELECT 
        LEAST(cidade_partida, cidade_chegada) AS aeroporto_1,
        GREATEST(cidade_partida, cidade_chegada) AS aeroporto_2,
        AVG((passageiros_1c + passageiros_2c)::numeric /(assentos_1c + assentos_2c)) AS lotacao
    FROM estatisticas_voos 
    WHERE hora_partida > CURRENT_DATE - INTERVAL '1 year' 
        AND hora_partida <= CURRENT_DATE
    GROUP BY 
        LEAST(cidade_partida, cidade_chegada),
        GREATEST(cidade_partida, cidade_chegada)
)
SELECT * FROM info_lotacao WHERE lotacao = (SELECT MAX(lotacao) FROM info_lotacao);

aeroporto_1,aeroporto_2,lotacao


2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [19]:
%%sql
-- SELECT olap2...
SELECT
    LEAST(cidade_partida, cidade_chegada) AS cidade_1,
    GREATEST(cidade_partida, cidade_chegada) AS cidade_2
FROM
    estatisticas_voos 
WHERE hora_partida > CURRENT_DATE - INTERVAL '3 months' 
    AND hora_partida <= CURRENT_DATE
GROUP BY 
    LEAST(cidade_partida, cidade_chegada),
    GREATEST(cidade_partida,cidade_chegada)
HAVING 
    COUNT(DISTINCT no_serie) = (SELECT COUNT(DISTINCT no_serie) FROM estatisticas_voos);

cidade_1,cidade_2


3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [7]:
%%sql
-- SELECT olap3...
SELECT 
    pais_partida,
    cidade_partida,
    pais_chegada,
    cidade_chegada,
    ano,
    mes,
    dia_do_mes,
    SUM(vendas_1c) AS vendas_1c,
    SUM(vendas_2c) AS vendas_2c,
    SUM(vendas_1c+vendas_2c) AS vendas_totais
FROM estatisticas_voos
GROUP BY
    GROUPING SETS (
        (pais_partida, cidade_partida, pais_chegada, cidade_chegada),
        (pais_partida, pais_chegada),
        ()
    ),
    ROLLUP(ano, mes, dia_do_mes);

pais_partida,cidade_partida,pais_chegada,cidade_chegada,ano,mes,dia_do_mes,vendas_1c,vendas_2c
,,,,,,,,


4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [1]:
%%sql
-- SELECT olap4... 
SELECT 
    pais_partida,
    cidade_partida,
    pais_chegada,
    cidade_chegada,
    dia_da_semana,
    SUM(passageiros_1c)::numeric / NULLIF(SUM(passageiros_2c), 0) as racio_1c_2c
FROM estatisticas_voos
GROUP BY 
    dia_da_semana, 
    GROUPING SETS(
        (pais_partida, cidade_partida, pais_chegada, cidade_chegada),
        (pais_partida, pais_chegada),
        ()
    );

UsageError: Cell magic `%%sql` not found.


## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

Código para criação dos índices

In [9]:
%%sql
-- CREATE INDEX ...
    --1.
CREATE INDEX idx_estatisticas_voos_hora_partida ON estatisticas_voos(hora_partida);

In [None]:
%%sql
-- CREATE INDEX ...
    --2.
CREATE INDEX idx_estatisticas_voos_no_serie ON estatisticas_voos(no_serie);

Justificação teórica e prática (sumarizando observações com EXPLAIN ANALYSE)

1. 
O primeiro índice organiza cada voo em estatisticas_voos por ordem de partida. Tem grande utilidade, pois 
na primeira e segunda consultas temos que filtrar os voos de acordo com a data e hora de partida. Criando um índice ordenado b-tree, não seria necessário percorrer a vista inteira para procurar os voos que se enquadram temporalmente dentro dos parâmetros requisitados nas procuras, visto que com este índice estariam já organizados tendo isso conta.

É possível verificar a necessidade de criação deste índice utilizando o EXPLAIN ANALYSE: antes da criação do índice, ambos as consultas precisavam de fazer um Seq Scan à tabela inteira para procurar os voos que se inserem dentro dos parâmetros temporais da mesma. 

No entanto, após a criação do índice, o planeamento da consulta muda apenas para a query 2., que utiliza o índice para obter os seus dados. O planeamento da consulta muda pois, utilizando um índice ordenado b-tree, os dados estão ordenados temporalmente e não é necessário percorrer a tabela inteira. Com o novo índice, obtemos uma melhoria de aproximadamente 30.3 QPS (queries por segundo) para 38.7 QPS.
    O mesmo não se aplica para a query 1., isto acontece pois:

    - a nossa base de dados não contempla um espectro temporal grande o suficiente;
    - a filtração de dados é maior para a query 2. (voos em 3 meses vs. voos em 1 ano).
    
Estamos convencidos que, no caso de expansão da base de dados atual, este índice virá a ser mais útil para a query 1..

2. 
Este índice ordena os voos por no_serie (do avião que efetua o voo). Este índice é apenas útil para a query 2. (nenhuma das outras queries utiliza o atributo no_serie, pelo que não é vantajoso de alguma forma). É vantajoso para esta querie pois, no planeamento de execução, é aplicado um filtro às rotas de voos em quais todos os aviões voaram, sendo mais eficiente fazer a procura nos voos por no_serie do avião. Desta forma, não precisa necessariamente de percorrer vista toda. 

Recorrendo ao EXPLAIN ANALYSE, confirmámos a nossa hipótese: antes da criação do índice, era utilizado um Seq Scan para fazer a filtragem, enquanto que após a criação foi utilizado o índice criado. com esta melhoria de desempenho, saltámos dos 38.7 QPS anteriores para 49.4 QPS.
    

3. 
Além dos previamente mencionados, não conseguimos criar um índice que fosse utilizado pelo postgres. Torna-se mais complicado desenvolver índices para queries que envolvem GROUPING SETS e ROLLUP's, pois utilizam várias combinações de atributos das tabelas, para além de que temos uma base de dados demasiado pequena testar efetivamente a utilidade dos índices que se seguem. Testámos vários índices e explicamos em seguida a razão de poderem funcionar:

    CREATE INDEX idx_estatisticas_voos_pais_cidade_partida ON estatisticas_voos(pais_partida, pais_chegada, cidade_partida, cidade_chegada);
    e
    CREATE INDEX idx_estatisticas_voos_pais_cidade_chegada ON estatisticas_voos(pais_partida, pais_chegada);

Explicação: com o objetivo de otimizar as queries 3. e 4., estes índices poderiam (e podem, caso a base de dados aumente) ser úteis visto que fazemos GROUPING SETS com estes atributos. Desta forma, seria mais fácil agrupar voos entre as mesmas cidades e países, não havendo necessidade de percorrer a tabela toda, pois já estariam ordenados num índice b-tree da maneira mais conveniente. Neste caso, as queries poderiam ser mais seletivas (e consequentemente mais eficientes), caso houvessem aeroportos em mais cidades e paises diferentes.

    CREATE INDEX idx_estatiscticas_voos_tempo ON estatisticas_voos(ano, mes, dia_do_mes);

Explicação: este índice tem como objetivo otimizar a procura 3.. O raciocínio é similar aos índices anteriores: ser mais fácil agrupar voos temporalmente, recorrendo a uma procura numa b-tree que, em teoria, substituiria um Seq Scan. Se tivessemos dados de um espectro temporal maior poderia vir a ser mais útil.