# Projeto de Bases de Dados - Parte 2

### Grupo 02
<dl>
    <dt>12 horas (18%)</dt>
    <dd>ist1106002 Simão Martins</dd>
    <dt>30 horas (44%)</dt>
    <dd>ist1109281 Henrique Lhano</dd>
    <dt>12 horas (18%)</dt>
    <dd>ist1109603 João Cardoso</dd>
<dl>

In [90]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 35
%sql postgresql+psycopg://postgres:postgres@postgres/postgres

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”

## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [122]:
%%sql
-- (RI-1)
CREATE OR REPLACE FUNCTION verifica_check_in() RETURNS TRIGGER AS
$$
DECLARE
    serie_voo VARCHAR;
BEGIN
	IF NEW.prim_classe != (SELECT prim_classe FROM assento WHERE no_serie = NEW.no_serie AND lugar = NEW.lugar) THEN
		RAISE EXCEPTION 'Classe do bilhete não corresponde à classe do assento.';
	END IF;

    SELECT no_serie INTO serie_voo FROM voo WHERE id = NEW.voo_id;
    IF NEW.no_serie != serie_voo THEN
       RAISE EXCEPTION 'O avião do assento % não corresponde ao avião do voo %.', NEW.no_serie, serie_voo; 
    END IF;
    RETURN NEW;
END;
$$
LANGUAGE plpgsql;    

DROP TRIGGER IF EXISTS proibe_assentos_nao_correspondentes_bilhetes ON bilhete;
CREATE CONSTRAINT TRIGGER proibe_assentos_nao_correspondentes_bilhetes
    AFTER INSERT OR UPDATE ON bilhete
    FOR EACH ROW EXECUTE FUNCTION verifica_check_in();

(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [123]:
%%sql

CREATE OR REPLACE FUNCTION check_capacidade_classe()
    RETURNS trigger AS 
$$
DECLARE
  capacidade INT;
  bilhetes_reservados INT;
BEGIN
  IF NEW.prim_classe THEN
    SELECT COUNT(*) INTO capacidade
    FROM assento
    WHERE no_serie = (SELECT no_serie FROM voo WHERE id = NEW.voo_id)
      AND prim_classe = TRUE;

    SELECT COUNT(*) INTO bilhetes_reservados
    FROM bilhete
    WHERE voo_id = NEW.voo_id AND prim_classe = TRUE;

    IF bilhetes_reservados >= capacidade THEN
      RAISE EXCEPTION 'Capacidade da primeira classe excedida para o voo';
    END IF;

  ELSE
    SELECT COUNT(*) INTO capacidade
    FROM assento
    WHERE no_serie = (SELECT no_serie FROM voo WHERE id = NEW.voo_id)
      AND prim_classe = FALSE;

    SELECT COUNT(*) INTO bilhetes_reservados
    FROM bilhete
    WHERE voo_id = NEW.voo_id AND prim_classe = FALSE;

    IF bilhetes_reservados >= capacidade THEN
      RAISE EXCEPTION 'Capacidade da segunda classe excedida.';
    END IF;
  END IF;

  RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER check_capacidade_classe
  BEFORE INSERT OR UPDATE OF voo_id, prim_classe ON bilhete
  FOR EACH ROW
  EXECUTE FUNCTION check_capacidade_classe();

(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [124]:
%%sql
CREATE OR REPLACE FUNCTION verifica_horas_bilhete()
RETURNS TRIGGER AS
$$
DECLARE
    hora_venda TIMESTAMP;
    partida TIMESTAMP;
BEGIN
    SELECT hora INTO hora_venda FROM venda
    WHERE codigo_reserva = NEW.codigo_reserva;

    SELECT hora_partida INTO partida FROM voo
    WHERE id = NEW.voo_id;

    IF hora_venda >= partida THEN
        RAISE EXCEPTION 'A hora de venda não pode ser igual ou posterior à hora de partida do voo';
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE TRIGGER verifica_horas_bilhete
BEFORE INSERT OR UPDATE ON bilhete
FOR EACH ROW
EXECUTE FUNCTION verifica_horas_bilhete();

## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

## 4. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [94]:
%%sql

DROP MATERIALIZED VIEW IF EXISTS estatisticas_voos;

CREATE MATERIALIZED VIEW estatisticas_voos AS
SELECT
    -- Definição de atributos da vista materializada
    v.no_serie,
    v.hora_partida,
    ap.cidade AS cidade_partida,
    ap.pais AS pais_partida,
    ac.cidade AS cidade_chegada,
    ac.pais AS pais_chegada,
    EXTRACT(YEAR FROM v.hora_partida) AS ano,
    EXTRACT(MONTH FROM v.hora_partida) AS mes,
    EXTRACT(DAY FROM v.hora_partida) AS dia_do_mes,
    TRIM(TO_CHAR(v.hora_partida, 'Day')) AS dia_da_semana,
    
    COUNT(CASE WHEN b.prim_classe = TRUE THEN 1 END) AS passageiros_1c,
    COUNT(CASE WHEN b.prim_classe = FALSE THEN 1 END) AS passageiros_2c,
    
    (SELECT COUNT(*) FROM assento a WHERE a.no_serie = v.no_serie AND a.prim_classe = TRUE) AS assentos_1c,
    (SELECT COUNT(*) FROM assento a WHERE a.no_serie = v.no_serie AND a.prim_classe = FALSE) AS assentos_2c,
    
    SUM(CASE WHEN b.prim_classe = TRUE THEN b.preco ELSE 0 END) AS vendas_1c,
    SUM(CASE WHEN b.prim_classe = FALSE THEN b.preco ELSE 0 END) AS vendas_2c
    
FROM voo v
JOIN aeroporto ap ON v.partida = ap.codigo -- Obter os dados do aeroporto de partida
JOIN aeroporto ac ON v.chegada = ac.codigo -- Obter os dados do aeroporto de chegada
LEFT JOIN bilhete b ON v.id = b.voo_id -- Associa os bilhetes vendidos a cada voo. 
--Usa LEFT JOIN para garantir que voos sem bilhetes vendidos também aparecem no resultado.
GROUP BY v.no_serie, v.hora_partida, ap.cidade, ap.pais, ac.cidade, ac.pais;

## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e *sem recurso a declarações WITH ou LIMIT*, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [95]:
%%sql
SELECT *
FROM (
    SELECT
    -- Garante que a rota Lisboa-Roma Roma-Lisboa é a mesma, independentemente do sentido
      LEAST(cidade_partida, cidade_chegada) AS cidade1, 
      GREATEST(cidade_partida, cidade_chegada) AS cidade2,
    --Calcula a taxa de ocupação e define como atributo na tabela
      SUM(passageiros_1c + passageiros_2c)::float / SUM(assentos_1c + assentos_2c) AS taxa_ocupacao,
    --Ordena pela maior taxa para a menor, e o ranking será posteriormente 1 para imprimir a rota com maior taxa
      RANK() OVER (ORDER BY AVG((passageiros_1c + passageiros_2c)::float / (assentos_1c + assentos_2c)) DESC) AS ranking
    FROM estatisticas_voos
    -- No último ano
    WHERE hora_partida >= CURRENT_DATE - INTERVAL '1 year'
    -- Agrupa todos os voos entre as mesmas duas cidades
    GROUP BY 
      LEAST(cidade_partida, cidade_chegada),
      GREATEST(cidade_partida, cidade_chegada)
) AS rotas_ranking
WHERE ranking = 1;

cidade1,cidade2,taxa_ocupacao,ranking
Lisboa,Roma,0.1761216166110493,1


2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [96]:
%%sql
--o least e o greatest sao usados para garantir o mesmo par de cidades, independentemente do sentido 
SELECT LEAST(cidade_partida, cidade_chegada) AS cidade1,
       GREATEST(cidade_partida, cidade_chegada) AS cidade2
FROM estatisticas_voos
WHERE hora_partida >= CURRENT_DATE - INTERVAL '3 months'
GROUP BY LEAST(cidade_partida, cidade_chegada), -- Junta todos os voos da mesma rota
         GREATEST(cidade_partida, cidade_chegada)
-- HAVING COUNT verifica os aviões diferentes que fizeram essa rota
HAVING COUNT(DISTINCT no_serie) = (
    SELECT COUNT(DISTINCT no_serie) -- Calcula o número de aviões na empresa
    FROM estatisticas_voos
);

cidade1,cidade2
Amesterdão,Londres
Amesterdão,Paris
Lisboa,Londres
Londres,Londres
Londres,Milão
Londres,Paris
Londres,Roma


3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [105]:
%%sql
SELECT
    pais_partida,
    cidade_partida,
    pais_chegada,
    cidade_chegada,
    ano,
    mes,
    dia_do_mes,
    SUM(vendas_1c) AS total_vendas_1c,
    SUM(vendas_2c) AS total_vendas_2c,
    SUM(vendas_1c + vendas_2c) AS total_vendas
FROM estatisticas_voos
-- Remove um a um o último parâmetro, proporcionando visão tanto geograficamente quanto temporalmente.
GROUP BY ROLLUP(
  (pais_partida, pais_chegada), (cidade_partida, cidade_chegada),
  ano, mes, dia_do_mes
)
ORDER BY
  pais_partida NULLS LAST,
  cidade_partida NULLS LAST,
  pais_chegada NULLS LAST,
  cidade_chegada NULLS LAST,
  ano NULLS LAST,
  mes NULLS LAST,
  dia_do_mes NULLS LAST;

pais_partida,cidade_partida,pais_chegada,cidade_chegada,ano,mes,dia_do_mes,total_vendas_1c,total_vendas_2c,total_vendas
Alemanha,Frankfurt,França,Paris,2025.0,1.0,1.0,0.0,0.0,0.0
Alemanha,Frankfurt,França,Paris,2025.0,1.0,6.0,139.86,1271.74,1411.6
Alemanha,Frankfurt,França,Paris,2025.0,1.0,8.0,0.0,1317.07,1317.07
Alemanha,Frankfurt,França,Paris,2025.0,1.0,12.0,452.03,1041.83,1493.86
Alemanha,Frankfurt,França,Paris,2025.0,1.0,,591.89,3630.64,4222.53
Alemanha,Frankfurt,França,Paris,2025.0,2.0,15.0,3619.19,5671.84,9291.03
Alemanha,Frankfurt,França,Paris,2025.0,2.0,16.0,2090.76,4999.09,7089.85
Alemanha,Frankfurt,França,Paris,2025.0,2.0,,5709.95,10670.93,16380.88
Alemanha,Frankfurt,França,Paris,2025.0,3.0,9.0,2624.65,7363.78,9988.43
Alemanha,Frankfurt,França,Paris,2025.0,3.0,,2624.65,7363.78,9988.43


4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [109]:
%%sql
SELECT
  pais_partida,
  cidade_partida,
  pais_chegada,
  cidade_chegada,
  dia_da_semana,
  SUM(passageiros_1c) AS total_1c,
  SUM(passageiros_2c) AS total_2c,
  ROUND(
    SUM(passageiros_1c)::numeric / NULLIF(SUM(passageiros_2c), 0),
    2
  ) AS ratio_1c_2c

FROM estatisticas_voos

GROUP BY -- Só se mete até dia_da_semana pq no enunciado diz ao longo da semana
    --Depois faz o ratio_1c_2c pelo espaço, primeiro pelo tempo
  ROLLUP((pais_partida, pais_chegada), (cidade_partida, cidade_chegada)),
  dia_da_semana

ORDER BY
  pais_partida NULLS LAST,
  cidade_partida NULLS LAST,
  pais_chegada NULLS LAST,
  cidade_chegada NULLS LAST,
  POSITION(dia_da_semana IN 'Sunday,Monday,Tuesday,Wednesday,Thursday,Sunday,Saturday');

pais_partida,cidade_partida,pais_chegada,cidade_chegada,dia_da_semana,total_1c,total_2c,ratio_1c_2c
Alemanha,Frankfurt,França,Paris,Friday,5,27,0.19
Alemanha,Frankfurt,França,Paris,Sunday,14,89,0.16
Alemanha,Frankfurt,França,Paris,Monday,19,79,0.24
Alemanha,Frankfurt,França,Paris,Tuesday,7,32,0.22
Alemanha,Frankfurt,França,Paris,Wednesday,13,31,0.42
Alemanha,Frankfurt,França,Paris,Thursday,7,26,0.27
Alemanha,Frankfurt,França,Paris,Saturday,19,76,0.25
Alemanha,Frankfurt,Holanda,Amesterdão,Friday,12,36,0.33
Alemanha,Frankfurt,Holanda,Amesterdão,Sunday,4,22,0.18
Alemanha,Frankfurt,Holanda,Amesterdão,Monday,17,61,0.28


## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

In [107]:
%%sql
DROP INDEX IF EXISTS idx_hora_partida; 
DROP INDEX IF EXISTS idx_estatisticas_rollup_ordenado;
DROP INDEX IF EXISTS idx_estatisticas_dia_semana_rollup;

CREATE INDEX idx_hora_partida 
ON estatisticas_voos (hora_partida);

CREATE INDEX idx_estatisticas_rollup_ordenado
ON estatisticas_voos (
    pais_partida,
    pais_chegada,
    cidade_partida,
    cidade_chegada,
    ano,
    mes,
    dia_do_mes, 
    vendas_1c, 
    vendas_2c
);

CREATE INDEX idx_estatisticas_dia_semana_rollup
ON estatisticas_voos (
    dia_da_semana,
    pais_partida,
    pais_chegada,
    cidade_partida,
    cidade_chegada
) INCLUDE (
    passageiros_1c,
    passageiros_2c
);

Justificação teórica e prática (sumarizando observações com EXPLAIN ANALYSE)

1. "idx_hora_partida": Este índice visa otimizar o desempenho das consultas que filtram ou ordenam pelo campo "hora_partida", uma coluna particularmente relevante, como nas consultas 5.2 e 5.3. Além disso, se a base de dados tivesse sido populada de forma diferente, ele também poderia trazer melhorias na consulta 5.1. Trata-se de um índice do tipo B-Tree — o modelo-padrão para colunas do tipo timestamp. Este índice ignora todos os registos mais antigos que 3 meses (em 5.2) , em vez de dar um "table scan" na tabela toda. 

2. "idx_estatisticas_rollup_ordenado": índice composto destinado a agilizar as operações de agregação (como SUM) 
e de agrupamento com ROLLUP, como na consulta 5.3. Além disso, ao possuir as colunas já ordenadas no índice, 
evita a necessidade de uma ordenação adicional pelo ORDER BY. O índice inclui vendas_1c e vendas_2c. Isso evita o chamado "back to table", ou seja, ele consegue usar o próprio índice para atender à consulta (porque ele cobre tanto o GROUP BY/ORDER BY quanto as colunas que serão somadas).
Antes da criação do índice, o tempo de execução registado para a consulta 5.3 foi de 6.402 ms. Após a criação deste, o tempo de execução registado foi de 6.402 ms. O custo de agrupar antes da criação do index foi entre [85.86,125.73] e após a criação deste foi entre [0.28, 109.39]

3. "idx_estatisticas_dia_semana_rollup": índice composto destinado a otimizar o desempenho de consultas que realizam agregações por dia da semana — como na consulta 5.4. Ele é particularmente útil para consultas que envolvem tanto agregações quanto filtros pelo dia da semana, pelo país e pelas cidades de origem e destino. Antes da criação do índice, tem um tempo de execução de 20.644 ms, com custo entre [51.15, 77.82]. Após a criação deste índice, o tempo de execução reduziu para 2.046 ms, com custo entre [51.15, 77.82]. O custo não diminuiu, mostrando que a estimativa do postgres nem sempre é precisa.