# Projeto de Bases de Dados - Parte 2

### Grupo GG
<dl>
    <dt>HH horas (33.3%)</dt>
    <dd>istxxxxxxxx FirstName LastName</dd>
    <dt>HH horas (33.3%)</dt>
    <dd>istxxxxxxxx FirstName LastName</dd>
    <dt>HH horas (33.3%)</dt>
    <dd>istxxxxxxxx FirstName LastName</dd>
<dl>

In [7]:
%reload_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://airline:airline@postgres/airline

## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”

## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [None]:
%%sql

CREATE OR REPLACE FUNCTION trg_checkin_bilhete()
RETURNS TRIGGER AS
$$
DECLARE
    v_assento       assento%ROWTYPE; 
    v_voo_no_serie  voo.no_serie%TYPE;
BEGIN
    /*
      Só queremos validar quando o usuário definir efetivamente um assento
      (isto é, ambos NEW.lugar e NEW.no_serie não podem ser NULL).
    */
    IF NEW.lugar IS NOT NULL AND NEW.no_serie IS NOT NULL THEN

        SELECT *
          INTO v_assento
          FROM assento
            WHERE lugar    = NEW.lugar
            AND no_serie = NEW.no_serie;

        IF NOT FOUND THEN
            RAISE EXCEPTION 'Assento % no aviao % nao existe.', NEW.lugar, NEW.no_serie;
        END IF;

        
        SELECT no_serie
          INTO v_voo_no_serie
          FROM voo
            WHERE id = NEW.voo_id;

        IF NOT FOUND THEN
            RAISE EXCEPTION 'Voo com id % nao foi encontrado.', NEW.voo_id;
        END IF;

        /* 
          1.3. Verifica se a classe do bilhete (NEW.prim_classe)
               corresponde à classe do assento (v_assento.prim_classe).
        */
        IF v_assento.prim_classe IS DISTINCT FROM NEW.prim_classe THEN
            RAISE EXCEPTION
                'Classe do bilhete (prim_classe = %) NAO corresponde à classe do assento (prim_classe = %).',
                NEW.prim_classe, v_assento.prim_classe;
        END IF;

        IF v_assento.no_serie IS DISTINCT FROM v_voo_no_serie THEN
            RAISE EXCEPTION
                'Aviao do assento (%) NAO corresponde ao aviao do voo (%).',
                v_assento.no_serie, v_voo_no_serie;
        END IF;
    END IF;

    RETURN NEW;
END;
$$
LANGUAGE plpgsql;

(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [None]:
%%sql
CREATE OR REPLACE FUNCTION trg_limite_bilhetes_classe()
RETURNS TRIGGER AS
$$
DECLARE
    v_capacidade INTEGER;
    v_vendidos INTEGER;
    v_no_serie VARCHAR(80);
    v_prim_classe BOOLEAN;
BEGIN
    SELECT no_serie, prim_classe INTO v_no_serie, v_prim_classe
    FROM voo WHERE id = NEW.voo_id;

    SELECT COUNT(*) INTO v_capacidade
    FROM assento
    WHERE no_serie = v_no_serie AND prim_classe = v_prim_classe;

    SELECT COUNT(*) INTO v_vendidos
    FROM bilhete
    WHERE voo_id = NEW.voo_id AND prim_classe = v_prim_classe
        AND (id <> NEW.id OR NEW.id IS NULL);

    IF v_vendidos + 1 > v_capacidade THEN
        RAISE EXCEPTION 'Capacidade de bilhetes para a classe % do voo % excedida.', v_prim_classe, NEW.voo_id;
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [None]:
%%sql
CREATE OR REPLACE FUNCTION trg_venda_hora()
RETURNS TRIGGER AS
$$
DECLARE
    v_hora_partida TIMESTAMP;
    v_hora_venda TIMESTAMP;
BEGIN
    -- Obter hora da venda
    SELECT hora INTO v_hora_venda FROM venda WHERE codigo_reserva = NEW.codigo_reserva;
    -- Obter hora de partida do voo
    SELECT hora_partida INTO v_hora_partida FROM voo WHERE id = NEW.voo_id;

    IF v_hora_venda >= v_hora_partida THEN 
        RAISE EXCEPTION 'Hora da venda (%s) não pode ser posterior ou igual à hora de partida do voo (%s).', v_hora_venda, v_hora_partida;
    END IF;

    RETURN NEW;

END;
$$ LANGUAGE plpgsql;


## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

## 3. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [18]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS estatisticas_voos;
CREATE MATERIALIZED VIEW estatisticas_voos AS
SELECT 
	v.no_serie, 
	v.hora_partida,
	a1.cidade AS cidade_partida, 
	a1.pais AS pais_partida, 
	a2.cidade AS cidade_chegada, 
	a2.pais AS pais_chegada, 
	EXTRACT(YEAR FROM v.hora_partida) AS ano, 
	EXTRACT(MONTH FROM v.hora_partida) AS mes, 
	EXTRACT(DAY FROM v.hora_partida) AS dia_do_mes, 
    EXTRACT(DOW FROM v.hora_partida) AS dia_da_semana,
	COUNT(DISTINCT b1.id) AS passageiros_1c,
	COUNT(DISTINCT b2.id) AS passageiros_2c,
	COUNT(DISTINCT s1.lugar) AS assentos_1c,
	COUNT(DISTINCT s2.lugar) AS assentos_2c,
	SUM(b1.preco) AS vendas_1c,
	SUM(b2.preco) AS vendas_2c
FROM voo v 
INNER JOIN aeroporto a1 ON a1.codigo = v.partida
INNER JOIN aeroporto a2 ON a2.codigo = v.chegada
LEFT JOIN bilhete b1 ON b1.voo_id = v.id AND b1.prim_classe
LEFT JOIN bilhete b2 ON b2.voo_id = v.id AND NOT b2.prim_classe
LEFT JOIN assento s1 ON s1.no_serie = v.no_serie AND s1.prim_classe
LEFT JOIN assento s2 ON s2.no_serie = v.no_serie AND NOT s2.prim_classe
GROUP BY 
	v.no_serie, v.hora_partida,
	a1.cidade, a1.pais,
	a2.cidade, a2.pais;


## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e *sem recurso a declarações WITH ou LIMIT*, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [None]:
%%sql
SELECT rota, racio_ocupacao
FROM (
  SELECT
    LEAST(cidade_partida, cidade_chegada) || ' - ' || GREATEST(cidade_partida, cidade_chegada) AS rota,
    ROUND(
      SUM(passageiros_1c + passageiros_2c)::numeric 
      / NULLIF(SUM(assentos_1c + assentos_2c), 0), 
      2
    ) AS racio_ocupacao,
    MAX(
      ROUND(
        SUM(passageiros_1c + passageiros_2c)::numeric 
        / NULLIF(SUM(assentos_1c + assentos_2c), 0), 
        2
      )
    ) OVER () AS max_racio
  FROM estatisticas_voos
  GROUP BY 
    LEAST(cidade_partida, cidade_chegada),
    GREATEST(cidade_partida, cidade_chegada)
) t
WHERE racio_ocupacao = max_racio
ORDER BY racio_ocupacao DESC;

2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [11]:
%%sql
SELECT
  v.cidade_partida,
  v.cidade_chegada
FROM estatisticas_voos v
WHERE 
  (v.ano = EXTRACT(YEAR FROM NOW()) AND v.mes >= EXTRACT(MONTH FROM NOW()) - 3)
  OR
  (v.ano = EXTRACT(YEAR FROM NOW()) - 1 AND v.mes >= 12 + (2 - EXTRACT(MONTH FROM NOW())))
GROUP BY v.cidade_partida, v.cidade_chegada
HAVING COUNT(DISTINCT v.no_serie) = (SELECT COUNT(DISTINCT no_serie) FROM estatisticas_voos);

cidade_partida,cidade_chegada
Paris,London


3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [5]:
%%sql
WITH cidades_voo AS (
  SELECT 
    pais_partida AS pais,
    cidade_partida AS cidade,
    ano,
    mes,
    dia_do_mes,
    vendas_1c,
    vendas_2c
  FROM estatisticas_voos

  UNION ALL

  SELECT 
    pais_chegada AS pais,
    cidade_chegada AS cidade,
    ano,
    mes,
    dia_do_mes,
    vendas_1c,
    vendas_2c
  FROM estatisticas_voos
)

SELECT
  COALESCE(pais, 'TOTAL do GLOBAL') AS pais,
  COALESCE(cidade, 'TOTAL PAÍS') AS cidade,
  COALESCE(ano::text, 'TOTAL DE SEMPRE') AS ano,
  COALESCE(mes::text, 'TOTAL ANO') AS mes,
  COALESCE(dia_do_mes::text, 'TOTAL MÊS') AS dia_do_mes,
  SUM(vendas_1c) AS total_vendas_1c,
  SUM(vendas_2c) AS total_vendas_2c,
  SUM(vendas_1c + vendas_2c) AS total_vendas
FROM cidades_voo
GROUP BY ROLLUP(
  pais,
  cidade,
  ano,
  mes,
  dia_do_mes
)
ORDER BY 
  pais,
  cidade,
  ano,
  mes,
  dia_do_mes;


pais,cidade,ano,mes,dia_do_mes,total_vendas_1c,total_vendas_2c,total_vendas
France,Paris,2025,1,1,83941110.0,33133263.84,117074373.84
France,Paris,2025,1,10,215795080.8,44115252.48,259910333.28
France,Paris,2025,1,12,312890891.04,69735968.64,368962251.84
France,Paris,2025,1,13,188422320.96,41118788.88,229541109.84
France,Paris,2025,1,15,288159508.8,57888489.6,346047998.4
France,Paris,2025,1,16,,18687708.0,
France,Paris,2025,1,17,164115929.52,33804531.36,197920460.88
France,Paris,2025,1,18,483468312.96,84399229.44,567867542.4
France,Paris,2025,1,19,105470352.0,40978323.36,127776654.72
France,Paris,2025,1,2,146197094.4,32332251.6,178529346.0


4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [12]:
%%sql
SELECT 
    COALESCE(pais_partida, 'TOTAL GLOBAL') AS pais,
    COALESCE(cidade_partida, 'TOTAL PAÍS') AS cidade,
    COALESCE(CAST(dia_da_semana AS TEXT), 'TOTAL DIA') AS dia_semana,

    SUM(passageiros_1c) AS total_primeira,
    SUM(passageiros_2c) AS total_segunda,

    CASE 
        WHEN SUM(passageiros_2c) = 0 THEN NULL
        ELSE ROUND(SUM(passageiros_1c)::NUMERIC / SUM(passageiros_2c), 2)
    END AS ratio_primeira_segunda

FROM estatisticas_voos

GROUP BY ROLLUP(pais_partida, cidade_partida, dia_da_semana)

ORDER BY 
    GROUPING(pais_partida), 
    pais_partida, 
    GROUPING(cidade_partida), 
    cidade_partida, 
    GROUPING(dia_da_semana), 
    dia_da_semana;


pais,cidade,dia_semana,total_primeira,total_segunda,ratio_primeira_segunda
France,Paris,0,61,726,0.08
France,Paris,1,62,501,0.12
France,Paris,2,42,405,0.1
France,Paris,3,50,488,0.1
France,Paris,4,37,537,0.07
France,Paris,5,61,742,0.08
France,Paris,6,55,669,0.08
France,Paris,TOTAL DIA,368,4068,0.09
France,TOTAL PAÍS,TOTAL DIA,368,4068,0.09
Germany,Frankfurt,0,24,199,0.12


## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

In [None]:
%%sql
-- Índice 1: Para otimizar consultas que filtram por ano e mês (Consultas 5.1 e 5.2)
CREATE INDEX idx_ev_ano_mes ON estatisticas_voos (ano, mes);

-- Índice 2: Para otimizar agregações por rota (cidades de partida/chegada) e ano (consulta 5.1)
CREATE INDEX idx_ev_rota_ano ON estatisticas_voos (
    LEAST(cidade_partida, cidade_chegada),
    GREATEST(cidade_partida, cidade_chegada),
    ano
);

-- Índice 3: Para otimizar ROLLUP multi-dimensional (consultas 5.3 e 5.4)
CREATE INDEX idx_ev_olap ON estatisticas_voos (
    pais_partida,
    cidade_partida,
    pais_chegada,
    cidade_chegada,
    ano,
    mes,
    dia_do_mes,
    dia_da_semana
);

Justificação teórica e prática (sumarizando observações com EXPLAIN ANALYSE)

Base Teórica (fundamentada pelos apontamentos):

1. Seletividade e filtragem (Pg. 12, 15-16):

    Índices em colunas de alta seletividade (ano, mes) reduzem drasticamente o espaço de pesquisa.

    Consultas com operações de range (como intervalos temporais) beneficiam de índices B-tree.

2. Agregações e operações OLAP (Pg. 19, 30, 33):

    Índices em colunas de agrupamento (GROUP BY, ROLLUP) permitem index-only scans.

    A ordem das colunas no índice deve refletir a hierarquia das dimensões analíticas.

3. Chaves compostas e ordenação (Pg. 27-29):

    Índices compostos aceleram consultas com múltiplos critérios.

    A ordem das colunas no índice é crítica para consultas com operações de range e igualdade.

4. Custos vs. benefícios (Pg. 9, 12, 18):

    Evitamos índices redundantes priorizando colunas usadas em múltiplas consultas.

    Índices muito largos só são justificáveis se beneficiarem várias operações OLAP.


Demontração prática (via EXPLAIN ANALYSE):

// fazer tabela com os ganhos observados


Conclusão:
Os 3 índices criados oferecem:
    cobertura equilibrada: Otimizam todas as consultas-alvo.
    Eficiência em operações-chave: Filtragem temporal, agreagação por rota e operações OLAP.
    Baixo overhead: Evitam redundância (e.g., não criamos índices separados dia_do_mes/dia_da_semana).