# Projeto de Bases de Dados - Parte 2

### Grupo 47
<dl>
    <dt>16 horas (33.3%)</dt>
    <dd>ist1110628 Eduardo Fernandes</dd>
    <dt>16 horas (33.3%)</dt>
    <dd>ist1110633 Filipe Oliveira</dd>
    <dt>16 horas (33.3%)</dt>
    <dd>ist1110720 Francisco Andrade</dd>
<dl>

In [216]:
%reload_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://aviacao:aviacao@postgres/aviacao

## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”

## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [234]:
%%sql
CREATE OR REPLACE FUNCTION check_bilhete_assento_match()
RETURNS TRIGGER AS $$
DECLARE
    voo_no_serie_actual VARCHAR(80);
    assento_prim_classe BOOLEAN;
BEGIN
    -- Só verifica quando um assento está a ser atribuído
    IF NEW.lugar IS NULL THEN
        RETURN NEW;
    END IF;

    -- Parte 1: Verifica se bilhete.no_serie corresponde ao voo.no_serie
    SELECT no_serie
    INTO voo_no_serie_actual
    FROM voo
    WHERE id = NEW.voo_id;

    IF voo_no_serie_actual IS NULL OR NEW.no_serie IS NULL OR NEW.no_serie <> voo_no_serie_actual THEN
        RAISE EXCEPTION 'RI-1: O avião do assento (%) não corresponde ao avião do voo (%).',
                        NEW.no_serie, COALESCE(voo_no_serie_actual, 'N/A');
    END IF;

    -- Parte 2: Verifica se bilhete.prim_classe corresponde a assento.prim_classe
    SELECT prim_classe
    INTO assento_prim_classe
    FROM assento
    WHERE lugar = NEW.lugar AND no_serie = NEW.no_serie;

    IF assento_prim_classe IS NULL THEN
        RAISE EXCEPTION 'RI-1: Assento % no avião % não encontrado.', NEW.lugar, NEW.no_serie;
    ELSIF NEW.prim_classe <> assento_prim_classe THEN
        RAISE EXCEPTION 'RI-1: A classe do bilhete (Classe %s) não corresponde à classe do assento % (Classe %s).',
                        CASE WHEN NEW.prim_classe THEN 'Primeira' ELSE 'Economica' END,
                        NEW.lugar,
                        CASE WHEN assento_prim_classe THEN 'Primeira' ELSE 'Economica' END;
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER trg_check_bilhete_assento_match
BEFORE INSERT OR UPDATE OF lugar, no_serie, voo_id, prim_classe ON bilhete
FOR EACH ROW
EXECUTE FUNCTION check_bilhete_assento_match();

(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [233]:
%%sql
CREATE OR REPLACE FUNCTION check_bilhete_class_capacity()
RETURNS TRIGGER AS $$
DECLARE
    total_class_capacity INTEGER;
    sold_class_tickets INTEGER;
    flight_no_serie VARCHAR(80);
BEGIN
    -- Obtém o no_serie do avião associado ao voo deste bilhete
    SELECT no_serie
    INTO flight_no_serie
    FROM voo
    WHERE id = NEW.voo_id;

    -- Verifica se o voo existe e tem avião associado
    IF flight_no_serie IS NULL THEN
        RAISE EXCEPTION 'RI-2: Voo ID % não tem avião associado ou não existe.', NEW.voo_id;
    END IF;

    -- Calcula a capacidade total para a classe relevante neste avião
    SELECT COUNT(*)
    INTO total_class_capacity
    FROM assento
    WHERE no_serie = flight_no_serie
      AND prim_classe = NEW.prim_classe;

    -- Conta o número de bilhetes já vendidos para este voo e classe
    SELECT COUNT(*)
    INTO sold_class_tickets
    FROM bilhete b
    WHERE b.voo_id = NEW.voo_id
      AND b.prim_classe = NEW.prim_classe
      AND (TG_OP = 'INSERT' OR b.id != OLD.id);

    -- Incrementa para incluir o bilhete atual
    sold_class_tickets := sold_class_tickets + 1;

    -- Compara o total de bilhetes com a capacidade
    IF sold_class_tickets > total_class_capacity THEN
        RAISE EXCEPTION 'RI-2: A capacidade da classe ''%'' (capacidade: %) para o voo % no avião % foi excedida (bilhetes vendidos: % antes desta transação).',
                        CASE WHEN NEW.prim_classe THEN 'Primeira Classe' ELSE 'Segunda Classe' END,
                        total_class_capacity,
                        NEW.voo_id,
                        flight_no_serie,
                        sold_class_tickets - 1; 
    END IF;

    RETURN NEW; 
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER trg_check_bilhete_class_capacity
BEFORE INSERT OR UPDATE ON bilhete
FOR EACH ROW
EXECUTE FUNCTION check_bilhete_class_capacity();

(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [232]:
%%sql
CREATE OR REPLACE FUNCTION check_bilhete_venda_hora()
RETURNS TRIGGER AS $$
DECLARE
    venda_hora TIMESTAMP;
    voo_hora_partida TIMESTAMP;
BEGIN
    SELECT hora INTO venda_hora
    FROM venda
    WHERE codigo_reserva = NEW.codigo_reserva;

    SELECT hora_partida INTO voo_hora_partida
    FROM voo
    WHERE id = NEW.voo_id;

    IF venda_hora IS NOT NULL AND voo_hora_partida IS NOT NULL AND venda_hora >= voo_hora_partida THEN
        RAISE EXCEPTION 'RI-3: A hora da venda associada (%) não pode ser igual ou posterior à hora de partida do voo (%).', venda_hora, voo_hora_partida;
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER trg_check_bilhete_venda_hora
BEFORE INSERT OR UPDATE OF voo_id, codigo_reserva ON bilhete
FOR EACH ROW
EXECUTE FUNCTION check_bilhete_venda_hora();

## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

## 4. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, assentos_1c, assentos_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *assentos_1c, assentos_2c:*: correspondem ao número de assentos de primeira e segunda classe no avião que realiza o voo
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [208]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS estatisticas_voos;
CREATE MATERIALIZED VIEW estatisticas_voos AS
SELECT
    v.no_serie,
    v.hora_partida,
    ap_partida.cidade AS cidade_partida,
    ap_partida.pais AS pais_partida,
    ap_chegada.cidade AS cidade_chegada,
    ap_chegada.pais AS pais_chegada,
    EXTRACT(YEAR FROM v.hora_partida) AS ano,
    EXTRACT(MONTH FROM v.hora_partida) AS mes,
    EXTRACT(DAY FROM v.hora_partida) AS dia_do_mes,
    TO_CHAR(v.hora_partida, 'FMDay') AS dia_da_semana, 
    -- Passageiros e vendas por classe (subqueries para evitar duplicação)
    (SELECT COUNT(*) FROM bilhete b WHERE b.voo_id = v.id AND b.prim_classe) AS passageiros_1c,
    (SELECT COUNT(*) FROM bilhete b WHERE b.voo_id = v.id AND NOT b.prim_classe) AS passageiros_2c,
    (SELECT COALESCE(SUM(b.preco),0) FROM bilhete b WHERE b.voo_id = v.id AND b.prim_classe) AS vendas_1c,
    (SELECT COALESCE(SUM(b.preco),0) FROM bilhete b WHERE b.voo_id = v.id AND NOT b.prim_classe) AS vendas_2c,
    -- Assentos por classe
    (SELECT COUNT(*) FROM assento a WHERE a.no_serie = v.no_serie AND a.prim_classe) AS assentos_1c,
    (SELECT COUNT(*) FROM assento a WHERE a.no_serie = v.no_serie AND NOT a.prim_classe) AS assentos_2c
FROM
    voo v
    JOIN aeroporto ap_partida ON v.partida = ap_partida.codigo
    JOIN aeroporto ap_chegada ON v.chegada = ap_chegada.codigo
ORDER BY
    v.hora_partida;

## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e **sem recurso ao operador LIMIT e com recurso ao operador WITH apenas se estritamente necessário**, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [227]:
%%sql
SELECT cidade_a, cidade_b, taxa_preenchimento
FROM (
    SELECT
        LEAST(cidade_partida, cidade_chegada) AS cidade_a,
        GREATEST(cidade_partida, cidade_chegada) AS cidade_b,
        ROUND(SUM(passageiros_1c + passageiros_2c)::numeric / NULLIF(SUM(assentos_1c + assentos_2c), 0), 5) AS taxa_preenchimento
    FROM estatisticas_voos
    WHERE hora_partida >= (CURRENT_DATE - INTERVAL '1 year')
      AND hora_partida < CURRENT_DATE
    GROUP BY LEAST(cidade_partida, cidade_chegada), GREATEST(cidade_partida, cidade_chegada)
) t
WHERE taxa_preenchimento = (
    SELECT MAX(taxa_preenchimento)
    FROM (
        SELECT
            ROUND(SUM(passageiros_1c + passageiros_2c)::numeric / NULLIF(SUM(assentos_1c + assentos_2c), 0), 5) AS taxa_preenchimento
        FROM estatisticas_voos
        WHERE hora_partida >= (CURRENT_DATE - INTERVAL '1 year')
          AND hora_partida < CURRENT_DATE
        GROUP BY LEAST(cidade_partida, cidade_chegada), GREATEST(cidade_partida, cidade_chegada)
    )
);

cidade_a,cidade_b,taxa_preenchimento
Barcelona,Rome,0.67496


2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [228]:
%%sql
SELECT
    LEAST(ev.cidade_partida, ev.cidade_chegada) AS cidade_a,
    GREATEST(ev.cidade_partida, ev.cidade_chegada) AS cidade_b
FROM estatisticas_voos ev
WHERE ev.hora_partida >= (DATE '2025-06-17' - INTERVAL '3 months')
  AND ev.hora_partida < DATE '2025-06-17'
GROUP BY
    LEAST(ev.cidade_partida, ev.cidade_chegada),
    GREATEST(ev.cidade_partida, ev.cidade_chegada)
HAVING COUNT(DISTINCT ev.no_serie) = (
    SELECT COUNT(DISTINCT no_serie)
    FROM estatisticas_voos
);

cidade_a,cidade_b
Lisbon,Paris


3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [229]:
%%sql
SELECT
    ano,
    mes,
    dia_do_mes,
    pais_partida,
    pais_chegada,
    cidade_partida,
    cidade_chegada,
    SUM(vendas_1c) AS total_vendas_1c,
    SUM(vendas_2c) AS total_vendas_2c,
    SUM(vendas_1c + vendas_2c) AS total_vendas_geral
FROM estatisticas_voos
GROUP BY GROUPING SETS (
    -- 1. Visão Global Total
    (),
    
    -- 2. Dimensão Espacial
    (pais_partida, pais_chegada),
    (pais_partida, pais_chegada, cidade_partida, cidade_chegada),
    
    -- 3. Dimensão Temporal
    (ano),
    (ano, mes),
    (ano, mes, dia_do_mes),

    -- 4. Cruzamento Espaço x Tempo
    (ano, mes, pais_partida, pais_chegada),
    (ano, mes, cidade_partida, cidade_chegada)
)
ORDER BY
    -- Define blocos: Global = 0, Espaço = 1, Tempo = 2, Cruzamento = 3
    CASE
        WHEN GROUPING(ano) = 1 AND GROUPING(pais_partida) = 1 THEN 0  -- Global Total
        WHEN GROUPING(ano) = 1 THEN 1                                 -- Só espaço (sem tempo)
        WHEN GROUPING(pais_partida) = 1 THEN 2                        -- Só tempo (sem espaço)
        ELSE 3                                                        -- Espaço + Tempo
    END,
    
    -- Ordenação dentro dos blocos
    GROUPING(mes) DESC,
    GROUPING(dia_do_mes) DESC,
    GROUPING(cidade_partida) DESC,
    
    ano,
    mes,
    dia_do_mes,
    pais_partida,
    pais_chegada,
    cidade_partida,
    cidade_chegada;


ano,mes,dia_do_mes,pais_partida,pais_chegada,cidade_partida,cidade_chegada,total_vendas_1c,total_vendas_2c,total_vendas_geral
,,,,,,,51482449.42,150373660.14,201856109.56
,,,France,France,,,516506.42,1618079.49,2134585.91
,,,France,Germany,,,1626451.47,4714757.12,6341208.59
,,,France,Italy,,,1296404.28,3568050.77,4864455.05
,,,France,Netherlands,,,1880352.1,5363815.53,7244167.63
,,,France,Portugal,,,514317.85,1703849.37,2218167.22
,,,France,Spain,,,890097.43,2944574.1,3834671.53
,,,France,Switzerland,,,239811.4,868438.38,1108249.78
,,,France,United Kingdom,,,897836.96,2799072.17,3696909.13
,,,Germany,France,,,1683373.9,4869544.34,6552918.24


4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [230]:
%%sql
SELECT
    dia_da_semana,
    pais_partida,
    cidade_partida,
    pais_chegada,
    cidade_chegada,
    SUM(passageiros_1c) AS total_1c,
    SUM(passageiros_2c) AS total_2c,
    CASE
        WHEN SUM(passageiros_2c) = 0 THEN NULL
        ELSE ROUND(SUM(passageiros_1c)::numeric / SUM(passageiros_2c), 5)
    END AS ratio_1c_2c
FROM estatisticas_voos
GROUP BY GROUPING SETS (
    (dia_da_semana),  -- global por dia
    (pais_partida, pais_chegada, dia_da_semana),  -- por país origem/destino
    (pais_partida, cidade_partida, pais_chegada, cidade_chegada, dia_da_semana) -- por cidade origem/destino
)
ORDER BY
    GROUPING(pais_partida) DESC,
    GROUPING(cidade_partida) DESC,
    GROUPING(pais_chegada) DESC,
    GROUPING(cidade_chegada) DESC,
    pais_partida NULLS FIRST,
    cidade_partida NULLS FIRST,
    pais_chegada NULLS FIRST,
    cidade_chegada NULLS FIRST,
    CASE
        WHEN dia_da_semana = 'Monday' THEN 1
        WHEN dia_da_semana = 'Tuesday' THEN 2
        WHEN dia_da_semana = 'Wednesday' THEN 3
        WHEN dia_da_semana = 'Thursday' THEN 4
        WHEN dia_da_semana = 'Friday' THEN 5
        WHEN dia_da_semana = 'Saturday' THEN 6
        WHEN dia_da_semana = 'Sunday' THEN 7
        ELSE 8
    END;

dia_da_semana,pais_partida,cidade_partida,pais_chegada,cidade_chegada,total_1c,total_2c,ratio_1c_2c
Monday,,,,,8124,66437,0.12228
Tuesday,,,,,7841,64195,0.12214
Wednesday,,,,,8523,68246,0.12489
Thursday,,,,,8470,68824,0.12307
Friday,,,,,8400,67521,0.12441
Saturday,,,,,8222,67031,0.12266
Sunday,,,,,8519,68575,0.12423
Monday,France,,France,,46,421,0.10926
Tuesday,France,,France,,43,389,0.11054
Wednesday,France,,France,,92,763,0.12058


## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

Código para criação dos índices

In [231]:

%%sql


-- Índice para acelerar filtros e agrupamentos por hora_partida (usado em WHERE e GROUP BY)
CREATE INDEX IF NOT EXISTS idx_voos_hora_partida
    ON estatisticas_voos (hora_partida);


-- Índice para acelerar agrupamentos e filtros por no_serie (usado em HAVING COUNT(DISTINCT no_serie))
CREATE INDEX IF NOT EXISTS idx_voos_no_serie
    ON estatisticas_voos (no_serie);

-- Índice composto para acelerar agrupamentos e ordenações espaciais e temporais das queries 5.3 e 5.4
CREATE INDEX IF NOT EXISTS idx_voos_espaco_tempo
    ON estatisticas_voos (
        pais_partida, cidade_partida, pais_chegada, cidade_chegada, dia_da_semana,
        ano, mes, dia_do_mes
    );




# Justificação dos Índices

A vista materializada `estatisticas_voos` constitui a base para todas as análises OLAP do sistema, pelo que a sua otimização é fundamental para garantir desempenho eficiente em consultas analíticas sobre grandes volumes de dados.

## Justificação Teórica

### idx_voos_no_serie  
O índice criado sobre o atributo `no_serie` da vista materializada `estatisticas_voos` é fundamental para otimizar consultas analíticas que envolvem operações de agregação e contagem de distintos, nomeadamente condições do tipo `HAVING COUNT(DISTINCT no_serie)`. Este tipo de operação é frequentemente utilizado para identificar rotas percorridas por todos os aviões da frota. A existência deste índice permite ao otimizador do PostgreSQL aceder rapidamente aos valores distintos de `no_serie`, evitando varreduras completas da vista e acelerando significativamente o processamento de consultas deste género, especialmente em contextos de grandes volumes de dados.

### idx_voos_hora_partida  
O índice criado sobre o atributo `hora_partida` da vista materializada `estatisticas_voos` é essencial para acelerar filtros temporais, como aqueles que analisam períodos específicos (por exemplo, os últimos 3 meses ou o último ano). Este índice permite ao otimizador do PostgreSQL restringir de imediato o conjunto de linhas a processar, reduzindo drasticamente o volume de dados analisado em cada consulta. Deste modo, operações de filtragem e agrupamento por intervalos temporais tornam-se muito mais eficientes, contribuindo para a escalabilidade e desempenho global do sistema em cenários de análise temporal intensiva.

Importa destacar que estes índices não beneficiam apenas uma consulta, mas sim várias das principais queries OLAP do projeto, como exigido no enunciado.

### idx_voos_espaco_tempo  
O índice composto criado sobre os atributos `(pais_partida, cidade_partida, pais_chegada, cidade_chegada, dia_da_semana, ano, mes, dia_do_mes)` visa optimizar consultas analíticas que envolvem agrupamentos e ordenações complexas nas dimensões espacial e temporal, como é o caso das queries 5.3 e 5.4. Este índice cobre os principais campos utilizados nas cláusulas `GROUP BY` e `ORDER BY` dessas consultas, permitindo ao optimizador do PostgreSQL acelerar operações de agregação e ordenação, sobretudo em cenários com grandes volumes de dados.

Não obstante, em bases de dados de menor dimensão, o optimizador poderá continuar a optar por `Seq Scan` devido à reduzida selectividade e à natureza dos `GROUPING SETS`. Contudo, a existência deste índice garante a escalabilidade e prepara o sistema para contextos reais de produção, nos quais o volume de dados é substancialmente superior. Assim, a criação deste índice constitui uma boa prática para assegurar desempenho eficiente e resposta célere em análises OLAP complexas, mesmo que o benefício imediato não seja sempre perceptível em conjuntos de dados de menor dimensão.

## Justificação Prática

Para demonstrar o impacto prático destes índices, analisaram-se várias consultas representativas dos diferentes tipos de análise requeridos.

### Consulta 5.1 — Rotas com maior procura no último ano

**Antes dos índices:**
```
QUERY PLAN
Nested Loop (cost=136.80..136.87 rows=1 width=1064) (actual time=7.697..7.705 rows=1 loops=1)
  ...
  -> Seq Scan on estatisticas_voos ... (actual time=0.049..4.656 rows=3376 loops=1)
Execution Time: 7.874 ms
```
**Depois dos índices:**
```
QUERY PLAN
HashAggregate (actual time=3.607..3.616 rows=45 loops=1)
  -> Index Scan using idx_voos_hora_partida on estatisticas_voos ... (actual time=0.079..2.828 rows=3376 loops=1)
Execution Time: 4.070 ms
```
O otimizador passou a usar o índice `idx_voos_hora_partida` para filtrar rapidamente os voos do último ano, reduzindo o tempo de execução global.

### Consulta 5.2 — Rotas percorridas por todos os aviões nos últimos 3 meses

**Antes dos índices:**
```
QUERY PLAN
GroupAggregate (cost=684.37..704.32 rows=1 width=1032) (actual time=7.330..7.442 rows=1 loops=1)
  ...
  InitPlan 1
    -> Aggregate (cost=416.75..416.76 rows=1 width=8) (actual time=2.920..2.921 rows=1 loops=1)
          -> Sort (cost=395.21..405.98 rows=4309 width=18) (actual time=2.527..2.680 rows=4309 loops=1)
                Sort Key: estatisticas_voos.no_serie
                Sort Method: quicksort Memory: 193kB
                -> Seq Scan on estatisticas_voos (cost=0.00..135.09 rows=4309 width=18) (actual time=0.062..0.829 rows=4309 loops=1)
  -> Sort (cost=267.61..272.28 rows=1870 width=1050) (actual time=4.176..4.249 rows=1876 loops=1)
        Sort Key: (LEAST(ev.cidade_partida, ev.cidade_chegada)), (GREATEST(ev.cidade_partida, ev.cidade_chegada)), ev.no_serie
        Sort Method: quicksort Memory: 144kB
        -> Seq Scan on estatisticas_voos ev (cost=0.00..165.98 rows=1870 width=1050) (actual time=0.589..1.926 rows=1876 loops=1)
              Filter: ((hora_partida >= '2025-03-17 00:00:00'::timestamp without time zone) AND (hora_partida < '2025-06-17'::date))
              Rows Removed by Filter: 2433
Planning Time: 0.819 ms
Execution Time: 7.596 ms
```
Neste cenário, o PostgreSQL recorre a **Seq Scan** para ler toda a vista, tanto para o filtro temporal como para a contagem de aviões distintos.

**Depois dos índices:**
```
QUERY PLAN
GroupAggregate (cost=319.36..339.31 rows=1 width=1032) (actual time=4.854..4.957 rows=1 loops=1)
  ...
  InitPlan 1
    -> Aggregate (cost=99.69..99.70 rows=1 width=8) (actual time=0.607..0.607 rows=1 loops=1)
          -> Index Only Scan using idx_voos_no_serie on estatisticas_voos (cost=0.28..88.92 rows=4309 width=18) (actual time=0.136..0.388 rows=4309 loops=1)
                Heap Fetches: 0
  -> Sort (cost=219.66..224.33 rows=1870 width=1050) (actual time=4.060..4.139 rows=1876 loops=1)
        Sort Key: (LEAST(ev.cidade_partida, ev.cidade_chegada)), (GREATEST(ev.cidade_partida, ev.cidade_chegada)), ev.no_serie
        Sort Method: quicksort Memory: 144kB
        -> Index Scan using idx_voos_hora_partida on estatisticas_voos ev (cost=0.28..118.03 rows=1870 width=1050) (actual time=0.281..2.013 rows=1876 loops=1)
              Index Cond: ((hora_partida >= '2025-03-17 00:00:00'::timestamp without time zone) AND (hora_partida < '2025-06-17'::date))
Planning Time: 2.455 ms
Execution Time: 5.201 ms
```
Aqui, o otimizador utiliza **Index Only Scan** com o índice `idx_voos_no_serie` para a contagem de aviões distintos e **Index Scan** com o índice `idx_voos_hora_partida` para o filtro temporal, mostrando ganhos práticos em ambas as dimensões da consulta.

> Nota: O tempo de planeamento aumentou ligeiramente devido à análise de mais caminhos possíveis pelo otimizador, mas este aumento é residual face à redução significativa do tempo de execução e ao ganho de eficiência global do sistema.


## Conclusão

A criação dos índices `idx_voos_no_serie` e `idx_voos_hora_partida` sobre a vista materializada `estatisticas_voos` resulta numa otimização coletiva, melhorando o desempenho de várias consultas analíticas essenciais do projeto, como exigido no enunciado. Assim, o sistema torna-se mais eficiente, escalável e preparado para grandes volumes de dados, cumprindo o objetivo de otimização transversal e não apenas pontual.