# Projeto de Bases de Dados - Parte 2

### Grupo 76
<dl>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1109685 João Viegas</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1109803 Hugo Pereira</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1109293 Diogo Lobo</dd>
<dl>

In [43]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/aviacao

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”

In [44]:
%%sql

DROP TABLE IF EXISTS aeroporto CASCADE;
DROP TABLE IF EXISTS aviao CASCADE;
DROP TABLE IF EXISTS assento CASCADE;
DROP TABLE IF EXISTS voo CASCADE;
DROP TABLE IF EXISTS venda CASCADE;
DROP TABLE IF EXISTS bilhete CASCADE;

CREATE TABLE aeroporto(
	codigo CHAR(3) PRIMARY KEY CHECK (codigo ~ '^[A-Z]{3}$'),
	nome VARCHAR(80) NOT NULL,
	cidade VARCHAR(255) NOT NULL,
	pais VARCHAR(255) NOT NULL,
	UNIQUE (nome, cidade)
);

CREATE TABLE aviao(
	no_serie VARCHAR(80) PRIMARY KEY,
	modelo VARCHAR(80) NOT NULL
);

CREATE TABLE assento (
	lugar VARCHAR(3) CHECK (lugar ~ '^[0-9]{1,2}[A-Z]$'),
	no_serie VARCHAR(80) REFERENCES aviao,
	prim_classe BOOLEAN NOT NULL DEFAULT FALSE,
	PRIMARY KEY (lugar, no_serie)
);

CREATE TABLE voo (
	id SERIAL PRIMARY KEY,
	no_serie VARCHAR(80) REFERENCES aviao,
	hora_partida TIMESTAMP,
	hora_chegada TIMESTAMP, 
	partida CHAR(3) REFERENCES aeroporto(codigo),
	chegada CHAR(3) REFERENCES aeroporto(codigo),
	UNIQUE (no_serie, hora_partida),
	UNIQUE (no_serie, hora_chegada),
	UNIQUE (hora_partida, partida, chegada),
	UNIQUE (hora_chegada, partida, chegada),
	CHECK (partida!=chegada),
	CHECK (hora_partida<=hora_chegada)
);

CREATE TABLE venda (
	codigo_reserva SERIAL PRIMARY KEY,
	nif_cliente CHAR(9) NOT NULL,
	balcao CHAR(3) REFERENCES aeroporto(codigo),
	hora TIMESTAMP
);

CREATE TABLE bilhete (
	id SERIAL PRIMARY KEY,
	voo_id INTEGER REFERENCES voo,
	codigo_reserva INTEGER REFERENCES venda,
	nome_passageiro VARCHAR(80),
	preco NUMERIC(7,2) NOT NULL,
	prim_classe BOOLEAN NOT NULL DEFAULT FALSE,
	lugar VARCHAR(3),
	no_serie VARCHAR(80),
	UNIQUE (voo_id, codigo_reserva, nome_passageiro),
	FOREIGN KEY (lugar, no_serie) REFERENCES assento
);

## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [45]:
%%sql
-- (RI-1)

CREATE OR REPLACE FUNCTION verificar_checkin_bilhete()
RETURNS TRIGGER AS $$
DECLARE
    voo_no_serie VARCHAR;
    assento_prim BOOLEAN;
BEGIN
    -- Só verifica se estiver a fazer check-in (lugar e no_serie definidos)
    IF NEW.lugar IS NOT NULL AND NEW.no_serie IS NOT NULL THEN

        -- Obter o avião do voo
        SELECT no_serie INTO voo_no_serie
        FROM voo
        WHERE id = NEW.voo_id;

        -- Verificar se o avião do assento é o mesmo do voo
        IF voo_no_serie IS DISTINCT FROM NEW.no_serie THEN
            RAISE EXCEPTION 'Avião do assento (%), não corresponde ao avião do voo (%).',
                NEW.no_serie, voo_no_serie USING ERRCODE = 'P0003';
        END IF;

        -- Agora que o avião é válido, verificar se o assento existe
        IF NOT EXISTS (
            SELECT 1
            FROM assento
            WHERE lugar = NEW.lugar AND no_serie = NEW.no_serie
        ) THEN
            RAISE EXCEPTION 'O assento (%) não existe no avião %.', NEW.lugar, NEW.no_serie USING ERRCODE = 'P0004';
        END IF;

        -- Obter se o assento é de 1ª classe
        SELECT prim_classe INTO assento_prim
        FROM assento
        WHERE lugar = NEW.lugar AND no_serie = NEW.no_serie;

        -- Verificar se a classe do bilhete corresponde à do assento
        IF assento_prim IS DISTINCT FROM NEW.prim_classe THEN
            RAISE EXCEPTION 'Classe do bilhete (%), não corresponde à classe do assento (%).',
                NEW.prim_classe, assento_prim USING ERRCODE = 'P0005';
        END IF;
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

In [46]:
%%sql

DROP TRIGGER IF EXISTS trg_verificar_checkin_bilhete ON bilhete;

In [47]:
%%sql

CREATE TRIGGER trg_verificar_checkin_bilhete
BEFORE UPDATE ON bilhete
FOR EACH ROW
EXECUTE FUNCTION verificar_checkin_bilhete();

(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [48]:
%%sql
-- (RI-2)


CREATE OR REPLACE FUNCTION verifica_capacidade()
RETURNS TRIGGER AS $$
DECLARE
    capacidade INTEGER;
    ocupados INTEGER;
    serie VARCHAR;
BEGIN
    -- Verifica se ainda há capacidade para o voo na classe do bilhete
    SELECT no_serie INTO serie FROM voo WHERE id = NEW.voo_id;

    SELECT COUNT(*) INTO capacidade
    FROM assento
    WHERE no_serie = serie AND prim_classe = NEW.prim_classe;

    SELECT COUNT(*) INTO ocupados
    FROM bilhete
    WHERE voo_id = NEW.voo_id AND prim_classe = NEW.prim_classe;

    IF ocupados >= capacidade THEN
        RAISE EXCEPTION 'Capacidade esgotada para o voo % na classe %.', NEW.voo_id, NEW.prim_classe USING ERRCODE = 'P0002';
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

In [49]:
%%sql

DROP TRIGGER IF EXISTS trg_verifica_capacidade ON bilhete;

In [50]:
%%sql

CREATE TRIGGER trg_verifica_capacidade
BEFORE INSERT ON bilhete
FOR EACH ROW
EXECUTE FUNCTION verifica_capacidade();

(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [51]:
%%sql
-- (RI-3)

CREATE OR REPLACE FUNCTION validar_bilhete_antes_partida()
RETURNS TRIGGER AS $$
DECLARE
    venda_hora TIMESTAMP;
    partida TIMESTAMP;
BEGIN
    SELECT v.hora_partida, ve.hora INTO partida, venda_hora
    FROM voo v
    JOIN venda ve ON ve.codigo_reserva = NEW.codigo_reserva
    WHERE v.id = NEW.voo_id;

    IF venda_hora >= partida THEN
        RAISE EXCEPTION 'A venda foi feita depois da partida do voo.' USING ERRCODE = 'P0001';
    END IF;

    RETURN NEW;
END;
$$ LANGUAGE plpgsql;

In [52]:
%%sql

DROP TRIGGER IF EXISTS trg_validar_bilhete_antes_partida ON bilhete;

In [53]:
%%sql

CREATE TRIGGER trg_validar_bilhete_antes_partida
AFTER INSERT ON bilhete
FOR EACH ROW
EXECUTE FUNCTION validar_bilhete_antes_partida();

## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

## 3. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, assentos_1c, assentos_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *assentos_1c, assentos_2c:*: correspondem ao número de assentos de primeira e segunda classe no avião que realiza o voo
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [55]:
%%sql

CREATE MATERIALIZED VIEW estatisticas_voos AS
SELECT
    v.no_serie,
    v.hora_partida,
    a1.cidade AS cidade_partida,
    a1.pais AS pais_partida,
    a2.cidade AS cidade_chegada,
    a2.pais AS pais_chegada,
    EXTRACT(YEAR FROM v.hora_partida) AS ano,
    EXTRACT(MONTH FROM v.hora_partida) AS mes,
    EXTRACT(DAY FROM v.hora_partida) AS dia_do_mes,
    EXTRACT(DOW FROM v.hora_partida) AS dia_da_semana,

    COUNT(CASE WHEN b.prim_classe THEN 1 END) AS passageiros_1c,
    COUNT(CASE WHEN NOT b.prim_classe THEN 1 END) AS passageiros_2c,

    (SELECT COUNT(*) FROM assento a WHERE a.no_serie = v.no_serie AND a.prim_classe) AS capacidade_1c,
    (SELECT COUNT(*) FROM assento a WHERE a.no_serie = v.no_serie AND NOT a.prim_classe) AS capacidade_2c,

    SUM(CASE WHEN b.prim_classe THEN b.preco ELSE 0 END) AS vendas_1c,
    SUM(CASE WHEN NOT b.prim_classe THEN b.preco ELSE 0 END) AS vendas_2c

FROM voo v
JOIN aeroporto a1 ON v.partida = a1.codigo
JOIN aeroporto a2 ON v.chegada = a2.codigo
LEFT JOIN bilhete b ON b.voo_id = v.id

GROUP BY
    v.no_serie, v.hora_partida,
    a1.cidade, a1.pais,
    a2.cidade, a2.pais

## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e *sem recurso a declarações WITH ou LIMIT*, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [57]:
%%sql

SELECT cidade1, cidade2, taxa_ocupacao
FROM (
    SELECT
        LEAST(cidade_partida, cidade_chegada) AS cidade1,
        GREATEST(cidade_partida, cidade_chegada) AS cidade2,
        AVG((passageiros_1c + passageiros_2c)::FLOAT / NULLIF(capacidade_1c + capacidade_2c, 0)) AS taxa_ocupacao,
        RANK() OVER (ORDER BY AVG((passageiros_1c + passageiros_2c)::FLOAT / NULLIF(capacidade_1c + capacidade_2c, 0)) DESC) as rnk
    FROM estatisticas_voos
    WHERE hora_partida >= NOW() - INTERVAL '1 year'
    GROUP BY LEAST(cidade_partida, cidade_chegada), GREATEST(cidade_partida, cidade_chegada)
) ranked
WHERE rnk = 1;


cidade1,cidade2,taxa_ocupacao
Barcelona,Londres,0.8297491039426523


2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [58]:
%%sql

SELECT 
  LEAST(cidade_partida, cidade_chegada) AS cidade1,
  GREATEST(cidade_partida, cidade_chegada) AS cidade2
FROM estatisticas_voos
WHERE hora_partida >= NOW() - INTERVAL '3 months'
GROUP BY 
  LEAST(cidade_partida, cidade_chegada),
  GREATEST(cidade_partida, cidade_chegada)
HAVING COUNT(DISTINCT no_serie) = (SELECT COUNT(DISTINCT no_serie) FROM estatisticas_voos);

cidade1,cidade2
Amsterdam,Barcelona
Amsterdam,Milão
Badajoz,Lisboa
Badajoz,Paris
Barcelona,Faro
Faro,Milão
Lisboa,Londres
Londres,Milão
Londres,Paris
Londres,Zurique


3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [59]:
%%sql

SELECT
    pais_partida,
    pais_chegada,
    cidade_partida,
    cidade_chegada,
    ano,
    mes,
    dia_do_mes,
    SUM(vendas_1c) AS total_vendas_1c,
    SUM(vendas_2c) AS total_vendas_2c,
    SUM(vendas_1c + vendas_2c) AS total_vendas
FROM estatisticas_voos
GROUP BY GROUPING SETS (
  -- Global rollup
  ROLLUP(ano, mes, dia_do_mes),

  -- Country-level rollup
  ROLLUP((pais_partida, pais_chegada), ano, mes, dia_do_mes),

  -- City-level rollup
  ROLLUP((pais_partida, cidade_partida, pais_chegada, cidade_chegada), ano, mes, dia_do_mes)
)

-- Not really needed, but helps with visualization
ORDER BY ano DESC NULLS FIRST, mes DESC NULLS FIRST, dia_do_mes DESC NULLS FIRST,
  pais_partida NULLS FIRST, pais_chegada NULLS FIRST, cidade_partida NULLS FIRST, cidade_chegada NULLS FIRST;

pais_partida,pais_chegada,cidade_partida,cidade_chegada,ano,mes,dia_do_mes,total_vendas_1c,total_vendas_2c,total_vendas
,,,,,,,119319022.87,440379819.39,559698842.26
,,,,,,,119319022.87,440379819.39,559698842.26
,,,,,,,119319022.87,440379819.39,559698842.26
Espanha,Espanha,,,,,,34702.79,169619.53,204322.32
Espanha,Espanha,Badajoz,Madrid,,,,4838.79,25583.06,30421.85
Espanha,Espanha,Barcelona,Madrid,,,,13168.45,62541.42,75709.87
Espanha,Espanha,Madrid,Badajoz,,,,11256.72,51344.22,62600.94
Espanha,Espanha,Madrid,Barcelona,,,,5438.83,30150.83,35589.66
Espanha,França,,,,,,3102865.92,11262350.27,14365216.19
Espanha,França,Badajoz,Paris,,,,3102865.92,11262350.27,14365216.19


4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [60]:
%%sql

SELECT
  pais_partida,
  cidade_partida,
  dia_da_semana,
  SUM(passageiros_1c) AS total_1c,
  SUM(passageiros_2c) AS total_2c,
  SUM(passageiros_1c)::FLOAT / NULLIF(SUM(passageiros_2c),0) AS ratio_1c_2c
FROM estatisticas_voos
GROUP BY ROLLUP (pais_partida, cidade_partida), dia_da_semana

-- Not really needed, but helps with visualization
ORDER BY ratio_1c_2c;

pais_partida,cidade_partida,dia_da_semana,total_1c,total_2c,ratio_1c_2c
Portugal,Porto,2,1624,21778,0.0745706676462485
Portugal,Porto,4,1693,22599,0.0749148192397893
Espanha,Barcelona,4,1707,22724,0.0751188171096638
Reino Unido,Londres,2,3316,44110,0.0751756971208342
Reino Unido,,2,3316,44110,0.0751756971208342
Portugal,Lisboa,2,1634,21674,0.0753898680446618
Países Baixos,,3,1701,22544,0.0754524485450674
Países Baixos,Amsterdam,3,1701,22544,0.0754524485450674
Espanha,Madrid,2,1645,21795,0.0754760266116081
Espanha,Barcelona,2,1670,22121,0.0754938745987975


## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

Código para criação dos índices

In [61]:
%%sql

CREATE INDEX CONCURRENTLY idx_hora_partida ON estatisticas_voos USING BTREE (hora_partida);
CREATE INDEX CONCURRENTLY idx_no_serie ON estatisticas_voos USING BTREE (no_serie);

# Análise Inicial das Queries

---

**Disclaimer**

Importa referir que o *populate* de dados enviado no relatório não corresponde exatamente ao utilizado durante a análise experimental para os índices. Para simplificar e reduzir o peso do ficheiro, o *populate* incluído tem um volume de dados consideravelmente menor em disco. Nas nossas experiências, para obter resultados mais representativos e realistas, utilizámos um conjunto de dados bem mais robusto — com cerca de 150 mil voos e 128 milhões de bilhetes vendidos — que totalizava aproximadamente 2GB. Essa base mais completa permitiu observar de forma mais clara o impacto e os benefícios reais dos índices criados.

---

Primeiramente, ao fazer uma análise apenas de cada uma das QUERY individualmente, sem qualquer tipo de análise ao plano de execução, podemos reparar que:

### Query 1  
Automaticamente, é bastante visível o uso de filtros de valores no `WHERE`, que filtra rows consoante a coluna `hora_partida`. Ora, esses filtros são de range, e o único tipo de índice que suporta consultas de range é a B-Tree, logo a primeira ideia seria fazer isso mesmo: um índice do tipo B-Tree em `hora_partida`. Dependendo do intervalo analisado e da quantidade de dados que temos, este índice pode vir a revelar-se bastante eficiente.

Também é visível uma agregação com agrupamento (`GROUP BY`), que exige sorting, pelo que um índice funcional do tipo B-Tree pode vir a ser útil tanto para o `LEAST(cidade_partida, cidade_chegada)` como para o `GREATEST(cidade_partida, cidade_chegada)`, que permite listar todas as rotas possíveis (55, que ainda são um número considerável se pensarmos que esta agregação com agrupamento é sempre usada em conjunto com um filtro temporal que limita os dados aos últimos meses ou ano, tornando o conjunto de dados mais seletivo e reduzindo o custo da agregação).

### Query 2  
Tal como no ponto anterior, tanto o uso de filtros de valores no `WHERE`, como a agregação com agrupamento (`GROUP BY`), poderiam beneficiar de índices, ambos provavelmente do tipo B-Tree.

Adicionalmente, também é usado `HAVING` na query, que essencialmente é o último filtro a ser executado em SQL. Porém, o número de valores únicos do filtro aplicado (`no_serie`) que temos na nossa BD é consideravelmente pequeno (12). Assim, com esta análise, o `no_serie` não será muito seletivo, ou seja, não nos parece ser útil qualquer tipo de índice no `no_serie`.

### Query 3  
Dado que a query não contém filtros `WHERE`, nem `JOINs`, nem nada muito relevante, o uso de índices não parece ter um impacto positivo para esta query. Analisando a agregação com agrupamento (`GROUP BY`), o uso de índices nela só faria sentido se a cardinalidade fosse muito elevada, o que não é o caso aqui, pois na nossa BD só existem 7 países e 11 cidades únicas. Mesmo pensando numa expansão de voos/países mais global, o número de cidades/países comparado com o número total de voos da tabela seria insignificante, e provavelmente não traria nenhuma vantagem.

### Query 4  
Tal como na query anterior, não há filtros, logo índices para filtragem não são úteis diretamente. Vendo também a agregação com agrupamento (`GROUP BY`), podemos dizer pelos mesmos motivos que os índices não parecem trazer vantagem, visto que a cardinalidade é relativamente baixa.

---

Após esta análise mais teórica sobre as Queries, vamos passar à análise do plano de execução de cada uma das queries individualmente.

### Query 1 -  

![alt text](query1-before.png "Query 1 sem Índices")

QPS = 1000 / (0.164 + 34.418) ≈ 28.9 queries/segundo

Analisando o Plano de Execução da 1ª Query, salta-nos logo à vista o tempo de Execução: 34.418 ms. Cerca de ~10ms a ~18ms do tempo provém do Sequencial Scan (neste caso paralelo porque temos múltiplos cores disponíveis), que acaba por filtrar 75% das rows apenas com o filtro de range da `hora_partida`. Ora, este número é bastante relevante (ainda que o range seja alto), o que quer dizer que muito provavelmente, um índice do tipo B-Tree em `hora_partida` vai otimizar esta query.

Passando agora ao próximo ponto do Plano de Execução, o HashAggregate, podemos ver que, no fundo é onde é passado o resto do tempo de Execução. É aqui que é feita a agregação das linhas com o `LEAST` e o `GREATEST`, com uma tabela hash em memória. Ora, os índices funcionais nestas expressões poderiam ajudar em consultas que filtrem ou ordenem por esses valores, mas não aceleram diretamente o HashAggregate, pois a agregação ainda exige ler todas as linhas filtradas. Portanto, mesmo com índices funcionais, o tempo do HashAggregate (teoricamente) depende principalmente do volume de dados processados. Ainda assim, iremos tentar criar um índice para esta agregação, para ficar provado experimentalmente que não irá haver melhorias.


Após aplicação dos Índices:
![alt text](query1-after.png "Query 1 com Índice")

QPS = 1000 / (0.156 + 20.976) ≈ 47.3 queries/segundo (melhoria de 164%)

Após aplicar o Índice do tipo B-Tree em `hora_partida`, notou-se uma clara melhoria no tempo de Execução: 20.976 ms, dos quais ~0ms a ~12ms provém da melhoria da aplicação do índice. Agora, ao invés de Sequencial Scan, é usado Index Scan, em que é feita uma leitura sequencial do índice, com lookup dos dados da tabela (heap). Este resultado é positivo, então confirma-se que a criação deste índice está a otimizar significativamente o filtro temporal, reduzindo a quantidade de dados lidos diretamente da tabela e acelerando a consulta.

Foi também criado, à parte, (para fins experimentais), o índice do tipo B-Tree para a agregação sobre as expressões LEAST(cidade_partida, cidade_chegada) e GREATEST(cidade_partida, cidade_chegada), mas como esperado não houve melhorias significativas no desempenho. Ou seja, esta hipótese foi descartada, pois o custo da agregação e do agrupamento não foi reduzido pelo índice, provavelmente devido à baixa seletividade e ao facto de a agregação ainda requerer processamento em memória para calcular os resultados finais.

### Query 2 -  
![alt text](query2-before.png "Query 2 sem Índices")

QPS = 1000 / (0.101 + 92.689) ≈ 10.7 queries/segundo

Analisando o Plano de Execução da 2ª Query, é bastante visível o tempo de Execução: 92.4689 ms. Cerca de ~11ms a ~14ms do tempo provém novamente do `Sequencial Scan` (neste caso paralelo porque temos múltiplos cores disponíveis), que acaba por filtrar 93% das rows apenas com o filtro de range da `hora_partida`. Ora, este número é bastante alto, o que quer dizer que novamente, um índice do tipo B-Tree em `hora_partida` vai otimizar esta query.

Passando agora ao próximo ponto do Plano de Execução, o `Sort`, podemos ver que, no fundo é onde é passado o resto do tempo de Execução. É aqui que é feita a contagem dos valores agrupados por cidade, e onde o `Sort` desempenha um papel fundamental para permitir o `GroupAggregate`. No entanto, não estávamos à espera de que esta operação de ordenação tivesse um custo tão elevado — cerca de metade do tempo total de execução. Este impacto poderia ser mitigado com o uso de índices apropriados. Ainda assim, como já foi referido, o número de países ou cidades envolvido não é suficientemente elevado para beneficiar significativamente de um índice convencional. 

Por outro lado, ao analisarmos a coluna no_serie que é usado no `Sort`, notamos que a sua cardinalidade é baixa (cerca de 12 valores distintos), o que a torna um candidato ideal para um índice do tipo bitmap. Assim, faz sentido criar experimentalmente um índice bitmap sobre no_serie, de forma a avaliarmos se este tipo de indexação poderá trazer melhorias reais ao desempenho da query. Contudo, como o PostgreSQL não suporta diretamente índices do tipo bitmap, optamos por criar um índice do tipo B-Tree sobre a coluna no_serie. O otimizador do PostgreSQL é suficientemente inteligente para, em situações com cardinalidade baixa, recorrer automaticamente a uma estratégia de Bitmap Index Scan, combinando ou não múltiplos índices conforme necessário. Assim, ao criarmos um índice B-Tree tradicional, continuamos a permitir que o motor de execução utilize internamente abordagens eficientes de varrimento por bitmap sempre que isso for benéfico.

Após aplicação dos Índices:
![alt text](query2-after.png "Query 2 com Índices")

QPS = 1000 / (0.098 + 29.580) ≈ 33.7 queries/segundo (melhoria de 315%)

Após aplicar o Índice do tipo B-Tree em `hora_partida`, notou-se uma clara melhoria no tempo de Execução: 29.580 ms, dos quais ~0ms a ~4ms provém da melhoria da aplicação do índice. Agora, ao invés de `Sequencial Scan`, é usado Index Scan, em que é feita uma leitura sequencial do índice, com lookup dos dados da tabela (heap). Este resultado é novamente positivo, então confirma-se mais uma vez que a criação deste índice está a otimizar significativamente o filtro temporal, reduzindo a quantidade de dados lidos diretamente da tabela e acelerando a consulta.

Após a criação do Índice do tipo B-Tree em `id_no_serie`, como esperado, também houve uma melhoria muito significativa (mais do que era esperado). Ao invés de ser usado `Sort` + `Sequencial Scan`, está a ser usado diretamente o `Index Only Scan`, em que é feito a leitura sequencial do índice, sem lookup na heap. Este resultado também é positivo, e novamente acelera a consulta dos dados à tabela.

### Query 3 -

![alt text](query3.png "Query 3")

QPS = 1000 / (0.104 + 2333.514) ≈ 0.4 queries/segundo (resultado bastante negativo)


Analisando o Plano de Execução, destaca-se o tempo total de execução: 2333.514 ms. A leitura inicial é feita por `Sequential Scan`, percorrendo todas as 150 000 linhas da tabela. No entanto, o principal custo vem da operação `MixedAggregate` com múltiplos `Group Keys`, resultante dos `ROLLUP`, que geram mais de 150 000 combinações.

O Sort final (que não sendo realmente necessário, ajuda na visualização dos dados), recorre a `external merge`, com leitura e escrita em disco — o que contribui significativamente para o tempo total.

Neste caso, não existem índices suficientemente seletivos que compensem ser aplicados. A elevada granularidade dos agrupamentos torna a utilização de índices ineficaz, sendo o custo inevitável devido à complexidade da agregação.

### Query 4 -

![alt text](query4.png "Query 4")

QPS = 1000 / (0.121 + 112.667) ≈ 8.9 queries/segundo


Analisando o Plano de Execução, vemos um tempo total de 112.667 ms, com a maior parte do custo concentrado no `HashAggregate`, responsável pelos vários níveis de agregação (`ROLLUP`). O `Sort` final é rápido, usando `quicksort` em memória, sem necessidade de I/O adicional em disco.

Tal como nas queries anteriores, é necessário percorrer toda a tabela (Seq Scan) para realizar as agregações, o que torna ineficaz a aplicação de índices. Neste caso, não existem índices suficientemente seletivos que compensem ser aplicados. A granularidade dos agrupamentos é elevada e o custo é essencialmente inevitável devido à complexidade inerente da operação.

---

Concluindo, apesar de não termos conseguido melhorar o desempenho de todas as 4 queries analisadas, identificámos dois índices — em hora_partida e em id_no_serie — do tipo BTREE, que trouxeram melhorias claras nas queries que filtram por tempo e número de série dos aviões. Estes índices são importantes, pois são filtros frequentes e seletivos que provavelmente vão beneficiar muito consultas futuras (e não apenas estas 4), otimizando significativamente o acesso e reduzindo o tempo de execução.

Quanto à possibilidade de usar índices do tipo HASH, estes não são adequados neste contexto, uma vez que são eficientes apenas para igualdade simples e não suportam consultas de range ou operações de ordenação necessárias nas queries analisadas.