# Projeto de Bases de Dados - Parte 2

### Grupo 15
<dl>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1109441 Alexandre Delgado</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1109493 Francisco Martins</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1109834 Ricardo Fonseca</dd>
<dl>

In [1]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://aviacao:aviacao@postgres/aviacao

## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”

## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [2]:
%%sql
-- (RI-1)
CREATE OR REPLACE FUNCTION check_in_restricoes() RETURNS TRIGGER AS
$$
DECLARE
	check_id_bilhete INTEGER;
	classe_bilhete BOOLEAN;
	voo_id_bilhete INTEGER;
	
	classe_assento BOOLEAN;

	no_serie_voo VARCHAR(80);
BEGIN
	-- Verifica que bilhete existe
	SELECT id INTO check_id_bilhete FROM bilhete WHERE id = NEW.id;
	IF check_id_bilhete IS NULL THEN
        RAISE EXCEPTION 'Bilhete não existe.';
	END IF;


	-- Vai buscar 2 informações importantes do bilhete: classe e id do voo
	SELECT prim_classe, voo_id
	INTO classe_bilhete, voo_id_bilhete
	FROM bilhete WHERE id = NEW.id;


	-- Verifica que as classes do bilhete e do assento correspondem
	SELECT prim_classe INTO classe_assento FROM assento WHERE lugar = NEW.lugar AND no_serie = NEW.no_serie;
	-- <> é !=
	IF classe_bilhete <> classe_assento THEN
		RAISE EXCEPTION 'Classes do bilhete e do assento são diferentes.';
	END IF;


	-- Verifica que os aviões do assento (bilhete) e do voo são o mesmo
	SELECT no_serie INTO no_serie_voo FROM voo WHERE id = voo_id_bilhete;
	IF NEW.no_serie <> no_serie_voo THEN
		RAISE EXCEPTION 'Avião do assento e do voo são diferentes.';
	END IF;

	-- Retorna o tuplo que vai ser inserido 
	RETURN NEW;
END;
$$ LANGUAGE plpgsql;


-- BEFORE UPDATE triggers run before the row is written to the table, AFTER UPDATE triggers run after the update has been committed to the table.
CREATE TRIGGER definir_assento BEFORE UPDATE ON bilhete FOR EACH ROW EXECUTE FUNCTION check_in_restricoes();

RuntimeError: (psycopg.errors.DuplicateObject) trigger "definir_assento" for relation "bilhete" already exists
[SQL: CREATE TRIGGER definir_assento BEFORE UPDATE ON bilhete FOR EACH ROW EXECUTE FUNCTION check_in_restricoes();]
(Background on this error at: https://sqlalche.me/e/20/f405)
If you need help solving this issue, send us a message: https://ploomber.io/community


(RI-2) e (RI-3) - Feitas na mesma função com o mesmo trigger, os excertos específicos do código para cada restrição encontram-se nas células abaixo

In [None]:
%%sql
-- (RI-2)

-- RI-2 e RI-3
CREATE OR REPLACE FUNCTION vende_bilhete_restricoes()
RETURNS TRIGGER AS
$$
DECLARE
	-- Variables
	venda_hora TIMESTAMP;

	classe_to_print VARCHAR;
BEGIN
    -- Seleciona a hora da venda e explode se não encontrar nada
    SELECT hora
    INTO venda_hora
    FROM venda
    WHERE codigo_reserva = NEW.codigo_reserva;

	-- Contar quantos assentos dessa classe há e quantos bilhetes dessa classe há. Se houver mais assentos que bilhetes, então podemos permitir um novo bilhete
	IF (
		SELECT COUNT(*)
		FROM assento
		WHERE prim_classe = NEW.prim_classe
		AND no_serie = (SELECT no_serie FROM voo WHERE id = NEW.voo_id)
	) > (
		SELECT COUNT(*)
		FROM bilhete
		WHERE voo_id = NEW.voo_id
		AND prim_classe = NEW.prim_classe
	) THEN
	-- Há um assento livre neste voo com esta classe
		--RAISE NOTICE 'Assento livre: %', NEW.lugar;
		--RAISE NOTICE 'PASSED';
		IF venda_hora < (SELECT hora_partida FROM voo WHERE id = NEW.voo_id) THEN 
			RETURN NEW;
		ELSE
			DELETE FROM bilhete WHERE codigo_reserva = NEW.codigo_reserva;
			DELETE FROM venda WHERE codigo_reserva = NEW.codigo_reserva;
			RAISE EXCEPTION 'Hora da venda é posterior à descolagem do avião do voo %.', NEW.voo_id;
		END IF;
	ELSE
		DELETE FROM bilhete WHERE codigo_reserva = NEW.codigo_reserva;
		DELETE FROM venda WHERE codigo_reserva = NEW.codigo_reserva;
		IF NEW.prim_classe = TRUE THEN
			classe_to_print := '1ª';
		ELSE
			classe_to_print := '2ª';
		END IF;
		RAISE EXCEPTION 'Nenhum assento disponível para o voo % e % classe.', NEW.voo_id, classe_to_print;
	END IF;
	
EXCEPTION
	-- If data venda for NULL
    WHEN NO_DATA_FOUND THEN
        RAISE EXCEPTION 'Código de reserva % não existe.', NEW.codigo_reserva;
	--WHEN OTHERS THEN
        -- Example: delete venda for some other unexpected error (use carefully)
        --DELETE FROM venda WHERE codigo_reserva = NEW.codigo_reserva;
        --RAISE EXCEPTION 'Erro: Bilhete da venda % não foi válido. Exception %', NEW.codigo_reserva, SQLERRM;
END;
$$ LANGUAGE plpgsql;

-- Trigger
CREATE TRIGGER vende_bilhete
BEFORE INSERT ON bilhete
FOR EACH ROW
EXECUTE FUNCTION vende_bilhete_restricoes();

-- nao e possivel estabelecer a restricao das horas da venda com um trigger num insert na venda pois aí nao sao especificados voos



(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [None]:
%%sql
-- Excerto específico de RI-2
    
    -- Contar quantos assentos dessa classe há e quantos bilhetes dessa classe há. Se houver mais assentos que bilhetes, então podemos permitir um novo bilhete
	IF (
		SELECT COUNT(*)
		FROM assento
		WHERE prim_classe = NEW.prim_classe
		AND no_serie = (SELECT no_serie FROM voo WHERE id = NEW.voo_id)
	) > (
		SELECT COUNT(*)
		FROM bilhete
		WHERE voo_id = NEW.voo_id
		AND prim_classe = NEW.prim_classe
	) THEN

        -- (...)
    ELSE
		DELETE FROM bilhete WHERE codigo_reserva = NEW.codigo_reserva;
		DELETE FROM venda WHERE codigo_reserva = NEW.codigo_reserva;
		IF NEW.prim_classe = TRUE THEN
			classe_to_print := '1ª';
		ELSE
			classe_to_print := '2ª';
		END IF;
		RAISE EXCEPTION 'Nenhum assento disponível para o voo % e % classe.', NEW.voo_id, classe_to_print;
	END IF;

(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [None]:
%%sql
-- Excerto específico de RI-3
    
        IF venda_hora < (SELECT hora_partida FROM voo WHERE id = NEW.voo_id) THEN 
			RETURN NEW;
		ELSE
			DELETE FROM bilhete WHERE codigo_reserva = NEW.codigo_reserva;
			DELETE FROM venda WHERE codigo_reserva = NEW.codigo_reserva;
			RAISE EXCEPTION 'Hora da venda é posterior à descolagem do avião do voo %.', NEW.voo_id;
		END IF;

## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

In [None]:
%%sql
-- Funções auxiliares à app

CREATE OR REPLACE FUNCTION voos(
	r_partida CHAR(3),                               	
	r_chegada CHAR(3),
	hora_atual TIMESTAMP 
) RETURNS TABLE(
	r_no_serie VARCHAR(80),
	r_hora_partida TIMESTAMP
) AS
$$
BEGIN
	RETURN QUERY
	SELECT no_serie , hora_partida FROM voo
	WHERE partida = r_partida AND chegada = r_chegada AND hora_partida > hora_atual AND ((
		SELECT COUNT(*)
		FROM assento
		WHERE prim_classe = TRUE
		AND voo.no_serie = assento.no_serie
	) > (
		SELECT COUNT(*)
		FROM bilhete
		WHERE voo_id = id
		AND prim_classe = TRUE
	)
	OR
	(
		SELECT COUNT(*)
		FROM assento
		WHERE prim_classe = FALSE
		AND voo.no_serie = assento.no_serie
	) > (
		SELECT COUNT(*)
		FROM bilhete
		WHERE voo_id = id
		AND prim_classe = FALSE
	))
	ORDER BY hora_partida
	LIMIT 3;

END;
$$ LANGUAGE plpgsql;
CREATE OR REPLACE FUNCTION compra(
	in_voo_id INTEGER,
	in_nif_cliente CHAR(9),
	in_nomes VARCHAR(80)[],
	in_classes BOOLEAN[],
	in_hora_compra TIMESTAMP
) RETURNS INTEGER[] AS
$$
DECLARE
	codigo_reserva_venda INTEGER;
	hora_partida_voo TIMESTAMP;
	hora_chegada_voo TIMESTAMP;
	no_serie_voo VARCHAR(80);
	i INT;
	tempID INTEGER;
	ticket_ids INTEGER[];
	preco_venda NUMERIC(7,2);
	preco_to_add NUMERIC(7,2);
	preco_true NUMERIC(7,2);
	
BEGIN
	-- Assumir sempre que balcão é NULL
	INSERT INTO venda (nif_cliente, balcao, hora) VALUES (in_nif_cliente, NULL, in_hora_compra) RETURNING codigo_reserva INTO codigo_reserva_venda;

	-- SELECT no_serie INTO no_serie_voo FROM voo WHERE id = in_voo_id;
	SELECT hora_partida, hora_chegada, no_serie INTO hora_partida_voo, hora_chegada_voo, no_serie_voo FROM voo WHERE id = in_voo_id;
	preco_venda := (EXTRACT(EPOCH FROM (hora_chegada_voo - hora_partida_voo)) / 3600 * 0.2)*50;
	preco_to_add := 0.5 * preco_venda;

	-- Locking down all the rows on the tickets table for a given flight
	
	PERFORM * FROM assento where no_serie= no_serie_voo FOR UPDATE;
	
	FOR i IN 1..array_length(in_classes, 1) 
	LOOP
		IF in_classes[i] = TRUE THEN 
			preco_true := preco_venda + preco_to_add;
		ELSE
			preco_true := preco_venda;
		END IF;

		-- lugar e no_serie do bilhete comecam NULL pois bilhete nao foi checked in
		INSERT INTO bilhete (voo_id, codigo_reserva, nome_passageiro, preco, prim_classe, lugar, no_serie) 
		VALUES (in_voo_id, codigo_reserva_venda, in_nomes[i], preco_true, in_classes[i], NULL, NULL) RETURNING cast(id as INTEGER) into tempID;
		select array_cat(ticket_ids,ARRAY[tempID] ) into ticket_ids;
	END LOOP;

	RETURN ticket_ids;
END;
$$ LANGUAGE plpgsql;

CREATE OR REPLACE FUNCTION check_in(
	id_bilhete INTEGER,
	check_in_date TIMESTAMP
) RETURNS VARCHAR AS
$$
DECLARE
	classe_bilhete BOOLEAN;
	lugar_bilhete VARCHAR;
	no_serie_bilhete VARCHAR(80);
	voo_id_bilhete INTEGER;
	
	no_serie_voo VARCHAR(80);
	hora_partida_voo TIMESTAMP;

	r RECORD;			-- variavel do for loop
BEGIN
	-- Verificar por erros - se bcilhete existe e se o voo já partiu
	SELECT prim_classe, lugar, no_serie, voo_id INTO classe_bilhete ,lugar_bilhete, no_serie_bilhete, voo_id_bilhete FROM bilhete WHERE id = id_bilhete;

	IF lugar_bilhete IS NOT NULL OR no_serie_bilhete IS NOT NULL THEN
		RAISE EXCEPTION 'Bilhete já foi checked-in.';
	END IF;

	SELECT hora_partida INTO hora_partida_voo FROM voo WHERE id = voo_id_bilhete;

	IF check_in_date > hora_partida_voo THEN
		RAISE EXCEPTION 'Impossível fazer check-in: avião já descolou.';
	END IF;

	
	-- Vamos buscar o no serie associado ao voo do bilhete
	SELECT no_serie INTO no_serie_voo FROM voo WHERE id = voo_id_bilhete;
	PERFORM * FROM assento where no_serie= no_serie_voo FOR UPDATE;





	-- Percorrer os assentos todos criando uma tabela que corresponde cada assento do voo a cada bilhete do voo
	-- Quanto encontrarmos o bilhete com o id dado como input ficamos com esse lugar - é uma escolha de lugares à base de quem comprou os bilhetes primeiro basically, porque estamos a associar o 1o assento do voo ao 1o bilhete do voo and so on
	FOR r IN
		SELECT a.lugar AS lugar_a, b.lugar AS lugar_b, a.prim_classe AS classe_a
		-- keep this AND in the JOIN to keep it as a LEFT JOIN - vai manter os lugares nos assentos mesmo que os lugares nos bilhetes sejam NULL
		-- fazer join so dos bilhetes do voo que quero e depois selecionar so os assentos do aviao que quero
		FROM assento a LEFT JOIN bilhete b ON a.lugar = b.lugar 
		AND a.no_serie = b.no_serie AND b.voo_id = voo_id_bilhete 
		WHERE a.no_serie = no_serie_voo
	LOOP
		-- vejo o primeiro bilhete que tem o lugar a NULL e sei que o assento correspondente está livre 
		IF r.lugar_b IS NULL AND r.classe_a = classe_bilhete THEN
			lugar_bilhete := r.lugar_a;
			EXIT;
		END IF;
	END LOOP;


	-- Definir o no serie no bilhete para o no serie do voo dele e definir o lugar do bilhete
	-- Fazer os dois no mesmo UPDATE por causa do TRIGGER
	UPDATE bilhete SET no_serie = no_serie_voo, lugar = lugar_bilhete WHERE id = id_bilhete;

	RETURN lugar_bilhete;
END;
$$ LANGUAGE plpgsql;


## 4. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, assentos_1c, assentos_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *assentos_1c, assentos_2c:*: correspondem ao número de assentos de primeira e segunda classe no avião que realiza o voo
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [11]:
%%sql
CREATE MATERIALIZED VIEW estatisticas_voos AS
  SELECT 
    b.no_serie,
	v.hora_partida,
    a_partida.cidade AS cidade_partida,
    a_partida.pais AS pais_partida,
    a_chegada.cidade AS cidade_chegada,
    a_chegada.pais AS pais_chegada,
    EXTRACT(YEAR FROM v.hora_partida) AS ano, 
    EXTRACT(MONTH FROM v.hora_partida) AS mes,
    EXTRACT(DAY FROM v.hora_partida) AS dia_do_mes, 
    TO_CHAR(v.hora_partida, 'Day') AS dia_da_semana,
    COUNT(*) FILTER (WHERE b.prim_classe = TRUE) AS passageiros_1c,
    COUNT(*) FILTER (WHERE b.prim_classe = FALSE) AS passageiros_2c,

	COALESCE(a.assentos_1c, 0) AS assentos_1c,
    COALESCE(a.assentos_2c, 0) AS assentos_2c,

    COALESCE(SUM(b.preco) FILTER (WHERE b.prim_classe = TRUE), 0) AS vendas_1c,
    COALESCE(SUM(b.preco) FILTER (WHERE b.prim_classe = FALSE), 0) AS vendas_2c

FROM 
    bilhete b
    JOIN voo v ON b.voo_id = v.id
    JOIN aeroporto a_partida ON v.partida = a_partida.codigo
    JOIN aeroporto a_chegada ON v.chegada = a_chegada.codigo
    LEFT JOIN (
      SELECT 
        no_serie,
        COUNT(*) FILTER (WHERE prim_classe = TRUE) AS assentos_1c,
        COUNT(*) FILTER (WHERE prim_classe = FALSE) AS assentos_2c
      FROM 
        assento
      GROUP BY
        no_serie
    ) a ON v.no_serie = a.no_serie
    
GROUP BY
    b.no_serie,
	v.hora_partida,
    a_partida.cidade,
    a_partida.pais,
    a_chegada.cidade,
    a_chegada.pais,
    EXTRACT(YEAR FROM v.hora_partida),
    EXTRACT(MONTH FROM v.hora_partida),
    EXTRACT(DAY FROM v.hora_partida),
    TO_CHAR(v.hora_partida, 'Day'),
	a.assentos_1c,
    a.assentos_2c;





RuntimeError: (psycopg.errors.DuplicateTable) relation "estatisticas_voos" already exists
[SQL: CREATE MATERIALIZED VIEW estatisticas_voos AS
  SELECT
    b.no_serie,
	v.hora_partida,
    a_partida.cidade AS cidade_partida,
    a_partida.pais AS pais_partida,
    a_chegada.cidade AS cidade_chegada,
    a_chegada.pais AS pais_chegada,
    EXTRACT(YEAR FROM v.hora_partida) AS ano,
    EXTRACT(MONTH FROM v.hora_partida) AS mes,
    EXTRACT(DAY FROM v.hora_partida) AS dia_do_mes,
    TO_CHAR(v.hora_partida, 'Day') AS dia_da_semana,
    COUNT(*) FILTER (WHERE b.prim_classe = TRUE) AS passageiros_1c,
    COUNT(*) FILTER (WHERE b.prim_classe = FALSE) AS passageiros_2c,

	COALESCE(a.assentos_1c, 0) AS assentos_1c,
    COALESCE(a.assentos_2c, 0) AS assentos_2c,

    COALESCE(SUM(b.preco) FILTER (WHERE b.prim_classe = TRUE), 0) AS vendas_1c,
    COALESCE(SUM(b.preco) FILTER (WHERE b.prim_classe = FALSE), 0) AS vendas_2c

FROM
    bilhete b
    JOIN voo v ON b.voo_id = v.id
    JOIN aeroporto a_p

## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e **sem recurso ao operador LIMIT e com recurso ao operador WITH apenas se estritamente necessário**, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [4]:
%%sql

-- SELECT ...
EXPLAIN (ANALYZE, BUFFERS, MEMORY, SERIALIZE)
SELECT cidade_a, cidade_b
FROM (
  SELECT 
    LEAST(cidade_partida, cidade_chegada) AS cidade_a,
    GREATEST(cidade_partida, cidade_chegada) AS cidade_b,
    SUM(assentos_1c + assentos_2c) AS total_assentos,
    SUM(passageiros_1c + passageiros_2c) AS total_passageiros,
    ROUND(SUM(passageiros_1c + passageiros_2c)::numeric / NULLIF(SUM(assentos_1c + assentos_2c), 0), 2) AS ocupacao_media
  FROM estatisticas_voos
  WHERE hora_partida >= (CURRENT_DATE - INTERVAL '1 year')
  GROUP BY 
    LEAST(cidade_partida, cidade_chegada),
    GREATEST(cidade_partida, cidade_chegada)
) AS rotas_agg
WHERE ocupacao_media = (
  SELECT MAX(ocupacao_media) FROM (
    SELECT 
      ROUND(SUM(passageiros_1c + passageiros_2c)::numeric / NULLIF(SUM(assentos_1c + assentos_2c), 0), 2) AS ocupacao_media
    FROM estatisticas_voos
    WHERE hora_partida >= (CURRENT_DATE - INTERVAL '1 year')
    GROUP BY 
      LEAST(cidade_partida, cidade_chegada),
      GREATEST(cidade_partida, cidade_chegada)
  ) AS subquery_max
);

QUERY PLAN
Subquery Scan on rotas_agg (cost=1177.55..1180.06 rows=1 width=1032) (actual time=45.296..45.300 rows=1 loops=1)
Buffers: shared hit=398
InitPlan 1
-> Aggregate (cost=590.77..590.78 rows=1 width=32) (actual time=11.524..11.525 rows=1 loops=1)
Buffers: shared hit=199
-> HashAggregate (cost=586.77..589.52 rows=100 width=1064) (actual time=11.477..11.513 rows=47 loops=1)
"Group Key: LEAST(estatisticas_voos_1.cidade_partida, estatisticas_voos_1.cidade_chegada), GREATEST(estatisticas_voos_1.cidade_partida, estatisticas_voos_1.cidade_chegada)"
Batches: 1 Memory Usage: 32kB
Buffers: shared hit=199
-> Seq Scan on estatisticas_voos estatisticas_voos_1 (cost=0.00..431.67 rows=10340 width=1064) (actual time=0.019..6.976 rows=10341 loops=1)


2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [None]:
%%sql
-- SELECT ...
EXPLAIN (ANALYZE, BUFFERS, MEMORY, SERIALIZE)

SELECT cidade_a, cidade_b
FROM (
    SELECT
        LEAST(cidade_partida, cidade_chegada) AS cidade_a,
        GREATEST(cidade_partida, cidade_chegada) AS cidade_b
    FROM estatisticas_voos
    WHERE hora_partida >= (CURRENT_DATE - INTERVAL '3 months') AND hora_partida < CURRENT_DATE
    GROUP BY LEAST(cidade_partida, cidade_chegada), GREATEST(cidade_partida, cidade_chegada)
    HAVING COUNT(DISTINCT no_serie) = (SELECT COUNT(DISTINCT no_serie) FROM estatisticas_voos)
) AS rotas_agg;


QUERY PLAN
GroupAggregate (cost=1935.37..2010.51 rows=1 width=1032) (actual time=25.465..27.490 rows=9 loops=1)
"Group Key: (LEAST(estatisticas_voos.cidade_partida, estatisticas_voos.cidade_chegada)), (GREATEST(estatisticas_voos.cidade_partida, estatisticas_voos.cidade_chegada))"
Filter: (count(DISTINCT estatisticas_voos.no_serie) = (InitPlan 1).col1)
Rows Removed by Filter: 38
Buffers: shared hit=401
InitPlan 1
-> Aggregate (cost=1043.66..1043.67 rows=1 width=8) (actual time=4.368..4.370 rows=1 loops=1)
Buffers: shared hit=199
-> Sort (cost=991.95..1017.80 rows=10341 width=9) (actual time=2.588..3.264 rows=10341 loops=1)
Sort Key: estatisticas_voos_1.no_serie


3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [6]:
%%sql
-- SELECT ...
EXPLAIN (ANALYZE, BUFFERS, MEMORY, SERIALIZE)

SELECT 
  pais_partida, cidade_partida, 
  pais_chegada, cidade_chegada, 
  ano, mes, dia_do_mes,
  SUM(vendas_1c + vendas_2c) AS DinheiroTotal,
  SUM(vendas_1c) AS PrimeiraClasse,
  SUM(vendas_2c) AS SegundaClasse
FROM estatisticas_voos
GROUP BY GROUPING SETS (
  (pais_partida, cidade_partida, pais_chegada, cidade_chegada),
  (pais_partida, pais_chegada),
  (ano, mes, dia_do_mes),
  (ano, mes),
  (ano),
  ()
)
ORDER BY 
  pais_partida, cidade_partida, 
  pais_chegada, cidade_chegada,
  ano, mes, dia_do_mes;

QUERY PLAN
Sort (cost=1326.23..1329.58 rows=1341 width=137) (actual time=47.626..47.652 rows=388 loops=1)
"Sort Key: pais_partida, cidade_partida, pais_chegada, cidade_chegada, ano, mes, dia_do_mes"
Sort Method: quicksort Memory: 50kB
Buffers: shared hit=202
-> MixedAggregate (cost=0.00..1256.57 rows=1341 width=137) (actual time=46.426..46.705 rows=388 loops=1)
"Hash Key: ano, mes, dia_do_mes"
"Hash Key: ano, mes"
Hash Key: ano
"Hash Key: pais_partida, pais_chegada, cidade_partida, cidade_chegada"
"Hash Key: pais_partida, pais_chegada"


4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [7]:
%%sql
-- SELECT ...
EXPLAIN (ANALYZE, BUFFERS, MEMORY, SERIALIZE)

SELECT 
  pais_partida, cidade_partida, 
  pais_chegada, cidade_chegada,
  dia_da_semana,
  ROUND(SUM(assentos_1c) / NULLIF(SUM(assentos_2c), 0), 2) AS ratio_passageiros
FROM estatisticas_voos
GROUP BY GROUPING SETS (
  (pais_partida, cidade_partida, pais_chegada, cidade_chegada, dia_da_semana),
  (pais_partida, pais_chegada, dia_da_semana),
  (dia_da_semana)
)
ORDER BY 
  pais_partida, cidade_partida, 
  pais_chegada, cidade_chegada,
  dia_da_semana;

QUERY PLAN
Sort (cost=812.01..816.03 rows=1608 width=68) (actual time=41.562..41.958 rows=1176 loops=1)
"Sort Key: pais_partida, cidade_partida, pais_chegada, cidade_chegada, dia_da_semana"
Sort Method: quicksort Memory: 114kB
Buffers: shared hit=199
-> HashAggregate (cost=483.38..726.38 rows=1608 width=68) (actual time=37.077..37.969 rows=1176 loops=1)
"Hash Key: dia_da_semana, pais_partida, pais_chegada, cidade_partida, cidade_chegada"
"Hash Key: dia_da_semana, pais_partida, pais_chegada"
Hash Key: dia_da_semana
Batches: 1 Memory Usage: 625kB
Buffers: shared hit=199


## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

Código para criação dos índices

In [None]:
%%sql
-- CREATE INDEX ...

-- Índices eficazes:
CREATE INDEX time ON estatisticas_voos (hora_partida);

-- Índices não eficazes:
CREATE INDEX time1 ON estatisticas_voos (hora_partida DESC);
CREATE INDEX time2 ON estatisticas_voos (hora_partida) INCLUDE (cidade_partida, cidade_chegada);
CREATE INDEX extreme_target ON estatisticas_voos (cidade_partida ,cidade_chegada);
CREATE INDEX extreme_target1 ON estatisticas_voos (pais_partida, cidade_partida, pais_chegada ,cidade_chegada, dia_da_semana);
CREATE INDEX extreme_target2 ON estatisticas_voos (pais_partida, cidade_partida, pais_chegada ,cidade_chegada, dia_da_semana) INCLUDE (assentos_1c, assentos_2c);


In [None]:
%%sql
DROP INDEX time;
DROP INDEX time1;
DROP INDEX time2;
DROP INDEX extreme_target;
DROP INDEX extreme_target1;
DROP INDEX extreme_target2;


Justificação teórica e prática (sumarizando observações com EXPLAIN ANALYSE)

Foi criado um índice btree do estatísticas_voos contendo como chave a hora_partida, uma vez que uma série das queries de OLAP terá como objetivo a filtragem de voos por tempo. Verifica-se que para a query 2 há a passagem de um sequencial scan para um index scan. Apesar de uma quantidade pequena de linhas filtradas (cerca de 50%, e na query 1 não se filtram linhas sequer), isto deve-se à pequena quantidade de dados históricos existentes, esperando-se uma melhoria da performance com o aumentar do período temporal coberto pelos dados. Escolheu-se btree uma vez que raramente se fará um match exato da data, fazendo-se em vez disso comparações de ordem que apenas o btree é capaz de fazer rapidamente. (No caso da query 5.2, apesar do índice ser usado, não se verificou uma redução do tempo de execução, provavelmente pelo tamanho reduzido do data set).

Índices que tentam armazenar mais informações como localização de partida, dia da semana e localização de chegada parecem ser ineficazes, apesar de em teoria deverem acelerar queries onde seja procurada ordem (como as queries 3 e 4) e mesmo acelerando agregações. Apesar de o porquê não nos ser completamente claro (a documentação do postgres diz que este tipo de queries deveria ser acelerado).

Adicionalmente, testámos diferentes índices — desde índices de uma única coluna até índices multicoluna —, quer na ordenação ascendente quer na descendente, assim como na informação incluída (include). Não encontrámos, todavia, qualquer índice que contribuísse de forma significativa para a melhoria da eficiência das funções.
