# Projeto de Bases de Dados - Parte 2

### Grupo 26
<dl>
    <dt>40 horas (33.3%)</dt>
    <dd>ist1110306 Diogo Fernandes</dd>
    <dt>40 horas (33.3%)</dt>
    <dd>ist1106526 Pedro Ideias</dd>
    <dt>40 horas (33.3%)</dt>
    <dd>ist163484 Michael Maycock</dd>
<dl>

In [11]:
%load_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100
%sql postgresql+psycopg://postgres:postgres@postgres/Aviacao

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”

#### Notas de Execução: 

**Conecte-se** com o user **postgres** e palavra-passe **postgres**:
```
psql -h postgres -U postgres
```

**Crie a base de dados "Aviacao"**:
```
DROP DATABASE IF EXISTS "Aviacao"
CREATE DATABASE “Aviacao” WITH OWNER = postgres ENCODING = ‘UTF8’;
```

**Conecte-se à base de dados**:
```
\c Aviacao
```
  
**Crie as tabelas**:
```
\i ~/data/aviacao.sql
```


## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [12]:
%%sql
-- (RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo
-- Criação da Função
CREATE OR REPLACE FUNCTION check_in_trigger_function() RETURNS TRIGGER AS
$$
DECLARE
    classe_assento BOOLEAN;
    classe_assento_text TEXT;
    classe_bilhete_text TEXT;
    no_serie_voo VARCHAR;
BEGIN
    -- Considera-se a possibilidade de fazer update a bilhete sem estar relacionado com o check-in 
    IF NEW.lugar IS NULL AND NEW.no_serie IS NULL THEN
        RETURN NEW;
    END IF;

    -- Caso um field seja null e o outro não
    IF NEW.lugar IS NULL OR NEW.no_serie IS NULL THEN
       RAISE EXCEPTION 'O lugar e o no_serie do bilhete têm ambos de ter valor ou não ter';
    END IF;

    -- Obter a classe do assento 
    SELECT prim_classe INTO classe_assento 
        FROM assento 
        WHERE no_serie = NEW.no_serie AND lugar = NEW.lugar; 
    IF NOT FOUND THEN
        RAISE EXCEPTION 'Assento % não existe para o avião %', NEW.lugar, NEW.no_serie;
    END IF;

  
    -- Classes do bilhete != classe do assento ?
    IF classe_assento IS DISTINCT FROM NEW.prim_classe THEN
        IF classe_assento THEN
            classe_assento_text = 'primeira';
        ELSE
            classe_assento_text = 'segunda';
        END IF;
        IF NEW.prim_classe THEN
            classe_bilhete_text = 'primeira';
        ELSE    
            classe_bilhete_text = 'segunda';   
        END IF;
        RAISE EXCEPTION 'Classe do assento (%) difere da classe do bilhete (%)', classe_assento_text, classe_bilhete_text;
    END IF;

    -- Obter o avião do voo
    SELECT no_serie INTO no_serie_voo 
        FROM voo 
        WHERE NEW.voo_id = id;
    IF NOT FOUND THEN
        RAISE EXCEPTION 'Voo com o id % não existe', NEW.voo_id;
    END IF;

    -- Avião do assento != avião do voo ?
    IF no_serie_voo IS DISTINCT FROM NEW.no_serie THEN
        RAISE EXCEPTION 'Assento pertence ao avião % mas o voo % é feito pelo avião %', NEW.no_serie, NEW.voo_id, no_serie_voo;
    END IF;

    RETURN NEW;
END;

$$ 
LANGUAGE plpgsql;

-- Criação do Trigger:
CREATE OR REPLACE TRIGGER check_in_trigger 
    -- Insert pois assume-se a possibilidade de inserir bilhetes já com check-in feito
    BEFORE INSERT 
    OR UPDATE OF lugar, no_serie, prim_classe, voo_id 
    ON bilhete 
    FOR EACH ROW EXECUTE FUNCTION check_in_trigger_function();


(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [13]:
%%sql
-- (RI-2)
CREATE OR REPLACE FUNCTION n_bilhetes_trigger_function() RETURNS TRIGGER AS
$$
DECLARE
    n_assentos INTEGER;
    n_bilhetes INTEGER;
    no_serie_val VARCHAR;
    classe_texto VARCHAR;
BEGIN
    IF NEW.prim_classe THEN
        classe_texto = 'Primeira Classe';
    ELSE
        classe_texto = 'Segunda Classe';
    END IF;

    -- Obter número de série do avião com o id de voo dado
    SELECT no_serie INTO no_serie_val FROM voo WHERE id = NEW.voo_id;

    -- Contar o número de assentos dessa classe desse avião
    SELECT COUNT(*) INTO n_assentos
        FROM assento WHERE prim_classe = NEW.prim_classe AND no_serie = no_serie_val;

    -- Contar o nº de bilhetes para esse voo dessa classe foram vendidos
    SELECT COUNT(*) INTO n_bilhetes
        FROM bilhete WHERE voo_id = NEW.voo_id AND prim_classe = NEW.prim_classe;

     IF n_bilhetes >= n_assentos THEN
        RAISE EXCEPTION 'Bilhete/s excede/m a capacidade de % assentos de % para o voo %.',
        n_assentos,
        classe_texto,
        COALESCE(NEW.voo_id::text, '[voo desconhecido]');
    END IF;

    RETURN NEW;
END;
$$ 
LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER n_bilhetes_trigger
    -- É verificado no update do voo_id porque o novo voo pode ter um número diferente de assentos
    -- É verificado no update do prim_classe porque a nova classe pode não ter assentos disponiveis
    BEFORE INSERT OR UPDATE OF voo_id, prim_classe ON bilhete
    FOR EACH ROW EXECUTE FUNCTION n_bilhetes_trigger_function();

(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [14]:
%%sql
-- (RI-3)
CREATE OR REPLACE FUNCTION horas_venda_partida_trigger_function() RETURNS TRIGGER AS
$$
DECLARE
    timestamp_venda TIMESTAMP;
    timestamp_voo TIMESTAMP;
BEGIN
    -- Obter a hora da venda com o código de reserva
    SELECT hora INTO timestamp_venda
        FROM venda WHERE NEW.codigo_reserva = codigo_reserva;
    IF NOT FOUND THEN
        RAISE EXCEPTION 'Venda % não existe', NEW.codigo_reserva;
    END IF;

    -- Obter a hora do voo com o voo id
    SELECT hora_partida INTO timestamp_voo
        FROM voo WHERE NEW.voo_id = id;
    IF NOT FOUND THEN
        RAISE EXCEPTION 'Voo % não existe', NEW.voo_id;
    END IF;

    -- Comparação
    IF timestamp_venda >= timestamp_voo THEN
        RAISE EXCEPTION 'Hora da venda % (%) deve ser anterior à partida do voo % (%)',
        NEW.codigo_reserva, timestamp_venda, NEW.voo_id, timestamp_voo;
    END IF;
    
    RETURN NEW;
END;
$$ 
LANGUAGE plpgsql;

    
CREATE OR REPLACE TRIGGER horas_venda_partida_trigger
    BEFORE 
    INSERT OR 
    -- Para evitar a possibilidade de se atualizar o voo_id para um voo que ocorreu antes da venda
    -- Ou até mudar o codigo de reserva para um que ocorra depois do voo:
    UPDATE OF codigo_reserva, voo_id
    ON bilhete
    FOR EACH ROW 
    EXECUTE FUNCTION horas_venda_partida_trigger_function();


## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.



**Popule as tabelas**:
```
\i ~/data/populate.sql
```

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

## 4. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, assentos_1c, assentos_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *assentos_1c, assentos_2c:*: correspondem ao número de assentos de primeira e segunda classe no avião que realiza o voo
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [15]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS estatisticas_voos;
CREATE MATERIALIZED VIEW estatisticas_voos AS
WITH bilhetes AS (
   SELECT
       voo_id,
       COUNT(*) FILTER (WHERE prim_classe) AS passageiros_1c,
       COUNT(*) FILTER (WHERE NOT prim_classe) AS passageiros_2c,
       SUM(preco) FILTER (WHERE prim_classe) AS vendas_1c,
       SUM(preco) FILTER (WHERE NOT prim_classe) AS vendas_2c
   FROM bilhete
   GROUP BY voo_id
),
assentos AS (
   SELECT
       no_serie,
       COUNT(*) FILTER (WHERE prim_classe) AS assentos_1c,
       COUNT(*) FILTER (WHERE NOT prim_classe) AS assentos_2c
   FROM assento
   GROUP BY no_serie
)
SELECT
   v.no_serie,
   v.hora_partida,
   a1.cidade AS cidade_partida,
   a1.pais AS pais_partida,
   a2.cidade AS cidade_chegada,
   a2.pais AS pais_chegada,
   EXTRACT(YEAR FROM v.hora_partida) AS ano,
   EXTRACT(MONTH FROM v.hora_partida) AS mes,
   EXTRACT(DAY FROM v.hora_partida) AS dia_do_mes,
   EXTRACT(DOW FROM v.hora_partida) AS dia_da_semana,
   b.passageiros_1c AS passageiros_1c,
   b.passageiros_2c AS passageiros_2c,
   a.assentos_1c AS assentos_1c,
   a.assentos_2c AS assentos_2c,
   b.vendas_1c AS vendas_1c,
   b.vendas_2c AS vendas_2c
FROM
   voo v
JOIN aeroporto a1 ON v.partida = a1.codigo
JOIN aeroporto a2 ON v.chegada = a2.codigo
-- LEFT JOIN: se houvesse aviao sem assentos por qq razao, os voos desapareciam com JOIN
LEFT JOIN bilhetes b ON v.id = b.voo_id
-- LEFT JOIN: se houvesse voo sem bilhetes vendidos, o voo desaparecia com JOIN
LEFT JOIN assentos a ON v.no_serie = a.no_serie;


## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e **sem recurso ao operador LIMIT e com recurso ao operador WITH apenas se estritamente necessário**, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [37]:
%%sql
-- 1. determinar rotas com maior procura no último ano
-- ::DECIMAL para garantir que não fazemos divisão de inteiro -> inteiro
-- NULLIF para substituir 0 por NULL para não dividir por 0
-- COALESCE se SUM retornar NULL e podermos fazer >=
SELECT
 LEAST(cidade_partida, cidade_chegada) AS cidade1,
 GREATEST(cidade_partida, cidade_chegada) AS cidade2
FROM estatisticas_voos
WHERE hora_partida BETWEEN (NOW() - INTERVAL '1 year') AND NOW()
GROUP BY cidade1, cidade2
HAVING COALESCE(SUM(passageiros_1c + passageiros_2c)::DECIMAL / NULLIF(SUM(assentos_1c + assentos_2c), 0), 0)
>= ALL (
 SELECT
   COALESCE(SUM(passageiros_1c + passageiros_2c)::DECIMAL / NULLIF(SUM(assentos_1c + assentos_2c), 0), 0)
   FROM estatisticas_voos
   WHERE hora_partida BETWEEN (NOW() - INTERVAL '1 year') AND NOW()
   GROUP BY
     LEAST(cidade_partida, cidade_chegada),
     GREATEST(cidade_partida, cidade_chegada)
);



cidade1,cidade2
Londres,Viena


2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [38]:
%%sql
-- 2. rotas nos últimos 3 meses por onde passaram todos os aviões
-- Nota: uso de divisão menos eficiente
SELECT
 LEAST(cidade_partida, cidade_chegada) AS cidade1,
 GREATEST(cidade_partida, cidade_chegada) AS cidade2
FROM estatisticas_voos
WHERE hora_partida BETWEEN (NOW() - INTERVAL '3 months') AND NOW()
GROUP BY cidade1, cidade2
HAVING COUNT(DISTINCT no_serie) = (
 SELECT COUNT(DISTINCT no_serie) FROM estatisticas_voos
);



cidade1,cidade2
Munique,Viena


3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [39]:
%%sql
-- 3. OLAP para analise de rentabilidade em regiao e em tempo
SELECT
 ano,
 mes,
 dia_do_mes,
 pais_partida,
 pais_chegada,
 cidade_partida,
 cidade_chegada,
 SUM(vendas_1c) AS vendas_1c,
 SUM(vendas_2c) AS vendas_2c,
 SUM(vendas_1c + vendas_2c) AS vendas_total
FROM estatisticas_voos
GROUP BY
 ROLLUP((pais_partida, pais_chegada), (cidade_partida, cidade_chegada)),
 ROLLUP(ano, mes, dia_do_mes)
ORDER BY
 ano NULLS FIRST,
 mes NULLS FIRST,
 dia_do_mes NULLS FIRST,
 pais_partida NULLS FIRST,
 pais_chegada NULLS FIRST,
 cidade_partida NULLS FIRST,
 cidade_chegada NULLS FIRST;

ano,mes,dia_do_mes,pais_partida,pais_chegada,cidade_partida,cidade_chegada,vendas_1c,vendas_2c,vendas_total
,,,,,,,4370517.91,4231437.42,8601955.33
,,,Alemanha,Alemanha,,,116323.42,100444.42,216767.84
,,,Alemanha,Alemanha,Frankfurt,Munique,57994.68,46507.49,104502.17
,,,Alemanha,Alemanha,Munique,Frankfurt,58328.74,53936.93,112265.67
,,,Alemanha,Áustria,,,123544.46,126273.43,249817.89
,,,Alemanha,Áustria,Frankfurt,Viena,48467.43,40349.56,88816.99
,,,Alemanha,Áustria,Munique,Viena,75077.03,85923.87,161000.9
,,,Alemanha,Espanha,,,238881.41,238900.86,477782.27
,,,Alemanha,Espanha,Frankfurt,Barcelona,94358.7,82403.26,176761.96
,,,Alemanha,Espanha,Frankfurt,Madrid,43155.24,48363.47,91518.71


4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [42]:
%%sql
SELECT
 CASE dia_da_semana
   WHEN 0 THEN 'Domingo'
   WHEN 1 THEN 'Segunda'
   WHEN 2 THEN 'Terça'
   WHEN 3 THEN 'Quarta'
   WHEN 4 THEN 'Quinta'
   WHEN 5 THEN 'Sexta'
   WHEN 6 THEN 'Sábado'
   ELSE 'Desconhecido'
 END AS dia_semana_nome,
 pais_partida,
 pais_chegada,
 cidade_partida,
 cidade_chegada,
 ROUND(SUM(passageiros_1c) / SUM(passageiros_2c), 4) AS ratio_classe
FROM estatisticas_voos
GROUP BY
 ROLLUP((pais_partida, pais_chegada), (cidade_partida, cidade_chegada)),
 dia_da_semana
ORDER BY
 pais_partida NULLS FIRST,
 cidade_partida NULLS FIRST,
 pais_chegada NULLS FIRST,
 cidade_chegada NULLS FIRST,
 dia_da_semana;


dia_semana_nome,pais_partida,pais_chegada,cidade_partida,cidade_chegada,ratio_classe
Domingo,,,,,0.459
Segunda,,,,,0.4824
Terça,,,,,0.4679
Quarta,,,,,0.4661
Quinta,,,,,0.4302
Sexta,,,,,0.4767
Sábado,,,,,0.4927
Domingo,Alemanha,Alemanha,,,0.6272
Segunda,Alemanha,Alemanha,,,0.4594
Terça,Alemanha,Alemanha,,,0.5317


## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

Código para criação dos índices

In [43]:
%%sql
CREATE INDEX hora_partida_i ON estatisticas_voos (hora_partida);

Justificação teórica e prática (sumarizando observações com EXPLAIN ANALYSE)

### Análise teórica

Para escolher o(s) atributo(s) candidatos a índice foram primeiro observados as queries da secção 5 do enunciado e as suas respectivas  EXPLAIN ANALYSE.

**hora_partida**: ambas a queries 5.1 e 5.2 filtram em intervalo de hora_partida. Se o intervalo for relativamente pequeno (elevada seletividade) em relação ao dataset então isto será um bom índice. Seria do tipo B-tree pois estamos a usar intervalos.

**no_serie**: na query 5.2 é feito um full scan + sort em todas as linhas . Um índice possivelmente ajudaria o SGBD a ler os no_serie por ordem.

**dia_da_semana** e/ou (ano, mes, dia) e/ou (pais_partida, pais_chegada, cidade_partida, cidade_chegada): outros índices possíveis são os atributos usados nos GROUP BY nos queries 5.3 e 5.4. Colocar estes em índices poderá acelerar o processo e em conjunto com INCLUDE poderia tornar as agregações index only.

### Análise prática
**Nota**: Os teste práticos foram feitos no dataset de entrega e num dataset com 100000 voos para aumentar o tamanho da vista materializada estatisticas_voos.
```sql
CREATE INDEX hora_partida_i ON estatisticas_voos (hora_partida);
```
Queries 5.1 e 5.2 passaram a usar o índice em hora_partida para a cláusula WHERE, passando o tempo para cerca de metade e eliminando o seq-scan e portanto as ‘rows removed by filter’.    
Queries 5.3 e 5.4 inalteradas.
```sql
CREATE INDEX no_serie_i ON estatisticas_voos (no_serie);
```
Queries 5.1, 5.3 e 5.4 não usam este atributo logo não houve alterações.
Na query 5.2 o novo índice mudou o sub-plano para Index Only Scan e portanto acelerou ligeiramente o tempo de percorrer os no_serie DISTINCT, mas em geral os ganhos foram poucos e em só um dos queries, logo este índice foi descartado de acordo com o enunciado.

GROUP BY
Por definição os GROUP BY ROLLUP, especialmente quando é uma combinação de dois ROLLUP (5.3) ou combinação com outro atributo (5.4), força o SGBD a agrupar em múltiplos níveis. Nos nossos testes o Postgres escolheu sempre utilizar hash aggregation + seq scan, qualquer que fosse o índice simples/composto utilizado inclusive índices com a informação necessária em INCLUDE.

**Conclusão**  
Só o índice em hora_partida foi efetuado baseado em resultados teóricos e experimentais.
