# Projeto de Bases de Dados - Parte 2

### Grupo GG
<dl>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1109852 Pedro Vicente</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1110375 Pedro Jerónimo</dd>
    <dt>15 horas (33.3%)</dt>
    <dd>ist1109913 Guilherme Lopes</dd>
<dl>

In [1]:
%reload_ext sql
%config SqlMagic.displaycon = 0
%config SqlMagic.displaylimit = 100;
%sql postgresql+psycopg://project06:soulindo@postgres/project06

## 0. Carregamento da Base de Dados

Crie a base de dados “Aviacao” no PostgreSQL e execute os comandos para criação das tabelas desta base de dados apresentados no ficheiro “aviacao.sql”

## 1. Restrições de Integridade [3 valores]

Implemente na base de dados “Aviacao” as seguintes restrições de integridade, podendo recorrer a Triggers caso estritamente necessário:

(RI-1) Aquando do check-in (i.e. quando se define o assento em bilhete) a classe do bilhete tem de corresponder à classe do assento e o aviao do assento tem de corresponder ao aviao do voo

In [None]:
%%sql
CREATE OR REPLACE FUNCTION check_in_valid()
RETURNS TRIGGER AS
$$
    BEGIN
        IF (NEW.lugar, NEW.no_serie) NOT IN (
            SELECT lugar,no_serie FROM assento JOIN voo USING(no_serie) WHERE id = NEW.voo_id) THEN
            RAISE EXCEPTION 'O assento % % não é válido para o voo %.', NEW.lugar, NEW.no_serie, NEW.voo_id;
        END IF;

        IF (NEW.voo_id, NEW.lugar, NEW.prim_classe) NOT IN (
            SELECT v.id, lugar, prim_classe FROM assento JOIN voo v USING(no_serie)) THEN
            RAISE EXCEPTION 'A classe do assento % % não é compatível com a classe do bilhete', NEW.lugar, NEW.no_serie;
        END IF;

        RETURN NEW;
    END;
$$
LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER check_in_valid_trigger AFTER UPDATE ON bilhete
    FOR EACH ROW EXECUTE FUNCTION check_in_valid();

(RI-2) O número de bilhetes de cada classe vendidos para cada voo não pode exceder a capacidade (i.e., número de assentos) do avião para essa classe

In [3]:
%%sql
CREATE OR REPLACE FUNCTION check_overcrowding()
RETURNS TRIGGER AS
$$
    DECLARE
        total_vendido INTEGER;
        total INTEGER;
    BEGIN

        SELECT COUNT(*) INTO total_vendido
            FROM bilhete
            WHERE voo_id = NEW.voo_id AND prim_classe = NEW.prim_classe;

        SELECT COUNT(*) INTO total
            FROM assento JOIN voo USING(no_serie) WHERE id = NEW.voo_id AND prim_classe = NEW.prim_classe;

        IF NEW.prim_classe AND total_vendido >= total THEN
            RAISE EXCEPTION 'Já não é possível vender mais bilhetes de primeira classe para o voo %', NEW.voo_id;
        ELSIF total_vendido >= total THEN
            RAISE EXCEPTION 'Já não é possível vender mais bilhetes de segunda classe para o voo %', NEW.voo_id;
        END IF;

        RETURN NEW;
    END;
$$
LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER check_overcrowding_trigger BEFORE INSERT ON bilhete
    FOR EACH ROW EXECUTE FUNCTION check_overcrowding();


(RI-3) A hora da venda tem de ser anterior à hora de partida de todos os voos para os quais foram comprados bilhetes na venda

In [None]:
%%sql
CREATE OR REPLACE FUNCTION valid_selling_date()
RETURNS TRIGGER AS
$$
    BEGIN
        IF EXISTS(SELECT 1
                    FROM bilhete b JOIN voo v ON(b.voo_id = v.id)
                    WHERE b.codigo_reserva = NEW.codigo_reserva AND NEW.hora > hora_partida) THEN
            RAISE EXCEPTION 'Não é possível realizar a venda uma vez que contém voos passados';
        END IF;

        RETURN NEW;
    END;
$$
LANGUAGE plpgsql;

CREATE OR REPLACE TRIGGER check_valid_selling_date BEFORE INSERT ON venda
    FOR EACH ROW EXECUTE FUNCTION valid_selling_date();

## 2. Preenchimento da Base de Dados [2 valores]

Preencha todas as tabelas da base de dados de forma consistente (após execução do ponto anterior) com os seguintes requisitos adicionais de cobertura:
- ≥10 aeroportos internacionais (reais) localizados na Europa, com pelo menos 2 cidades tendo 2 aeroportos
- ≥10 aviões de ≥3 modelos distintos (reais), com um número de assentos realista; assuma que as primeiras ~10% filas são de 1a classe
- ≥5 voos por dia entre 1 de Janeiro e 31 de Julho de 2025, cobrindo todos os aeroportos e todos os aviões; garanta que para cada voo entre dois aeroportos se segue um voo no sentido oposto; garanta ainda que cada avião tem partida no aeroporto da sua chegada anterior
- ≥30.000 bilhetes vendidos até à data presente, correspondendo a ≥10.000 vendas, com todo os bilhetes de voos já realizados tendo feito check-in, e com todos os voos tendo bilhetes de primeira e segunda classe vendidos
Deve ainda garantir que todas as consultas necessárias para a realização dos pontos seguintes do projeto produzem um resultado não vazio.

O código para preenchimento da base de dados deve ser compilado num ficheiro "populate.sql", anexado ao relatório, que contém com comandos INSERT ou alternativamente comandos COPY que populam as tabelas a partir de ficheiros de texto, também eles anexados ao relatório.

## 3. Desenvolvimento de Aplicação [5 valores]

Crie um protótipo de RESTful web service para gestão de consultas por acesso programático à base de dados ‘Aviacao’ através de uma API que devolve respostas em JSON, implementando os seguintes endpoints REST:

|Endpoint|Descrição|
|--------|---------|
|/|Lista todos os aeroportos (nome e cidade).|
|/voos/\<partida>/|Lista todos os voos (número de série do avião,  hora de partida e aeroporto de chegada) que partem do aeroporto de \<partida> até 12h após o momento da consulta.|
|/voos/\<partida>/\<chegada>/|Lista os próximos três voos (número de série do avião e hora de partida) entre o aeroporto de \<partida> e o aeroporto de \<chegada> para os quais ainda há bilhetes disponíveis.|
|/compra/\<voo>/|Faz uma compra de um ou mais bilhetes para o \<voo>, populando as tabelas \<venda> e \<bilhete>. Recebe como argumentos o nif do cliente, e uma lista de pares (nome de passageiro, classe de bilhete) especificando os bilhetes a comprar.|
|/checkin/\<bilhete>/|Faz o check-in de um bilhete, atribuindo-lhe automaticamente um assento da classe correspondente.|

## 4. Vistas [2 valores]

Crie uma vista materializada que detalhe as informações mais importantes sobre os voos, combinando a informação de várias tabelas da base de dados. A vista deve ter o seguinte esquema:

 *estatisticas_voos(no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, ano, mes, dia_do_mes, dia_da_semana, passageiros_1c, passageiros_2c, assentos_1c, assentos_2c, vendas_1c, vendas_2c)*

em que:
- *no_serie, hora_partida*: correspondem aos atributos homónimos da tabela *voo*
- *cidade_partida, pais_partida, cidade_chegada, pais_chegada*: correspondem aos atributos *cidade* e *pais* da tabela *aeroporto*, para o aeroporto de *partida* e *chegada* do *voo*
- *ano, mes, dia_do_mes* e *dia_da_semana*: são derivados do atributo *hora_partida* da tabela *voo*
- *passageiros_1c, passageiros_2c:*: correspondem ao número total de bilhetes vendidos para o voo, de primeira e segunda classe respectivamente
- *assentos_1c, assentos_2c:*: correspondem ao número de assentos de primeira e segunda classe no avião que realiza o voo
- *vendas_1c, vendas_2c*: correspondem ao somatório total dos preços dos bilhetes vendidos para o voo, de primeira e segunda classe respectivamente

In [5]:
%%sql
DROP MATERIALIZED VIEW IF EXISTS estatisticas_voos;
CREATE MATERIALIZED VIEW estatisticas_voos AS
WITH
    info_partida AS(
        SELECT v.id, a.cidade AS cidade_partida, a.pais AS pais_partida
            FROM voo v JOIN aeroporto a ON v.partida = a.codigo
    ),
    info_chegada AS(
        SELECT v.id, a.cidade AS cidade_chegada, a.pais AS pais_chegada
            FROM voo v JOIN aeroporto a ON v.chegada = a.codigo
    ),
    info_classes AS(
        SELECT v.id,
               COUNT(CASE WHEN a.prim_classe = TRUE AND b.id IS NOT NULL THEN 1 END) AS passageiros_1c,
               COUNT(CASE WHEN a.prim_classe = FALSE AND b.id IS NOT NULL THEN 1 END) AS passageiros_2c,
               COUNT(CASE WHEN a.prim_classe = TRUE THEN 1 END) AS assentos_1c,
               COUNT(CASE WHEN a.prim_classe = FALSE THEN 1 END) AS assentos_2c,
               SUM(CASE WHEN a.prim_classe = TRUE THEN preco END) AS vendas_1c,
               SUM(CASE WHEN a.prim_classe = FALSE THEN preco END) AS vendas_2c
            FROM voo v JOIN assento a USING(no_serie) LEFT JOIN bilhete b ON v.id = b.voo_id AND a.lugar = b.lugar
            GROUP BY v.id
    )
SELECT no_serie, hora_partida, cidade_partida, pais_partida, cidade_chegada, pais_chegada, 
       EXTRACT(YEAR FROM hora_partida) AS ano, 
        CASE EXTRACT(MONTH FROM hora_partida)
            WHEN 1 THEN 'Janeiro'
            WHEN 2 THEN 'Fevereiro'
            WHEN 3 THEN 'Março'
            WHEN 4 THEN 'Abril'
            WHEN 5 THEN 'Maio'
            WHEN 6 THEN 'Junho'
            WHEN 7 THEN 'Julho'
            WHEN 8 THEN 'Agosto'
            WHEN 9 THEN 'Setembro'
            WHEN 10 THEN 'Outubro'
            WHEN 11 THEN 'Novembro'
            WHEN 12 THEN 'Dezembro'    
        END AS mes,
       EXTRACT(DAY FROM hora_partida) AS dia_do_mes, 
        CASE EXTRACT(DOW FROM hora_partida)
            WHEN 0  THEN 'Domingo' 
            WHEN 1  THEN 'Segunda-feira' 
            WHEN 2  THEN 'Terça-feira' 
            WHEN 3  THEN 'Quarta-feira' 
            WHEN 4  THEN 'Quinta-feira' 
            WHEN 5  THEN 'Sexta-feira' 
            WHEN 6  THEN 'Sábado' 
        END AS dia_da_semana,
       COALESCE(passageiros_1c, 0) AS passageiros_1c, COALESCE(passageiros_2c, 0) AS passageiros_2c, 
       COALESCE(assentos_1c, 0) AS assentos_1c, COALESCE(assentos_2c, 0) AS assentos_2c,
       COALESCE(vendas_1c, 0) AS vendas_1c, COALESCE(vendas_2c, 0) AS vendas_2c
    FROM voo JOIN info_partida USING(id)
         JOIN info_chegada USING(id)
         JOIN info_classes USING(id);

## 5. Análise de Dados SQL e OLAP [5 valores]

Usando apenas a vista *estatisticas_voos* desenvolvida no ponto anterior, e **sem recurso ao operador LIMIT e com recurso ao operador WITH apenas se estritamente necessário**, apresente a consulta SQL mais sucinta para cada um dos seguintes objetivos analíticos da empresa. Pode usar agregações OLAP para os objetivos em que lhe parecer adequado.

1. Determinar a(s) rota(s) que tem/têm a maior procura para efeitos de aumentar a frequência de voos dessa(s) rota(s). Entende-se por rota um trajeto aéreo entre quaisquer duas cidades,  independentemente do sentido (e.g., voos Lisboa-Paris e Paris-Lisboa contam para a mesma rota). Considera-se como indicador da procura de uma rota o preenchimento médio dos aviões (i.e., o rácio entre o número total de passageiros e a capacidade total do avião) no último ano.

In [6]:
%%sql
SELECT 
    LEAST(ev.cidade_partida, ev.cidade_chegada) AS cidade_origem,
    GREATEST(ev.cidade_partida, ev.cidade_chegada) AS cidade_destino
FROM estatisticas_voos ev
WHERE ev.hora_partida >= CURRENT_DATE - INTERVAL '1 year'
GROUP BY cidade_origem, cidade_destino
HAVING AVG((ev.passageiros_1c + ev.passageiros_2c)::float / NULLIF((ev.assentos_1c + ev.assentos_2c), 0)) >= ALL (
    SELECT 
        AVG((ev_inner.passageiros_1c + ev_inner.passageiros_2c)::float / NULLIF((ev_inner.assentos_1c + ev_inner.assentos_2c), 0))
    FROM estatisticas_voos ev_inner
    WHERE ev_inner.hora_partida >= CURRENT_DATE - INTERVAL '1 year'
    GROUP BY 
        LEAST(ev_inner.cidade_partida, ev_inner.cidade_chegada),
        GREATEST(ev_inner.cidade_partida, ev_inner.cidade_chegada)
);

cidade_origem,cidade_destino
Londres,Paris


2. Determinar as rotas pelas quais nos últimos 3 meses passaram todos os aviões da empresa, para efeitos de melhorar a gestão da frota.

In [7]:
%%sql
SELECT     
    LEAST(ev.cidade_partida, ev.cidade_chegada) AS cidade_origem,
    GREATEST(ev.cidade_partida, ev.cidade_chegada) AS cidade_destino
FROM estatisticas_voos ev
WHERE ev.hora_partida >= CURRENT_DATE - INTERVAL '3 months'
GROUP BY cidade_origem, cidade_destino
HAVING COUNT(DISTINCT ev.no_serie) = (
    SELECT COUNT(DISTINCT no_serie)
    FROM estatisticas_voos
);

cidade_origem,cidade_destino
Amesterdão,Londres
Frankfurt,Paris


3. Explorar a rentabilidade da empresa (vendas globais e por classe) nas dimensões espaço (global > pais > cidade, para a partida e chegada em simultâneo) e tempo (global > ano > mes > dia_do_mes), como apoio a um relatório executivo.

In [8]:
%%sql
SELECT 
  pais_partida,
  pais_chegada,
  cidade_partida,
  cidade_chegada,
  ano, mes, dia_do_mes,
  SUM(vendas_1c + vendas_2c) AS vendas_globais,
  SUM(vendas_1c) AS vendas_1a_classe,
  SUM(vendas_2c) AS vendas_2a_classe
FROM estatisticas_voos
GROUP BY GROUPING SETS (
    --global
    (),
    
    --espaço
    (pais_partida,pais_chegada,cidade_partida,cidade_chegada),
    (pais_partida,pais_chegada),

    --tempo
    (ano,mes,dia_do_mes),
    (ano,mes),
    (ano),

    --espaço+tempo
    (pais_partida,pais_chegada,cidade_partida,cidade_chegada,ano,mes,dia_do_mes),
    (pais_partida,pais_chegada,cidade_partida,cidade_chegada,ano,mes),
    (pais_partida,pais_chegada,cidade_partida,cidade_chegada,ano),
    (pais_partida,pais_chegada,ano,mes,dia_do_mes),
    (pais_partida,pais_chegada,ano,mes),
    (pais_partida,pais_chegada,ano)
)
ORDER BY
    pais_partida, pais_chegada,
    cidade_partida, cidade_chegada,
    ano,CASE mes
            WHEN 'Janeiro' THEN 1
            WHEN 'Fevereiro' THEN 2
            WHEN 'Março' THEN 3
            WHEN 'Abril' THEN 4
            WHEN 'Maio' THEN 5
            WHEN 'Junho' THEN 6
            WHEN 'Julho' THEN 7
            WHEN 'Agosto' THEN 8
            WHEN 'Setembro' THEN 9
            WHEN 'Outubro' THEN 10
            WHEN 'Novembro' THEN 11 
            WHEN 'Dezembro' THEN 12    
        END, dia_do_mes;

pais_partida,pais_chegada,cidade_partida,cidade_chegada,ano,mes,dia_do_mes,vendas_globais,vendas_1a_classe,vendas_2a_classe
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,1.0,390.0,150.0,240.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,2.0,620.0,300.0,320.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,3.0,620.0,300.0,320.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,4.0,700.0,300.0,400.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,5.0,700.0,300.0,400.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,6.0,770.0,450.0,320.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,7.0,700.0,300.0,400.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,8.0,700.0,300.0,400.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,9.0,700.0,300.0,400.0
Alemanha,Espanha,Frankfurt,Madrid,2024,Janeiro,10.0,700.0,300.0,400.0


4. Descobrir se há algum padrão ao longo da semana no rácio entre passageiros de primeira e segunda classe, com drill down na dimensão espaço (global > pais > cidade), que justifique uma abordagem mais flexível à divisão das classes.

In [9]:
%%sql
SELECT ev.dia_da_semana, ev.pais_partida, ev.cidade_partida,
        ROUND(SUM(ev.passageiros_1c)::NUMERIC/NULLIF(SUM(ev.passageiros_2c),0), 4) AS racio_passageiros
FROM estatisticas_voos ev
GROUP BY ROLLUP(dia_da_semana, pais_partida, cidade_partida)
ORDER BY CASE dia_da_semana 
        WHEN 'Domingo' THEN 0 
        WHEN 'Segunda-feira' THEN 1 
        WHEN 'Terça-feira' THEN 2 
        WHEN 'Quarta-feira' THEN 3 
        WHEN 'Quinta-feira' THEN 4 
        WHEN 'Sexta-feira' THEN 5 
        WHEN 'Sábado' THEN 6
        END, pais_partida, cidade_partida;

dia_da_semana,pais_partida,cidade_partida,racio_passageiros
Domingo,Alemanha,Frankfurt,0.491
Domingo,Alemanha,Munique,0.4876
Domingo,Alemanha,,0.489
Domingo,Espanha,Barcelona,0.4844
Domingo,Espanha,Madrid,0.4879
Domingo,Espanha,,0.4858
Domingo,França,Paris,0.4832
Domingo,França,,0.4832
Domingo,Holanda,Amesterdão,0.505
Domingo,Holanda,,0.505


## 6. Índices [3 valores]

É expectável que seja necessário executar consultas semelhantes ao colectivo das consultas do ponto anterior diversas vezes ao longo do tempo, e pretendemos otimizar o desempenho da vista estatisticas_voos para esse efeito. Crie sobre a vista o(s) índice(s) que achar mais indicados para fazer essa otimização, justificando a sua escolha com argumentos teóricos e com demonstração prática do ganho em eficiência do índice por meio do comando EXPLAIN ANALYSE. Deve procurar uma otimização coletiva das consultas, evitando criar índices excessivos, particularmente se estes trazem apenas ganhos incrementais a uma das consultas.

Código para criação dos índices

In [10]:
%%sql
DROP INDEX IF EXISTS idx_hora_partida;
DROP INDEX IF EXISTS idx_no_serie;
DROP INDEX IF EXISTS idx_espaco_tempo;
DROP INDEX IF EXISTS idx_dia_espaco;

In [11]:
%%sql
DROP INDEX IF EXISTS idx_hora_partida;
CREATE INDEX idx_hora_partida
ON estatisticas_voos (
  hora_partida
);

In [12]:
%%sql
DROP INDEX IF EXISTS idx_no_serie;
CREATE INDEX idx_no_serie
ON estatisticas_voos (
  no_serie
);

In [13]:
%%sql
DROP INDEX IF EXISTS idx_espaco_tempo;
CREATE INDEX idx_espaco_tempo
ON estatisticas_voos (
  pais_partida, pais_chegada,
  cidade_partida, cidade_chegada,
  ano, mes, dia_do_mes
);

In [14]:
%%sql
DROP INDEX IF EXISTS idx_dia_espaco;
CREATE INDEX idx_dia_espaco
ON estatisticas_voos (
  dia_da_semana, pais_partida, cidade_partida
);

Justificação teórica e prática (sumarizando observações com EXPLAIN ANALYSE)

O primeiro índice proposto traz melhorias à primeira e segunda queries desenvolvidas, umas vez que permite manter registo do atributo hora_partida, utilizado pelas mesmas para filtragem da tabela estatisticas_voos. Assim, nas claúsulas WHERE referentes ao mesmo, em vez de ser necessário percorrer toda a tabela na memória/disco de forma sequencial, é possível realizar a filtragem dos dados válidos para a procura pretendida de forma prévia, sendo depois lidas apenas as linhas estritamente necessárias. Se recorrermos ao EXPLAIN ANALYSE, é possível comprovar a argumentação teórica ao verificar-se a substituição dos Seq Scan na tabela estatísticas_voos por Index Scan, o que revela a utilização do índice criado. Apesar de não se registar uma grande melhoria relativamente ao Execution Time (100ms VS 120ms para a primeira query e 140ms VS 160ms para a segunda query) para a amostra utilizada, se estivéssemos perante uma grande quantidade de dados, a mudança seria notória.

O segundo indice proposto traz maior eficiência à segunda query, uma vez que permite otimizar a subconsulta que determina o número de valores de no_serie distintos. Sem o índice, o PostgreSQL teria de percorrer toda a tabela estatisticas_voos presente na memória/disco de forma sequencial para determinar os valores distintos de no_serie. Com o índice, pode utilizar puramente a informação registada no mesmo, uma vez que este contém todos os atributos pretendidos pela procura: o no_serie. Assim, é possível obter os valores de no_serie sem analisar a tabela guardada, com recurso ao Index Only Scan como alternativa ao Seq Scan. Na prática, é possível verificar as melhorias propostas teoricamente com recurso ao EXPLAIN ANALYSE, registando-se uma diminuição notória do Execution Time para a segunda query (80ms VS 140ms).

Os dois índices seguintes, teoricamente, permitiriam otimizar a terceira e quarta queries, respetivamente. Ao manterem registo dos atibutos utilizados pelo ORDER BY, tornariam possível que as linhas fossem lidas da memória/disco pela ordem final pretendida. Assim, em vez de uma leitura sequencial da tabela (Seq Scan), seguida pela ordenação das linhas lidas (Sort), os dois passos poderiam ser reduzidos a uma leitura guiada pelos índices criados (Index Scan) que produziria o mesmo resultado. Contudo, devido à utilização de Grouping Sets, os dados são agrupados em diferentes níveis de granularidade entre o momento de leitura e apresentação, o que pode alterar a ordem obtida através dos índices, levando o PostgreSQL a optar por recorrer ao plano que envolve Seq Scan com um Sort final. Assim, na prática, estes índices não se revelam úteis.

Nota: Optámos por utilizar índices B-Tree por permitirem buscas binárias, sendo, assim, rápidos de percorrer. São também adequados para comparações, utilizadas nas cláusulas WHERE da primeira e segunda query, permitindo delimitar rapidamente os dados.