# Projeto de Bases de Dados - Parte 3

### Docente Responsável

Prof. Flávio Martins

### Grupo GG
<dl>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1102415 Eduardo Nazário</dd>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1102430 Miguel Coelho</dd>
    <dt>HH horas (33.3%)</dt>
    <dd>ist1102463 Beatriz Gavilan</dd>
<dl>

In [1]:
%load_ext sql
%sql postgresql://db:db@postgres/db

# Empresa de comércio online

## 0. Carregamento da Base de Dados

Carregue o esquema de Base de Dados apresentado no Anexo A.

In [2]:
%%sql

DROP TABLE IF EXISTS customer CASCADE;
DROP TABLE IF EXISTS orders CASCADE;
DROP TABLE IF EXISTS pay CASCADE;
DROP TABLE IF EXISTS employee CASCADE;
DROP TABLE IF EXISTS process CASCADE;
DROP TABLE IF EXISTS department CASCADE;
DROP TABLE IF EXISTS workplace CASCADE;
DROP TABLE IF EXISTS works CASCADE;
DROP TABLE IF EXISTS office CASCADE;
DROP TABLE IF EXISTS warehouse CASCADE;
DROP TABLE IF EXISTS product CASCADE;
DROP TABLE IF EXISTS contains CASCADE;
DROP TABLE IF EXISTS supplier CASCADE;
DROP TABLE IF EXISTS delivery CASCADE;

CREATE TABLE customer(
cust_no INTEGER PRIMARY KEY,
name VARCHAR(80) NOT NULL,
email VARCHAR(254) UNIQUE NOT NULL,
phone VARCHAR(15),
address VARCHAR(255)
);

CREATE TABLE orders(
order_no INTEGER PRIMARY KEY,
cust_no INTEGER NOT NULL REFERENCES customer,
date DATE NOT NULL
--order_no must exist in contains
);

CREATE TABLE pay(
order_no INTEGER PRIMARY KEY REFERENCES orders,
cust_no INTEGER NOT NULL REFERENCES customer
);

CREATE TABLE employee(
ssn VARCHAR(20) PRIMARY KEY,
TIN VARCHAR(20) UNIQUE NOT NULL,
bdate DATE,
name VARCHAR NOT NULL
--age must be >=18
);

CREATE TABLE process(
ssn VARCHAR(20) REFERENCES employee,
order_no INTEGER REFERENCES orders,
PRIMARY KEY (ssn, order_no)
);

CREATE TABLE department(
name VARCHAR PRIMARY KEY
);

CREATE TABLE workplace(
address VARCHAR PRIMARY KEY,
lat NUMERIC(8, 6) NOT NULL,
long NUMERIC(9, 6) NOT NULL,
UNIQUE(lat, long)
--address must be in warehouse or office but not both
);

CREATE TABLE office(
address VARCHAR(255) PRIMARY KEY REFERENCES workplace
);

CREATE TABLE warehouse(
address VARCHAR(255) PRIMARY KEY REFERENCES workplace
);

CREATE TABLE works(
ssn VARCHAR(20) REFERENCES employee,
name VARCHAR(200) REFERENCES department,
address VARCHAR(255) REFERENCES workplace,
PRIMARY KEY (ssn, name, address)
);

CREATE TABLE product(
SKU VARCHAR(25) PRIMARY KEY,
name VARCHAR(200) NOT NULL,
description VARCHAR,
price NUMERIC(10, 2) NOT NULL,
ean NUMERIC(13) UNIQUE
);

CREATE TABLE contains(
order_no INTEGER REFERENCES orders,
SKU VARCHAR(25) REFERENCES product,
qty INTEGER,
PRIMARY KEY (order_no, SKU)
);

CREATE TABLE supplier(
TIN VARCHAR(20) PRIMARY KEY,
name VARCHAR(200),
address VARCHAR(255),
SKU VARCHAR(25) REFERENCES product,
date DATE
);

CREATE TABLE delivery(
address VARCHAR(255) REFERENCES warehouse,
TIN VARCHAR(20) REFERENCES supplier,
PRIMARY KEY (address, TIN)
);



Crie as instruções para o seu preenchimento de forma consistente, garantindo que todas as consultas SQL e OLAP, apresentadas mais adiante, produzam um resultado não vazio. 

In [3]:
%%sql
-- populate.sql
START TRANSACTION;

INSERT INTO customer (cust_no, name, email, phone, address)
VALUES
    (1, 'Joaquim', 'joaquim@tugamail.pt', 7834798, 'algures em lisboa'),
    (2, 'Martim', 'martim@tugamail.pt', 32219, 'algures no porto'),
    (3, 'Ermengildo', 'ermengildo@galizamail.es', 832784, 'algures em pontevedra');
    
INSERT INTO orders (order_no, cust_no, date)
VALUES
    (1, 1, '2022-01-01'),
    (2, 1, '2022-02-01'),
    (3, 2, '2022-02-02'),
    (4, 2, '2022-01-01'),
    (5, 3, '2022-01-01');
    
INSERT INTO product (SKU, name, description, price, ean)
VALUES
    ('250-750A', 'Bolacha Maria', 'the og', 1.75, 1111111),
    ('350-870B', 'Bolacha de Água e Sal', 'the best', 1.25, 2222222);
    
INSERT INTO contains (order_no, SKU, qty)
VALUES
    (1, '250-750A', 5),
    (2, '350-870B', 3),
    (3, '250-750A', 7),
    (4, '350-870B', 10),
    (5, '250-750A', 11);
    
INSERT INTO pay (order_no, cust_no)
VALUES
    (1, 1),
    (2, 1),
    (3, 2),
    (4, 2);
    
INSERT INTO employee (ssn, TIN, bdate, name)
VALUES
    ('11111', 'TIN1', '2004-01-01', 'Muhammad Sumbul'),
    ('22222', 'TIN2', '2005-01-01', 'Yaqub Qamar Ad-din Dibiazah'),
    ('33333', 'TIN3', '1990-01-05', 'Khalid Kashmiri');
    
INSERT INTO process (ssn, order_no)
VALUES
    ('11111', 1),
    ('11111', 2),
    ('11111', 3),
    ('11111', 4),
    ('11111', 5);
    
COMMIT;



## 1. Restrições de Integridade

Apresente o código para implementar as seguintes restrições de integridade, se necessário, com recurso a extensões procedimentais SQL (Stored Procedures e Triggers):

(RI-1) Nenhum empregado pode ter menos de 18 anos de idade

In [4]:
%%sql
-- (RI-1)

ALTER TABLE employee
    ADD CONSTRAINT employee_age_check
    CHECK (EXTRACT(YEAR FROM AGE(CURRENT_DATE, bdate)) >= 18)



(RI-2) Um 'Workplace' é obrigatoriamente um 'Office' ou 'Warehouse' mas não pode ser ambos

In [5]:
%%sql
-- (RI-2)

CREATE OR REPLACE FUNCTION check_workplace_type() RETURNS trigger AS
$$
DECLARE is_in_office NUMERIC;
DECLARE is_in_warehouse NUMERIC;
BEGIN
    SELECT COUNT(address) INTO is_in_office
        FROM office
        WHERE NEW.address = office.address;
    
    SELECT COUNT(address) INTO is_in_warehouse
        FROM warehouse
        WHERE NEW.address = warehouse.address;

    IF is_in_office + is_in_warehouse != 1 THEN
        RAISE EXCEPTION 'The address (%) must be registered as a warehouse or as an office, but not both.', NEW.address;
    END IF;
    RETURN NEW;
END
$$ LANGUAGE plpgsql;

CREATE CONSTRAINT TRIGGER workplace_type_trigger
    AFTER INSERT OR UPDATE ON workplace
    DEFERRABLE INITIALLY DEFERRED
    FOR EACH ROW EXECUTE PROCEDURE check_workplace_type();



(RI-3) Uma 'Order' tem de figurar obrigatoriamente em 'Contains'.

In [6]:
%%sql
-- (RI-3)

CREATE OR REPLACE FUNCTION check_in_contains() RETURNS trigger AS
$$
DECLARE is_in_contains NUMERIC;
BEGIN
    SELECT COUNT(order_no) INTO is_in_contains
        FROM contains
        WHERE NEW.order_no = order_no;
        
    IF is_in_contains != 1 THEN
        RAISE EXCEPTION 'Order no. % must be in the "contains" table.', is_in_contains;
    END IF;
    RETURN NEW;
END
$$ LANGUAGE plpgsql;

-- DROP CONSTRAINT TRIGGER IF EXISTS

CREATE CONSTRAINT TRIGGER order_in_contains_trigger
    AFTER INSERT OR UPDATE
    ON orders
    DEFERRABLE INITIALLY DEFERRED
    FOR EACH ROW EXECUTE PROCEDURE check_in_contains();



## 2. Consultas SQL

Apresente a consulta SQL mais sucinta para cada uma das seguintes questões

1) Qual o número e nome do(s) cliente(s) com maior valor total de encomendas pagas?  

In [7]:
%%sql
WITH customer_purchases AS (
    SELECT customer.name AS customer_name, cust_no AS customer_number, SUM(price*qty) AS total_vol
        FROM customer JOIN orders USING (cust_no) JOIN contains USING (order_no) JOIN product USING (SKU) NATURAL JOIN pay
    GROUP BY customer_name, customer_number
)
SELECT customer_name, customer_number
    FROM customer_purchases
    WHERE total_vol = (SELECT MAX(total_vol) FROM customer_purchases);

customer_name,customer_number
Martim,2


2. Qual o nome dos empregados que processaram encomendas em todos os dias de 2022 em que houve encomendas?

In [14]:
%%sql  
SELECT name
    FROM employee e
    WHERE NOT EXISTS (
        SELECT date
            FROM orders
            WHERE EXTRACT(YEAR from date)=2022
        EXCEPT
        SELECT date
            FROM orders JOIN process USING (order_no) JOIN employee USING (ssn)
            WHERE EXTRACT(YEAR from date)=2022 AND e.ssn=ssn
    );

name
Muhammad Sumbul


3. Quantas encomendas foram realizadas mas não pagas em cada mês de 2022?

In [15]:
%%sql
WITH months AS (
    SELECT generate_series(1, 12) AS month
), unpaid_orders AS (
    SELECT month, COUNT(order_no) AS order_count
    FROM
        (SELECT EXTRACT(MONTH from orders.date) AS month, order_no
            FROM orders
        EXCEPT
        SELECT EXTRACT(MONTH from orders.date) AS month, order_no
            FROM orders JOIN pay USING (order_no)) c
    GROUP BY month
)

SELECT month, COALESCE(order_count, 0) AS order_count
    FROM months LEFT JOIN unpaid_orders USING (month)
    ORDER BY month ASC


month,order_count
1,1
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0
10,0


## 3. Vistas

Crie uma vista que resuma as informações mais importantes sobre as vendas de produtos, combinando informações de diferentes tabelas do esquema de base de dados. A vista deve ter o seguinte esquema:

product_sales(sku, order_no, qty, total_price, year, month, day_of_month, day_of_week, city)

In [None]:
%%sql
CREATE VIEW product_sales AS
(SELECT
    sku,
    order_no,
    qty,
    price*qty AS total_price,
    EXTRACT(YEAR FROM date) AS year,
    EXTRACT(MONTH FROM date) AS month,
    EXTRACT(DAY FROM date) AS day_of_month,
    EXTRACT(DOW FROM date) AS day_of_week,
    SUBSTRING(
          SUBSTRING(address SIMILAR '%#"[0-9]{4}-[0-9]{3} [A-Za-z ]*#"%' ESCAPE '#')
          SIMILAR '%#" [A-Za-z ]*#"%' ESCAPE '#') AS city
FROM
    pay JOIN customer USING (cust_no) JOIN orders USING (order_no) JOIN contains USING (order_no) JOIN product USING (sku)
);

## 4. Desenvolvimento de Aplicação

### Explicação da arquitetura da aplicação web, incluindo um link para uma versão de trabalho e as relações entre os vários ficheiros na pasta web/arquivos

...

## 5. Consultas OLAP

Usando a vista desenvolvida para a Questão 3, escreva duas consultas SQL que permitam analisar:

1. As quantidade e valores totais de venda de cada produto em 2022, globalmente, por cidade, por mês, dia do mês e dia da semana

In [None]:
%%sql

WITH year_sales AS (
    SELECT
         qty, total_price, sku, month, day_of_month, day_of_week, city
    FROM
        product_sales
    WHERE
        year = '2022'
    ), dates AS
    (SELECT
         EXTRACT(MONTH FROM dd) as month, EXTRACT(DOW FROM dd) as day_of_week, EXTRACT(DAY FROM dd) as day_of_month
      FROM
         GENERATE_SERIES(
          '2022-01-01',
          '2022-12-31',
          '1 day'::INTERVAL) dd
    ), sale_sku AS (SELECT DISTINCT sku FROM year_sales),
    skuPerDay AS (
        SELECT
            sku, month, day_of_month, day_of_week
        FROM
            sale_sku,
            dates

    ), cities AS (
        SELECT DISTINCT city FROM product_sales
    ), sku_all AS (
        SELECT
            DISTINCT city, sku, month, day_of_month, day_of_week
        FROM
            skuPerDay, cities
    ), origin AS (
        SELECT
            COALESCE(qty, 0) AS qty,
            COALESCE(total_price,0) AS total_price,
            sku_all.sku AS sku, sku_all.month AS month,
            sku_all.day_of_month AS day_of_month,
            sku_all.day_of_week AS day_of_week,
            sku_all.city AS city
        FROM
            sku_all FULL JOIN year_sales ON
            (sku_all.sku, sku_all.month, sku_all.day_of_month, sku_all.day_of_week, sku_all.city) =
                (year_sales.sku, year_sales.month, year_sales.day_of_month, year_sales.day_of_week, year_sales.city)
        ORDER BY sku, month, day_of_month, day_of_week, city
    )


SELECT
    SUM(qty) as total_qty, SUM(total_price) as total_price, sku, month, day_of_month, day_of_week, city
FROM
    origin
GROUP BY
    sku, GROUPING SETS(month, (day_of_month, month), day_of_week, city)
ORDER BY
    sku, month, day_of_month, day_of_week, city;

2. O valor médio diário das vendas de todos os produtos em 2022, globalmente, por mês e dia da semana

In [None]:
%%sql


WITH year_sales AS (
    SELECT
         total_price, sku, month, day_of_month, day_of_week
    FROM
        product_sales
    WHERE
        year = '2022'
    ), dates AS
    (SELECT
         EXTRACT(MONTH FROM dd) as month,
         EXTRACT(DOW FROM dd) as day_of_week,
         EXTRACT(DAY FROM dd) as day_of_month
      FROM
         GENERATE_SERIES(
          '2022-01-01',
          '2022-12-31',
          '1 day'::INTERVAL) dd
    ), sale_sku AS (SELECT DISTINCT sku FROM year_sales),
    sku_all AS (
        SELECT
            DISTINCT sku, month, day_of_month, day_of_week
        FROM
            sale_sku, dates
    ), origin AS (
        SELECT
            COALESCE(total_price, 0) AS total_price,
            sku_all.sku AS sku,
            sku_all.month AS month,
            sku_all.day_of_month AS day_of_month,
            sku_all.day_of_week AS day_of_week
        FROM
            sku_all FULL JOIN year_sales ON
            (sku_all.sku, sku_all.month, sku_all.day_of_month, sku_all.day_of_week) =
                (year_sales.sku, year_sales.month, year_sales.day_of_month, year_sales.day_of_week)
        ORDER BY sku, month, day_of_month, day_of_week
    )


SELECT
    ROUND(AVG(total_price),2) as avg, sku, month, day_of_week
FROM
    origin
GROUP BY
    sku, GROUPING SETS(month, day_of_week)
ORDER BY
    sku, month, day_of_week;

## 6. Índices

Indique, com a devida justificação, que tipo de índice(s), sobre qual(is) atributo(s) e sobre qual(is) tabela(s) faria sentido criar, de forma a agilizar a execução de cada uma das seguintes consultas: 

### 6.1
SELECT order_no
FROM orders 
JOIN contains USING (order_no) 
JOIN product USING (SKU) 
WHERE price > 50 AND 
EXTRACT(YEAR FROM date) = 2023

### Tipo de Índice, Atributos & Justificação

Quanto à optimização dos JOINs, esta query não deverá beneficiar de índices adicionais, uma vez que o primeiro JOIN é optimizado ao usar a primeira parte da chave composta de "contains" e o segundo JOIN é optimizado ao usar como atributo comum a chave primário de "product".

Quanto à filtração dos resultados, esta query poderia beneficiar de dois índices:
    - B-tree em price na tabela "product"                       (já que o tipo B-tree é ótimo para consultas com base em ordem/ranges)
    - Hash em EXTRACT(YEAR FROM date) na tabela "orders"        (já que o tipo Hash é ótimo para consultas de igualdade e esta consulta, para o PostgreSQL, será uma consulta de igualdade)
sendo que, tendo em consideração a falta de espaço de armazenamento disponível, deveremos optar por colocar os dois, já que se prevê que o custo de armazenamento dos índices, apesar de não ser negligível, é menos mau do que o custo de armazenamento dos blocos selecionados.

Assim, em conclusão, devemos adicionar um índice B-tree em price na tabela "product" e um índice Hash em EXTRACT(YEAR FROM date) na tabela "orders".

### 6.2
SELECT order_no, SUM(qty*price)
FROM contains 
JOIN product USING (SKU) 
WHERE name LIKE ‘A%’ 
GROUP BY order_no;

### Tipo de Índice, Atributos & Justificação

Quanto à optimização do JOIN, não é preciso adicionar mais índices uma vez que (SKU) já é chave primária de "product".

Quanto à filtração de resultados, a query beneficiaria de um índice do tipo B-tree no atributo "name", já que este tipo de índice é ótimo para comparações entre colunas e a operação de filtração em causa não involve filtrar por igualdade, mas sim por range.

Quanto à agrupação, a query não beneficiaria de um índice adicional, já que order_no já é o primeiro atributo da chave primária de "contains", pelo que o sistema recorrerá ao índice já existente na chave primária de "contains" para optimizar a consulta.

Assim, em conclusão, devemos adicionar um índice B-tree em name na tabela "product".