# <center>Laboratorium Analiza i bazy danych </center>

## <center>Łączenie tabel, podzapytania i funkcje agregujące</center>

## Przykładowe tabele obrazujące łączenie

Do zobrazowania operacji łączenia zostaną użyte tabele:

```sql
CREATE TABLE shape_a (
    id INT PRIMARY KEY,
    shape VARCHAR (100) NOT NULL
);
 
CREATE TABLE shape_b (
    id INT PRIMARY KEY,
    shape VARCHAR (100) NOT NULL
);
```
 
Polecenie CREATE TABLE tworzy tabelę o zadanej nazwie i strukturze. Ogólna postać to:
```sql
CREATE TABLE tab_name (
    col_name1 data_type constrain,
    col_name1 data_type constrain,
    ...
);
```
Należy uzupełnić ją danymi:
```sql
INSERT INTO shape_a (id, shape)
VALUES
    (1, 'Trójkąt'),
    (2, 'Kwadrat'),
    (3, 'Deltoid'),
    (4, 'Traper');
 
INSERT INTO shape_b (id, shape)
VALUES
    (1, 'Kwadrat'),
    (2, 'Trójkąt'),
    (3, 'Romb'),
    (4, 'Równoległobok');
```
Komenda INSERT INTO pozwala na dodanie do tabeli rekordów. Ogólna postać to:

```sql
INSERT INTO tab_name (col1_name, col2_name2, ...) 
VALUES
    (val1_col1, val2_col2),
    (val2_col1, val2_col2),
    ...
```

## Inner join 

Jest to podstawowy rodzaj złączenie. Ten sposób złączenia wybiera  te wiersze, dla których warunek złączenia jest spełniony. W żadnej z łączonych tabel kolumna użyta do łączenia nie może mieć wartości NULL. 

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
INNER JOIN shape_b b ON a.shape = b.shape;
```
W zapytaniu powyżej użyto *aliasów* nazw tabel i column wynikowych, jest to szczególnie przydatne przy długich nazwach tabel i wprowadza czytelność w zapytaniu.

#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|

## OUTER JOIN

Istnieją trzy rodzaje złączeń OUTER:
- LEFT OUTER JOIN,
- RIGHT OUTER JOIN,
- FULL OUTER JOIN.

### LEFT OUTER JOIN

Ten rodzaj złączenie zwróci wszystkie rekordy z lewej tablicy i dopasuje do nich rekordy z prawej tablicy które spełniją zadany warunek złączenia. Jeżeli w prawej tablicy nie występują rekordy spełnijące warunek złączenia z lewą w ich miejscu pojawią się wartości NULL.

#### Przykład 1:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
LEFT JOIN shape_b b ON a.shape = b.shape;
```
#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|
|3|Deltoid|NULL|NULL|
|4|Traper|NULL|NULL|

#### Przykład 2:
```sql
SELECT
    b.id id_b,
    b.shape shape_b,
    a.id id_a,
    a.shape shape_a   
FROM
    shape_b b
LEFT JOIN shape_a a ON a.shape = b.shape;
```
#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Kwadrat|2|Kwadrat|
|2|Trójkąt|1|Trójkąt|
|3|Romb|NULL|NULL|
|4|Równoległobok|NULL|NULL|

### RIGHT OUTER JOIN

Działa jak left outer join z tym, że prawa tablica w zapytaniu jest brana w całości.

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
RIGHT JOIN shape_b b ON a.shape = b.shape;
```

#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|2|Kwadrat|1|Kwadrat|
|1|Trójkąt|2|Trójkąt|
|NULL|NULL|3|Romb|
|NULL|NULL|4|Równoległobok|


### FULL OUTER JOIN

Jest złączeniem które zwraca:
- wiersze dla których warunek złączenia jest spełniony,
- wiersze z lewej tabeli dla których nie ma odpowiedników w prawej,
- wiersze z prawej tabeli dla których nie ma odpowiedników w lewej. 

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
FULL JOIN shape_b b ON a.shape = b.shape;
```
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|
|3|Deltoid"|NULL|NULL|
|4|Traper|NULL|NULL|
|NULL|NULL|3|Romb|
|NULL|NULL|4|Równoległobok|

## Podzapytania

Podzapytanie zagnieżdżone SELECT znajduje się wewnątrz zewnętrznego zapytania SELECT, np. po klauzuli WHERE, HAVING lub FROM. W przypadku tego rodzaju zapytań w pierwszej kolejności wykonywane są wewnętrzne zapytania SELECT, a ich wynik jest wykorzystywany do zewnętrznego zapytania SELECT. Stąd łatwo zuważyć, że mogą one służyć do poprawy wydajności obsługi zapytania. Należy dobierać podzapytania tak by najbardziej zagnieżdżone podzapytanie zawierało najmniejszy zbiór poszukiwań. 

#### Przykład:
Jeżeli chcemy znaleźć w bazie informację o tytułach filmów zwróconych w zadanym okresie możemy wykonać następujące zapytanie:
```sql
SELECT
   film_id,
   title
FROM
   film
WHERE
   film_id IN (
      SELECT
         inventory.film_id
      FROM
         rental
      INNER JOIN inventory ON inventory.inventory_id = rental.inventory_id
      WHERE
         return_date BETWEEN '2005-05-29'
      AND '2005-05-30'
   );
```

#### Wynik
|film_id|title|
|-|-|
|307|Fellowship Autumn|
|255|Driving Polish|
|388|Gunfight Moon|
|130|Celebrity Horn|
|563|Massacre Usual|
|397|Hanky October|
|...|...|

### Używanie podzapytań

Pod zapytania mogą być używane w :
- SELECT,
- UPDATE,
- DELETE,
- Funkcjach agregujących,
- Do definiowania tabel tymczasowych.

Używając podzapytań zapytania SQL szybko mogą stać się mało czytelne. Przez co będą trudne w zrozumieniu i późniejszym utrzymaniu. W celu analizy zapytań można użyć klauzuli __EXPLAIN__, która przeanalizuje zapytanie. Klauzula ta może służyć również do porównywania wydajności zapytań

#### Przykład:
```sql
EXPLAIN SELECT
   *
FROM
   film
```

## Funkcje agregujące

Funkcje agregujące wykonują obliczenia na zestawie wierszy i zwracają pojedynczy wiersz. PostgreSQL udostępnia wszystkie standardowe funkcje agregujące SQL w następujący sposób:
- AVG () - zwraca średnią wartość.
- COUNT () - zwraca liczbę wartości.
- MAX () - zwraca maksymalną wartość.
- MIN () - zwraca minimalną wartość.
- SUM () - zwraca sumę wszystkich lub różnych wartości.

Pełna lista funkcji agregującej: https://www.postgresql.org/docs/9.5/functions-aggregate.html

Często używamy funkcji agregujących z klauzulą GROUP BY w instrukcji SELECT. W tych przypadkach klauzula GROUP BY dzieli zestaw wyników na grupy wierszy i funkcja agregująca wykonuje obliczenia dla każdej grupy, np. maksimum, minimum, średnia itp. Funkcji agregujących można używać funkcji agregujących jako wyrażeń tylko w następujących klauzulach: SELECT i HAVING.

### GROUP BY
Klauzula GROUP BY dzieli wiersze zwrócone z instrukcji SELECT na grupy. Dla  każdej grupy można zastosować funkcję agregującą, np. SUM aby obliczyć sumę pozycji lub
COUNT aby uzyskać liczbę elementów w grupach.

Poniższa instrukcja ilustruje składnię klauzuli GROUP BY:
```sql
SELECT 
    column_1, 
    aggregate_function(column_2)
FROM 
    tbl_name
GROUP BY 
    column_1;
```
Klauzula GROUP BY musi pojawić się zaraz po klauzuli FROM lub WHERE, n0astępnie GROUP BY zawiera listę  kolumna oddzielonych przecinkami. 

### HAVING
Często używamy klauzuli HAVING w połączeniu z klauzulą GROUP BY do filtrowania wierszy grup
które nie spełniają określonego warunku.

Poniższa instrukcja ilustruje typową składnię klauzuli HAVING:
```sql
SELECT
    column_1,
    aggregate_function (column_2)
FROM
    tbl_name
GROUP BY
    column_1
HAVING
    condition;
```
Klauzula HAVING ustawia warunek dla wierszy grup utworzonych przez klauzulę GROUP BY.  

Klauzula GROUP BY ma zastosowanie, podczas gdy klauzula WHERE określa wcześniej warunki dla poszczególnych wierszy.

## Zadania wprowadzające
Wykonaj zapytania przy użyciu DBMS:  
  
1. Znajdź listę wszystkich filmów o tej samej długości.
2. Znajdź wszystkich klientów mieszkających w tym samym mieście.
3. Oblicz średni koszt wypożyczenia wszystkich filmów.
4. Oblicz i wyświetl liczbę filmów we wszystkich kategoriach.
5. Wyświetl liczbę wszystkich klientów pogrupowanych według kraju.
6. Wyświetl informacje o sklepie, który ma więcej niż 100 klientów i mniej niż 300 klientów.
7. Wybierz wszystkich klientów, którzy oglądali filmy ponad 200 godzin.
8. Oblicz średnią wartość wypożyczenia filmu.
9. Oblicz średnią wartość długości filmu we wszystkich kategoriach.
10. Znajdź najdłuższe tytuły filmowe we wszystkich kategoriach.
11. Znajdź najdłuższy film we wszystkich kategoriach. Porównaj wynik z pkt 10.

In [1]:
import numpy as np
import pickle

import psycopg2 as pg
import pandas.io.sql as psql
import pandas as pd

from typing import Union, List, Tuple

connection = pg.connect(host='pgsql-196447.vipserv.org', port=5432, dbname='wbauer_adb', user='wbauer_adb', password='adb2020');

In [2]:
# 1. Znajdź listę wszystkich filmów o tej samej długości.

ex1 = pd.read_sql('SELECT f.film_id film_id, \
f.title film_title, \
f.length film_length, \
f2.film_id film2_id, \
f2.title film2_title, \
f2.length film2_length \
FROM film f \
INNER JOIN film f2 ON f.length=f2.length \
WHERE f.title != f2.title',con=connection)
print(ex1)

      film_id           film_title  film_length  film2_id  \
0         730  Ridgemont Submarine           46       469   
1         730  Ridgemont Submarine           46        15   
2         730  Ridgemont Submarine           46       504   
3         730  Ridgemont Submarine           46       505   
4         469            Iron Moon           46       730   
...       ...                  ...          ...       ...   
6967      182       Control Anthem          185       690   
6968      182       Control Anthem          185       212   
6969      182       Control Anthem          185       872   
6970      182       Control Anthem          185       817   
6971      182       Control Anthem          185       991   

              film2_title  film2_length  
0               Iron Moon            46  
1            Alien Center            46  
2           Kwai Homeward            46  
3        Labyrinth League            46  
4     Ridgemont Submarine            46  
...            

In [3]:
# 2. Znajdź wszystkich klientów mieszkających w tym samym mieście.

ex2 = pd.read_sql('SELECT cust.customer_id customer_id, \
cust.first_name cutomer_name, \
cust.last_name customer_surname, \
cust.address_id customer_address_id, \
cust2.customer_id customer2_id, \
cust2.first_name cutomer2_name, \
cust2.last_name customer2_surname, \
cust2.address_id customer2_address_id \
FROM customer cust \
INNER JOIN customer cust2 ON (SELECT address.city_id FROM address WHERE \
address_id=cust.address_id) = (SELECT address.city_id FROM address WHERE \
address_id=cust2.address_id) \
WHERE cust.customer_id != cust2.customer_id',con=connection)
print(ex2)

   customer_id cutomer_name customer_surname  customer_address_id  \
0          330        Scott          Shelley                  335   
1          537      Clinton           Buford                  543   
2          512        Cecil            Vines                  517   
3          252       Mattie          Hoffman                  256   

   customer2_id cutomer2_name customer2_surname  customer2_address_id  
0           537       Clinton            Buford                   543  
1           330         Scott           Shelley                   335  
2           252        Mattie           Hoffman                   256  
3           512         Cecil             Vines                   517  


In [4]:
# 3. Oblicz średni koszt wypożyczenia wszystkich filmów.
ex3 = pd.read_sql('SELECT AVG(rental_rate) FROM film',con=connection)
print(ex3)

    avg
0  2.98


In [5]:
# 4. Oblicz i wyświetl liczbę filmów we wszystkich kategoriach.
ex4 = pd.read_sql("SELECT name, COUNT(name) FROM film \
INNER JOIN film_category ON film.film_id = film_category.film_id \
INNER JOIN category ON film_category.category_id = category.category_id \
GROUP BY name \
ORDER BY name",con=connection)
print(ex4)

           name  count
0        Action     64
1     Animation     66
2      Children     60
3      Classics     57
4        Comedy     58
5   Documentary     68
6         Drama     62
7        Family     69
8       Foreign     73
9         Games     61
10       Horror     56
11        Music     51
12          New     63
13       Sci-Fi     61
14       Sports     74
15       Travel     57


In [6]:
# 5. Wyświetl liczbę wszystkich klientów pogrupowanych według kraju.
ex5 = pd.read_sql("SELECT country, COUNT(country) FROM customer \
INNER JOIN address ON customer.address_id = address.address_id \
INNER JOIN city ON address.city_id = city.city_id \
INNER JOIN country ON city.country_id = country.country_id \
GROUP BY country \
ORDER BY country",con=connection)
print(ex5)

                  country  count
0             Afghanistan      1
1                 Algeria      3
2          American Samoa      1
3                  Angola      2
4                Anguilla      1
..                    ...    ...
103               Vietnam      6
104  Virgin Islands, U.S.      1
105                 Yemen      4
106            Yugoslavia      2
107                Zambia      1

[108 rows x 2 columns]


In [7]:
# 6. Wyświetl informacje o sklepie, który ma więcej niż 100 klientów i mniej niż 300 klientów.
ex6 = pd.read_sql("SELECT s.store_id, s.manager_staff_id, s.address_id, s.last_update FROM store s \
INNER JOIN customer cust USING(store_id) \
GROUP BY s.store_id \
HAVING COUNT(cust.customer_id) > 100 \
AND COUNT(cust.customer_id) < 300 \
ORDER BY s.store_id", con=connection)
print(ex6)

   store_id  manager_staff_id  address_id         last_update
0         2                 2           2 2006-02-15 09:57:12


In [8]:
# 7. Wybierz wszystkich klientów, którzy oglądali filmy ponad 200 godzin.
ex7 = pd.read_sql("SELECT DISTINCT c.customer_id, c.first_name, c.last_name FROM customer c \
INNER JOIN rental r ON c.customer_id = r.customer_id \
WHERE r.return_date - r.rental_date > INTERVAL '200 hours' \
ORDER BY c.customer_id", con=connection)
print(ex7)

     customer_id first_name  last_name
0              1       Mary      Smith
1              2   Patricia    Johnson
2              3      Linda   Williams
3              4    Barbara      Jones
4              5  Elizabeth      Brown
..           ...        ...        ...
561          595   Terrence  Gunderson
562          596    Enrique   Forsythe
563          597    Freddie     Duggan
564          598       Wade   Delvalle
565          599     Austin    Cintron

[566 rows x 3 columns]


In [9]:
# 8. Oblicz średnią wartość wypożyczenia filmu.
ex8 = pd.read_sql("SELECT AVG(amount) FROM payment", con=connection)
print(ex8)

        avg
0  4.200606


In [10]:
# 9. Oblicz średnią wartość długości filmu we wszystkich kategoriach.
ex9 = pd.read_sql("SELECT name, AVG(length) FROM film \
INNER JOIN film_category ON film.film_id = film_category.film_id \
INNER JOIN category ON film_category.category_id = category.category_id \
GROUP BY name \
ORDER BY name",con=connection)
print(ex9)

           name         avg
0        Action  111.609375
1     Animation  111.015152
2      Children  109.800000
3      Classics  111.666667
4        Comedy  115.827586
5   Documentary  108.750000
6         Drama  120.838710
7        Family  114.782609
8       Foreign  121.698630
9         Games  127.836066
10       Horror  112.482143
11        Music  113.647059
12          New  111.126984
13       Sci-Fi  108.196721
14       Sports  128.202703
15       Travel  113.315789


In [11]:
# 10. Znajdź najdłuższe tytuły filmowe we wszystkich kategoriach.
ex10 = pd.read_sql("SELECT ins.category_id, ins.category_name, ins.max_title_len max_title_len, film.title FROM \
(SELECT c.category_id category_id, c.name category_name, MAX(LENGTH(f.title)) max_title_len FROM category c \
INNER JOIN film_category f_c USING(category_id) \
INNER JOIN film f USING(film_id) \
GROUP BY c.category_id \
ORDER BY c.category_id) ins \
INNER JOIN film ON (ins.max_title_len = LENGTH(film.title) AND ins.category_id = (SELECT f2.category_id\
                                                                                FROM film_category f2 \
                                                                                WHERE f2.film_id = film.film_id)) \
ORDER BY ins.category_id", con=connection)
print(ex10)


    category_id category_name  max_title_len                        title
0             1        Action             23      Entrapment Satisfaction
1             2     Animation             22       Telemark Heartbreakers
2             3      Children             20         Heartbreakers Bright
3             3      Children             20         Microcosmos Paradise
4             3      Children             20         Sweethearts Suspects
5             4      Classics             23      Extraordinary Conquerer
6             5        Comedy             23      Trainspotting Strangers
7             6   Documentary             22       Intolerable Intentions
8             6   Documentary             22       Deliverance Mulholland
9             7         Drama             22       Goldfinger Sensibility
10            8        Family             22       Resurrection Silverado
11            9       Foreign             20         Reservoir Adaptation
12            9       Foreign         

In [12]:
# 11. Znajdź najdłuższy film we wszystkich kategoriach. Porównaj wynik z pkt 10.
ex11 =  pd.read_sql("SELECT ins.category_id, ins.category_name, ins.max_film_len max_film_len, film.title FROM \
(SELECT c.category_id category_id, c.name category_name, MAX(f.length) max_film_len FROM category c \
INNER JOIN film_category f_c USING(category_id) \
INNER JOIN film f USING(film_id) \
GROUP BY c.category_id \
ORDER BY c.category_id) ins \
INNER JOIN film ON (ins.max_film_len = film.length AND ins.category_id = (SELECT f2.category_id\
                                                                                FROM film_category f2 \
                                                                                WHERE f2.film_id = film.film_id)) \
ORDER BY ins.category_id", con=connection)
print(ex11)

    category_id category_name  max_film_len               title
0             1        Action           185      Darn Forrester
1             1        Action           185        Worst Banger
2             2     Animation           185        Pond Seattle
3             2     Animation           185         Gangs Pride
4             3      Children           178         Fury Murder
5             3      Children           178      Wrong Behavior
6             4      Classics           184   Conspiracy Spirit
7             5        Comedy           185      Control Anthem
8             6   Documentary           183      Young Language
9             6   Documentary           183           Wife Turn
10            7         Drama           181       Jacket Frisco
11            8        Family           184      King Evolution
12            9       Foreign           184      Sorority Queen
13            9       Foreign           184    Crystal Breaking
14           10         Games           

### Porównanie z pkt. 10: Wynik zadania 11 nie ma nic wspólnego z wynikiem zadania 10, ponieważ obydwa zadania zajmują się przeszukiwaniem bazy względem innego kryterium (długość tytułu filmu, długość trwania filmu).

## Zadanie implementacyjne
Zaimplementuj wszystkie funkcje w pliku main.py zgodnie z opisem a następnie przetestuj je w notatniku.

In [13]:
import main
import test_main

!pytest -q test_main.py

...................................                                      [100%]
anaconda3\lib\site-packages\pyreadline\py3k_compat.py:8
    return isinstance(x, collections.Callable)

