# <center>Laboratorium Analiza i bazy danych </center>

## <center>Łączenie tabel, podzapytania i funkcje agregujące</center>

## Przykładowe tabele obrazujące łączenie

Do zobrazowania operacji łączenia zostaną użyte tabele:

```sql
CREATE TABLE shape_a (
    id INT PRIMARY KEY,
    shape VARCHAR (100) NOT NULL
);
 
CREATE TABLE shape_b (
    id INT PRIMARY KEY,
    shape VARCHAR (100) NOT NULL
);
```
 
Polecenie CREATE TABLE tworzy tabelę o zadanej nazwie i strukturze. Ogólna postać to:
```sql
CREATE TABLE tab_name (
    col_name1 data_type constrain,
    col_name1 data_type constrain,
    ...
);
```
Należy uzupełnić ją danymi:
```sql
INSERT INTO shape_a (id, shape)
VALUES
    (1, 'Trójkąt'),
    (2, 'Kwadrat'),
    (3, 'Deltoid'),
    (4, 'Traper');
 
INSERT INTO shape_b (id, shape)
VALUES
    (1, 'Kwadrat'),
    (2, 'Trójkąt'),
    (3, 'Romb'),
    (4, 'Równoległobok');
```
Komenda INSERT INTO pozwala na dodanie do tabeli rekordów. Ogólna postać to:

```sql
INSERT INTO tab_name (col1_name, col2_name2, ...) 
VALUES
    (val1_col1, val2_col2),
    (val2_col1, val2_col2),
    ...
```

## Inner join 

Jest to podstawowy rodzaj złączenie. Ten sposób złączenia wybiera  te wiersze, dla których warunek złączenia jest spełniony. W żadnej z łączonych tabel kolumna użyta do łączenia nie może mieć wartości NULL. 

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
INNER JOIN shape_b b ON a.shape = b.shape;
```
W zapytaniu powyżej użyto *aliasów* nazw tabel i column wynikowych, jest to szczególnie przydatne przy długich nazwach tabel i wprowadza czytelność w zapytaniu.

#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|

## OUTER JOIN

Istnieją trzy rodzaje złączeń OUTER:
- LEFT OUTER JOIN,
- RIGHT OUTER JOIN,
- FULL OUTER JOIN.

### LEFT OUTER JOIN

Ten rodzaj złączenie zwróci wszystkie rekordy z lewej tablicy i dopasuje do nich rekordy z prawej tablicy które spełniją zadany warunek złączenia. Jeżeli w prawej tablicy nie występują rekordy spełnijące warunek złączenia z lewą w ich miejscu pojawią się wartości NULL.

#### Przykład 1:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
LEFT JOIN shape_b b ON a.shape = b.shape;
```
#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|
|3|Deltoid|NULL|NULL|
|4|Traper|NULL|NULL|

#### Przykład 2:
```sql
SELECT
    b.id id_b,
    b.shape shape_b,
    a.id id_a,
    a.shape shape_a   
FROM
    shape_b b
LEFT JOIN shape_a a ON a.shape = b.shape;
```
#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Kwadrat|2|Kwadrat|
|2|Trójkąt|1|Trójkąt|
|3|Romb|NULL|NULL|
|4|Równoległobok|NULL|NULL|

### RIGHT OUTER JOIN

Działa jak left outer join z tym, że prawa tablica w zapytaniu jest brana w całości.

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
RIGHT JOIN shape_b b ON a.shape = b.shape;
```

#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|2|Kwadrat|1|Kwadrat|
|1|Trójkąt|2|Trójkąt|
|NULL|NULL|3|Romb|
|NULL|NULL|4|Równoległobok|


### FULL OUTER JOIN

Jest złączeniem które zwraca:
- wiersze dla których warunek złączenia jest spełniony,
- wiersze z lewej tabeli dla których nie ma odpowiedników w prawej,
- wiersze z prawej tabeli dla których nie ma odpowiedników w lewej. 

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
FULL JOIN shape_b b ON a.shape = b.shape;
```
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|
|3|Deltoid"|NULL|NULL|
|4|Traper|NULL|NULL|
|NULL|NULL|3|Romb|
|NULL|NULL|4|Równoległobok|

## Podzapytania

Podzapytanie zagnieżdżone SELECT znajduje się wewnątrz zewnętrznego zapytania SELECT, np. po klauzuli WHERE, HAVING lub FROM. W przypadku tego rodzaju zapytań w pierwszej kolejności wykonywane są wewnętrzne zapytania SELECT, a ich wynik jest wykorzystywany do zewnętrznego zapytania SELECT. Stąd łatwo zuważyć, że mogą one służyć do poprawy wydajności obsługi zapytania. Należy dobierać podzapytania tak by najbardziej zagnieżdżone podzapytanie zawierało najmniejszy zbiór poszukiwań. 

#### Przykład:
Jeżeli chcemy znaleźć w bazie informację o tytułach filmów zwróconych w zadanym okresie możemy wykonać następujące zapytanie:
```sql
SELECT
   film_id,
   title
FROM
   film
WHERE
   film_id IN (
      SELECT
         inventory.film_id
      FROM
         rental
      INNER JOIN inventory ON inventory.inventory_id = rental.inventory_id
      WHERE
         return_date BETWEEN '2005-05-29'
      AND '2005-05-30'
   );
```

#### Wynik
|film_id|title|
|-|-|
|307|Fellowship Autumn|
|255|Driving Polish|
|388|Gunfight Moon|
|130|Celebrity Horn|
|563|Massacre Usual|
|397|Hanky October|
|...|...|

### Używanie podzapytań

Pod zapytania mogą być używane w :
- SELECT,
- UPDATE,
- DELETE,
- Funkcjach agregujących,
- Do definiowania tabel tymczasowych.

Używając podzapytań zapytania SQL szybko mogą stać się mało czytelne. Przez co będą trudne w zrozumieniu i późniejszym utrzymaniu. W celu analizy zapytań można użyć klauzuli __EXPLAIN__, która przeanalizuje zapytanie. Klauzula ta może służyć również do porównywania wydajności zapytań

#### Przykład:
```sql
EXPLAIN SELECT
   *
FROM
   film
```

## Funkcje agregujące

Funkcje agregujące wykonują obliczenia na zestawie wierszy i zwracają pojedynczy wiersz. PostgreSQL udostępnia wszystkie standardowe funkcje agregujące SQL w następujący sposób:
- AVG () - zwraca średnią wartość.
- COUNT () - zwraca liczbę wartości.
- MAX () - zwraca maksymalną wartość.
- MIN () - zwraca minimalną wartość.
- SUM () - zwraca sumę wszystkich lub różnych wartości.

Pełna lista funkcji agregującej: https://www.postgresql.org/docs/9.5/functions-aggregate.html

Często używamy funkcji agregujących z klauzulą GROUP BY w instrukcji SELECT. W tych przypadkach klauzula GROUP BY dzieli zestaw wyników na grupy wierszy i funkcja agregująca wykonuje obliczenia dla każdej grupy, np. maksimum, minimum, średnia itp. Funkcji agregujących można używać funkcji agregujących jako wyrażeń tylko w następujących klauzulach: SELECT i HAVING.

### GROUP BY
Klauzula GROUP BY dzieli wiersze zwrócone z instrukcji SELECT na grupy. Dla  każdej grupy można zastosować funkcję agregującą, np. SUM aby obliczyć sumę pozycji lub
COUNT aby uzyskać liczbę elementów w grupach.

Poniższa instrukcja ilustruje składnię klauzuli GROUP BY:
```sql
SELECT 
    column_1, 
    aggregate_function(column_2)
FROM 
    tbl_name
GROUP BY 
    column_1;
```
Klauzula GROUP BY musi pojawić się zaraz po klauzuli FROM lub WHERE, n0astępnie GROUP BY zawiera listę  kolumna oddzielonych przecinkami. 

### HAVING
Często używamy klauzuli HAVING w połączeniu z klauzulą GROUP BY do filtrowania wierszy grup
które nie spełniają określonego warunku.

Poniższa instrukcja ilustruje typową składnię klauzuli HAVING:
```sql
SELECT
    column_1,
    aggregate_function (column_2)
FROM
    tbl_name
GROUP BY
    column_1
HAVING
    condition;
```
Klauzula HAVING ustawia warunek dla wierszy grup utworzonych przez klauzulę GROUP BY.  

Klauzula GROUP BY ma zastosowanie, podczas gdy klauzula WHERE określa wcześniej warunki dla poszczególnych wierszy.

## Zadania wprowadzające
Wykonaj zapytania przy użyciu DBMS:  
  
1. Znajdź listę wszystkich filmów o tej samej długości.
2. Znajdź wszystkich klientów mieszkających w tym samym mieście.
3. Oblicz średni koszt wypożyczenia wszystkich filmów.
4. Oblicz i wyświetl liczbę filmów we wszystkich kategoriach.
5. Wyświetl liczbę wszystkich klientów pogrupowanych według kraju.
6. Wyświetl informacje o sklepie, który ma więcej niż 100 klientów i mniej niż 300 klientów.
7. Wybierz wszystkich klientów, którzy oglądali filmy ponad 200 godzin.
8. Oblicz średnią wartość wypożyczenia filmu.
9. Oblicz średnią wartość długości filmu we wszystkich kategoriach.
10. Znajdź najdłuższe tytuły filmowe we wszystkich kategoriach.
11. Znajdź najdłuższy film we wszystkich kategoriach. Porównaj wynik z pkt 10.

## Zadanie implementacyjne
Zaimplementuj wszystkie funkcje w pliku main.py zgodnie z opisem a następnie przetestuj je w notatniku.

In [2]:
import main
from sqlalchemy import create_engine
import psycopg2 as pg
import pandas as pd

db_string = "postgresql://wbauer_adb:adb2020@pgsql-196447.vipserv.org:5432/wbauer_adb"

db = create_engine(db_string)
connection_sqlalchemy = db.connect()

connection = pg.connect(host='pgsql-196447.vipserv.org', port=5432, dbname='wbauer_adb', user='wbauer_adb', password='adb2020')

In [3]:
# Znajdź listę wszystkich filmów o tej samej długości.

zad1 = '''SELECT
            count(length) liczba_filmow,
            length dlugosc
        FROM 
            film 
        GROUP BY
            length
        '''
            
SQL = pd.read_sql(zad1, con=connection)

print(SQL)

     liczba_filmow  dlugosc
0                7      129
1                6      106
2                9      120
3                8      171
4                6      138
..             ...      ...
135              6      159
136              4       72
137              6      177
138              7      141
139              8      144

[140 rows x 2 columns]


In [4]:
# Znajdź wszystkich klientów mieszkających w tym samym mieście.

zad2 = '''SELECT
            count(customer_id) liczba_mieszkancow,
            city miasto
        FROM 
            customer
        LEFT JOIN
            address ON customer.address_id = address.address_id
        LEFT JOIN
            city ON address.city_id = city.city_id 
        GROUP BY
            city
        ORDER BY
            liczba_mieszkancow
        '''
            
SQL = pd.read_sql(zad2, con=connection)

print(SQL)

     liczba_mieszkancow                miasto
0                     1              Maracabo
1                     1            Rae Bareli
2                     1             Molodetno
3                     1               Yerevan
4                     1  Vitria de Santo Anto
..                  ...                   ...
592                   1                  Abha
593                   1               Kolpino
594                   1          Garden Grove
595                   2                London
596                   2                Aurora

[597 rows x 2 columns]


In [5]:
# Oblicz sredni koszt wypozyczenia wszystkich filmow.

zad3 = '''SELECT
            AVG(amount)
        FROM
            payment'''

SQL = pd.read_sql(zad3, con=connection)

print(SQL)

        avg
0  4.200606


In [6]:
# Oblicz i wyświetl liczbę filmów we wszystkich kategoriach.

zad4 = '''SELECT
            COUNT(film_category.film_id),
            category.name
        FROM
            category
        INNER JOIN
            film_category USING (category_id)
        GROUP BY
            category.category_id
        ORDER BY
            category.category_id'''

SQL = pd.read_sql(zad4, con=connection)

print(SQL)

    count         name
0      64       Action
1      66    Animation
2      60     Children
3      57     Classics
4      58       Comedy
5      68  Documentary
6      62        Drama
7      69       Family
8      73      Foreign
9      61        Games
10     56       Horror
11     51        Music
12     63          New
13     61       Sci-Fi
14     74       Sports
15     57       Travel


In [7]:
# Wyświetl liczbę wszystkich klientów pogrupowanych według kraju.

zad5 = '''SELECT 
            first_name imie, 
            last_name nazwisko, 
            country kraj
        FROM 
            customer 
        LEFT JOIN 
            address USING(address_id)
        LEFT JOIN 
            city USING(city_id)
        LEFT JOIN 
            country USING(country_id)
        ORDER BY 
            country'''

SQL = pd.read_sql(zad5, con=connection)

print(SQL) 

        imie     nazwisko            kraj
0       Vera        Mccoy     Afghanistan
1       June      Carroll         Algeria
2      Mario     Cheatham         Algeria
3       Judy         Gray         Algeria
4    Anthony       Schwab  American Samoa
..       ...          ...             ...
594     Ella       Oliver           Yemen
595  William  Satterfield           Yemen
596    Maria       Miller      Yugoslavia
597      Max         Pitt      Yugoslavia
598    Barry     Lovelace          Zambia

[599 rows x 3 columns]


In [8]:
# Wyświetl informacje o sklepie, który ma więcej niż 100 klientów i mniej niż 300 klientów.

zad6 = '''SELECT 
            store.store_id, 
            store.manager_staff_id,
            store.address_id, 
            store.last_update 
        FROM 
            store
        INNER JOIN 
            customer USING(store_id)
        GROUP BY 
            store.store_id
        HAVING 
            COUNT(customer.customer_id) > 100 AND COUNT(customer.customer_id) < 300
        '''

SQL = pd.read_sql(zad6, con=connection)

print(SQL) 


   store_id  manager_staff_id  address_id         last_update
0         2                 2           2 2006-02-15 09:57:12


In [9]:
# Wybierz wszystkich klientów, którzy oglądali filmy ponad 200 godzin.

zad7 = '''SELECT DISTINCT 
            customer.customer_id ID, 
            customer.first_name imie, 
            customer.last_name nazwisko
        FROM 
            customer
        INNER JOIN 
            rental USING(customer_id)
        WHERE 
            rental.return_date - rental.rental_date > INTERVAL '200 hours'
        ORDER BY 
            customer.customer_id
        '''

SQL = pd.read_sql(zad7, con=connection)

print(SQL) 

      id       imie   nazwisko
0      1       Mary      Smith
1      2   Patricia    Johnson
2      3      Linda   Williams
3      4    Barbara      Jones
4      5  Elizabeth      Brown
..   ...        ...        ...
561  595   Terrence  Gunderson
562  596    Enrique   Forsythe
563  597    Freddie     Duggan
564  598       Wade   Delvalle
565  599     Austin    Cintron

[566 rows x 3 columns]


In [10]:
# Zadanie 8: Oblicz średnią wartość wypożyczenia filmu.

zad8 = '''SELECT 
            AVG(rental_rate)
        FROM 
            film
        '''

SQL = pd.read_sql(zad8, con=connection)

print(SQL) 

    avg
0  2.98


In [12]:
# Oblicz średnią wartość długości filmu we wszystkich kategoriach.

zad9 = '''SELECT 
            name, 
            AVG(length) 
        FROM 
            film
        INNER JOIN 
            film_category USING(film_id)
        INNER JOIN 
            category USING(category_id)
        GROUP BY 
            name
        ORDER BY 
            avg
        '''

SQL = pd.read_sql(zad9, con=connection)

print(SQL) 

           name         avg
0        Sci-Fi  108.196721
1   Documentary  108.750000
2      Children  109.800000
3     Animation  111.015152
4           New  111.126984
5        Action  111.609375
6      Classics  111.666667
7        Horror  112.482143
8        Travel  113.315789
9         Music  113.647059
10       Family  114.782609
11       Comedy  115.827586
12        Drama  120.838710
13      Foreign  121.698630
14        Games  127.836066
15       Sports  128.202703


In [42]:
# Znajdź najdłuższe tytuły filmowe we wszystkich kategoriach.

zad10 = '''SELECT  
            title_length.name, 
            title_length.length, 
            film.title 
        FROM (
            SELECT 
                category_id, 
                name, 
                MAX(LENGTH(film.title)) length 
            FROM 
                category
            INNER JOIN 
                film_category USING(category_id)
            INNER JOIN 
                film USING(film_id)
            GROUP BY 
                category_id 
            ORDER BY 
                category_id 
            ) title_length
        INNER JOIN film ON (title_length.length = LENGTH(film.title) AND title_length.category_id = (
            SELECT 
                category_id
            FROM 
                film_category
            WHERE 
                film_id = film.film_id )
            )
        ORDER BY title_length.name'''

SQL = pd.read_sql(zad10, con=connection)

print(SQL) 

           name  length                        title
0        Action      23      Entrapment Satisfaction
1     Animation      22       Telemark Heartbreakers
2      Children      20         Heartbreakers Bright
3      Children      20         Microcosmos Paradise
4      Children      20         Sweethearts Suspects
5      Classics      23      Extraordinary Conquerer
6        Comedy      23      Trainspotting Strangers
7   Documentary      22       Intolerable Intentions
8   Documentary      22       Deliverance Mulholland
9         Drama      22       Goldfinger Sensibility
10       Family      22       Resurrection Silverado
11      Foreign      20         Reservoir Adaptation
12      Foreign      20         Impossible Prejudice
13      Foreign      20         Ballroom Mockingbird
14        Games      21        Creatures Shakespeare
15        Games      21        Bulworth Commandments
16       Horror      27  Arachnophobia Rollercoaster
17        Music      22       Confidential Int

In [43]:
# Znajdź najdłuższy film we wszystkich kategoriach. Porównaj wynik z pkt 10.

zad11 = '''SELECT  
            movie_length.name, 
            movie_length.length, 
            film.title 
        FROM (
            SELECT 
                category_id, 
                name, 
                MAX(length) length
            FROM 
                category 
            INNER JOIN 
                film_category USING(category_id) 
            INNER JOIN 
                film USING(film_id) 
            GROUP BY 
                category_id 
            ORDER BY 
                category_id ) movie_length 
        INNER JOIN 
            film ON (movie_length.length = film.length AND movie_length.category_id = (
                SELECT 
                    category_id
                FROM 
                    film_category 
                WHERE 
                    film_id = film.film_id )
            )
        ORDER BY movie_length.name'''


SQL = pd.read_sql(zad11, con=connection)

print(SQL) 

           name  length               title
0        Action     185      Darn Forrester
1        Action     185        Worst Banger
2     Animation     185        Pond Seattle
3     Animation     185         Gangs Pride
4      Children     178         Fury Murder
5      Children     178      Wrong Behavior
6      Classics     184   Conspiracy Spirit
7        Comedy     185      Control Anthem
8   Documentary     183      Young Language
9   Documentary     183           Wife Turn
10        Drama     181       Jacket Frisco
11       Family     184      King Evolution
12      Foreign     184      Sorority Queen
13      Foreign     184    Crystal Breaking
14        Games     185       Chicago North
15       Horror     181    Analyze Hoosiers
16       Horror     181       Love Suicides
17        Music     185           Home Pity
18          New     183      Frontier Cabin
19       Sci-Fi     185  Soldiers Evolution
20       Sports     184     Smoochy Control
21       Travel     185   Sweet 