# <center>Laboratorium Analiza i bazy danych </center>

## <center>Łączenie tabel, podzapytania i funkcje agregujące</center>

## Przykładowe tabele obrazujące łączenie

Do zobrazowania operacji łączenia zostaną użyte tabele:

```sql
CREATE TABLE shape_a (
    id INT PRIMARY KEY,
    shape VARCHAR (100) NOT NULL
);
 
CREATE TABLE shape_b (
    id INT PRIMARY KEY,
    shape VARCHAR (100) NOT NULL
);
```
 
Polecenie CREATE TABLE tworzy tabelę o zadanej nazwie i strukturze. Ogólna postać to:
```sql
CREATE TABLE tab_name (
    col_name1 data_type constrain,
    col_name1 data_type constrain,
    ...
);
```
Należy uzupełnić ją danymi:
```sql
INSERT INTO shape_a (id, shape)
VALUES
    (1, 'Trójkąt'),
    (2, 'Kwadrat'),
    (3, 'Deltoid'),
    (4, 'Traper');
 
INSERT INTO shape_b (id, shape)
VALUES
    (1, 'Kwadrat'),
    (2, 'Trójkąt'),
    (3, 'Romb'),
    (4, 'Równoległobok');
```
Komenda INSERT INTO pozwala na dodanie do tabeli rekordów. Ogólna postać to:

```sql
INSERT INTO tab_name (col1_name, col2_name2, ...) 
VALUES
    (val1_col1, val2_col2),
    (val2_col1, val2_col2),
    ...
```

## Inner join 

Jest to podstawowy rodzaj złączenie. Ten sposób złączenia wybiera  te wiersze, dla których warunek złączenia jest spełniony. W żadnej z łączonych tabel kolumna użyta do łączenia nie może mieć wartości NULL. 

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
INNER JOIN shape_b b ON a.shape = b.shape;
```
W zapytaniu powyżej użyto *aliasów* nazw tabel i column wynikowych, jest to szczególnie przydatne przy długich nazwach tabel i wprowadza czytelność w zapytaniu.

#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|

## OUTER JOIN

Istnieją trzy rodzaje złączeń OUTER:
- LEFT OUTER JOIN,
- RIGHT OUTER JOIN,
- FULL OUTER JOIN.

### LEFT OUTER JOIN

Ten rodzaj złączenie zwróci wszystkie rekordy z lewej tablicy i dopasuje do nich rekordy z prawej tablicy które spełniją zadany warunek złączenia. Jeżeli w prawej tablicy nie występują rekordy spełnijące warunek złączenia z lewą w ich miejscu pojawią się wartości NULL.

#### Przykład 1:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
LEFT JOIN shape_b b ON a.shape = b.shape;
```
#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|
|3|Deltoid|NULL|NULL|
|4|Traper|NULL|NULL|

#### Przykład 2:
```sql
SELECT
    b.id id_b,
    b.shape shape_b,
    a.id id_a,
    a.shape shape_a   
FROM
    shape_b b
LEFT JOIN shape_a a ON a.shape = b.shape;
```
#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Kwadrat|2|Kwadrat|
|2|Trójkąt|1|Trójkąt|
|3|Romb|NULL|NULL|
|4|Równoległobok|NULL|NULL|

### RIGHT OUTER JOIN

Działa jak left outer join z tym, że prawa tablica w zapytaniu jest brana w całości.

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
RIGHT JOIN shape_b b ON a.shape = b.shape;
```

#### Wynik:
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|2|Kwadrat|1|Kwadrat|
|1|Trójkąt|2|Trójkąt|
|NULL|NULL|3|Romb|
|NULL|NULL|4|Równoległobok|


### FULL OUTER JOIN

Jest złączeniem które zwraca:
- wiersze dla których warunek złączenia jest spełniony,
- wiersze z lewej tabeli dla których nie ma odpowiedników w prawej,
- wiersze z prawej tabeli dla których nie ma odpowiedników w lewej. 

#### Przykład:
```sql
SELECT
    a.id id_a,
    a.shape shape_a,
    b.id id_b,
    b.shape shape_b
FROM
    shape_a a
FULL JOIN shape_b b ON a.shape = b.shape;
```
|id_a|shape_a|id_b|shape_b|
|-|-|-|-|
|1|Trójkąt|2|Trójkąt|
|2|Kwadrat|1|Kwadrat|
|3|Deltoid"|NULL|NULL|
|4|Traper|NULL|NULL|
|NULL|NULL|3|Romb|
|NULL|NULL|4|Równoległobok|

## Podzapytania

Podzapytanie zagnieżdżone SELECT znajduje się wewnątrz zewnętrznego zapytania SELECT, np. po klauzuli WHERE, HAVING lub FROM. W przypadku tego rodzaju zapytań w pierwszej kolejności wykonywane są wewnętrzne zapytania SELECT, a ich wynik jest wykorzystywany do zewnętrznego zapytania SELECT. Stąd łatwo zuważyć, że mogą one służyć do poprawy wydajności obsługi zapytania. Należy dobierać podzapytania tak by najbardziej zagnieżdżone podzapytanie zawierało najmniejszy zbiór poszukiwań. 

#### Przykład:
Jeżeli chcemy znaleźć w bazie informację o tytułach filmów zwróconych w zadanym okresie możemy wykonać następujące zapytanie:
```sql
SELECT
   film_id,
   title
FROM
   film
WHERE
   film_id IN (
      SELECT
         inventory.film_id
      FROM
         rental
      INNER JOIN inventory ON inventory.inventory_id = rental.inventory_id
      WHERE
         return_date BETWEEN '2005-05-29'
      AND '2005-05-30'
   );
```

#### Wynik
|film_id|title|
|-|-|
|307|Fellowship Autumn|
|255|Driving Polish|
|388|Gunfight Moon|
|130|Celebrity Horn|
|563|Massacre Usual|
|397|Hanky October|
|...|...|

### Używanie podzapytań

Pod zapytania mogą być używane w :
- SELECT,
- UPDATE,
- DELETE,
- Funkcjach agregujących,
- Do definiowania tabel tymczasowych.

Używając podzapytań zapytania SQL szybko mogą stać się mało czytelne. Przez co będą trudne w zrozumieniu i późniejszym utrzymaniu. W celu analizy zapytań można użyć klauzuli __EXPLAIN__, która przeanalizuje zapytanie. Klauzula ta może służyć również do porównywania wydajności zapytań

#### Przykład:
```sql
EXPLAIN SELECT
   *
FROM
   film
```

## Funkcje agregujące

Funkcje agregujące wykonują obliczenia na zestawie wierszy i zwracają pojedynczy wiersz. PostgreSQL udostępnia wszystkie standardowe funkcje agregujące SQL w następujący sposób:
- AVG () - zwraca średnią wartość.
- COUNT () - zwraca liczbę wartości.
- MAX () - zwraca maksymalną wartość.
- MIN () - zwraca minimalną wartość.
- SUM () - zwraca sumę wszystkich lub różnych wartości.

Pełna lista funkcji agregującej: https://www.postgresql.org/docs/9.5/functions-aggregate.html

Często używamy funkcji agregujących z klauzulą GROUP BY w instrukcji SELECT. W tych przypadkach klauzula GROUP BY dzieli zestaw wyników na grupy wierszy i funkcja agregująca wykonuje obliczenia dla każdej grupy, np. maksimum, minimum, średnia itp. Funkcji agregujących można używać funkcji agregujących jako wyrażeń tylko w następujących klauzulach: SELECT i HAVING.

### GROUP BY
Klauzula GROUP BY dzieli wiersze zwrócone z instrukcji SELECT na grupy. Dla  każdej grupy można zastosować funkcję agregującą, np. SUM aby obliczyć sumę pozycji lub
COUNT aby uzyskać liczbę elementów w grupach.

Poniższa instrukcja ilustruje składnię klauzuli GROUP BY:
```sql
SELECT 
    column_1, 
    aggregate_function(column_2)
FROM 
    tbl_name
GROUP BY 
    column_1;
```
Klauzula GROUP BY musi pojawić się zaraz po klauzuli FROM lub WHERE, n0astępnie GROUP BY zawiera listę  kolumna oddzielonych przecinkami. 

### HAVING
Często używamy klauzuli HAVING w połączeniu z klauzulą GROUP BY do filtrowania wierszy grup
które nie spełniają określonego warunku.

Poniższa instrukcja ilustruje typową składnię klauzuli HAVING:
```sql
SELECT
    column_1,
    aggregate_function (column_2)
FROM
    tbl_name
GROUP BY
    column_1
HAVING
    condition;
```
Klauzula HAVING ustawia warunek dla wierszy grup utworzonych przez klauzulę GROUP BY.  

Klauzula GROUP BY ma zastosowanie, podczas gdy klauzula WHERE określa wcześniej warunki dla poszczególnych wierszy.

## Zadania wprowadzające
Wykonaj zapytania przy użyciu DBMS:  
  
1. Znajdź listę wszystkich filmów o tej samej długości.
2. Znajdź wszystkich klientów mieszkających w tym samym mieście.
3. Oblicz średni koszt wypożyczenia wszystkich filmów.
4. Oblicz i wyświetl liczbę filmów we wszystkich kategoriach.
5. Wyświetl liczbę wszystkich klientów pogrupowanych według kraju.
6. Wyświetl informacje o sklepie, który ma więcej niż 100 klientów i mniej niż 300 klientów.
7. Wybierz wszystkich klientów, którzy oglądali filmy ponad 200 godzin.
8. Oblicz średnią wartość wypożyczenia filmu.
9. Oblicz średnią wartość długości filmu we wszystkich kategoriach.
10. Znajdź najdłuższe tytuły filmowe we wszystkich kategoriach.
11. Znajdź najdłuższy film we wszystkich kategoriach. Porównaj wynik z pkt 10.

In [7]:
import pandas as pd
import psycopg2 as pg

from sqlalchemy import create_engine
db_string = "postgresql://wbauer_adb:adb2020@pgsql-196447.vipserv.org:5432/wbauer_adb"
db = create_engine(db_string)
connection_sqlalchemy = db.connect()

connection = pg.connect(host='pgsql-196447.vipserv.org', port=5432, dbname='wbauer_adb', user='wbauer_adb', password='adb2020')

# 1. Znajdź listę wszystkich filmów o tej samej długości.

In [3]:
df = pd.read_sql("SELECT COUNT(title), length FROM film GROUP BY length ORDER BY length ASC", con=connection)
print(df)

     count  length
0        5      46
1        7      47
2       11      48
3        5      49
4        9      50
..     ...     ...
135     10     181
136      6     182
137      5     183
138      8     184
139     10     185

[140 rows x 2 columns]




# 2. Znajdź wszystkich klientów mieszkających w tym samym mieście.

In [21]:
df = pd.read_sql("SELECT COUNT(id) as NO_customers, city FROM customer_list GROUP BY city ORDER BY NO_customers DESC", con=connection)
print(df)

     no_customers             city
0               2           London
1               2           Aurora
2               1            Tokat
3               1          Atlixco
4               1         Mukateve
..            ...              ...
592             1       Greensboro
593             1  Ocumare del Tuy
594             1        Southport
595             1         Pemalang
596             1           Taguig

[597 rows x 2 columns]




# 3. Oblicz średni koszt wypożyczenia wszystkich filmów.

In [22]:
df = pd.read_sql("SELECT AVG(replacement_cost) as average_cost_of_replacement FROM film", con=connection)
print(df)

   average_cost_of_replacement
0                       19.984




# 4. Oblicz i wyświetl liczbę filmów we wszystkich kategoriach.

In [27]:
df = pd.read_sql("SELECT COUNT(title) as count_of_title, category FROM film_list GROUP BY category ORDER BY count_of_title ASC", con=connection)
print(df)

    count_of_title     category
0               51        Music
1               56       Travel
2               56       Horror
3               57     Classics
4               58       Comedy
5               60     Children
6               61        Drama
7               61       Sci-Fi
8               61        Games
9               63          New
10              64       Action
11              66    Animation
12              68  Documentary
13              69       Family
14              73      Foreign
15              73       Sports




# 5. Wyświetl liczbę wszystkich klientów pogrupowanych według kraju.

In [30]:
df = pd.read_sql("SELECT COUNT(id) as number_of_customers, country FROM customer_list GROUP BY country ORDER BY number_of_customers DESC", con=connection)
print(df)

     number_of_customers        country
0                     60          India
1                     53          China
2                     36  United States
3                     31          Japan
4                     30         Mexico
..                   ...            ...
103                    1        Moldova
104                    1          Tonga
105                    1          Nepal
106                    1      Greenland
107                    1  French Guiana

[108 rows x 2 columns]




# 6. Wyświetl informacje o sklepie, który ma więcej niż 100 klientów i mniej niż 300 klientów.

In [74]:
df = pd.read_sql("SELECT store.store_id, staff.first_name, staff.last_name, address.address FROM store INNER JOIN customer ON store.store_id = customer.store_id INNER JOIN address ON address.address_id = store.address_id INNER JOIN staff ON store.manager_staff_id = staff.staff_id GROUP BY store.store_id, address.address_id, staff.first_name, staff.last_name HAVING COUNT(customer.customer_id) > 100 AND COUNT(customer.customer_id) < 300", con=connection)
print(df)

   store_id first_name last_name             address
0         2        Jon  Stephens  28 MySQL Boulevard




# 7. Wybierz wszystkich klientów, którzy oglądali filmy ponad 200 godzin.

In [10]:
df = pd.read_sql('''SELECT c.first_name, c.last_name, SUM(film.length)
                    FROM film
                    INNER JOIN inventory i ON i.film_id = film.film_id
                    INNER JOIN rental r ON r.inventory_id = i.inventory_id
                    INNER JOIN customer c ON c.customer_id = r.customer_id
                    GROUP BY c.first_name, c.last_name
                    HAVING SUM(film.length) > 200
                    ORDER BY SUM(film.length) DESC''', con=connection)
print(df)



    first_name last_name   sum
0         Karl      Seal  5388
1      Eleanor      Hunt  5360
2        Tammy   Sanders  5065
3        Clara      Shaw  4808
4       Wesley      Bull  4808
..         ...       ...   ...
594    Tiffany    Jordan  1667
595  Katherine    Rivera  1615
596      Leona    Obrien  1588
597    Antonio      Meek  1451
598      Brian     Wyman  1265

[599 rows x 3 columns]


# 8. Oblicz średnią wartość wypożyczenia filmu.

In [75]:
df = pd.read_sql("SELECT AVG(replacement_cost) as average_cost_of_replacement FROM film", con=connection)
print(df)

   average_cost_of_replacement
0                       19.984




# 9. Oblicz średnią wartość długości filmu we wszystkich kategoriach.

In [77]:
df = pd.read_sql("SELECT AVG(length) as average_length, category FROM film_list GROUP BY category ORDER BY average_length ASC", con=connection)
print(df)

    average_length     category
0       108.196721       Sci-Fi
1       108.750000  Documentary
2       109.800000     Children
3       111.015152    Animation
4       111.126984          New
5       111.609375       Action
6       111.666667     Classics
7       112.482143       Horror
8       113.375000       Travel
9       113.647059        Music
10      114.782609       Family
11      115.827586       Comedy
12      119.885246        Drama
13      121.698630      Foreign
14      127.506849       Sports
15      127.836066        Games




# 10. Znajdź najdłuższe tytuły filmowe we wszystkich kategoriach.

In [83]:
df = pd.read_sql("SELECT MAX(LENGTH(title)) as max_length_of_title, category FROM film_list GROUP BY category ORDER BY max_length_of_title DESC", con=connection)
print(df)

    max_length_of_title     category
0                    27       Horror
1                    25       Sports
2                    23       Travel
3                    23     Classics
4                    23       Comedy
5                    23       Action
6                    22        Drama
7                    22       Family
8                    22    Animation
9                    22        Music
10                   22  Documentary
11                   21        Games
12                   21          New
13                   20     Children
14                   20      Foreign
15                   20       Sci-Fi




# 11. Znajdź najdłuższy film we wszystkich kategoriach.

In [85]:
df = pd.read_sql("SELECT MAX(length) as max_length, category FROM film_list GROUP BY category ORDER BY max_length DESC", con=connection)
print(df)

    max_length     category
0          185        Music
1          185        Games
2          185       Action
3          185       Sci-Fi
4          185       Comedy
5          185    Animation
6          185       Travel
7          184      Foreign
8          184       Family
9          184       Sports
10         184     Classics
11         183          New
12         183  Documentary
13         181        Drama
14         181       Horror
15         178     Children




## Zadanie implementacyjne
Zaimplementuj wszystkie funkcje w pliku main.py zgodnie z opisem a następnie przetestuj je w notatniku.

In [2]:
import main

     city first_name last_name
0  London     Mattie   Hoffman
1  London      Cecil     Vines




### Funkcja 1

In [3]:
df = main.film_in_category(3)
print(df)

                   title              language  category
0    Backlash Undefeated  English               Children
1         Bear Graceland  English               Children
2           Beneath Rush  English               Children
3          Betrayed Rear  English               Children
4            Cabin Flash  English               Children
5       Casper Dragonfly  English               Children
6    Christmas Moonshine  English               Children
7           Circus Youth  English               Children
8     Clockwork Paradise  English               Children
9      Comancheros Enemy  English               Children
10       Crooked Frogmen  English               Children
11      Daughter Madigan  English               Children
12          Doctor Grail  English               Children
13      Empire Malkovich  English               Children
14          Fargo Gandhi  English               Children
15     Forever Candidate  English               Children
16       Full Flatliners  Engli



### Funkcja 2

In [4]:
df = main.number_films_in_category(3)
print(df)

   category  count
0  Children     60




### Funkcja 3

In [7]:
df = main.number_film_by_length(10, 50)
print(df)

   length  count
0      46      5
1      47      7
2      48     11
3      49      5
4      50      9




### Funkcja 4

In [5]:
df = main.client_from_city("London")
print(df) 

     city first_name last_name
0  London     Mattie   Hoffman
1  London      Cecil     Vines




### Funkcja 5

In [8]:
df = main.avg_amount_by_length(50)
print(df)

   length       avg
0      50  3.810598




### Funkcja 6

In [9]:
df = main.client_by_sum_length(500)
print(df)



    first_name last_name   sum
0         Karl      Seal  5388
1      Eleanor      Hunt  5360
2        Tammy   Sanders  5065
3        Clara      Shaw  4808
4       Wesley      Bull  4808
..         ...       ...   ...
594    Tiffany    Jordan  1667
595  Katherine    Rivera  1615
596      Leona    Obrien  1588
597    Antonio      Meek  1451
598      Brian     Wyman  1265

[599 rows x 3 columns]


### Funkcja 7

In [10]:
df = main.category_statistic_length("Action")
print(df)

  category         avg   sum  min  max
0   Action  111.609375  7143   47  185


