# 1.3 Запросы, групповые операции (агрегатные функции)

---

## Инициализация БД

In [3]:
%load_ext sql
import sqlalchemy
engine = sqlalchemy.create_engine('mysql://user:pass@localhost:3306/stepik')
%sql mysql://user:pass@localhost:3306/stepik

'Connected: user@stepik'

## Заполнение таблицы из CSV файла

In [4]:
# Чтение файла в DataFrame
import pandas as pd
file = 'tables/book_1_3.csv'
df = pd.read_csv(file)
df

Unnamed: 0,book_id,title,author,price,amount
0,1,Мастер и Маргарита,Булгаков М.А.,670.99,3
1,2,Белая гвардия,Булгаков М.А.,540.5,5
2,3,Идиот,Достоевский Ф.М.,460.0,10
3,4,Братья Карамазовы,Достоевский Ф.М.,799.01,3
4,5,Игрок,Достоевский Ф.М.,480.5,10
5,6,Стихотворения и поэмы,Есенин С.А.,650.0,15


Создание схемы таблицы:

In [5]:
%%sql

  DROP TABLE IF EXISTS book;
CREATE TABLE IF NOT EXISTS book (
       book_id INT PRIMARY KEY AUTO_INCREMENT,
       title   VARCHAR(50),
       author  VARCHAR(30),
       price   DECIMAL(8, 2), #
       amount  INT
);

 * mysql://user:***@localhost:3306/stepik
0 rows affected.
0 rows affected.


[]

In [6]:
# Запись данных в таблицу из DataFrame
types = {
    'book_id': sqlalchemy.Integer(),
    'price'  : sqlalchemy.Numeric(precision=8, scale=2),
    'amount' : sqlalchemy.Integer()
}
df.to_sql('book', con=engine, index=False, if_exists='append', dtype=types, method='multi')

***

# Упражнения

## Выбор уникальных элементов столбца `DISTINCT`

**Пример**  
Выбрать различных авторов, книги которых хранятся в таблице book.

In [12]:
%%sql
SELECT DISTINCT author 
  FROM book;

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


author
Булгаков М.А.
Достоевский Ф.М.
Есенин С.А.


Другой способ – использование оператора `GROUP BY`, который группирует данные при выборке,  
имеющие одинаковые значения в некотором столбце.   
Столбец, по которому осуществляется группировка, указывается после `GROUP BY` .

С помощью `GROUP BY` можно выбрать уникальные элементы столбца, по которому осуществляется группировка.  
Результат будет точно такой же как при использовании `DISTINCT`.

In [13]:
%%sql
SELECT author 
  FROM book
 GROUP BY author

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


author
Булгаков М.А.
Достоевский Ф.М.
Есенин С.А.


**Задание**  
Отобрать различные (уникальные) элементы столбца amount таблицы book.

In [107]:
%%sql
SELECT DISTINCT amount
  FROM book

 * mysql://user:***@localhost:3306/stepik
4 rows affected.


amount
3
5
10
15


## Выборка данных, групповые функции `SUM` и `COUNT`

При группировке над элементами столбца, входящими в группу можно выполнить различные действия,  
например, просуммировать их или найти количество элементов в группе.

Подробно рассмотрим, как осуществляется группировка данных по некоторому  
столбцу и вычисления над группой на следующем примере:

In [15]:
%%sql
SELECT author, sum(amount), count(amount)
  FROM book
 GROUP BY author

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


author,sum(amount),count(amount)
Булгаков М.А.,8,2
Достоевский Ф.М.,23,3
Есенин С.А.,15,1


**1.** В таблице book определяются строки, в которых в столбце `author` одинаковые значения:
![group by explain image](https://ucarecdn.com/2c9cc54f-b3b0-4388-8443-bcf590176622/)

Получили **3** различные группы:
- **группа I** объединяет две записи, у которых в столбце `author` значение *Булгаков М.А.*;
- **группа II** объединяет три записи, у которых в столбце `author` значение *Достоевский Ф.М.*;
- **группа III** объединяет одну запись, у которой в столбце `author` значение *Есенин С.А.*

**2.** Вместо каждой группы в результирующий запрос включается  одна запись. Запись как минимум включает значение столбца, по которому осуществляется группировка (в нашем случае это `author`):
![group by explain image 3](https://ucarecdn.com/8265a790-2164-44ee-882a-d2ef67fa75d4/)

**3.** Дальше можно выполнить вычисления над элементами *КАЖДОЙ* группы в отдельности, например, посчитать общее количество экземпляров книг каждого автора. Для этого используется групповая функция `SUM()`, а в скобках указывается столбец, по которому нужно выполнить суммирование ( в нашем случае `amount`):
![group by explain image 3](https://ucarecdn.com/8ef972d9-842b-438c-a4c5-e13a0a17d9fb/)

**4.** Также можно посчитать, сколько записей относится к группе. Для этого используется функция `COUNT()`, в скобках можно указать *ЛЮБОЙ* столбец из группы, если группа не содержит пустых значений (ниже приведен пример, в котором показано, как работает `COUNT()`, если в группе есть пустые значения):
![group by explain image 3](https://ucarecdn.com/708aa6d7-f879-41b4-8030-103e4b43754e/)

**Пример**  
Посчитать, сколько экземпляров книг каждого автора хранится на складе.

In [28]:
%%sql
SELECT author, SUM(amount) AS total_amount
  FROM book
 GROUP BY author

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


author,total_amount
Булгаков М.А.,8
Достоевский Ф.М.,23
Есенин С.А.,15


**Пример**  
Посчитать, сколько различных книг каждого автора хранится на складе.

Для этого примера в таблицу добавлена запись с пустыми значениями в столбцах `amount` и `price`:

In [65]:
%%sql
INSERT INTO book (title, author)
       VALUES ('Черный человек', 'Есенин С.А.');
SELECT * FROM book

 * mysql://user:***@localhost:3306/stepik
1 rows affected.
9 rows affected.


book_id,title,author,price,amount
1,Мастер и Маргарита,Булгаков М.А.,670.99,3.0
2,Белая гвардия,Булгаков М.А.,540.5,5.0
3,Идиот,Достоевский Ф.М.,460.0,10.0
4,Братья Карамазовы,Достоевский Ф.М.,799.01,3.0
5,Игрок,Достоевский Ф.М.,480.5,10.0
6,Стихотворения и поэмы,Есенин С.А.,650.0,15.0
16,Черный человек,Есенин С.А.,,
17,Черный человек,Есенин С.А.,,
18,Черный человек,Есенин С.А.,,


In [57]:
%%sql    
SELECT author, COUNT(title), COUNT(amount), COUNT(price), COUNT(*)
  FROM book
 GROUP BY author

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


author,COUNT(title),COUNT(amount),COUNT(price),COUNT(*)
Булгаков М.А.,2,2,2,2
Достоевский Ф.М.,3,3,3,3
Есенин С.А.,2,1,1,2


Из таблицы с результатами запроса видно, что функцию `COUNT()` можно применять к любому столбцу,  
в том числе можно использовать и `*`, если таблица не содержит пустых значений.  
Если же в столбцах есть значения `Null`, (для группы по автору Есенин в нашем примере), то

- `COUNT(*)` —  подсчитывает  **все** записи, относящиеся к группе, в том числе и со значением `NULL`;
- `COUNT(имя_столбца)` — возвращает количество записей конкретного столбца (только `NOT NULL`), относящихся к группе.

In [69]:
%%sql
DELETE FROM book
 WHERE title = 'Черный человек';

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


[]

**Задание**  
Посчитать, количество различных книг и количество экземпляров книг каждого автора , хранящихся на складе.  
Столбцы назвать `Автор`, `Различных_книг` и `Количество_экземпляров` соответственно.

In [75]:
%%sql
SELECT author AS Автор,
       COUNT(DISTINCT title) AS Различных_книг,
       SUM(amount) AS Количество_экземпляров
  FROM book
 GROUP BY author

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


Автор,Различных_книг,Количество_экземпляров
Булгаков М.А.,2,8
Достоевский Ф.М.,3,23
Есенин С.А.,1,15


[Примечание к записи псевдонима в кавычках](https://stepik.org/lesson/297515/step/3?discussion=3182084&reply=4223472&unit=279275)
> <...> Но более коварно СУБД поведёт себя, если Вы попробуете взять такой псевдоним в кавычки (так тоже нельзя делать, об этом упоминалось в уроках про сортировку):  
ошибки, скорее всего, не будет и таблица будет создана, но **НЕ БУДЕТ ОТСОРТИРОВАНА** так, как Вам хотелось,  
ибо всё, что в кавычках, система трактует как _текстовую строку,_  
а уже созданный псевдоним - это что-то в духе переменной,  
т.е. `Автор_книги` указывает на столбец таблицы,  
а `"Автор_книги"` - просто набор символов.  
Поэтому псевдоним лексически должен быть одним целым, без пробелов, и если в нём несколько слов, то их стоит разделить каким-либо другим символом, традиционно для этого используют нижнее подчёркивание.

## Выборка данных, групповые функции `MIN`, `MAX` и `AVG`

**Задание**  
Вывести фамилию автора, минимальную, максимальную и среднюю цену книг каждого автора.  
Вычисляемые столбцы назвать `Минимальная_цена`, `Максимальная_цена` и `Средняя_цена` соответственно.

In [81]:
%%sql
SELECT author,
       MIN(price) AS Минимальная_цена, 
       MAX(price) AS Максимальная_цена, 
       AVG(price) AS Средняя_цена
  FROM book
 GROUP BY author

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


author,Минимальная_цена,Максимальная_цена,Средняя_цена
Булгаков М.А.,540.5,670.99,605.745
Достоевский Ф.М.,460.0,799.01,579.836667
Есенин С.А.,650.0,650.0,650.0


## Выборка данных c вычислением, групповые функции


В качестве аргумента групповых функций  SQL может использоваться не только столбец,  
но и любое допустимое в SQL арифметическое выражение.

**Задание**  
Для каждого автора вычислить суммарную стоимость книг **S** (имя столбца `Стоимость`),  
а также вычислить налог на добавленную стоимость  для полученных сумм (имя столбца `НДС` ),  
который включен в стоимость и составляет `k = 18%`,  а также стоимость книг (`Стоимость_без_НДС`) без него.  
Значения округлить до двух знаков после запятой.  
В запросе для расчета НДС(`tax`) и Стоимости без НДС(`S_without_tax`) использовать следующие формулы:

$$ tax = \frac{S*\frac{k}{100}}{1+\frac{k}{100}} $$

$$ S\_without\_tax = \frac{S}{1+\frac{k}{100}} $$

In [85]:
%%sql
SELECT author, 
       SUM(price * amount) AS Стоимость,
       ROUND((SUM(price * amount) * 0.18)/(1 + 0.18) ,2) AS НДС,
       ROUND(SUM(price * amount)/(1 + 0.18) ,2) AS Стоимость_без_НДС
  FROM book
 GROUP BY author

 * mysql://user:***@localhost:3306/stepik
3 rows affected.


author,Стоимость,НДС,Стоимость_без_НДС
Булгаков М.А.,4715.47,719.31,3996.16
Достоевский Ф.М.,11802.03,1800.31,10001.72
Есенин С.А.,9750.0,1487.29,8262.71


## Вычисления по таблице целиком

**Задание**  
Вывести  цену самой дешевой книги, цену самой дорогой и среднюю цену книг на складе.  
Названия столбцов `Минимальная_цена`, `Максимальная_цена`, `Средняя_цена` соответственно.  
Среднюю цену округлить до двух знаков после запятой.

In [106]:
%%sql
SELECT MIN(price) AS Минимальная_цена,
       MAX(price) AS Максимальная_цена,
       ROUND(AVG(price), 2) AS Средняя_цена
  FROM book

 * mysql://user:***@localhost:3306/stepik
1 rows affected.


Минимальная_цена,Максимальная_цена,Средняя_цена
460.0,799.01,600.17


## Выборка данных по условию, групповые функции `HAVING`

В запросы с групповыми функциями можно включать условие отбора строк,  
которое в обычных запросах записывается после `WHERE`.

В запросах с групповыми функциями вместо `WHERE` используется ключевое слово `HAVING` ,  
которое размещается после оператора `GROUP BY`.

**Пример**  
Найти минимальную и максимальную цену книг всех авторов, общая стоимость книг которых больше 5000.  
Результат вывести по убыванию минимальной цены.

> При указании столбца, по которому выполняется сортировка, если столбцу присвоено имя  с помощью `AS` ,  
можно использовать это имя.

In [90]:
%%sql
SELECT author,
       MIN(price) AS Минимальная_цена,
       MAX(price) AS Максимальная_цена
  FROM book
 GROUP BY author
HAVING SUM(price * amount) > 5000
 ORDER BY Минимальная_цена DESC

 * mysql://user:***@localhost:3306/stepik
2 rows affected.


author,Минимальная_цена,Максимальная_цена
Есенин С.А.,650.0,650.0
Достоевский Ф.М.,460.0,799.01


**Задание**  
Вычислить среднюю цену и суммарную стоимость тех книг,  
количество экземпляров которых принадлежит интервалу от 5 до 14, включительно.  
Столбцы назвать `Средняя_цена` и `Стоимость`, значения округлить до 2-х знаков после запятой.
> Если в запросе с групповыми функциями отсутствует `GROUP BY` ,  
> то для отбора записей используется ключевое слово `WHERE`

In [96]:
%%sql
SELECT ROUND(AVG(price), 2) AS Средняя_цена,
       SUM(price * amount) AS Стоимость
  FROM book
 WHERE amount BETWEEN 5 AND 14

 * mysql://user:***@localhost:3306/stepik
1 rows affected.


Средняя_цена,Стоимость
493.67,12107.5


## Выборка данных по условию, групповые функции, `WHERE` и `HAVING`

`WHERE` и `HAVING` могут использоваться в одном запросе.  
При этом необходимо учитывать **порядок выполнения SQL запроса на выборку на СЕРВЕРЕ:**

1. FROM
1. WHERE
1. GROUP BY
1. HAVING
1. SELECT
1. ORDER BY

**Пример**  
Вывести максимальную и минимальную цену книг каждого автора,  
кроме Есенина, количество экземпляров книг которого больше 10. 

In [97]:
%%sql
SELECT author,
       MIN(price) AS Минимальная_цена,
       MAX(price) AS Максимальная_цена
  FROM book
 WHERE author <> 'Есенин С.А.'
 GROUP BY author
HAVING SUM(amount) > 10

 * mysql://user:***@localhost:3306/stepik
1 rows affected.


author,Минимальная_цена,Максимальная_цена
Достоевский Ф.М.,460.0,799.01


**Задание**  
Посчитать стоимость всех экземпляров каждого автора без учета книг «Идиот» и «Белая гвардия».  
В результат включить только тех авторов, у которых суммарная стоимость книг более 5000 руб.  
Вычисляемый столбец назвать `Стоимость` .  
Результат отсортировать по убыванию стоимости.

In [102]:
%%sql
SELECT author,
       SUM(price * amount) AS Стоимость
  FROM book
 WHERE title NOT IN ('Идиот', 'Белая гвардия')
 GROUP BY author
HAVING SUM(price * amount) > 5000
 ORDER BY Стоимость DESC

 * mysql://user:***@localhost:3306/stepik
2 rows affected.


author,Стоимость
Есенин С.А.,9750.0
Достоевский Ф.М.,7202.03


**Задание**  
Узнать сколько авторов, у которых есть книги со стоимостью более 500 и количеством более 1 шт на складе,  
при количестве различных названий произведений не менее 2-х.  
Вывести автора, количество различных произведений автора, минимальную цену и количество книг

In [105]:
%%sql
SELECT author,
       COUNT(DISTINCT title) AS Уникальных_произведений,
       MIN(price) AS Мин_цена,
       SUM(amount) AS Количество_книг
  FROM book
 WHERE price > 500
   AND amount > 1
 GROUP BY author
HAVING COUNT(DISTINCT title) >= 2

 * mysql://user:***@localhost:3306/stepik
1 rows affected.


author,Уникальных_произведений,Мин_цена,Количество_книг
Булгаков М.А.,2,540.5,8
