Представьте рабочий шкаф. На его полках стоят подписанные коробки: «Сотрудники», «Отчёты», «Поставщики». В каждой коробке — стопка документов. В коробке «Сотрудники» карточки работников, где указан их возраст, пол и должность. Если нужно узнать возраст инженера Петрова, вы быстро найдёте эту информацию. Примерно так же устроены и базы данных.


База данных — это хранилище структурированной информации. Если знать правила её организации, извлечь данные из базы очень просто.


Вернёмся к шкафу. Обратите внимание, что в одной коробке хранят схожие объекты. Карточки сотрудников в коробке «Сотрудники», записи о поставщиках — в «Поставщиках». Так выделяют сущности — группы объектов с общими характеристиками. Объект — отдельный представитель сущности. Если сущность — это коробка «Сотрудники», то объект сущности — карточка инженера Петрова.


Базы, устроенные подобно этому шкафу, называются реляционные (англ. relation — «отношение», «зависимость», «связь»). Если в шкафу данные хранятся в коробках, в реляционной базе — во множестве таблиц.


## Таблицы

Столбцы таблицы называются <b>поля</b>. В них обозначают характеристики объекта. Например, имя, должность, сильную и слабую стороны:

In [1]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/Pied_Piper-3_1565869120.jpg")

У каждого поля есть уникальное имя и характерный тип данных.
<br>
<br>
Строки таблицы называются <b>записи</b>. Каждая строка — информация об одном объекте; здесь — о сотруднике. Например, Дональд Данн трудится операционным менеджером, его сильная сторона — организация процесса, а слабая — привычка говорить по-немецки во сне.

In [2]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/Pied_Piper-1_1565869153.jpg")

<b>Ячейка</b> — место пересечения строки и столбца. Например, Динеш Чугтай — разработчик на Java:

In [3]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/Pied_Piper-2_1565869194.jpg")

Номер записи — <b>первичный ключ</b>. Он нужен в каждой таблице базы данных, чтобы записи определялись однозначно. Все значения в этом поле <b>уникальны</b>.

In [4]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/Pied_Piper-4_1565869223.jpg")

Бывают в таблицах не только простые первичные ключи из одного поля, но и <b>составные первичные ключи</b>. Они состоят из нескольких полей. Например, если бы в таблице не было поля «номер», составным ключом стала бы комбинация полей «Имя и фамилия» и «Должность». Это сочетание однозначно определяет записи в таблице.

In [5]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/Pied_Piper_1565949510.jpg")

## Срезы данных в SQL


### WHERE

Начало условия, по которому отбираются данные, обозначают командой <b>WHERE</b>

In [None]:
НАЗВАНИЕ	СМЫСЛ
=           равно
<>, !=      не равно
>           больше
<           меньше
>=          больше или равно
<=          меньше или равно

In [None]:
# Выберем все книги Ремарка:
SELECT 
    name, 
    author 
FROM 
    books
WHERE 
    author = 'Эрих Мария Ремарк';--Строки, как в Python, заключают в кавычки

In [None]:
#... или все книги, которые писал не Ремарк:
SELECT 
    name, 
    author 
FROM 
    books
WHERE 
    author != 'Эрих Мария Ремарк';

In [None]:
НАЗВАНИЕ	ОПИСАНИЕ
AND	        позволяет выбирать только те строки, которые удовлетворяют всем условиям.
OR	        позволяет выбирать строки, которые удовлетворяют любому из условий.
NOT	        позволяет выбрать строки, которые не соответствуют условию.

In [None]:
SELECT 
    * 
FROM 
    название_таблицы
WHERE 
    условие_1 AND условие_2;
--Выбираются строки, которые соответствуют сразу обоим условиям 
SELECT 
    * 
FROM 
    название_таблицы
WHERE 
    условие_1 OR условие_2;
--Выбираются строки, которые соответствуют хотя бы одному из условий
SELECT 
    * 
FROM 
    название_таблицы
WHERE 
    условие_1 AND NOT условие_2;
--Выбираются строки, которые соответствуют условию_1 и не соответствуют условию_2

### BETWEEN 

In [None]:
SELECT 
    name, 
    author, 
    date_pub, 
    price 
FROM 
    books
WHERE 
    date_pub > '1990-12-31' AND date_pub  < '2001-01-01';
/* границы дат в условие не включены, 
чтобы выбрать все дни с 1991 по 2000 годы,
мы взяли последний день 1990 года
и первый день 2001 года */

Этот же запрос можно написать короче, с применением конструкции <b>BETWEEN</b> (англ. «между»). В отличие от предыдущего кода, границы диапазона в BETWEEN включены в результирующую выборку:

In [None]:
SELECT 
    name, 
    author, 
    date_pub, 
    price 
FROM 
    books
WHERE 
    date_pub BETWEEN '1991-01-01' AND '2000-12-31';
/* границы включаются, поэтому 
мы выбираем первый день 1991 года 
и последний день 2000 года */

Оба запроса приведут к одинаковым результатам. Предпочесть первый вариант или второй — дело вкуса. Одни аналитики считают, что способ с двумя неравенствами лучше, потому что чётко сообщает о том, включаются ли границы диапазона в выборку. Другие думают, что запрос с BETWEEN лаконичнее, а значит, соответствует правилам хорошего кода.

### IN

После IN указывают список значений, которые нужно включить в результат:

Если в списке должны быть числа, их указывают через запятую: IN (3,7,9). Строки тоже через запятую, но в одинарных кавычках: IN ('значение_1','значение_2','значение_3'). Дату и время обозначают так: IN ('ГГГГ-мм-дд','ГГГГ-мм-дд')

In [None]:
SELECT 
    name, 
    pub_name 
FROM 
    books
WHERE 
    pub_name ='АСТ' OR pub_name = 'ЛитРес' OR  pub_name ='Росмэн' OR  pub_name = 'Эксмо';

Что, если бы в условии было не 4 издательства, а 20 или даже больше? Нужно более лаконичное решение. Например, такое:

In [None]:
SELECT  
    name, 
    pub_name  
FROM 
    books
WHERE 
    pub_name IN ('АСТ', 'ЛитРес', 'Росмэн','Эксмо');

В связке с NOT оператор <b>IN</b> позволит выбрать все книги, изданные не в «АСТ», «ЛитРес», «Росмэн» и «Эксмо»:

## Агрегирующие функции

### COUNT()

В зависимости от задачи количество строк считают по-разному:<br>
 - <b>COUNT(*)</b> возвращает общее количество строк в таблице;<br>
 - <b>COUNT(column)</b> возвращает число строк в столбце column;<br>
 - <b>COUNT(DISTINCT column)</b> (англ. distinct, «отдельный, особый») возвращает количество уникальных строк в столбце column.

In [None]:
#Получим число всех строк таблицы; строк, в которых указан рейтинг; и строк, в которых в столбце rating оценки уникальны:
SELECT 
    COUNT(*) AS cnt,
    COUNT(rating) AS author_cnt,
    COUNT(DISTINCT rating) AS author_uniq_cnt
FROM
    books;

### SUM()

Функция SUM(column) возвращает сумму по столбцу column. При выполнении функции пропуски игнорируются.

In [None]:
SELECT 
    SUM(price) AS summa
FROM
    books;

### AVG()

AVG (column) возвращает среднее значение по столбцу column. Узнаем, сколько в среднем страниц в книгах из таблицы:

In [None]:
SELECT 
    AVG(pages) AS average
FROM
    books;

### MIN() и MAX()

In [None]:
SELECT max(aggregate_expression)

FROM tables

[WHERE conditions];

In [None]:
SELECT min(aggregate_expression)

FROM tables

[WHERE conditions];

In [None]:
SELECT
    max(price) - min(price) AS max_min_diff
FROM
    products_data_all
WHERE
    name = 'Масло топленое Ecotavush 99%, 500 г' AND
    name_store = 'ВкусМилк';

## Изменение типов

### CAST()

In [None]:
CAST (название_столбца AS тип_данных)

название_столбца :: тип_данных

Числовые типы данных:<br>
<b>integer</b> — целочисленный тип, аналогичный типу int в Python. В PostgreSQL диапазон целых чисел от -2147483648 до 2147483647.<br>
<b>real</b> — число с плавающей точкой, как float в Python. Точность числа типа real до 6 десятичных разрядов.<br>
<br>
Строковые типы данных:<br>
<b>'Практикум'</b> — значение строкового типа, в SQL запросе его заключают в одинарные кавычки.<br>
<b>varchar(n)</b> — строка переменной длины, где n — ограничение. Этот тип данных похож на string в Python, но в отличие от него ограничен по длине: в поле можно занести любую строку короче, чем n символов.<br>
<b>text</b> — строка любой длины. Полный аналог string в Python.<br>
<br>
Дата и время:<br>
Любые вводимые значения даты или времени заключают в одинарные кавычки.<br>
<b>timestamp</b> — дата и время. Этот тип аналогичен datetime в Pandas. В формате timestamp чаще всего хранят события, происходящие несколько раз за день. Например, логи пользователей сайта.<br>
<b>date</b> — дата.<br>

Логический:<br>
<b>boolean</b> — логический тип данных. В PostgreSQL есть три варианта значений TRUE — «истина», FALSE — «ложь» и NULL — «неизвестно».

In [None]:
SELECT 
    AVG(pages :: integer) AS average
FROM
    books;

In [None]:
SELECT 
    AVG (CAST(pages AS integer)) AS average
FROM
    books;

## Группируем данные


In [None]:
SELECT 
    COUNT(name) AS cnt
FROM
    books
WHERE
    author = 'Эрих Мария Ремарк';

Как найти число книг каждого автора? Не писать же несколько запросов! Хорошо бы автоматически перебирать авторов, и сразу же считать количество их произведений. Для этого есть группировка.<br>
<br>
Команду <b>GROUP BY</b> (англ. «группировать по») применяют, когда данные нужно разделить на группы по значениям полей.<br>
<br>
Пример формата запроса с агрегирующей функцией и группировкой:

In [None]:
 SELECT 
    поле_1, 
    поле_2, 
    ..., 
    поле_n, 
    АГРЕГИРУЮЩАЯ_ФУНКЦИЯ(поле) AS here_you_are
FROM
    таблица
WHERE -- если необходимо
    условие 
GROUP BY 
    поле_1, 
    поле_2, 
    ..., 
    поле_n;

После команды GROUP BY перечисляют все поля из блока SELECT. Саму агрегирующую функцию включать в блок GROUP BY не нужно — с ней запрос не выполнится. GROUP BY в SQL работает аналогично методу groupby() в Pandas.

In [None]:
SELECT 
    author, 
    COUNT(name) AS cnt
FROM
    books
GROUP BY 
    author;

In [None]:
SELECT 
    author, 
    rating, 
    COUNT(name) AS cnt
FROM
    books
GROUP BY 
    author, 
    rating;

Конструкция GROUP BY работает для всех агрегирующих функций: COUNT(), AVG(), SUM(), MAX(), MIN(). Можно вызывать несколько функций сразу. Например, для каждого автора найдём среднее количество страниц в его произведениях и максимальное количество страниц:

In [None]:
SELECT 
    author, 
    AVG(pages) AS avg_pages,
    MAX(pages) AS max_pages
FROM
    books
GROUP BY 
    author;

## Сортируем данные


Формат запроса с группировкой и сортировкой:


In [None]:
SELECT 
    поле_1, 
    поле_2,
    ..., 
    поле_n, 
    АГРЕГИРУЮЩАЯ_ФУНКЦИЯ(поле) AS here_you_are
FROM
    таблица
WHERE -- если нужно
    условие
GROUP BY  
    поле_1, 
    поле_2, 
    ..., 
    поле_n,
ORDER BY -- если необходимо, перечисляем только те поля, 
--по которым хотим отсортировать таблицу
    поле_1, 
    поле_2, 
    ..., 
    поле_n, 
    here_you_are;

## ORDER BY

В отличие от GROUP BY, в блоке с командой ORDER BY перечисляем только те поля, по которым хотим сортировать.<br>
<br>
У команды ORDER BY два аргумента. Они отвечают за порядок сортировки в столбцах:<br>
<b>ASC</b> (от англ. ascending, «восходящий») сортирует данные в порядке возрастания. Это аргумент ORDER BY по умолчанию.<br>
<b>DESC</b> (от англ. descending, «нисходящий») сортирует данные по убыванию.

In [None]:
ORDER BY 
    название_поля DESC
-- сортируем данные по убыванию 

ORDER BY 
    название_поля ASC
-- сортируем данные по возрастанию

In [None]:
#Посчитаем количество книг каждого автора и отсортируем данные:
SELECT 
    author, 
    COUNT(name) AS cnt
FROM
    books
GROUP BY
    author 
ORDER BY 
    cnt;

## LIMIT

Команда LIMIT (англ. «предел») ограничивает количество строк в выводе. Её всегда указывают последней в запросе:

In [None]:
SELECT 
    поле_1, 
    поле_2, 
    ..., 
    поле_n, 
    АГРЕГИРУЮЩАЯ_ФУНКЦИЯ(поле) AS here_you_are
FROM
    таблица
WHERE -- если необходимо
    условие
GROUP BY  
    поле_1, 
    поле_2, 
    ..., 
    поле_n,
ORDER BY -- если необходимо, перечисляем только те поля, 
--по которых хотим отсортировать таблицу
    поле_1, 
    поле_2, 
    ..., 
    поле_n, 
    here_you_are
LIMIT -- если необходимо
    n;
-- n-максимальное количество строк, которое вернёт такой запрос

## Обработка данных в группировке


### HAVING 

Что если нужно сразу вывести авторов, у которых в таблицу попало больше одной книги? Для таких целей есть конструкция HAVING (англ. «обладающий») — аналог WHERE для агрегированных функций.

In [None]:
 SELECT 
    поле_1, 
    поле_2, 
    ..., 
    поле_n, 
    АГРЕГИРУЮЩАЯ_ФУНКЦИЯ(поле) AS here_you_are
FROM
    TABLE
WHERE -- если необходимо
    условие
GROUP BY 
    поле_1, 
    поле_2, 
    ..., 
    поле_n
HAVING
    АГРЕГИРУЮЩАЯ_ФУНКЦИЯ(поле_для_группировки) > n
ORDER BY -- если необходимо, перечисляем только те поля, 
--по которых хотим отсортировать таблицу
    поле_1, 
    поле_2, 
    ..., 
    поле_n,
    here_you_are
LIMIT -- если необходимо
    n;

В результирующую выборку попадут только те строки, для которых результат агрегирующей функции соответствует условию блоков HAVING и WHERE.

Если команды HAVING и WHERE так похожи, почему нельзя записать все условия в одной из них? Дело в том, что WHERE отрабатывает перед группировкой данных и расчётом агрегирующей функции. Потому задать фильтр на результат агрегирующей функции в WHERE нельзя. И здесь выручает HAVING.


## Операторы и функции для работы с датами


### EXTRACT и DATE_TRUNC

In [None]:
    SELECT
      EXTRACT(часть_даты FROM столбец) AS новый_столбец_с_датой 
    FROM 
        Таблица_со_всеми_датами;

Название функции определяет её суть.<br> 
EXTRACT извлекает из даты нужную часть: год, месяц, минуту. Что ещё можно получить вызовом EXTRACT:<br>
 - century — век;<br>
 - day — день;<br>
 - doy (от англ. day of the year) — день года: от 1 до 365/366;<br>
 - isodow (от англ. day of the week и ISO 8601, международного стандарта даты и времени) — день недели: понедельник — 1, воскресенье — 7.<br>
 - hour — час;<br>
 - milliseconds — миллисекунда;<br>
 - minute — минута;<br>
 - second — секунда;<br>
 - month — месяц;<br>
 - quarter — квартал;<br>
 - week — неделя в году;<br>
 - year — год.<br>

In [None]:
SELECT 
    id_user,
    EXTRACT (MONTH FROM log_on) AS month_activity,
    EXTRACT (DAY FROM log_on) AS day_activity
FROM 
    user_activity;

<b>DATE_TRUNC</b> усекает дату до часа, дня или месяца. В отличие от EXTRACT часть, до которой нужно усечь дату, записывают как строку. А столбец, откуда берут данные о времени, указывают через запятую:

In [None]:
SELECT
    DATE_TRUNC('часть_даты_до_которой_усекаем', столбец) AS новый_столбец_с_датой 
FROM 
    Таблица_со_всеми_датами;

Часть даты, до которой данные нужно «обнулить», указывают в аргументе функции DATE_TRUNC:<br>
- 'microseconds' — микросекунды;<br>
- 'milliseconds' — миллисекунды;<br>
- 'second' — секунда;<br>
- 'minute' — минута;<br>
- 'hour' — час;<br>
- 'day' — день;<br>
- 'week' — неделя;<br>
- 'month' — месяц;<br>
- 'quarter' — квартал;<br>
- 'year' — год;<br>
- 'decade' — декада года;<br>
- 'century' — век.

In [None]:
SELECT 
    DATE_TRUNC('hour',log_on) as date_log_on
FROM 
    user_activity;

## Подзапросы

<b>Подзапрос</b> — это запрос в запросе. Например, ассистент по актёрам собирает портфолио с фото и пробами артистов, подходящих на роль Гамлета в новом фильме. А затем режиссёр, изучив портфолио, приглашает на кастинг пятерых, с которыми готов работать. Деятельность ассистента по актёрам — это подзапрос, или <b>внутренний запрос</b>. А выбор лучшего Гамлета из пяти — <b>внешний запрос</b>.

Подзапросы могут выполняться в разных частях запроса.<br>
<br>
Если подзапрос записать в блоке FROM, то SELECT выберет данные из таблицы, полученной в результате работы подзапроса. Имя этой таблицы указывают во внутреннем запросе, к её столбцам обращаются во внешнем. Подзапрос записывают в круглых скобках:

In [None]:
SELECT 
ПОДЗАПРОС_1.название_столбца, 
ПОДЗАПРОС_1.название_столбца_2
FROM -- Для лучшей читабельности кода, переносите подзапрос на новую строку
    -- отделяйте подзапросы отступами 
    (SELECT 
        название_столбца,
        название_столбца_2 
    FROM 
        название_таблицы
    WHERE 
        название_столбца = значение) AS ПОДЗАПРОС_1; 
-- не забывайте давать имя подзапросу в блоке FROM

Напишем запрос, который подсчитает среднее количество проставленных оценок по жанрам книг. Нужно вызвать две агрегирующие функции: COUNT() найдёт количество, AVG() подсчитает среднее. Однако написать SELECT AVG(COUNT(rating)) не выйдет — получим сообщение об ошибке: «агрегирующие функции не могут быть вложенными» (англ. ERROR: aggregate function calls cannot be nested).<br>
<br>
Сначала нужно вызвать актёров на пробы, а потом просмотреть пробы и выбрать лучшего. Найдём количество оценок по жанрам в подзапросе, а во внешнем запросе рассчитаем среднее полученных значений:

In [None]:
SELECT 
    AVG(Sub.count_rating) AS avg_count_rating
FROM
    (SELECT 
        COUNT(rating) as count_rating
    FROM 
        books
    GROUP BY genre) AS Sub;
    
#В внутреннем запросе подсчитали число оценок книг каждого жанра и сохранили его в поле count_rating. 
#К таблице-результату работы подзапроса теперь можно обратиться во внешнем запросе.

Внутренние запросы могут понадобиться в разных блоках внешнего запроса. Например, устроим подзапрос в блоке WHERE. Тогда выберутся данные из столбца со значениями, сгенерированными в результате работы подзапроса:

In [None]:
SELECT 
    название_столбца, 
    название_столбца_1
FROM 
    название_таблицы
WHERE 
    название_столбца = 
        (SELECT 
            столбец_1
        FROM 
            название_таблицы_2 
        WHERE
            столбец_1  = значение);

Дополним шаблон конструкцией IN, чтобы собирать данные из нескольких столбцов:


In [None]:
SELECT 
    название_столбца, 
    название_столбца_1
FROM 
    название_таблицы
WHERE 
    название_столбца IN  
            (SELECT 
                столбец_1
            FROM 
                название_таблицы_2  
            WHERE 
                столбец_1 = значение_1 OR столбец_1 = значение_2);

## Типы связей в таблицах

В books можно добавить поле author_id, тогда у таблиц будет общее поле. Оно в таблице books будет ссылаться на authors. А в таблице authors по полю id (первичному ключу) можно однозначно определить, о каком писателе идёт речь.


In [1]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/4.books_author-1_1566566763.jpg")

Когда столбец таблицы содержит в себе значения поля другой таблицы, его называют <b>внешний ключ</b> (англ. foreign key). Он отвечает за связь между таблицами. В нашем примере внешний ключ — поле author_id.

In [2]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/4.books_author_1566568424.jpg")

Существуют связи трёх типов:<br>
- «один к одному»;<br>
- «один ко многим»;<br>
- «многие ко многим».

In [3]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/odno_k_odnomu_1566761310.jpg")

<b>Один к одному</b> значит, что строка в первой таблице связана с одной-единственной строкой во второй таблице. По сути такая связь — расщепление одной таблицы на две.<br>
<br>
Например, таблица работников с именами и должностью и таблица с данными для оплаты. Одному сотруднику соответствует одна строка с номером паспорта и банковским счётом, на который начисляют зарплату.

Это редкий тип связи, применяется в основном из соображений безопасности.

In [4]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/4._rabotniki_dannie_1566568622.jpg")

<b>Один ко многим</b> — тип связи, когда каждая строка в одной таблице соответствует многим строкам в другой таблице.<br>
В примере с книгами как раз такая связь. Автор может написать несколько книг, но у одной книги — только один автор.

In [5]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/4.books_author_3_1566568651.jpg")

Бывает, что книги пишут несколько авторов. Например, Илья Ильф и Евгений Петров. Тогда выручает тип связи «многие ко многим».<br>
<br>
<b>Многие ко многим</b> — тип связи, когда несколько строк одной таблицы соответствуют нескольким строкам другой таблицы. Такая связь реализуется за счёт стыковой таблицы. Она соединяет первичные ключи обеих таблиц.

Например,<br>
- Есть таблица authors с авторами и первичным ключом author_id;<br>
- Есть таблица books с информацией о книгах и первичным ключом book_id<br>
Строим стыковую таблицу authors_books, где сопоставляем book_id и author_id:

In [6]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/4.books_author_3_1569507865.jpg")

## ER-диаграммы


Вот фрагмент ER-диаграммы:


In [7]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/PK_FK_1566571379.jpg")

Таблицы на ER-диаграммах изображают прямоугольником, разделённым на два. В верхней части указывают название таблицы. В примере — это books и authors.


In [8]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/PK_FK_name_1566761173.jpg")

В нижней части перечисляют поля таблицы с указанием, к каким ключам они относятся — первичным или внешним. Сами ключи обычно обозначают подписями PK (от англ. primary key, «первичный ключ») и FK (от англ. foreign key, «внешний ключ»). Иногда вместо подписей ставят пиктограмму ключа, символ решётки # или другой — по договорённости.


In [9]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/PK_FK_other_1566761222.jpg")

Как прочитать этот фрагмент ER-диаграммы?<br>
- Таблица books содержит поля: id, name, genre, author_id, date_pub, pages, price, rating, pub_name;<br>
- Первичный ключ — поле id (обозначение PK);<br>
- Внешний ключ — поле author_id (FK).

## Таблицы

products<br>
<br>
В таблице products информация о продуктах. Её поля:<br>
- id_product — поле с уникальным идентификатором продукта. Тип данных: integer. Первичный ключ.<br>
- name — название продукта. Тип данных: varchar().<br>
- category — поле с информацией о категории товара. Тип данных: varchar().<br>
- units — единицы измерения веса продукта. Тип данных: varchar().<br>
- weight — вес. Тип данных: varchar().<br>
К сожалению, инженеры пока не успели обработать баг-репорт. Напомним, что данные поля weight записаны как строки, хотя на самом деле это числа.

stores<br>
В таблице stores информация об интернет-магазинах, данные которых вы собираете.<br>
- id_store — поле с уникальным идентификатором магазина. Тип данных: integer. Первичный ключ.<br>
- name_store — название магазина. Тип данных: varchar().

products_stores
<br>
<br>
Таблица products_stores — стыковая таблица для таблиц stores и products.<br>
- id_product — идентификатор продукта, продающегося в id_store.Тип данных: integer. Внешний ключ таблицы products; составной первичный ключ таблицы products_stores.<br>
- id_store — идентификатор магазина, торгующего id_product. Тип данных: integer. Внешний ключ таблицы stores, составной первичный ключ таблицы products_stores.<br>
- date_upd — дата сбора информации. Тип данных: timestamp. Составной первичный ключ таблицы products_stores.<br>
- price — цена id_product в магазине id_store на дату date_upd. Тип данных: integer.<br>
<br>
ER-диаграмма таблиц products, stores и products_stores выглядит так:<br>

In [10]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/PK_FK_products_1566761553.jpg")

Полная ER-диаграмма, включающая таблицы transactions и weather:


In [11]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/PK_FK_weather_1_1566811042.jpg")

## Поиск пропусков в данных


### IS NULL

In [None]:
SELECT 
    * 
FROM 
    название_таблицы
WHERE 
    название_столбца IS NULL;

In [None]:
SELECT
 * 
FROM 
    название_таблицы
WHERE 
    название_столбца = NULL; -- этот код не сработает!

Вернёмся к таблице books и проверим на пропуски значения в столбце price:


In [None]:
SELECT
    name,
    price
FROM
    books
WHERE 
    price IS NULL;

В таких случаях применяют оператор NOT:


In [None]:
SELECT 
    * 
FROM 
    название_таблицы
WHERE 
    название_столбца IS NOT NULL;

### CASE

Строки с NULL не всегда выгодно отсекать. Можно в самом запросе заменить их на какое-то значение. Например, среднее. Чтобы решить такую задачу, применяют конструкцию CASE (от англ. in case when, «в случае, когда»). Она похожа на if-elif-else в Python:

In [None]:
CASE
        WHEN условие_1 THEN результат_1
        WHEN условие_2 THEN результат_2
        WHEN условие_3 THEN результат_3
        ELSE результат_4
END;

После оператора <b>WHEN</b> (англ. «когда») идёт условие. Если строка таблицы подходит условию, то возвращается результат, указанный в <b>THEN</b> (англ. «тогда»). Если нет, строка проходит проверку по следующему условию. В конце концов, если строка не соответствует ни одному из условий, описанных в <b>WHEN</b>, возвращается значение после <b>ELSE</b> (англ. «иначе»), и конструкция CASE закрывается оператором <b>END</b> (англ. «конец»).

In [None]:
SELECT
    name,
    CASE WHEN price IS NULL THEN 234 -- в уроке про агрегирующие функции 
-- мы рассчитывали среднюю стоимость книги
    ELSE price END AS price_info
FROM
    books;
    
#«Выбери из таблицы books поле «имя» и поле «цена». Если в столбце с ценой нет значения,  замени его на 234. 
#Если значение есть, оставь исходную цену. Новому столбцу дай имя — price_info».

In [None]:
SELECT
	name,
    CASE  WHEN (units='%') AND (weight IS NULL) THEN '72'
        WHEN (units='кг') AND (weight IS NULL) THEN '1'
        WHEN (units='л') AND (weight IS NULL)  THEN '1'
        WHEN (units='мл') AND (weight IS NULL)  THEN '805'
        WHEN (units='г') AND (weight IS NULL) THEN '402'
    ELSE weight END AS weight_info,units
FROM
	products;

## Поиск данных в таблице


### LIKE

Оператор LIKE (англ. «подобный») находит схожие значения в таблице. Искать можно не только целое слово, но и его часть.

In [None]:
название_столбца LIKE 'регулярное выражение'

In [None]:
SELECT 
    * 
FROM 
    books
WHERE 
    author LIKE '%Толст__';

In [None]:
SELECT 
    * 
FROM 
    books
WHERE 
    author NOT LIKE '%Толст__';

Что делать, если нужно найти символ из регулярного выражения как подстроку? Скажем, отыскать в наборе данных знак процента % или нижнего подчёркивания _?<br>
У LIKE есть оператор <b>ESCAPE</b> (от англ. «экранировать»). Ему передают символ, например, восклицательный знак. В регулярном выражении этот восклицательный знак сообщает: «Символ, который идёт после меня не относится к регулярному выражению. Это подстрока, которую нужно найти». Вот фрагмент кода, который найдёт все строки, заканчивающиеся на знак процента % в таблице:

In [None]:
название_столбца LIKE '%!%' ESCAPE '!'
--найдёт все строки заканчивающиеся на %

Из товаров фирм Му и Му-Му выберите продукты категории 'молоко и сливки'. Найдите их среднюю стоимость во Всемирный день молока — 1.06.2019. Сохраните её в переменной avg_price.
Напомним имена полей:
Название компании — name в таблице products;
Категория — category в таблице products;
Продукт — id_product в таблице products;
Цена — price в таблице products_stores.
Дата — date_upd в таблице products_stores.

In [None]:
SELECT
    AVG(price) as avg_price
FROM 
	products_stores
WHERE
    date_upd ='2019-06-01' AND
    id_product IN
                (SELECT
                     id_product
                 FROM
                     products
                 WHERE 
                     name LIKE '%Му%' AND category = 'молоко и сливки'
                )

## JOIN

### JOIN INNER

«Джойнят» таблицы двумя способами: INNER (англ. «внутренний») и OUTER (англ. «внешний»):


In [12]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/inner_join_1566586734.jpg")

Соединение INNER выдаёт строки строго на пересечении двух таблиц. OUTER получает полные данные одной таблицы и к ним добавляет данные на пересечении с другой таблицей.

In [13]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/outer_join_1566586764.jpg")

INNER JOIN формирует выборку только из тех данных, условие для присоединения которых выполняется. От порядка присоединения таблиц результат не изменится.<br>
Пример формата запроса с INNER JOIN:

In [None]:
SELECT --перечисляем только те поля, которые нужны
    TABLE_1.поле_1 AS поле_1,
    TABLE_1.поле_2 AS поле_2,
    ...
    TABLE_2.поле_n AS поле_n
FROM
    TABLE_1
INNER JOIN TABLE_2 ON TABLE_2.поле_1 = TABLE_1.поле_2;

- INNER JOIN — название способа соединения, после него указывают имя таблицы, с которой нужно соединить таблицу из блока FROM;
- ON открывает условие для присоединения: TABLE_2.поле_1 = TABLE_1.поле_2. То есть, соединяют только те строки таблиц, которые соответствуют условию. В нашем случае, равенству значений полей. 

Так как поля в разных таблицах могут быть названы одинаково, к ним обращаются с указанием имени таблицы. Сперва идёт название таблицы, а потом имя её поля: TABLE_1.поле_1.

С этим свойством соединения таблиц нужно быть настороже. Такое дублирование строк — типичная ошибка для SQL-запросов любого уровня сложности.

Напишем запрос, который соберёт в одну таблицу поля:<br>
- название книги (name);<br>
- author_id из таблицы books;<br>
- id из таблицы author;<br>
- имя автора (first_name) из author;<br>
- фамилию автора (last_name) из author.<br>
<br>
Посмотрим на первые три строки:

In [14]:
SELECT 
    books.name AS name,
    books.author_id AS books_author_id,
    author.id AS author_id,
    author.first_name AS first_name,
    author.last_name AS last_name
FROM
    books
INNER JOIN author ON author.id = books.author_id
LIMIT 3;

IndentationError: unexpected indent (<ipython-input-14-779ffddd87f7>, line 2)

Выведите купленные 13 июня 2019 года товары, для которых единица измерения — 'мл'.
Заполучите:
название товара — name из таблицы products
категорию — category из таблицы products
единицы измерения — units из таблицы products
вес — weight из таблицы products
цену — price из таблицы products_stores
Соедините методом INNER JOIN таблицы products_stores и products по полю id_product.
Выведите переменные: name, category, units, weight, price.

In [None]:
SELECT 
    products.name AS name,
    products.category AS category,
    products.units AS units,
    products.weight AS weight,
    products_stores.price AS price
FROM
	products
INNER JOIN products_stores ON products_stores.id_product = products.id_product
WHERE
    products.units = 'мл' AND
    CAST(products_stores.date_upd AS date) = '2019-06-13';

## Внешнее объединение таблиц. LEFT JOIN


LEFT JOIN возьмёт все данные левой таблицы и строки на пересечении левой и правой, которые удовлетворяют условию присоединения. RIGHT JOIN, наоборот, возьмёт всю правую таблицу, и строки на пересечении с левой, соответствующие условию.


In [15]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/left_join_1566634514.jpg")

In [None]:
SELECT 
    TABLE_1.поле_1 AS поле_1,
    TABLE_1.поле_2 AS поле_2,
    ...
    TABLE_2.поле_n AS поле_n
FROM
    TABLE_1
LEFT JOIN TABLE_2 ON TABLE_2.поле = TABLE_1.поле;

## Внешнее объединение таблиц. RIGHT JOIN


In [16]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/right_join_1566636335.jpg")

In [None]:
SELECT 
    TABLE_1.поле_1 AS поле_1,
    TABLE_1.поле_2 AS поле_2,
    ...
    TABLE_2.поле_n AS поле_n
FROM
    TABLE_1
RIGHT JOIN TABLE_2 ON TABLE_1.поле = TABLE_2.поле;

Любой запрос с LEFT JOIN можно записать как запрос с RIGHT JOIN. И наоборот. Решите задачу из прошлой темы, но способом RIGHT JOIN.
Выведите уникальные названия товаров, которые не продавались в магазине с уникальным идентификатором 3.
1) Выберите уникальные названия продуктов name из таблицы products. Сохраните их в переменной name.
2) Методом RIGHT JOIN объедините подзапрос subquery с внешним запросом по полю id_product. В подзапросе выберите уникальные id_product из таблицы transactions, где id_store равен 3.
3) В блоке WHERE внешнего запроса выполните проверку значений поля id_product таблицы subquery на пропуски.

In [None]:
SELECT
    products.name AS name
FROM 
	(
	SELECT --выберите уникальные продукты из магазина 3
        DISTINCT transactions.id_product
	FROM
		transactions
	WHERE
		id_store = 3
	) AS subquery
RIGHT JOIN products ON subquery.id_product = products.id_product
WHERE 
		subquery.id_product IS NULL


## Объединение нескольких таблиц


Пример формата запроса с несколькими INNER JOIN:


In [None]:
SELECT --перечисляем только те поля, которые нужны
    TABLE_1.поле_1 AS поле_1,
    TABLE_1.поле_2 AS поле_2,
    ...
    TABLE_3.поле_n AS поле_n
FROM
    TABLE_1
INNER JOIN TABLE_2 ON TABLE_2.поле = TABLE_1.поле
INNER JOIN TABLE_3 ON TABLE_3.поле = TABLE_1.поле;

Решим задачу. Соединим название произведения, автора и жанр:


In [None]:
SELECT 
    books.name AS books_name,
    books.author_id AS books_author_id,
    author.first_name AS author_first_name,
    author.last_name AS author_last_name,
    books.genre AS books_genre_id,
    genres.name AS genre_name
FROM
    books
INNER JOIN author ON author.id = books.author_id
INNER JOIN genres ON genres.id = books.genre;

Соединять в одном запросе несколько таблиц можно не только методом INNER JOIN, но и RIGHT JOIN или LEFT JOIN. Применим RIGHT JOIN:

In [None]:
SELECT
    books.name AS name,
    genres.name AS genre_name,
    author.first_name AS first_name,
    author.last_name AS last_name
FROM
    books
INNER JOIN author ON author.id = books.author_id
RIGHT JOIN genres ON genres.id = books.genre;

## Агрегация в запросах с JOIN


In [None]:
SELECT
    genres.name AS genre_name,
    COUNT(books.name) AS name_cnt
FROM
    books
INNER JOIN genres ON genres.id = books.genre
GROUP BY 
    genre_name;

Найдём количество книг каждого жанра, сгруппированных по авторам:


In [None]:
SELECT
    genres.name AS genre_name,
    author.first_name AS author_first_name,
    author.last_name AS author_last_name,
    COUNT(books.name) AS name_cnt
FROM
    books
INNER JOIN genres ON genres.id = books.genre
INNER JOIN author ON author.id = books.author_id
GROUP BY 
    genre_name,
    author_first_name,
    author_last_name;


Для каждой транзакции найдите общую стоимость покупок и их количество.
Выберите столбец id_transaction таблицы transactions.
Рассчитайте сумму значений столбца price в таблице products_stores. Сохраните её в переменной total.
Найдите количество значений столбца id_product в таблице products_stores. Сохраните его в переменной amount.
Способом LEFT JOIN присоедините таблицу products_stores к transactions по трём одновременным условиям:
Данные столбцов products_stores.date_upd и transactions.date равны. Приведите значения полей к нужному типу конструкцией CAST.
Данные столбцов products_stores.id_product и transactions.id_product равны.
Данные столбцов products_stores.id_store и transactions.id_store равны.
Сгруппируйте данные по значениям столбца id_transaction таблицы transactions.
Выведите только такие транзакции, стоимость которых больше 1000. В блоке HAVING укажите условие: SUM(products_stores.price) > 1000.

In [None]:
SELECT 
    transactions.id_transaction,
    SUM(products_stores.price) AS total,
    COUNT(products_stores.id_product) AS amount
FROM 
	transactions
LEFT JOIN products_stores ON CAST(products_stores.date_upd AS date) = CAST(transactions.date AS date) AND
products_stores.id_product = transactions.id_product AND
products_stores.id_store = transactions.id_store
GROUP BY
    transactions.id_transaction
HAVING
	SUM(products_stores.price) > 1000;


## Объединение запросов


Операторы UNION (англ. «слияние») и UNION ALL (англ. «слияние всех») «склеивают» данные из таблиц. Синтаксис операторов выглядит так:

In [None]:
SELECT 
    название_столбца_1  
FROM 
    таблица_1
UNION --( или UNION ALL)
SELECT 
    название_столбца_1  
FROM 
    таблица_2;

UNION «склеивает» данные так, что дублирующиеся строки не попадают в результат.


In [17]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/a_union_b_1566639708.jpg")

В отличие от UNION, UNION ALL оставляет дубликаты в результирующем наборе. Он годится, когда мы точно знаем, что пересечений в объединяемых таблицах нет, или когда дубликаты нам нужны.


In [18]:
from IPython.display import Image
from IPython.core.display import HTML 
Image(url= "https://pictures.s3.yandex.net/resources/a_union_all_b_1566640118.jpg")