# ЧТО ТАКОЕ БАЗЫ ДАННЫХ?
**База данных** — это организованная структура для хранения, изменения и обработки взаимосвязанной информации.

# ВИДЫ БАЗ ДАННЫХ
Базы данных можно разделить на два вида:

* **Реляционные**. В таких БД данные хранятся в виде связанных таблиц. В этом курсе мы сфокусируемся именно на реляционных БД.
* **Нереляционные**. Такие БД имеют специфическую структуру: например, данные хранятся в формате ключ-значение или в виде дерева.
# ХРАНЕНИЕ ДАННЫХ В БД
Данные в реляционных БД хранятся в виде **таблиц**. Каждая таблица обычно содержит данные, относящиеся к похожим объектам. У каждой таблицы есть название: оно соотносится с тем, какая информация хранится в таблице.

Таблицы в БД состоят из **строк** и **столбцов**. Каждый столбец имеет своё уникальное название, которое также отмечает вид хранимой в нём информации. В каждой строке хранится информация об одном объекте.

Таблица содержит определённое число столбцов, но может иметь любое количество строк.

*Обратите внимание!* Для связи данных в разных таблицах часто используют **ID** — уникальный идентификатор какой-либо строки. Имя или какой-либо признак с этой целью не используются, поскольку они могут быть неуникальными.
# СИСТЕМЫ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ
Данные мало хранить — с ними нужно работать: записывать, модифицировать и удалять. В этом помогает **СУБД**.

**Система управления базами данных**, или **СУБД** (от англ. DataBase Management System, DBMS) — это комплекс программных средств, необходимых для создания структуры новой базы, её наполнения, редактирования содержимого и отображения информации.

Существует множество СУБД, наиболее распространённые из них — MySQL, PostgreSQL, Oracle, Microsoft SQL Server. Для очень большого объёма данных также используют ClickHouse, Hadoop и др.

→ В рамках курса мы будем использовать PostgreSQL 11 версии. За дополнительной информацией по учебным материалам вы всегда можете обращаться к [англоязычной](https://www.postgresql.org/docs/11/index.html) или [русскоязычной](https://postgrespro.ru/docs/postgresql/11/index) версиям документации.

Для работы с данными, хранящимися в БД, используется специальный язык — **SQL**, который мы и будем изучать. Для работы с разными СУБД используются разные диалекты SQL.

---
# Что такое SQL?
✍ Как вы уже знаете, для взаимодействия с базами данных через СУБД часто используется язык SQL (Structured Query Language). Он применяется для создания, модификации и управления данными.

С его помощью составляются **запросы** — своего рода вопросы, которые мы задаём, чтобы получить некоторую информацию о данных, хранящихся в БД.

**SQL-запрос** представляет собой совокупность операторов, инструкций, вычисляемых функций.

Базы данных могут не только возвращать данные, которые вы просите, но и выполнять различные расширенные вычисления.

⭐ Мы начнём с очень простых запросов и будем усложнять их шаг за шагом. К концу этого тематического раздела вы сможете писать достаточно сложные запросы.
# ВИДЫ ОПЕРАТОРОВ SQL
Операторы SQL делятся на:

* **операторы определения данных (Data Definition Language, DDL)** — с их помощью создаются и изменяются объекты в БД (сама БД, таблицы, функции, процедуры, пользователи и т. д.);
* **операторы манипуляции данными (Data Manipulation Language, DML)** — с их помощью проводятся манипуляции с данными в таблицах;
* **операторы определения доступа к данным (Data Control Language, DCL)** — с их помощью, как следует из названия, создаются и изменяются разрешения на определённые операции с объектами в БД;
* **операторы управления транзакциями (Transaction Control Language, TCL)** — с их помощью осуществляется комплекс определённых действий, причём так, что либо все эти действия выполняются успешно, либо ни одно из них не выполняется вообще.

→ Мы будем изучать только DML-операторы (для манипуляций с данными), а конкретнее — оператор SELECT, который позволяет выбрать из БД интересующие нас данные.

---
# Что такое Metabase?
✍ Для написания запросов к БД необходим специальный инструмент. Это может быть терминал в ОС, специализированная программа (например, одна из распространённых — DataGrip) или веб-сервис. Именно такой веб-сервис мы будем использовать.

**Metabase** — это бесплатный и удобный инструмент для первичного анализа данных с возможностью передавать запросы.

**Структура простого запроса:**
```
SELECT DISTINCT (DISTINCT - различные)
    столбец1 AS новое_название,
    столбец2,    столбец3
FROM таблица
WHERE (условие1 OR условие2) AND (BETWEEN число1 AND число2) 
    AND (столбец2 IS NOT NULL) AND (столбец3 IN (value1, value2, value3)) AND столбец1 LIKE '_а%б%_' 
                                                                       (% любое количество символов, _ один любой символ)

ORDER BY сортировка1 ASC, сортировка2 DESC NULLS FIRST (Пустые значения сначала, можно last)
OFFSET 1 LIMIT 2 (OFFSET - пропускаем 1 строку сверху, LIMIT - берем первые 2 строки)


ПРИМЕР:

select 
    movie_title,
    director,
    screenwriter,
    actors
from sql.kinopoisk
where (rating between 8 and 8.5 or year<1990) and (overview is not null) and (movie_title not like 'Т%') and (movie_title like '____________')
order by rating desc
limit 7
```

**Основные агрегатные функции:**
* COUNT — вычисляет число непустых строк;
* SUM — вычисляет сумму;
* AVG — вычисляет среднее;
* MAX — вычисляет максимум;
* MIN — вычисляет минимум.

```
SELECT [ALL | DISTINCT] список_столбцов|*
FROM список_имён_таблиц
[WHERE условие_поиска] - отбор по группировачным полям
[GROUP BY список_имён_столбцов]
[HAVING условие_поиска] - отбор по аггрегирущему полю (sum, avg, min, max, count) применяется после группировки
[ORDER BY имя_столбца [ASC | DESC],…]
```

---
```
SELECT
    столбец1 AS новое_название,
    столбец2,
    АГРЕГАТ(столбец3)
FROM таблица
WHERE (условие1 OR условие2)
    AND условие3
GROUP BY столбец1, столбец2
HAVING АГРЕГАТ(столбец3) > 5
ORDER BY сортировка1, сортировка2
OFFSET 1 LIMIT 2

ПРИМЕР:

select
  type1 as primary_type,
  count(*) as pokemon_count
from sql.pokemon
where name like 'S%'
group by type1
having avg(defense)>80
order by pokemon_count DESC
limit 3

```

# Виды join

- CROSS JOIN соединяет таблицы так, что каждая запись в первой таблице присоединяется к каждой записи во второй таблице ― иначе говоря, даёт декартово произведение.

- INNER JOIN — это тот же JOIN (слово INNER в операторе можно опустить).

    Для INNER JOIN работает следующее правило: присоединяются только те строки таблиц, которые удовлетворяют условию соединения. Если в любой из соединяемых таблиц находятся такие строки, которые не удовлетворяют заявленному условию, — они отбрасываются.

- Ключевое слово NATURAL в начале оператора JOIN позволяет не указывать условие соединения таблиц — для соединения будут использованы столбцы с одинаковым названием из этих таблиц.

    NATURAL JOIN можно использовать с любыми видами соединений, которые требуют определённого условия:

    NATURAL INNER JOIN (возможна запись NATURAL JOIN);
    NATURAL LEFT JOIN;
    NATURAL RIGHT JOIN;
    NATURAL FULL OUTER JOIN.
    При использовании NATURAL JOIN прежде всего стоит обратить внимание на ключи таблиц.

    Когда у таблиц есть несколько столбцов с одинаковыми именами, при NATURAL JOIN условие соединения будет применено на все столбцы с одинаковыми именами.

- Для LEFT JOIN работает следующее правило: из левой (относительно оператора) таблицы сохраняются все строки, а из правой добавляются только те, которые соответствуют условию соединения. Если в правой таблице не находится соответствия, то значения строк второй таблицы будут иметь значение NULL.

    LEFT JOIN полезен, когда соответствующих записей во второй таблице может не быть, но важно сохранить записи из первой таблицы.

    Чтобы из LEFT JOIN получить RIGHT JOIN, нужно просто поменять порядок соединения таблиц.

- Оператор FULL OUTER JOIN объединяет в себе LEFT и RIGHT JOIN и позволяет сохранить кортежи обеих таблиц. Даже если не будет соответствий, мы сохраним все записи из обеих таблиц.

    FULL OUTER JOIN может быть полезен в ситуациях, когда схема данных недостаточно нормализована и не хватает таблиц-справочников.

    Пример: в базе данных интернет-магазина есть две таблицы — с зарегистрированными пользователями и пользователями, оформившими заказ. При этом оформить заказ можно без регистрации, а зарегистрироваться — без оформления заказа.

    Предположим, что вам необходимо получить полный список пользователей — и оформивших заказ, и зарегистрированных, — но в базе данных этой объединённой таблицы нет. В данном случае можно использовать FULL OUTER JOIN для получения полного списка, соединив таким образом таблицы c заказами и регистрациями по id пользователя.

- Для RIGHT JOIN работает следующее правило: из правой (относительно оператора) таблицы сохраняются все строки, а из левой добавляются только те, которые соответствуют условию соединения. Если в левой таблице не находится соответствия, то значения строк второй таблицы будут иметь значение NULL.

    RIGHT JOIN полезен, когда соответствующих записей во второй таблице может не быть, но важно сохранить записи из первой таблицы.

    Чтобы из RIGHT JOIN получить LEFT JOIN, нужно просто поменять порядок соединения таблиц.

    Вообще, применение RIGHT JOIN считается дурным тоном, так как язык SQL читается и пишется слева направо, и этот оператор усложняет чтение запросов.

Выведите количество матчей между командами Real Madrid CF и FC Barcelona

```
select
  count(m.id)
from
  sql.matches m
  join sql.teams t_home on (m.home_team_api_id=t_home.api_id) and t_home.long_name in ('Real Madrid CF','FC Barcelona') 
  join sql.teams t_away on (m.away_team_api_id=t_away.api_id) and t_away.long_name in ('Real Madrid CF','FC Barcelona')
  ```

Для типизации в Postgres составляется запрос по модели **column_name::column_type**.

```
SELECT 
         c.city_id::text ( приведение типа Число к Строке)
FROM
         sql.city c
UNION ALL
SELECT 
         cc.city_name
FROM
         sql.city cc
```

Напишите запрос, который выводит общее число доставок total_shipments, а также количество доставок в каждый день. Необходимые столбцы: date_period, cnt_shipment. Не забывайте о единой типизации. Упорядочите по убыванию столбца date_period.

```
select 
    ship_date::text as date_period, 
    count(ship_id) as cnt_shipment
from
    sql.shipment
group by 
    ship_date
    
union all

select
    'total_shipments',
    count(*)
FROM
    sql.shipment
ORDER BY 1 DESC
```


Напишите запрос, который выведет все города и штаты, в которых они расположены, а также информацию о том, была ли осуществлена доставка в этот город:

если в город была осуществлена доставка, то выводим 'доставка осуществлялась';
если нет — выводим 'доставка не осуществлялась'.
Столбцы к выводу: city_name, state, shipping_status. Отсортируйте в алфавитном порядке по городу, а затем — по штату.

-- Введите свое решение ниже
```
select
  city_name,
  state,
  'доставка не осуществлялась' shipping_status
from
  sql.city c
  left join sql.shipment s on c.city_id=s.city_id
where
  s.ship_id is null
  
union

-- Введите свое решение ниже
select
  city_name,
  state,
  'доставка осуществлялась' shipping_status
from
  sql.city c
  left join sql.shipment s on c.city_id=s.city_id
where
  s.ship_id is not null
order by 1,2  
```


Напишите запрос, который выводит два столбца: city_name и shippings_fake. Выведите города, куда совершались доставки. Пусть первый столбец содержит название города, а второй формируется так:

если в городе было более десяти доставок, вывести количество доставок в этот город как есть;
иначе — вывести количество доставок, увеличенное на пять.
Отсортируйте по убыванию получившегося «нечестного» количества доставок, а затем — по имени в алфавитном порядке.
```
select
  city_name,
  count(s.city_id) shippings_fake
from
  sql.city c
  join sql.shipment s on c.city_id=s.city_id
group by s.city_id,city_name
having
  count(s.city_id)>10
--
union
--
select
  city_name,
  count(s.city_id)+5 shippings_fake
from
  sql.city c
  join sql.shipment s on c.city_id=s.city_id
group by s.city_id,city_name
having
  count(s.city_id)<=10
order by 2 desc, 1
```

# UNION и ручная генерация
Напишите запрос, который выберет наибольшее из значений:

1000000;
541;
-500;
100.
Столбец с результатом назовите result.
```
-- Введите свое решение ниже
select 
  1000000 result
  
union

select 
  541
  
union

select 
  -500

union

select 
  100
  
order by result desc
limit 1
```

Помним, что сортировка для числовых и строковых типов данных отличается. Построив запрос по аналогии с примером, приведите значения к текстовому типу данных, сравните и выберите наибольшее из них:

1000000;
541;
-500;
100.
Столбец с ответом назовите mycol
```
SELECT 
    MAX(mycol) AS mycol
FROM 
    (
        SELECT '1000000' AS mycol
        UNION
        SELECT '541'
        UNION
        SELECT '-500'
        UNION
        SELECT '100'
    ) AS temp_table;
```

Построив запрос по аналогии с примером, найдите самое большое значение из перечисленных операторов:

- '+'
- '-'
- '='
- '/'

Столбец с ответом назовите result
```
-- Введите свое решение ниже
SELECT 
    MAX(mycol) AS mycol
FROM 
    (
        SELECT '+' AS mycol
        UNION
        SELECT '-'
        UNION
        SELECT '='
        UNION
        SELECT '/'
    ) AS temp_table;
```

# EXCEPT
**EXCEPT оставляет из результатов первого запроса строки, которых нет в результате выполнения второго запроса. В результате также убирает дубликаты**

Выведите список zip-кодов, которые есть в таблице sql.driver, но отсутствуют в таблице sql.customer. Отсортируйте по возрастанию, столбец к выводу — zip. В поле ниже введите запрос, с помощью которого вы решили эту задачу.
```
select 
    zip_code
from
    sql.driver

except

select 
    zip
from
    sql.customer
order by 1
```

# INTERSECT
**INTERSECT оставляет из результатов первого запроса все строки, которые совпали с результатом выполнения второго запроса. В результате также убирает дубликаты**

Напишите запрос, который выведет список id городов, в которых есть и клиенты, и доставки, и водители.
```
SELECT
    city_id
FROM
    sql.driver
INTERSECT

SELECT 
    city_id
FROM
    sql.shipment
INTERSECT

SELECT 
    city_id
FROM
    sql.customer
```

Выведите zip-код, который есть как в таблице с клиентами, так и в таблице с водителями.
```
select 
    zip_code
from
    sql.driver

intersect

select 
    zip
from
    sql.customer
```

# МАКЕТ
```
SELECT          N columns
FROM          table_1
UNION / UNION ALL / EXCEPT / INTERSECT 
SELECT          N columns
FROM          table_2
```

# ИТОГОВЫЕ ЗАДАНИЯ
Выведите города с максимальным и минимальным весом единичной доставки. Столбцы к выводу — city_name, weight.
```
-- Введите свое решение ниже
(select
  city_name,
  max(weight) weight
from
  sql.shipment s
  join sql.city c on s.city_id=c.city_id 
group by c.city_id, city_name
order by 2 desc
limit 1)
union
(select
  city_name,
  min(weight) weight
from
  sql.shipment s
  join sql.city c on s.city_id=c.city_id 
group by c.city_id, city_name
order by 2
limit 1)
```

Выведите идентификационные номера клиентов (cust_id), которые совпадают с идентификационными номерами доставок (ship_id). Столбец к выводу — mutual_id. Отсортируйте по возрастанию.
```
select
  cust_id mutual_id
from
  sql.customer
intersect
select
  ship_id
from
  sql.shipment
order by 1
```

Создайте справочник, содержащий уникальные имена клиентов, которые являются производителями (cust_type='manufacturer'), и производителей грузовиков, а также описание объекта — 'КЛИЕНТ' или 'ГРУЗОВИК'. Столбцы к выводу — object_name, object_description. Отсортируйте по названию в алфавитном порядке.
```
select
  cust_name object_name,
  'КЛИЕНТ' object_description
from
  sql.customer
where
  cust_type='manufacturer'

union

select
  make,
  'ГРУЗОВИК'
from
  sql.truck
order by 1
```

# Даты: основные типы
## TIMESTAMP
Timestamp — наиболее распространённый тип данных, так как он содержит и дату, и время, а также используется в любых логах событий, временных рядах и в большинстве системных таблиц.

Согласно стандарту [ISO](https://ru.wikipedia.org/wiki/ISO_8601), значение выглядит как "2019-07-14 01:35:44.702165+00", где перечислены через точку год-месяц-день, время и часовой пояс.

```
SELECT NOW() и SELECT CURRENT_TIMESTAMP
```
## TIMESTAMP WITH TIME ZONE
Timestamp with time zone позволяет хранить сведения о часовом поясе, что может быть удобно при анализе географически распределённых временных данных для единообразия хранения.


```
show timezone
```

- timestamp without time zone AT TIME ZONE часовой_пояс | timestamp with time zone | Воспринимает время, заданное без указания часового пояса, как время в указанном часовом поясе.
- timestamp with time zone AT TIME ZONE часовой_пояс | timestamp without time zone | Переводит значение timestamp с часовым поясом в другой часовой пояс, но не сохраняет информацию о нём в результате.
- time with time zone AT TIME ZONE часовой_пояс | time with time zone | Переводит время с часовым поясом в другой часовой пояс.

```
select now() at time zone 'America/Los_Angeles'
```

## DATE
С типом date вы уже знакомы, его реализация предельно проста. Отметим только, что тип timestamp (with/without time zone) можно легко перевести в соответствующую дату, используя синтаксис
```
"timestamp_column"::date
```

И наоборот, тип date преобразуется в timestamp (дата и 00:00:00) с помощью
```
"date_column"::timestamp
```

Для получения текущей даты можно использовать
```
select CURRENT_DATE
или
select now()::date
```

# Обобщённое табличное выражение, оператор [WITH](https://sql-academy.org/ru/guide/operator-with#primery-zaprosov)
Обобщённое табличное выражение или CTE (Common Table Expressions) - это временный результирующий набор данных, к которому можно обращаться в последующих запросах. Для написания обобщённого табличного выражения используется оператор WITH.
```
Пример использования конструкции WITH

WITH Aeroflot_trips AS
    (SELECT TRIP.* FROM Company
        INNER JOIN Trip ON Trip.company = Company.id WHERE name = "Aeroflot")

SELECT plane, COUNT(plane) AS amount FROM Aeroflot_trips GROUP BY plane;
```

Выражение с WITH считается «временным», потому что результат не сохраняется где-либо на постоянной основе в схеме базы данных, а действует как временное представление, которое существует только на время выполнения запроса, то есть оно доступно только во время выполнения операторов SELECT, INSERT, UPDATE, DELETE или MERGE. Оно действительно только в том запросе, которому он принадлежит, что позволяет улучшить структуру запроса, не загрязняя глобальное пространство имён.

### Синтаксис оператора WITH
```
WITH название_cte [(столбец_1 [, столбец_2 ] …)] AS (подзапрос)
    [, название_cte [(столбец_1 [, столбец_2 ] …)] AS (подзапрос)] …
```

Порядок использования оператора WITH:

- Ввести оператор WITH
- Указать название обобщённого табличного выражения
- Опционально: определить названия для столбцов получившегося табличного выражения, разделённых знаком запятой
- Ввести AS и далее подзапрос, результат которого можно будет использовать в других частях SQL запроса, используя имя, определённое на 2 этапе
- Опционально: если необходимо более одного табличного выражения, то ставится запятая и повторяются шаги 2-4

Примеры:

Создаём табличное выражение Aeroflot_trips, содержащие все полёты, совершенные авиакомпанией «Aeroflot»
```
WITH Aeroflot_trips AS
    (SELECT plane, town_from, town_to FROM Company
        INNER JOIN Trip ON Trip.company = Company.id WHERE name = "Aeroflot")

SELECT * FROM Aeroflot_trips;

plane	town_from	town_to
IL-86	Moscow  	Rostov
IL-86	Rostov  	Moscow
```

Аналогично, создаём табличное выражение Aeroflot_trips, но с переименованными колонками
```
WITH Aeroflot_trips (aeroflot_plane, town_from, town_to) AS
    (SELECT plane, town_from, town_to FROM Company
        INNER JOIN Trip ON Trip.company = Company.id WHERE name = "Aeroflot")

SELECT * FROM Aeroflot_trips;


aeroflot_plane	town_from	town_to
IL-86	        Moscow	    Rostov
IL-86	        Rostov	    Moscow
```

С помощью оператора WITH определяем несколько табличных выражений
```
WITH Aeroflot_trips AS
    (SELECT TRIP.* FROM Company
        INNER JOIN Trip ON Trip.company = Company.id WHERE name = "Aeroflot"),
    Don_avia_trips AS
    (SELECT TRIP.* FROM Company
        INNER JOIN Trip ON Trip.company = Company.id WHERE name = "Don_avia")

SELECT * FROM Don_avia_trips UNION SELECT * FROM  Aeroflot_trips;

id      company     plane	town_from	town_to	time_out	                time_in
1181	1	    TU-134	Rostov	        Moscow	1900-01-01T06:12:00.000Z	1900-01-01T08:01:00.000Z
1182	1	    TU-134	Moscow	        Rostov	1900-01-01T12:35:00.000Z	1900-01-01T14:30:00.000Z
1187	1	    TU-134	Rostov	        Moscow	1900-01-01T15:42:00.000Z	1900-01-01T17:39:00.000Z
1188	1	    TU-134	Moscow	        Rostov	1900-01-01T22:50:00.000Z	1900-01-02T00:48:00.000Z
1195	1	    TU-154	Rostov	        Moscow	1900-01-01T23:30:00.000Z	1900-01-02T01:11:00.000Z
1196	1	    TU-154	Moscow	        Rostov	1900-01-01T04:00:00.000Z	1900-01-01T05:45:00.000Z
1145	2	    IL-86	Moscow	        Rostov	1900-01-01T09:35:00.000Z	1900-01-01T11:23:00.000Z
1146	2	    IL-86	Rostov	        Moscow	1900-01-01T17:55:00.000Z	1900-01-01T20:01:00.000Z
```

Предположим, у нас есть дата и время какого-то события и мы хотим посмотреть, к какой дате оно относится для Москвы и для UTC. Используйте следующий подзапрос и выведите дату в ts в Московском часовом поясе и в поясе UTC:

Столбцы в выдаче: dt_msk (дата в московском часовом поясе), dt_utc (дата в UTC).

```
-- Введите свое решение ниже
with x as 
(
select '2018-12-31 21:00:00+00'::timestamp with time zone ts
)

select
  (ts at time zone 'Europe/Moscow')::date dt_msk,
  (ts at time zone 'UTC')::date dt_utc
from x
```

# INTERVAL
**Interval** — тип данных, позволяющий хранить разницу между двумя временными метками. 

Интервалы хранят данные в трёх отдельных полях — месяцах, днях, секундах. Это сделано из-за того, что количество дней в месяце и часов в дне может быть разным. Пример значения такого типа: "195 days -10:52:23.563955".

# ФУНКЦИИ
### ФУНКЦИЯ EXTRACT()
Функция extract() получает из значений даты/времени такие поля, как год или час.

Здесь источник — значение типа timestamp, time или interval. Допускается и тип date, поскольку он приводится к типу timestamp.

Указанное поле представляет собой идентификатор, по которому из источника выбирается заданное поле. Функция extract() возвращает значения типа double precision.

- **DAY**

    Для значений timestamp это день месяца (1-31), для значений interval — число дней.

    ```
    SELECT EXTRACT(DAY FROM TIMESTAMP '2001-02-16 20:38:40');
    ```
    Результат: 16

    ```
    SELECT EXTRACT(DAY FROM INTERVAL '40 days 1 minute');
    ```
    Результат: 40
- **HOUR**

    Час (0-23).
    ```
    SELECT EXTRACT(HOUR FROM TIMESTAMP '2001-02-16 20:38:40');
    ```
    Результат: 20
- **MONTH**

    Номер месяца, считая с января (1) до декабря (12).
    ```
    SELECT EXTRACT(MONTH FROM TIMESTAMP '2001-02-16 20:38:40');
    ```
    Результат: 2
- **YEAR**

    Поле года. Учтите, что года 0 не было, и это следует иметь в виду, вычитая из годов нашей эры годы до нашей эры.
    ```
    SELECT EXTRACT(YEAR FROM TIMESTAMP '2001-02-16 20:38:40');
    ```
    Результат: 2001
- **ISOYEAR**

    Год по недельному календарю ISO 8601, в который попадает дата (не применимо к интервалам).
    ```
    SELECT EXTRACT(ISOYEAR FROM DATE '2006-01-01');
    ```
    Результат: 2005
    ```
    SELECT EXTRACT(ISOYEAR FROM DATE '2006-01-02');
    ```
    Результат: 2006

    Год по недельному календарю ISO начинается с понедельника недели, в которой оказывается 4 января, так что в начале января или в конце декабря год по ISO может отличаться от года по григорианскому календарю. Подробнее об этом рассказывается в описании поля week.
- **WEEK**

    Номер недели в году по недельному календарю ISO 8601. По определению, недели ISO 8601 начинаются с понедельника, а первая неделя года включает 4 января этого года. Другими словами, первый четверг года всегда оказывается в первой неделе этого года.

    В системе нумерации недель ISO первые числа января могут относиться к 52-й или 53-й неделе предыдущего года, а последние числа декабря — к первой неделе следующего года.

    Например, 2005-01-01 относится к 53-й неделе 2004 г., а 2006-01-01 — к 52-й неделе 2005 г., тогда как 2012-12-31 включается в первую неделю 2013 г.

    Поэтому для получения согласованных результатов рекомендуется использовать поле isoyear в паре с week.
    ```
    SELECT EXTRACT(WEEK FROM TIMESTAMP '2001-02-16 20:38:40');
    ```
    Результат: 7
- **CENTURY**

    ```
    SELECT EXTRACT(CENTURY FROM TIMESTAMP '2000-12-16 12:21:13');
    ```
    Результат: 20
    ```
    SELECT EXTRACT(CENTURY FROM TIMESTAMP '2001-02-16 20:38:40');
    ```
    Результат: 21

    Первый век начался 0001-01-01 00:00:00, хотя люди в то время так и не считали. Это определение распространяется на все страны с григорианским календарём.

    Века с номером 0 не было; считается, что 1 наступил после -1.

    Если такое положение вещей вас не устраивает, направляйте жалобы по адресу: Ватикан, Собор Святого Петра, Папе Римскому, лично в руки :)
- **DECADE**

    Для значений timestamp with time zone это число секунд с 1970-01-01 00:00:00 UTC (может быть отрицательным); для значений date и timestamp это число секунд с 1970-01-01 00:00:00 по местному времени, а для interval — общая длительность интервала в секундах.

    ```
    SELECT EXTRACT(EPOCH FROM TIMESTAMP WITH TIME ZONE '2001-02-16 20:38:40.12-08');
    ```
    Результат: 982384720.12
    ```
    SELECT EXTRACT(EPOCH FROM INTERVAL '5 days 3 hours');
    ```
    Результат: 442800

    Преобразовать время эпохи обратно, в значение дата/время, с помощью to_timestamp можно так:
    ```
    SELECT to_timestamp(982384720.12);
    ```
    Результат: 2001-02-17 04:38:40.12+00

- **DOW**

    День недели, считая с воскресенья (0) до субботы (6).
    ```
    SELECT EXTRACT(DOW FROM TIMESTAMP '2001-02-16 20:38:40');
    ```
    Результат: 5
    
    Заметьте, что в extract() дни недели нумеруются не так, как в функции to_char(..., 'D').

- **DOY**

    День года (1-365/366).

    ```
    SELECT EXTRACT(DOY FROM TIMESTAMP '2001-02-16 20:38:40');
    ```
    Результат: 47

- **ISODOW**

    День недели, считая с понедельника (1) до воскресенья (7).

    ```
    SELECT EXTRACT(ISODOW FROM TIMESTAMP '2001-02-18 20:38:40');
    ```
    Результат: 7
    
    Результат отличается от dow только для воскресенья. Такая нумерация соответствует ISO 8601.

### ФУНКЦИЯ TO_CHAR()
Функция to_char() нужна для форматирования даты времени и интервалов в нужный текст.

Например, вы хотите вывести год, месяц и день со специфическим разделителем или получить текстовое наименование месяца или дня недели. По результату работы она очень близка к extract(), но больше нацелена именно на форматирование. Ниже вы видите таблицу с примерами вызовов:
```
Функция	                        Тип результата	Описание	                    Пример
to_char(timestamp[date],text)	text	        преобразует время в текст	    to_char(current_timestamp, 'HH12:MI:SS')
to_char(interval, text)	        text	        преобразует интервал в текст	to_char(interval '15h 2m 12s', 'HH24:MI:SS')
```

Первый параметр для функции — дата, время или интервал, а второй — текстовая маска получаемого результата. Перечень значений, которые можно использовать для маски, представлен в таблице ниже.
```
Код форматирования	Описание
HH24	                час (00-23)
MI	                минута (00-59)
SS	                секунда (00-59)
MS	                миллисекунда (000-999)
SSSS	                число секунд с начала суток (0-86399)
YYYY	                год (4 или более цифр)
YY	                последние две цифры года
month	                полное название месяца в нижнем регистре (дополненное пробелами до девяти символов)
MM	                номер месяца (01-12)
day	                полное название дня недели в нижнем регистре, дополненное пробелами до девяти символов
DDD	                номер дня в году (001-366)
DD	                день месяца (01-31)
ID	                номер дня недели по ISO 8601, считая с понедельника (1) до воскресенья (7)
WW	                номер недели в году (1-53); первая неделя начинается в первый день года
```
Полный [перечень](https://postgrespro.ru/docs/postgrespro/9.5/functions-formatting) 

#### Любой текст, который относится к кодам форматирования, будет сохранён как есть. Чтобы оставлять какие-то подсказки и использовать обычные буквы, которые не встречаются в таблице выше, необходимо заключить текст, который нужно оставить без изменений, в **двойные кавычки**.

Пример:

Давайте выведем текст текущего времени для сервиса точного времени. Напишите запрос, который выводит текст "Точное время x часов y минут z секунд" (текст в кавычки заключать не нужно), где x, y, z — часы, минуты и секунды соответственно, при условии, что сообщение нужно вывести для московского часового пояса. Время введите в 24-часовом формате. Столбцы в выдаче: msg (сообщение).
```
select
  to_char(now() at time zone 'Europe/Moscow',
         '"Точное время "HH24" часов "MI" минут "SS" секунд"') as msg

```

### ФУНКЦИЯ DATE_TRUNC()
Функция date_trunc() позволяет отсечь заданное время, дату или дату со временем до нужной точности.

Формат вызова:
```
 date_trunc('поле', значение)
```
Например, если мы хотим округлить текущее время-дату до минут, то можно вызвать
```
 select date_trunc('minute',now())
```

Для получения разной степени точности вместо minute можно использовать следующие параметры:

* microseconds;
* milliseconds;
* second;
* minute;
* hour;
* day;
* week;
* month;
* quarter;
* year;
* decade;
* century;
* millennium.

**Пример:**

Давайте подготовим данные для квартальной отчётности компании. Напишите запрос, который выведет дату доставки, округлённую до квартала, и общую массу доставок. Отсортируйте по кварталу в порядке возрастания. Столбцы в выдаче: q (начало квартала, тип date), total_weight (сумма масс доставок за квартал).
```
select
    date_trunc('quarter',ship_date)::date as q,
    sum(weight) as total_weight
from
    sql.shipment
group by 1
order by 1
```


### МАТЕМАТИЧЕСКИЕ ОПЕРАТОРЫ
К любой дате можно прибавить (и вычесть из неё) целое число X и получить другую дату, которая больше (меньше) изначальной.

Пример:
```
select '2019-01-01'::date + 10
```
Результат: '2019-01-11'

Это — дата на 10 дней позже 2019-01-01.

При добавлении (или вычитании) целого числа к дате Postgres учитывает переходы между месяцами и годами и даёт верный ответ, соответствующий календарю. Учитываются даже високосные годы.

Пример:
```
select '2019-01-01'::date + 500
```
Результат: '2020-05-15'

Как видим, сменились и год, и месяц, и день.

Аналогично можно вычесть из одной даты другую и получить расстояние в днях между этими датами. При такой операции тоже будет честная разница по календарю.

Пример:
```
select '2019-02-10'::date - '2017-03-01'::date
```
Результат: 711

**Пример:**

Давайте оценим, в каком интервале совершались доставки в разных городах. Напишите запрос, который выведет разницу между последним и первым днём доставки по каждому городу. Отсортируйте по первому и второму столбцам. Столбцы в выдаче: city_name (название города) и days_active (время от первой до последней доставки в днях).
```
-- Введите свое решение ниже
select
    city_name,
    max(ship_date)-min(ship_date) as days_active
from
    sql.shipment as s
    join sql.city as c on s.city_id=c.city_id 
group by 1
order by 1, 2
```

# Строковые данные: основные типы
В Postgres есть три основных типа данных для работы со строками: **character**, **character varying** и **text**.
1. **CHARACTER**

    Cтрока фиксированной длины, дополненная пробелами.

    Длина строки такого типа всегда одинакова и задаётся в скобках.

    Например, в столбце character(5) всегда будет пять символов: строку большей длины туда вставить не получится, а строка меньшей длины будет дополняться ведущими пробелами. Слово "SQL" в таком столбце будет выглядеть как "  SQL".

    Основной паттерн использования такого типа — универсальные справочники буквенных кодов, например код страны в стандарте ISO (RU, US, UK и т. д.).
2. **CHARACTER VARYING**

    Строка ограниченной переменной длины.

    Например, в столбце типа character varying(5) нельзя будет хранить строку большей длины, но могут быть любые строки с меньшей длиной.

    Этот тип данных повсеместно используется для хранения данных, поскольку позволяет ограничить ввод, сохраняя при этом возможность иметь строки произвольной длины.
3. **TEXT**

    Cтрока неограниченной длины.

    Самый удобный тип для пользователя, но самый тяжеловесный для администратора баз данных, так как в строку можно записать любой текст.

    Для удобства все текстовые поля в нашем датасете с доставками представлены типом text.
    
    

## Функции и операторы для работы со строками
### ОПЕРАТОРЫ
СОЕДИНЕНИЕ СТРОК

Для начала познакомимся с оператором конкатенации строк — || (две вертикальные черты). Он позволяет объединять две и более строки.

Конструкции с оператором соединения строк записываются следующим образом:

строка1 || строка2 || ... || строкаN

Важно! Результатом соединения любых типов строковых данных будет тип text.

Напишем запрос, который позволит подготовить простые select-запросы для всех таблиц из схемы.
```
select 'select * from '||t.table_schema||'.'||t.table_name||';' query
from information_schema.tables t
where table_schema = 'shipping'
```
В результате должно получиться пять SQL-запросов, по одному к каждой таблице из схемы shipping. 

Как мы видим, соединять можно и рукописный текст, и значения столбцов в любом произвольном порядке

Важно! Если вы соединяете любую строку и NULL, то результатом будет NULL. Поэтому, если вы формируете какой-то текст на основе поля, в котором присутствует NULL, используйте оператор [coalesce](https://postgrespro.ru/docs/postgresql/9.5/functions-conditional#functions-coalesce-nvl-ifnull).

**Пример:**

Составим текстовый шаблон сообщения о доставке по конкретному водителю для наших клиентов. Напишите SQL-запрос, который выведет следующее сообщение для каждого водителя по форме:

Ваш заказ доставит водитель #Имя Фамилия#. Его контактный номер: #Номер#
Где #Имя Фамилия# и #Номер# взяты из справочника водителей. Если номер не указан, то выведите прочерк (-). Для номеров рекомендуем использовать COALESCE. Пример из таблицы для наглядности:

Ваш заказ доставит водитель Adel Al-Alawi. Его контактный номер: (901) 947-4433
Столбец к выдаче — msg (текст сообщения)

```
select
    'Ваш заказ доставит водитель ' || first_name || ' ' || last_name || '. Его контактный номер: ' || COALESCE(phone,'-')
from
    sql.driver
```

### ФУНКЦИИ
**UPPER() И LOWER()**

Функции upper(your_text) и lower(your_text) переводят каждый символ вашего текста в верхний и нижний регистр соответственно.

Пример:
```
select upper('Abc') s1 ,lower('xYz') s2
```
Чаще всего эти функции используются для унификации и стандартизации, особенно они актуальны для данных, введённых вручную.

Например, названия города в анкете можно написать разными способами, но символьный состав останется одним и тем же (Москва, москва, МОСКВА).

Результат функций upper() и lower() — тоже строковый, а значит, к нему можно применять все функции, применимые к этому типу данных.

**Пример:**
Cоставим справочник названий клиентов, у которых более десяти доставок. Данные сохраним в нижнем регистре, чтобы передавать их в другие системы (например, для обзвона), которые не чувствительны к регистру. Напишите запрос, который выводит все id названий клиентов, у которых более десяти доставок, в нижнем регистре. Отсортируйте результат по cust_id в порядке возрастания. Столбцы в выдаче: cust_id (id клиента) и cust_name (название клиента в нижнем регистре).
```
-- Введите свое решение ниже
with temp_table as 
    (select
        c.cust_id cust_id,
        lower(c.cust_name) cust_name
    from
        sql.shipment s 
        join sql.customer c on s.cust_id=c.cust_id
    group by c.cust_name, c.cust_id
    having count(s.ship_id)>10
    order by cust_id)
select 
    cust_id,
    cust_name
from temp_table

```

**REPLACE()**

С помощью функции replace() можно заменять символы в строках.

Запись строится следующим образом:
```
replace(string text, from text, to text)
```
Эта запись означает, что в исходной строке string мы заменяем все вхождения строки from на строку to.

Разберём на примере.

```
select replace('малако','а','о')
```
Результат выполнения такого запроса будет молоко, т. е. все буквы «а» в строке «малако» были заменены на «о».

С таким же успехом можно заменять строку, состоящую из нескольких символов.

Результат функции replace() — строка, а значит, к ней тоже можно применять все известные нам функции работы со строками.

**ПРИМЕР:**

Составим справочник utm-меток, для того чтобы передавать штат и город прямо в адресной строке. (Если вы не знаете, что такое utm-метка, почитайте статью на Вики. К программе курса это не относится, но знать полезно.) Напишите SQL-запрос, который выведет список сочетаний из справочника следующего вида: название_штата__название_города, где названия штата и города взяты из справочника городов и переведены в нижний регистр. Столбец к выдаче — utm (форматированный штат-город). Отсортируйте полученный справочник по алфавиту. Обратите внимание! Все пробелы в названиях городов и штатов замените символом '_' (одно нижнее подчёркивание), а для разделения названий штата и города используйте '__' (два последовательных нижних подчёркивания). Пример из таблицы для наглядности: new_jersey__union_city
```
select
    lower(replace(state || '__' || city_name,' ','_')) utm
from
    sql.city
order by 1
```

**LEFT() И RIGHT()**

Теперь познакомимся с функциями, обрезающими строки.

Функции left(string,n) и right(string,n) оставляют n левых или правых символов от строки, поданной на вход. Давайте разобьём строку 'Один два три' на слова, используя эти функции.
```
with t as
(
select 'Один два три'::text sample_string
)
select 
 left(t.sample_string,4) one, /*берём 4 левых символа строки*/
 right(left(t.sample_string,8),3) two, /*берём 8 левых символов строки, потом 3 правых от результата*/
 right(t.sample_string,3) three /*берём 3 правых символа от строки*/
from t
```

Пример:
```
select left('0123456789', - 2), right('0123456789', - 2)
```
Результат: 01234567 и 23456789 (в первом случае — восемь символов с «отрезанными» 89 и во втором случае — восемь символов с «отрезанными» 01)

**ПРИМЕР:**

Представим, что к вам пришёл разработчик, который хочет сократить поле state в таблице city до четырёх символов, и попросил проверить, останeтся ли значения в нём уникальными. Чтобы ответить на этот вопрос, напишите SQL-запрос, который выведет первые четыре символа названия штата и количество уникальных названий штатов, которому они соответствуют. Оставьте только те, которые относятся к двум и более штатам. Добавьте сортировку по первому столбцу. Столбцы в выдаче: code (четыре первых символа в названии штата), qty (количество уникальных названий штата, начинающихся с этих символов).
```
select
    left(state,4) code,
    count(distinct state) as qty
from
    sql.city
group by 1
having count(distinct state)>1
```

**FORMAT()**

Функция format() используется для составления форматированного текста с подстановками. То же самое можно сделать через конкатенацию строк, но это неудобно и громоздко.

Допустим, у нас есть шаблон "Hello, #Имя пользователя#!" и таблица водителей, которым нужно вывести приветствие.

Через конкатенацию это можно сделать следующим образом:
```
select 'Hello, ' || d.first_name || '!' hello from shipping.driver d
```
Но если нужно подставить и имя, и фамилию, то соединений становится слишком много и сам шаблон становится трудночитаемым. Вот тут и приходит на помощь функция format().

Синтаксис функции выглядит следующим образом:
```
format(formatstr text [, argument1 text,argument2 text...])
```
где formatstr — это шаблон, который мы передаём. Это обычная строка, в которой указаны места для подстановки аргумента.

Вернёмся к задаче с приветствием водителя.

Теперь мы можем решить её с помощью format():
```
select format('Hello, %s!', d.first_name) from shipping.driver d
```
Комбинация символов %s обозначает, что вместо них будет подставлен один из аргументов, причём в том же порядке, что и в исходном столбце.

Напишем запрос, который описывает содержимое каждой строки в таблице в виде текста.
```
select format('driver_id = %s, first_name = %s, last_name = %s, address = %s, zip_code = %s, phone = %s, city_id = %s', driver_id, first_name, last_name, address, zip_code, phone, city_id) from shipping.driver d
```
Мы перечислили в строке семь пропусков (плэйсхолдеров, или мест для подстановки, — %s), передали семь параметров (все столбцы таблицы) и получили шаблон, заполненный значениями для каждой строки.

Если в вашем шаблоне присутствует одинарная кавычка, то для удобства можно вместо одинарных кавычек использовать $$ (два знака доллара):
```
select $$ some_string with quotes ' $$
```

**ПРИМЕР:**

Давайте подготовим географическую сводку для каждого города. Напишите SQL-запрос, который выведет описание региона в следующем формате:

```
[city_name] is located in [state]. There's [population] people living there. Its area is [area]
```
Обратите внимание, точку в конце ставить не нужно. Отсортируйте по названию города в алфавитном порядке. Столбец к выдаче — str (сводка). 
Пример:
```
Abilene is located in Texas. There's 115930 people living there. Its area is 105.10
```

Решение:
```
select
    format($$%s is located in %s. There's %s people living there. Its area is %s$$,city_name,state,population,area)
from
    sql.city
order by 
    city_name
```

Задание 12

Напишите запрос, который покажет информацию по трём самым старым фильмам, у которых есть рейтинг. Выведите все столбцы таблицы movies.
Подсказка: Все столбцы лучше всего вывести через select *.
```
select
    *
from
    sqlprotest.movies
where rating is not null
order by year
limit 3
```

Задание 13

Напишите запрос, выводящий для каждого жанра средний рейтинг и количество фильмов этого жанра.

Столбцы к выводу:

genre_name (название жанра),
average_rating (средний рейтинг),
movie_count (количество фильмов).
Результат отсортируйте по убыванию среднего рейтинга.

```
select
    g.name genre_name,
    avg(m.rating) average_rating,
    count(mg.movie_id) movie_count
from
    sqlprotest.movie_genres mg
    right join sqlprotest.genres g on g.id=mg.genre_id
    full join sqlprotest.movies m on mg.movie_id=m.id
group by g.name
order by 2 desc
```

Задание 14

Напишите запрос, чтобы вывести все названия фильмов и их рейтинги. Если у фильма нет рейтинга, то проставьте 0 в качестве значения рейтинга.

Результат отсортируйте по названию фильма в алфавитном порядке.

Примечание: Буква "ё" в SQL не является алфавитной и не сортируется, не обращайте внимание на это во время решения задания.

```
select
    name,
    coalesce(rating,0) rating
from
    sqlprotest.movies
order by 1
```

Задание 15

Напишите запрос, который выведет количество фильмов в каждом жанре для случаев, когда в жанре представлено три или больше фильмов.

Столбцы к выводу:

genre_name (имя жанра)
movies_count (количество фильмов).
Результат отсортируйте по убыванию количества фильмов.

```
select
    g.name genre_name,
    count(mg.movie_id) movie_count
from
    sqlprotest.movie_genres mg
    right join sqlprotest.genres g on g.id=mg.genre_id
    full join sqlprotest.movies m on mg.movie_id=m.id
group by g.name
having count(mg.movie_id) > 2
order by 2 desc
```

Задание 16

Напишите запрос, с помощью которого можно выбрать фильмы, не относящиеся к жанру 'Криминал'. Выведите все столбцы таблицы movies.

Результат должен быть отсортирован по названию фильмов в алфавитном порядке.

Подсказка: Все столбцы лучше всего вывести через *.
```
select
    *
from
   sqlprotest.movies
where id not in (select 
                movie_id
             from
                sqlprotest.movie_genres mg
                join sqlprotest.genres g on mg.genre_id=g.id
             where
                g.name='Криминал')
order by name
```