# Типы данных
---

## (1) Введение
---

**О чём будем говорить**

Каждый раз, когда мы обсуждали хранящиеся в рабочих таблицах данные, мы обязательно указывали их принадлежность к тому или иному типу.

Прежде мы не акцентировали на этом внимание, но в действительности знание этих типов крайне важно для всего рабочего процесса. И этот модуль мы посвятим разговору о типах данных, а также об особенностях взаимодействия с некоторыми из них.

В этом модуле вы:

* получите общие сведения об основных типах данных, которые применяются для хранения информации в базах данных;
* разберётесь в специфике строк и дат;
* узнаете, какие функции и операторы можно использовать для решения задач со строками и датами.




**С чем будем работать**

В этом модуле мы будем работать с уже знакомой вам схемой shipping, хранящей таблицы с данными о компании, которая организует перевозки грузов.

Интересующие нас данные всё так же хранятся в таблицах city, customer, driver и shipment (таблица truck в этом модуле нам не понадобится).

![](data/dst3-u2-md5_1_1.png)

При необходимости вы можете освежить воспоминания о структуре и содержимом датасета, вернувшись к описанию таблиц в модуле SQL-04:
* [локальная ссылка](/home/user/IDE/sf_data_science/synopsis/block_2/SQL-04/02_sql_04_theory.ipynb##_(1)_Знакомство_с_данными) 


* [ссылка GitHub](https://github.com/Stanislav-DS/sf_data_science/blob/main/synopsis/block_2/SQL-04/02_sql_04_theory.ipynb##(1)_Знакомство_с_данными)

## (2) Типы данных в PostgreSQL
---

Особенностью хранения данных в БД является их строгая типизация, то есть точное и явное определение типов. Необходимость в типизации обусловлена тем, что компьютер по-разному обрабатывает даты, целые или дробные числа, строки.

Поэтому при создании таблицы БД обязательно указывают типы данных, которые будут сохраняться в каждом из её полей, — от этого зависит, какие значения допустимы в этих полях.

Если поле таблицы определено числовым типом данных, то произвольную строку 'Всем привет!' в него записать уже не получится. Таким образом, типы данных — это один из основных видов ограничений в PostgreSQL.

Подробнее об ограничениях, или constraints, вы можете почитать в [официальной документации PostgreSQL](https://postgrespro.ru/docs/postgresql/9.5/ddl-constraints).

> **SQL** — это язык со строгой типизацией, в котором каждый элемент данных имеет некоторый тип, определяющий его поведение и допустимое использование.



Типы данных в PostgreSQL можно разделить на несколько групп. К основным относятся:

* числовые типы — для хранения чисел (целых и дробных);
* типы даты/времени — для хранения даты, времени, часовых поясов;
* символьные типы — для хранения символов или строк;
* логический тип — для хранения значений типа «истина», «ложь».

Каждая группа (кроме логического типа) объединяет несколько типов, отличающихся по допустимому диапазону хранимых данных. Например, числовые типы данных хранят целые числа, дробные числа, а строковые — подразделяются на типы с фиксированной и переменной длиной. А скажем, целочисленный тип данных *integer* может хранить значения в диапазоне от -2147483648 до 2147483647.

Конечно, чем больше допустимый диапазон, тем больше требуется места на жёстком диске для хранения каждого поля выбранного типа.

Кроме возможных значений из доступного диапазона, поле независимо от выбранного типа может принимать значение *NULL* (отсутствующее значение).

Напоминаем, что NULL отличается от нулевого значения или поля, содержащего пробел или пустую строку.

В зависимости от требований к хранимой информации необходимо правильно применять типы данных. На это есть как минимум две причины.

1. Разные типы данных могут занимать разный объём памяти.

    Например, если заранее известно, что поле таблицы будет принимать только небольшие числовые значения от 1 до 10, то можно не задавать для него тип *bigint* с максимально возможными хранимыми значениями, достаточно будет типа *smallint* (эти типы не будут предметом нашего обсуждения, но вы может посмотреть их описание в таблице).

2.  На преобразование типов данных тратится время.

    В некоторых случаях может потребоваться преобразование одного типа в другой — например, если нужно извлечь число из строки и произвести с ним какие-либо действия. Для подобных преобразований нужно использовать дополнительные функции. Иногда без этого не обойтись, но по возможности лучше хранить данные в полях соответствующего типа.

В этом модуле мы ограничимся разговором о таких типах данных, как даты и строки, а также поговорим о функциях, которые позволяют с ними работать.

Максимально подробную информацию по всем существующим типам данных вы можете посмотреть в [документации](https://postgrespro.ru/docs/postgrespro/9.5/datatype).


## (3) Даты: основные типы.

Любой анализ событий во времени подразумевает работу с датой или временем.

Для них в `Postgres` существует несколько типов данных — все они представлены в таблице ниже.

| Имя                              | Размер  | Описание                              | Наименьшее значение | Наибольшее значение | Точность                 |
|----------------------------------|---------|---------------------------------------|---------------------|---------------------|--------------------------|
| timestamp  [ without time zone ] | 8 байт  | дата и время (без часового пояса)     | 4713 до н. э.       | 294276 н. э.        | 1 микросекунда / 14 цифр |
| timestamp with time zone         | 8 байт  | дата и время (с часовым поясом)       | 4713 до н. э.       | 294276 н. э.        | 1 микросекунда / 14 цифр |
| date                             | 4 байта | дата (без времени суток)              | 4713 до н. э.       | 5874897 н. э.       | 1 день                   |
| time [ without time zone ]       | 8 байт  | время суток (без даты)                | 0:00:00             | 24:00:00            | 1 микросекунда / 14 цифр |
| time with time zone              | 12 байт | только время суток (с часовым поясом) | 00:00:00+1459       | 24:00:00-1459       | 1 микросекунда / 14 цифр |
| interval                         | 16 байт | временной интервал                    | -178000000 лет      | 178000000 лет       | 1 микросекунда / 14 цифр |

Давайте подробно разберём каждый из этих типов и выясним, в каких случаях и для чего они используются. 

**TIMESTAMP**

> **Timestamp** — наиболее распространённый тип данных, так как он содержит и дату, и время, а также используется в любых логах событий, временных рядах и в большинстве системных таблиц.

Согласно [стандарту ISO](https://ru.wikipedia.org/wiki/ISO_8601), значение выглядит как **"2019-07-14 01:35:44.702165+00"**, где перечислены через точку год-месяц-день, время и часовой пояс.

Для получения текущего значения даты и времени в *Postgres* используются функции `CURRENT_TIMESTAMP` (есть в стандарте *SQL*) и `NOW()` (есть в большинстве баз данных).

Выполните запросы `SELECT NOW()` и `SELECT CURRENT_TIMESTAMP`.

Глядя на вывод, вы заметите, что время отличается на целое число часов от реального времени у вас (если вы не в Лондоне или, скажем, на Канарских островах). В Москве разница составит 3 часа.

Почему так?

Давайте разберёмся.

**TIMESTAMP WITH TIME ZONE**

> **Timestamp with time zone** позволяет хранить сведения о часовом поясе, что может быть удобно при анализе географически распределённых временных данных для единообразия хранения.

Предположим, в вашей компании в базу подтягивается время прихода сотрудников на работу. Вы пришли в 10 утра по Москве, а в Екатеринбурге в это время — полдень. Чтобы ваши коллеги из Екатеринбурга поняли, что вы пришли на работу вовремя, им нужно помнить про разницу в часовых поясах. А теперь представим, что пользователи БД разбросаны по всему миру и всем им необходимо помнить о разнице во времени и учитывать её при сверках с другими регионами.

Согласитесь, неудобно. Поэтому временные метки лучше всего хранить в базе в едином часовом поясе.

Посмотрим, как работает этот тип данных.

Сначала попробуем узнать, в каком часовом поясе выводятся временные данные в настоящий момент. Для этого выполните команду


```sql
SHOW TIMEZONE
```


В результате вы увидите **GMT** — это наиболее частая установка по умолчанию для баз данных. Что он обозначает, можно посмотреть [здесь](https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%B5_%D0%B2%D1%80%D0%B5%D0%BC%D1%8F_%D0%BF%D0%BE_%D0%93%D1%80%D0%B8%D0%BD%D0%B2%D0%B8%D1%87%D1%83).

Список часовых поясов можно увидеть в системном справочнике `pg_timezone_names`.

| Имя        | Тип      | Описание                                                                                      |
|------------|----------|-----------------------------------------------------------------------------------------------|
| name       | text     | Название часового пояса                                                                       |
| abbrev     | text     | Сокращение часового пояса                                                                     |
| utc_offset | interval | Смещение от GMT (положительное — к востоку от Гринвича, отрицательное — к западу от Гринвича) |
| is_dst     | boolean  | Принимает значение True, если текущие данные отражают летнее время                            |



Описание этого справочника вы не сможете посмотреть в Metabase, но можете к нему обратиться, написав SQL-запрос.

Посмотрите содержимое этого справочника в Metabase.

А ещё посмотрите ваше время в каком-нибудь часовом поясе, например, в Москве. Для этого выполните в Metabase запрос

```sql
SELECT NOW() AT TIME ZONE 'Europe/Moscow'
```
Указание `AT TIME ZONE` позволяет переводить дату/время без часового пояса в дату/время с часовым поясом и обратно, а также пересчитывать значения времени для различных часовых поясов.


В таблице ниже приведены примеры того, как работает `AT TIME ZONE` для разных типов данных.

| Выражение                                             | Тип результата              | Описание                                                                                                            |
|-------------------------------------------------------|-----------------------------|---------------------------------------------------------------------------------------------------------------------|
| `timestamp without time zone AT TIME ZONE` часовой_пояс | timestamp with time zone    | Воспринимает время, заданное без указания часового пояса, как время в указанном часовом поясе.                      |
| `timestamp with time zone AT TIME ZONE` часовой_пояс    | timestamp without time zone | Переводит значение timestamp с часовым поясом в другой часовой пояс, но не сохраняет информацию о нём в результате. |
| `time with time zone AT TIME ZONE` часовой_пояс         | time with time zone         | Переводит время с часовым поясом в другой часовой пояс.                                                             |

**Задание 3.1**

> Давайте узнаем, сколько сейчас времени в другом регионе, например Лос-Анджелесе. Напишите запрос, который выведет текущие время и дату в часовом поясе Лос-Анджелеса (`"America/Los_Angeles"`). Столбец в выдаче — now (время и дата в нужном часовом поясе).

**Решение**

```sql
SELECT NOW() AT TIME ZONE 'America/Los_Angeles'
```

**DATE**

С типом *date* вы уже знакомы, его реализация предельно проста. Отметим только, что тип *timestamp* (*with/without time zone*) можно легко перевести в соответствующую дату, используя синтаксис:

```sql
"timestamp_column"::date
```

И наоборот, тип *date* преобразуется в *timestamp (дата и 00:00:00)* с помощью:

```sql
"date_column"::timestamp
```

Для получения текущей даты можно использовать:

```sql
select CURRENT_DATE
```

или

```sql
select now()::date
```

**Задание 3.2**

> Предположим, у нас есть дата и время какого-то события и мы хотим посмотреть, к какой дате оно относится для Москвы и для UTC. Используйте следующий подзапрос и выведите дату в `ts` в Московском часовом поясе и в поясе UTC:

```sql
WITH x AS (
    SELECT
        '2018-12-31 21:00:00+00' :: TIMESTAMP WITH TIME ZONE AS ts
)
```

> Столбцы в выдаче: `dt_msk` (дата в московском часовом поясе), `dt_utc` (дата в UTC).
> 
> **Примечание:** в данном куске SQL-кода мы обозначаем результат запроса SQL как таблицу с именем x. В этой таблице содержится столбец ts. Воспользуйтесь этой таблицей для решения задачи. Например, чтобы посмотреть всё содержимое таблицы x, достаточно написать следующий запрос:


```sql
WITH x AS (
    SELECT
        '2018-12-31 21:00:00+00' :: TIMESTAMP WITH TIME ZONE AS ts
)
SELECT
    *
FROM
    x
```

Узнать больше об операторе `WITH` можно [здесь](https://sql-academy.org/ru/guide/operator-with)

**Решение**

```sql
WITH x AS (
    SELECT
        '2018-12-31 21:00:00+00' :: TIMESTAMP WITH TIME ZONE AS ts
)
SELECT
    x.ts AT TIME ZONE 'Europe/Moscow' :: DATE AS dt_msk,
    x.ts AT TIME ZONE 'UTC' :: DATE AS dt_utc
FROM
    x
```

**INTERVAL**

> **Interval** — тип данных, позволяющий хранить разницу между двумя временными метками. 

Интервалы хранят данные в трёх отдельных полях — месяцах, днях, секундах. Это сделано из-за того, что количество дней в месяце и часов в дне может быть разным. Пример значения такого типа: **"195 days -10:52:23.563955"**.

Подробнее о том, как работают интервалы, мы узнаем позже, на примере конкретных функций, с помощью которых можно вычислять эти интервалы и работать с ними.