# **DE-1. Современные хранилища данных**

# О чём этот модуль?

## Добро пожаловать!

В этом модуле мы расширим свой кругозор, посвятив его обзорно-теоретическим вопросам.

Познакомимся с понятийной базой, технологиями и решениями, с которыми приходится сталкиваться в ходе своей деятельности инженеру данных.

Приступим к работе над сквозным проектом курса.

# 1. Хранилища данных

Повторим всем известные, но, возможно, забытые понятия.

**Данными** назовём то, что лежит в таблицах и файлах. С данными работает компьютер.

Человеку же нужна **информация** — подготовленные для анализа данные (например, отчеты). Как правило, человек не работает напрямую с данными.

**Дата-инженер** — это специалист, который преобразует данные в информацию.

Но если смотреть глубже, людям нужна не информация, а знания — то, на основе чего можно принимать решения.

## Где живут данные и информация

Данные производятся информационными (транзакционными или операционными) системами. Такой вид работы с данными в этих системах называется OLTP (OnLine Transaction Processing).

Информация находится в хранилищах данных (data warehouse или data lake). Для работы с информацией используется термин OLAP (OnLine Analytical Processing).

## Структурированные и неструктурированные данные

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/c9ef7ad347d592c5b53626a4539fb6c5/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_1.png)

## Зачем нужны хранилища

Главные причины:

* разные виды обработки (OLTP и OLAP) — разные подходы к реализации
* хранилище — данные нескольких транзакционных систем
* OLAP запросы мешают транзакционной работе
* безопасность — полный доступ к данным в транзакционной системе = сложно
* хранение и работа с историей

## Хранилище и озеро

**Хранилище** (англ. Data Warehouse, DWH): схема на запись. Обрабатываем и очищаем данные перед записью.

**Озеро** (англ. Data Lake): схема на чтение. Ничего не делаем с данными, записываем как есть.

Хранилища исторически появились первыми, а их недостатки привели к появлению озёр. Озеро хранит любые данные (как структурированные, так и нет).

## Архитектура хранилищ

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/d8078b083c1e1c5db32ef3dfc53d7f01/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_data_move_gen.png)

## Терминология

* **DG** (data governance): делает возможным использование достоверных данных в организации
* **DL** (data lineage): описывает источники данных, перемещение, характеристики и качество
* **DP** (data provenance): рецепт воспроизведения данных или метаданные, позволяющие передать детали об истории данных потребителям (W3C)

## Дополнительные материалы

* DG: [Data Governance: Definition, Challenges & Best Practices](https://bi-survey.com/data-governance)
* DL: [Data Lineage Demystified: The What, Why, and How](https://www.dataversity.net/data-lineage-demystified/#)
* DP, DL: [Do You Know Where Your Data Came From?](https://www.dataversity.net/know-data-came/)
* Staging: [Ensure a Successful Data Lake Implementation through Organization](https://www.blue-granite.com/blog/ensure-a-successful-data-lake-implementation-through-organization)

# 2. Business Intelligence и OLAP

Как мы знаем из предыдущего модуля, заказчиком или потребителем того, то делает инженер данных, является не только data scientist, но BI-аналитик. Чем отличаются BI-подход и AI-подход?

* **BI** (Business Intelligence)

    * получение информации с помощью человека;
    * широкий спектр вопросов.

* **AI** (Artificial Intelligence, AI, искусственный интеллект)

    * получение информации без человека;
    * ответ на конкретный вопрос.

BI-аналитик работает с хранилищем данных

* **data warehouse** хранит всю важную информацию предприятия;
* витрины данных (**data marts**) посвящены одной предметной области (**subject area**),

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/039f83eafca0eab103038d5b4c857c56/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_dwh_marts.png)

## МНОГОМЕРНЫЙ АНАЛИЗ

BI-аналитик, конечно же, не работает с единичными данными. Он работает с агрегатами, например, суммой некоторого параметра в разрезе измерений. Как правило, его работа заключается в рассмотрении имеющейся информации для извлечения знания под разным углом.

Работать с "сырыми" данными, только появившимися из исходных систем, сложно, т.к. расчет занимает время. Способы бороться с этим:

* предрасчёт (OLAP-куб);
* данные в оперативной памяти (QlikView), гибридные базы данных.

### OLAP-куб

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/cbcde082ba52c59171719d14d6367c36/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_olap_cube.png)

* меры (**measure**) и измерения (**dimension**);
* мер и измерений много;
* хранение агрегатов мер в разрезе измерений;
* «разрезание» (**slicing**): фиксируем часть размерностей.

### Другие виды OLAP

* **HTAP**: гибрид транзакционной и аналитической обработки;
* **MOLAP**: многомерный OLAP (кубы);
* **ROLAP**: реляционный OLAP;
* **HOLAP**: гибрид OLTP (реляционная база) и OLAP (куб).

### Проблемы OLAP

* необходим тщательный анализ;
* трансформации данных неизбежны;
* добавление измерения = долго;
* специализированные решения (см. типы OLAP);
* причина появления озер данных.

## ЧТО ТАКОЕ НОРМАЛИЗАЦИЯ И ЗАЧЕМ ОНА НУЖНА?

Мы уже поняли, что одна из первых задач разработки и модификации информационной системы — проектирование структуры базы данных. Этот этап необходим для понимания того, как правильно сохранять новые данные, и дальнейшей корректной работы с ними.

При проектировании реляционной БД одним из наиболее важных является процесс **нормализации данных**.

> **Нормализация** — это изменение структуры реляционной базы данных таким образом, чтобы уменьшить избыточность данных и повысить их целостность.
При нормализации мы всячески изменяем таблицы — добавляя и изменяя столбцы, вынося часть информации в новые таблицы — так, чтобы хранимые данные были понятны, структурированы и не противоречили друг другу.

**Скажем**, цена конкретного товара хранится в одном конкретном столбце одной конкретной таблицы. И сценарий, когда в одной таблице цена данного товара — 100 рублей, а в другой — 150 рублей, невозможен.
Понимание правил нормализации должно быть у всех участников команды, которые работают с базой данных, в том числе и у аналитика.

Неправильно сформулированная структура данных — это потенциальная проблема, которая в будущем может привести к избыточности данных или даже их потере.

## ПРАВИЛА НОРМАЛИЗАЦИИ

Все правила нормализации собраны в так называемые нормальные формы. Всего их шесть, однако мы рассмотрим только первые три — основные.

### Первая нормальная форма (1НФ)

Мы говорим, что структура данных приведена к первой нормальной форме, если соблюдены три основных принципа.

1. **В ячейках таблицы хранятся только атомарные значения.**

    Это значит, что каждая ячейка должна хранить единое и неделимое смысловое значение.

    Атомарными не являются составные — что логично — элементы: списки, массивы и т. д.

    Для наглядности приведём пример неатомарных значений. Допустим, в одном поле таблицы мы храним несколько телефонных номеров одного клиента — это массив телефонных номеров. Или так: в одной ячейке мы храним всю информацию о физическом адресе клиента — названия области, города, улицы, номера дома и квартиры.

2. **Каждый столбец хранит данные одного типа.**

    Так, столбцу, содержащему ФИО клиентов, должен быть присвоен строковый тип, а поле для хранения даты рождения клиента должно соответствовать типу «дата».

3. **В таблице не должно быть дублирующих строк.**

Посмотрим, как реализуются (или не реализуются) эти принципы, смоделировав ситуацию.

Представим, что находимся в самом начале проектирования структуры данных для информационной системы банка. Как правило, данные у нас если и есть, то хранятся как попало (ещё и не в базе данных), ненормализованно, имеют дубли и свалены все в одну табличку в каком-нибудь excel-файле.

Мы решили, что одной из ключевых сущностей будет клиент организации, и начали создавать таблицу, хранящую информацию о клиентах — об их персональных данных и услугах, на получение которых они заключали договор.

Какие исходные данные у нас есть? Давайте посмотрим на таблицу ниже.


ФИО|Контакты|Дата рождения|Услуга|Дата договора на услугу|Комиссия за услугу
-|-|-|-|-|-
Петров Антон Николаевич|88462201111, 89876511322, petrv@gmail.com|13.01.1984|Брокерский договор|13.01.2020|5%
Сидоров Александр Юрьевич|89377777777, sidris@gmail.com|15.09.1975|ИИС договор|14.09.1998|3%

У клиента может быть несколько контактных данных: телефоны, почтовые и электронные адреса. Таким образом, атрибут Контакты здесь представлен списком и не является атомарным. Согласно правилам первой нормальной формы, списки контактов необходимо разделить.

Вы можете заметить, что атрибут ФИО тоже неатомарный и должен быть разбит на три — имя, фамилия, отчество. Что ж, в принципе это справедливо, но всё зависит от того, как вы планируете использовать вашу систему: если для ваших бизнес-процессов нет и не будет необходимости работать с частями ФИО по отдельности, можно смело хранить всё в одном поле.

Чтобы избавиться от неатомарных значений, у нас есть как минимум три варианта действий:

* разделить неатомарный атрибут — вместо одного столбца будет несколько;
* размножить строки — каждая строка будет представлена одним атрибутом;
* вынести контакты в отдельную таблицу (или несколько отдельных).

Допустим, мы решили разделить контакты на несколько столбцов. В этом есть смысл, если мы твёрдо уверены, что в нашей системе количество и виды контактов не будут увеличиваться (не появятся ни факсы, ни дополнительные электронные адреса, ни что-либо ещё).

После преобразований у нас получится следующая таблица в первой нормальной форме:

ФИО|Дата рождения|Услуга|Дата договора на услугу|Комиссия за услугу|Телефон 1|Телефон 2|E-mail
-|-|-|-|-|-|-|-
Петров Антон Николаевич|13.01.1984|Брокерский договор|13.01.2020|5%|88462201111|89876511322|petrv@gmail.com
Сидоров Александр Юрьевич|15.09.1975|ИИС договор|14.09.1998|3%|89377777777||sidris@gmail.com


Возможно, вас смутит получившаяся таблица: на первый взгляд она может показаться избыточной.

Не стоит разочаровываться в процессе: сама по себе 1НФ является лишь начальной стадией проектирования правильной реляционной базы. Поэтому не останавливаемся и переходим к следующей форме.

## Вторая нормальная форма (2НФ)

Для второй формы можно выделить следующие правила:

1. **Таблица должна находиться в первой нормальной форме.**

2. **Таблица должна иметь первичный ключ.**

3. **Все неключевые столбцы таблицы должны зависеть от этого ключа.**

Вернёмся к нашему примеру и продолжим разбирать таблицу контактов, применяя к ней правила второй формы.

Для начала нужно определить потенциальный первичный ключ. В нашей таблице это поля **ФИО** и **Услуга** (ключ получился составной и естественный).

ФИО|Дата рождения|Услуга|Дата договора на услугу|Комиссия за услугу|Телефон 1|Телефон 2|E-mail
-|-|-|-|-|-|-|-
Петров Антон Николаевич|13.01.1984|Брокерский договор|13.01.2020|5%|88462201111|89876511322|petrv@gmail.com
Сидоров Александр Юрьевич|15.09.1975|ИИС договор|14.09.1998|3%|89377777777||sidris@gmail.com


Как только мы определились с ключом и входящими в него атрибутами, посмотрим, как оставшиеся (неключевые) атрибуты зависят от ключевых.

Атрибуты **Дата рождения, Телефон1, Телефон2, Почта** зависят только от **ФИО**. Атрибуты **Комиссия за услугу, Дата начала услуги** зависят только от атрибута **Услуга**.

Получается, что правила 2НФ нарушены.

Чтобы устранить эти нарушения, можно выделить информацию, относящуюся к услуге в отдельное отношение.

После декомпозиции получились следующие таблицы:

**Таблица клиентов**

ФИО|Дата рождения|Телефон 1|Телефон 2|E-mail
-|-|-|-|-
Петров Антон Николаевич|13.01.1984|88462201111|89876511322|petrv@gmail.com
Сидоров Александр Юрьевич|15.09.1975|89377777777||sidris@gmail.com


**Таблица оказываемых услуг (договоров)**

ID договора|Услуга|Дата договора на услугу|Комиссия за услугу
-|-|-|-
1|Брокерский договор|13.01.2020|5%
2|ИИС договор|14.09.1998|3%


С точки зрения нашего бизнеса, оказываемые услуги логичнее связать с договорами, заключёнными с клиентами. Поэтому в таблице услуг мы ввели атрибут **ID договора**, который будет суррогатным первичным ключом.

Однако решение нельзя считать полным и окончательным, так как мы потеряли связь между клиентом и его договором (или договорами, если у клиента их несколько).

Для решения этой проблемы мы вводим дополнительное отношение, хранящее связь между клиентами и их договорами.

**Таблица клиентов и договоров**

ФИО|ID договора
-|-
Петров Антон Николаевич|1
Сидоров Александр Юрьевич|2

Отлично! Теперь таблицы соответствуют второй нормальной форме.

## Третья нормальная форма (3НФ)

Главным условием третьей нормальной формы является отсутствие в таблицах **транзитивной зависимости**. Транзитивной называют зависимость одних значений неключевых столбцов от значений других неключевых столбцов.

Данная нормальная форма имеет уверенный слоган (он же правило): «Ничего, кроме ключа!»

Давайте разберёмся с нашей таблицей банковских договоров. Где же здесь транзитивная зависимость? Поле **Комиссии** зависит от договора не напрямую, а через его тип. Иначе говоря, комиссия напрямую зависит от типа, а не от идентификатора договора.

**Таблица оказываемых услуг (договоров)**

ID договора|Услуга|Дата договора на услугу|Комиссия за услугу
-|-|-|-
1|Брокерский договор|13.01.2020|5%
2|ИИС договор|14.09.1998|3%

Решением будет создание новой таблицы, хранящей связь между типом договора и комиссией.

**Таблица оказываемых услуг (договоров)**

ID договора|Тип договора|Дата договора на услугу
-|-|-
1|Брокерский договор|13.01.2020
2|ИИС договор|14.09.1998

**Таблица оказываемых услуг (договоров)**

Тип договора|Комиссия за услугу
-|-
Брокерский договор|5%
ИИС договор|3%

Супер! Теперь все наши отношения приведены к 3НФ!

Если кратко сформулировать требования к каждой из форм, получим такой вывод: в **первой нормальной форме** требуется соблюдение реляционных принципов, во **второй** — определяется первичный ключ, в **третьей** — основное внимание уделяется неключевым столбцам.

> Таким образом, процесс приведения структуры БД к третьей нормальной форме является последовательным переходом из 1НФ в 3НФ. Каждая следующая нормальная форма ограничивается собственными правилами и сохраняет свойства всех предшествующих нормальных форм.

В большинстве случаев при проектировании реляционных баз данных от вас будет требоваться создание структур, соответствующих третьей нормальной форме. Значительно реже вам будут попадаться задачи, для решения которых придётся применять **нормальную форму Бойса — Кодда** (БКНФ), называемую также **усиленной третьей**, и **четвёртую** нормальную форму. Система, сконструированная без учёта этих правил, нисколько не уступает по функциональности системе, им удовлетворяющей.



## РЕЗЮМИРУЕМ

Что нам даёт нормализация:

→ **упрощение системы и работы с ней**: структурированные и неповторяющиеся данные легче поддерживать и модифицировать;

→ **устранение избыточности данных**;

→ **уменьшение размеров БД**;

→ **исключение аномалий и фантомных записей** — записей, которые оказались «брошенными» после удаления связанных с ними данных.

### Дополнительные материалы

* [Типы OLAP-систем](https://olap.com/types-of-olap-systems/)
* [Типы OLAP-систем](http://www.olap.ru/basic/alpero2i.asp) (перевод на русский язык)

# 3. Звезда, снежинка и все-все-все

Мы познакомились с OLAP-кубом — сложным способом представления информации в Data Warehouse. Далее рассмотрим, какие ещё существуют способы, и как в них устроены данные.

### Нормальные формы

Нормализация — это попытка избежать проблем с update, insert, delete и обеспечить наиболее эффективную обработку данных. Существует три вида нормальных (нормализованных) форм:

* **1nf** — каждая ячейка содержит одно значение
* **2nf** — каждая колонка зависит только от ключа
* **3nf** — колонки не зависят ни от чего, кроме ключа

Нормальные формы исключают дублирование данных. Таким образом, вставка, обновление и удаление делается однократно (над одной таблицей).

Нормализованные данные позволяют эффективно работать в транзакционном режиме, когда их требуется постоянно изменять. Но в хранилищах данных изменять данные нет необходимости, нам нужно их извлекать (читать). Главным недостатком нормализованного представления является тот факт, что для того чтобы извлечь данные, необходимо соединять (join) таблицы между собой. Это долго и сложно. Поэтому появились специализированные способы (схемы) представления данных в хранилище. Разберём их ниже.

## Звезда

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/cfbb6e6a445d6f3652ae91f61ea18d5a/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_star.png)

* таблицы фактов и размерностей (dimensions)
* один уровень размерностей
* размерности не связаны друг с другом
* ненормализованное представление
* распространено в BI

## Снежинка

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/404285c1bfc83930da996b0559bdd45f/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_snowflake.png)

* развитие звезды
* несколько уровней размерностей
* нормализованное представление

В транзакционных системах, как правило, данные хранятся в нормализованном виде (OLTP, staging). В хранилищах данные представлены в виде звезд, снежинок, галактик и т. д.

## Датасеты

Data scientist'ы работают с датасетами (datasets). Датасет по своей сути — это реляционная таблица, содержащая одни и те же типы значений в колонках. Её состав, нормализация, денормализация и т.д. — задачи data scientist'а.

## Star Galaxy схема

* таблицы фактов имеют общие измерения

* также её называют Fact Constellation Schema

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/280373893f71ba2248094a20a49d2d55/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_galaxy.png)

## Star Cluster схема

* только некоторые наиболее важные размерности превращаются в снежинку
* меньше дублирования
* денормализованное представление (как и звезда)

### Дополнительные материалы

* [Хороший пост](https://www.guru99.com/star-snowflake-data-warehousing.html) про снежинки и звезды
* [Про нормализацию](https://dzone.com/articles/third-normal-form-star-schema-and-a-performance-ce)

# Data Vault

**Data Vault** — это методология моделирования, которая вобрала в себя лучшее от 3nf и star-схемы. Это бизнес-ориентированная методология, используется для того, чтобы хранить информацию в Data Warehouse.

Автор этой методологии — Dan Linstedt. Ему принадлежат слова: "The Data Vault Model is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and star schema. The design is flexible, scalable, consistent and adaptable to the needs of the enterprise."

### Преимущества Data Vault

* **agility**: «подвижность» данных
* **flexibility**: гибкость моделирования
* **scalability**: большие объемы данных
* **auditability**: возможность проследить историю происхождения
* **historical repository**: поддержка историчности (справочников)

## Основные понятия

* **hub**: основные сущности бизнеса (клиент, инвойс)
    *только ключ и SID
    *нет различий «факт, измерение, событие»
* **link**: связи между сущностями (многие-ко-многим)
    *только связи (FK) и SID
* **satellite**: атрибуты сущности (имя клиента, адрес и т.п.)
    *атрибутика сущностей (реже — связей)
* все имеют **timestamp**, **record source**
* **reference**: связь кода и описания (способ уменьшить дублирование)

### Пример

Рассмотрим пример Data Vault, в котором смоделирован небольшой кусок предметной области «Информация о продажах» (см. рисунок).

**Голубым** здесь залиты hub'ы. Основными hub'ами (бизнес-сущностями) являются Customer, Cust_Class, Sale  и др.
**Зелёным** залиты link'и. Заметим, что link'и иногда связывают более одного hub'а.
**Жёлтые** — satellite'ы, которые содержат описательную информацию.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/727850e3187d23a26fb0c9a074b18ec4/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_data_vault.png)

## Поработаем с Data Vault

Рассмотрим на рисунке ниже, как могли бы выглядеть таблицы в исходной системе (опустим часть колонок для простоты, также сфокусируемся на заказчике, счете и продукте):

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/195a145e60dd0289e399d927fcb83817/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_model.png)

Чтобы почувствовать сложности работы с data vault (DV), нужно сделать пару-тройку запросов к исходной таблице (как, например, выше) и к DV.

> **Запрос 1.** Показать список номеров и сумм счетов, выставленных 01.03.2019 заказчику "Bigname" (дата продажи не была смоделирована в DV варианте — предполагаем, что дата продажи хранится в поле Sale_Date сателлита S_Sale_Main)

Какие могли бы получиться select-ы (просьба не фокусироваться на деталях, здесь больше о сути).

Запрос к исходной системе (модель чуть выше):

```sql
SELECT Sale_Transaction_ID, Sale_Amount from Sale S, Customer C WHERE S.Sale_CID=C.Customer_Code AND S.Sale_Date="01.03.2019" AND C.LastName="Bigname"
```

Запрос к DV:

```sql
SELECT HS.Sale_Transaction_ID, SSM.Sale_Amount from H_Customer HC, H_Sale HS, // hubs L_Customer_Sale LCS, // links S_Sale_Main SSM, S_Customer_Main SCM //satellites WHERE HC.H_Customer_SID=SCM.H_Customer_SID AND // customer hub to satellite HS.H_Sale_SID=SSM.H_Sale_SID AND // sale hub to satellite LCS.H_Customer_SID=HC.H_Customer_SID AND LCS.H_Sale_SID=H_Sale_SID AND // sale to customer hub link SSM.Sale_Date="01.03.2019" AND SCM.LastName="Bigname"
```

Что получили:

* более сложный запрос (больше join-ов)
* механизм связи «хаб-сателит» и «хаб-хаб» кажется универсальным (меньше ошибок)

> **Запрос 2** (чуть более аналитический). Показать список (наименований) товаров, купленных 01.03.2019 заказчиком "Bigname".

Какие могли бы получиться select-ы (просьба не фокусироваться на деталях, здесь больше о сути).

Запрос к исходной системе:

```sql
SELECT distinct P.Product_Name from Product P, Line_Item SL, Sale S, Customer C WHERE P.Product_Code=SL.Sale_PC AND SL._Sale_TID=S.Sale_Transaction_ID AND S.Sale_CID=C.Customer_Code AND S.Sale_Date="01.03.2019" AND C.LastName="Bigname"
```

Запрос к DV:

```sql
SELECT distinct SPM.Product_Name from H_Product HP, H_Customer HC, H_Sale HS, // hubs L_Customer_Sale LCS, L_Sale_Line_Item LSLI, // links S_Product_Main SPM, S_Sale_Main SSM, S_Customer_Main SCM //satellites WHERE HP.H_Product_SID=SPM.H_Product_SID AND // product hub to satellite HC.H_Customer_SID=SCM.H_Customer_SID AND // customer hub to satellite HS.H_Sale_SID=SSM.H_Sale_SID AND // sale hub to satellite LCS.H_Customer_SID=HC.H_Customer_SID AND LCS.H_Sale_SID=H_Sale_SID AND // sale to customer hub link LSLI.H_Sale_SID=HS.H_Sale_SID AND LSLI.H_Product_SID=HP.H_Product_SID AND // sale to product hub link SSM.Sale_Date="01.03.2019" AND SCM.LastName="Bigname"
```

Что получили:

* более сложный запрос (больше join-ов)
* не потребовался join к строкам счета (механизм линков обеспечивает связь со всеми хабами)
* механизм связи «хаб-сателит» и «хаб-хаб» универсален (часть кода переехала из предыдущего примера)

**Подытожить можно следующим**: хранилище, построенное по методологии Data Vault, выглядит поначалу менее интуитивно, но к этому можно привыкнуть.

Запросы к такому хранилищу являются более дорогими в плане выполнения.

## Дополнительные материалы

* [Applying Top-down, Big-Picture Models to Data Vault Part 2](http://tdan.com/applying-top-down-big-picture-models-to-data-vault-part-2/23763)
* Пример, приведенный выше, рассмотрен  [здесь](https://hanshultgren.files.wordpress.com/2012/09/data-vault-modeling-guide.pdf)
* [Data Vault Basics](https://danlinstedt.com/solutions-2/data-vault-basics/)
* Оригинал [A short intro to #datavault 2.0](https://danlinstedt.com/allposts/datavaultcat/a-short-intro-to-datavault-2-0/)

# 5. Эти буквы E, T и L

## Процесс обработки данных

Итак, мы разобрали, что такое хранилища и какими они бывают, как информация и данные представлены в них. Теперь поговорим о том, как данные попадают в хранилище.

Процесс обработки данных обеспечивается через ETL (**Extraction-Transformation-Loading**).

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/d8078b083c1e1c5db32ef3dfc53d7f01/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DE_2_unit_data_move_gen.png)

### ETL

* извлекаем данные из источника (extract)
* сохраняем в staging
* выполняем преобразования (transform)
* сохраняем в хранилище (load)

Основной недостаток: время (данные доступны для аналитиков с задержкой)

Преимущество: данные подготовлены для анализа (например, снежинка)

### ELT

* извлекаем данные из источника (extract)
* сохраняем в хранилище (load) — озеро
* выполняем преобразования (transform) уже в хранилище

Основное преимущество: задержка в доступе к данным минимальна

Основной недостаток: данные сложно анализировать, требуется преобразование

### EL

* убираем фазу преобразования (transform)
* типична для озер данных (Hadoop)

## Инкрементальная загрузка

Какая основная проблема (сложность) ETL-процесса? Время. Объёмы структурированных данных (OLTP данные) велики, и процесс обработки данных занимает много времени.

Есть механический (например, параллелизм) и более интеллектуальный способ бороться с этим. Второй способ даёт ответ на вопрос: «Зачем грузить всё?» — и предлагает загружать только, что изменяется. А изменения не так велики по сравнению с общими объёмами информации. Такая загрузка только измененных данных называется **инкрементальной**. Существует два подхода инкрементальной загрузки:

* грамотное проектирование модели данных и приложения;
* CDC (change data capture).

Небольшие таблицы обычно грузятся целиком, большие - инкрементально, но периодически (например, в выходные) происходит полная загрузка.

## Конвейеры (pipelines)

Как происходит ETL с точки зрения процесса и того, как работают специалисты? Если пошагово, то происходит следующее:

1. ручная первоначальная загрузка и трансформация
1. верификация
1. автоматизация — конвейер (pipeline)
    * поток данных
    * поток операций

### Технологии для построения конвейеров:

* Apache Airflow
* Apache NiFi
* Pentaho DI
* другие

## Дополнительные материалы

* Статьи о ETL и ELT:

    * [ETL vs ELT: Must Know Differences](https://www.guru99.com/etl-vs-elt.html)
    * [ETL Vs ELT: The Difference Is In The How](https://blog.panoply.io/etl-vs-elt-the-difference-is-in-the-how)
* Книга «[Modern Data Governance](https://s3.amazonaws.com/eckerson/content_assets/assets/000/000/171/original/EckersonGroup_FullDGReport_DLoshin-AReifer_Jan2108.pdf?1520524474)»

# 6. Параллельная обработка