# Что такое хранилище данных (DWH)

**Хранилище данных** - предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации.

<img src='Data-Warehouse.jpg' width='700px'/>

## Принципы организации хранилища

* *Проблемно-предметная ориентация.* Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.


* *Интегрированность.* Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.


* *Некорректируемость.* Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.


* *Зависимость от времени.* Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

## Архитектура хранилищ данных

* Нормализованные хранилища данных
* Хранилища с измерениями

### Нормализованные хранилища данных

* *Достоинства:* Просты в создании и управлении

* *Недостатки:* Из-за большого количества таблиц, изпользующихся для получения информации, снижается производительность системы


* В качестве решения проблемы производительности используются **денормализванные таблицы** или **витрины данных**

### Хранилища с измерениями

* *Достоинства:* Простота и понятность в использовании, а также более быстрый доступ к данным

* *Недостатки:* Сложность в подготовке данных, загрузке и изменений

### Схемы хранилища с измерениями

* Схема здезда

* Схема снежинка

#### Cхема звезда

В центре находится таблица фактов, а измерения образуют лучи


<img src="start-scheme.png" width='700px'/>

Разные факты могут использовать одни и те же измерения

<img src='start-scheme-multiple-facts.jpg' width='700px'/>

#### Схема снежинка

Очень похожа на схему "звезда", за исключением того, что измерения нормализованы

<img src='snowflake-scheme.png' width='700px'/>

# Измерения

## Виды измерений

### Согласованные измерения (Conformed dimension)

Данные измерения физически указывают на атрибут в таблице фактов, используя первичный ключ

### Псевдо-измерения (Junk dimensions)

Данные измерения являются комбинацией нескольких низкокардинальных измерений из источника данных. Например, пол и статус клиента (активный, неактивный) объединяются в одно измерение посредством декартова произведения.


<img src='junk-dimension.jpg' width='700px'/>

### Вырожденные измерения (Degenerate dimension)

Выроженные измерения характерны для таблиц фактов, содеражащих данные о транзакции. Обычно такие измерение не имеют своих таблиц измерений и аттрибутов.

Такими измерениями могут быть - номер-счета или номер-билета. 

### Ролевые измерения (Role-playing dimension)

Ролевое измерение может быть использовано для выражения сразу нескольких атрибутов. Например, измерение "Дата" - может быть датой продажи, датой доставки или датой приемы на работу.

Реализуют такие измерения посредством создания представлений в БД, использующих оригинальную таблицу, либо при помощи псевдонимов (alias) в специализированных BI инструментах.


<img src='role-playing-dimension.jpg'/>

### Outrigger dimension

Такие измерения ссылаются на другие измерения по внешнему ключу. В хранилищах данных использование данного типа измерения является анти-паттерном.


<img src='outrigger-dimension.png'/>

В качестве best practice можно денормальзовать измерения и превратить их в "звезду", либо ссылаться на каждое по отдельности из таблицы фактов.

### Сжатые измерения (Shrunken dimension)

Сабсет по строкам или столбцам от согласованного измерения

### Календарные измерение (Calendar date dimension)

Специально измерение, наличие которого в хранилище - хорошая практика, содержит в себе уровни времени (день, неделя, месяц, квартал, год и тд).


<img src='date-dimension.png' width='700px'/>

## Медленно меняющиеся измерения

### Тип 0

Измерения типа 0 содержат постоянные данные и никогда не изменяются. К таким измерениям можно отнести пол пользователя или календарное измерение

### Тип 1

В измерениях типа 1 значения перезаписываются, т.е. ключ остается прежним, а значение изменяется. Например, переименование населеных пунктов. При этом историчность теряется и невозможно отследить цепочку изменеий


<h5><center>Таблица с оригинальными данными</center></h5>
<table>
    <thead>
        <th>ID записи</th>
        <th>Табельный номер</th>
        <th>ФИО</th>
        <th>Должность</th>
        <th>Отдел</th>
    </thead>
    <tbody>
        <tr>
            <td>1026</td>
            <td>ИБ-69420</td>
            <td>Иванов Сергей Петрович</td>
            <td>Младший специалист</td>
            <td>Отдел оптовых закупок</td>
        </tr>
   </tbody>
</table>


<h5><center>Таблица с обновленными данными</center></h5>
<table>
    <thead>
        <th>ID записи</th>
        <th>Табельный номер</th>
        <th>ФИО</th>
        <th>Должность</th>
        <th>Отдел</th>
    </thead>
    <tbody>
        <tr>
            <td>1026</td>
            <td>ИБ-69420</td>
            <td>Иванов Сергей Петрович</td>
            <td><b>Главный специалист</b></td>
            <td><b>Отдел продаж</b></td>
        </tr>
   </tbody>
</table>

### Тип 2

В измерениях типа 2 добавляются новые строки и дополнительные столбцов. Такой подход позволяет сохранить историчность.

<h5><center>Таблица с оригинальными данными</center></h5>
<table>
    <thead>
        <th>ID записи</th>
        <th>Табельный номер</th>
        <th>ФИО</th>
        <th>Должность</th>
        <th>Отдел</th>
        <th>Номер истории</th>
        <th>Дата начала</th>
        <th>Дата окончания</th>
    </thead>
    <tbody>
        <tr>
            <td>1026</td>
            <td>ИБ-69420</td>
            <td>Иванов Сергей Петрович</td>
            <td>Младший специалист</td>
            <td>Отдел оптовых закупок</td>
            <td>1</td>
            <td>2018-01-01</td>
            <td>2999-12-31</td>
        </tr>
   </tbody>
</table>


<h5><center>Таблица с обновленными данными</center></h5>
<table>
    <thead>
        <th>ID записи</th>
        <th>Табельный номер</th>
        <th>ФИО</th>
        <th>Должность</th>
        <th>Отдел</th>
        <th>Номер истории</th>
        <th>Дата начала</th>
        <th>Дата окончания</th>
    </thead>
    <tbody>
        <tr>
            <td>1026</td>
            <td>ИБ-69420</td>
            <td>Иванов Сергей Петрович</td>
            <td>Младший специалист</td>
            <td>Отдел оптовых закупок</td>
            <td>1</td>
            <td>2018-01-01</td>
            <td>2020-10-31</td>
        </tr>
        <tr>
            <td>1026</td>
            <td>ИБ-69420</td>
            <td>Иванов Сергей Петрович</td>
            <td>Младший специалист</td>
            <td>Отдел оптовых закупок</td>
            <td>2</td>
            <td>2020-10-31</td>
            <td>2999-12-31</td>
        </tr>
   </tbody>
</table>

### Тип 3

Измерения типа 3 используют добавление новых столбцов-атрибутов, хранящих предыдущее значение для поддержания историчности. Такой тип в чистом виде возникает редко, и нужен бизнесу для ситуаций, когда необходимо отслеживать изменения только по конкретным параметрам.


<h5><center>Таблица с оригинальными данными</center></h5>
<table>
    <thead>
        <th>ID записи</th>
        <th>Табельный номер</th>
        <th>ФИО</th>
        <th>Прежняя должность</th>
        <th>Текущая должность</th>
        <th>Прежний отдел</th>
        <th>Текущий отдел</th>
        <th>Дата вступления в силу</th>
    </thead>
    <tbody>
        <tr>
            <td>1026</td>
            <td>ИБ-69420</td>
            <td>Иванов Сергей Петрович</td>
            <td></td>
            <td>Младший специалист</td>
            <td></td>
            <td>Отдел оптовых закупок</td>
            <td></td>
        </tr>
   </tbody>
</table>


<h5><center>Таблица с оригинальными данными</center></h5>
<table>
    <thead>
        <th>ID записи</th>
        <th>Табельный номер</th>
        <th>ФИО</th>
        <th>Прежняя должность</th>
        <th>Текущая должность</th>
        <th>Прежний отдел</th>
        <th>Текущий отдел</th>
        <th>Дата вступления в силу</th>
    </thead>
    <tbody>
        <tr>
            <td>1026</td>
            <td>ИБ-69420</td>
            <td>Иванов Сергей Петрович</td>
            <td>Младший специалист</td>
            <td>Главный специалист</td>
            <td>Отдел оптовых закупок</td>
            <td>Отдел продаж</td>
            <td>2020-11-01</td>
        </tr>
   </tbody>
</table>

## Суррогатные ключи в измерениях

*Суррогатный ключ* - это дополнительное служебное поле, добавленное к уже имеющимся информационным полям таблицы, единственное предназначение которого — служить первичным ключом. Значение этого поля не образуется на основе каких-либо других данных из

## Иерархии измерений

### Родитель потомок (Parent-Child)


<img src='parent-child-hierarchy.png' width='700px'/>

### Уровневые (Level-Based)


<img src='level-based-hierarchy.jpg' width='700px'/>

#### Skipped Level

<img src='level-based-skipped-hierarchy.jpg'/>

#### Ragged


<img src='lvl-based-ragged-hierarchy.png'/>

# Факты

* Детальные таблицы
* Аггрегаты

# Источники данных

## Внутренние источники данных

* Реляционные СУБД (SQL)
* Нереляционные СУДБ (NoSQL)
* Стримминговые системы (Kafka)
* Файлы (.csv и др.)
* Внутренние API

## Внешние источники данных

**Партнеры компании**
* Передача данных в файлах
* API
* Доступ к внешней БД

**Открытые данные**
* Веб-парсинг (скраппинг)
* Открытые API