Skip to content
Nataliia Rogozina edited this page Apr 12, 2022 · 13 revisions

Понятие и модели хранилищ данных (DWH).

Реферат к лекции 16 (32) Технологии хранилищ данных

Выполнил: Богач Борис ИДБ-18-05

Проверил: Рогозина Наталия ИДБ-18-05


Понятие "Data Warehouse"

Data Warehouse = DWH = Хранилище данных (rus) – это платформа (набор программ), содержащая базу данных, средство для потоковой обработки данных (ETL-средство) и агента (оркестратора), выполняющего запуск процедур ETL. Хранилище может быть аналитическим или операционным. Другими словами это предметно-ориентированная информационная база данных, специально разработанная и предназначенная для подготовки отчётов и бизнес-анализа с целью поддержки принятия решений в организации. Строится на базе систем управления базами данных и систем поддержки принятия решений. Данные, поступающие в хранилище данных, как правило, доступны только для чтения.


Отличие от обычных БД

Корпоративное хранилище данных отличается от обычных БД, используемых в бизнесе, по нескольким параметрам:

  • Тип и источник данных Обычные БД хранят данные от конкретных информационных систем компании. Например, в базе данных HR-отдела мы увидим информацию о сотрудниках, а вот данных о поставках там не будет. DWH строится по другому принципу: такое корпоративное хранилище консолидирует в себе информацию от всех департаментов компании — от статистики продаж до сведений о сотрудниках.
  • Объем данных Обычные базы используются для хранения только актуальной информации — в ней не имеет смысла хранить данные за несколько лет работы предприятия. В Data Warehouse, наоборот, стекаются исторические данные и архивные сведения. Например, заглянув в DWH, можно получить информацию о всех сделках за последние несколько лет.
  • Роль в бизнес-процессах Изначально данные хранятся в обычных БД и уже оттуда поступают в DWH. Иными словами, Data Warehouse всегда содержит последние версии данных.

Принципы организации хранилища

  • Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
  • Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
  • Некорректируемость. Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.
  • Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Какие задачи решает хранилище:

  • Распространение мастер-данных предприятия (количество баз данных прикладных систем предприятия может достигать нескольких десятков, но есть данные, единые для всего предприятия. Централизованное их распространение позволяет избежать трудозатрат на повторный ввод данных и их консолидацию в случае построения единых отчетов)
  • Обеспечивает качество данных (данные, собираемые учетными системами не всегда удовлетворяют требованиям качества. На уровне хранилища выполняется «очистка» данных, т.е. приведение к нужному виду, дедупликация, унификация)
  • Предоставляет консолидированные данные для систем визуализации, таких как системы отчетности и [OLAP-кубы]
  • Обеспечивает эффективное хранение данных предприятия

Концептуальная схема хранилища данных DWH:


Модели хранилищ данных

В традиционной архитектуре существует три общих модели хранилищ данных: виртуальное хранилище, витрина данных и корпоративное хранилище данных:

Виртуальное хранилище данных — это набор отдельных баз данных, которые можно использовать совместно, чтобы пользователь мог эффективно получать доступ ко всем данным, как если бы они хранились в одном хранилище данных;

Модель витрины данных используется для отчетности и анализа конкретных бизнес-линий. В этой модели хранилища – агрегированные данные из ряда исходных систем, относящихся к конкретной бизнес-сфере, такой как продажи или финансы;

Модель корпоративного хранилища данных предполагает хранение агрегированных данных, охватывающих всю организацию. Эта модель рассматривает хранилище данных как сердце информационной системы предприятия с интегрированными данными всех бизнес-единиц


Модели Datawarehouse

Две самых популярных для ХД методологии гибкого проектирования — Anchor model и Data Vault.

  • Data Vault — гибридный подход, объединивший достоинства знакомой многим схемы «звезды» и 3-ей нормальной формы. Впервые эта методология была анонсинована в 2000 году Дэном Линстедтом (Dan Linstedt). Подход был придуман в процессе разработки хранилища данных для Министерства Обороны США и хорошо себя зарекомендовал. Позже, в 2013 году, Дэн анонсировал версию 2.0, доработанную с учетом быстро набравших популярность технологий (NoSQL, Hadoop) и новых требований, выставляемых к DWH. Поговорим мы именно о Data Vault 2.0. Data Vault состоит из трех основных компонентов — Хаб (Hub), Ссылка (Link) и Сателлит (Satellite).

  • Anchor Model - при раскладке данных в хранилище используется классическая якорная модель (Anchor Model). Эта модель позволяет гибко реагировать на изменение уже хранимых или добавление новых данных. Также благодаря ей можно эффективнее сжимать данные и быстрее работать с ними. Для примера, чтобы добавить новый атрибут к имеющейся сущности, достаточно создать еще одну таблицу и сообщить аналитикам о необходимости делать join'ы на нее.


Источники

  1. Проектирование и разработка хранилищ данных DWH.
  2. Обзор гибких методологий проектирования DWH.
  3. Основные подходы к архитектуре Хранилищ данных.
  4. Что такое Data Warehouse.
  5. Хранилище данных.
Clone this wiki locally