## 🏰Data Warehouse 🏰
### 🛠 1. Упр. - Пример схемы "звезда" для хранилища данных 
Нарисовать по описанию  

Схема "звезда" — это один из наиболее распространенных способов организации данных в хранилище данных. В такой схеме есть одна центральная таблица фактов, которая соединяется с несколькими таблицами измерений.


#### Пример схемы "звезда"
Предположим, у нас есть хранилище данных для интернет-магазина. В этой схеме могут быть следующие таблицы:

**Таблица фактов:**

 - Sales (Продажи)
 - SalesID (Primary Key)
 - DateKey (Foreign Key)
 - ProductKey (Foreign Key)
 - CustomerKey (Foreign Key)
 - QuantitySold
 - TotalSalesAmount
 
**Таблицы измерений:**

**Date (Дата)**
 - DateKey (Primary Key)
 - Date
 - Month
 - Quarter
 - Year
 
**Product (Товар)**  
 - ProductKey (Primary Key)
 - ProductName
 - Category
 - Price
 
**Customer (Клиент)**  
 - CustomerKey (Primary Key)
 - CustomerName
 - City
 - Country

### ✅РЕШЕНИЕ ✅
![](../images/01_03_01.png)


#### Преимущества схемы "звезда"
#### Простота и легкость понимания:
Структура схемы "звезда" интуитивно понятна. Центральная таблица фактов и связанные таблицы измерений четко разделяют данные о событиях (фактах) и атрибутах, что упрощает анализ.

#### Улучшенная производительность запросов:

Запросы, выполняемые на модели "звезда", часто работают быстрее, чем на более сложных схемах (например, "снежинка"), потому что они минимизируют количество объединений (JOIN) между таблицами. Это особенно полезно при выполнении агрегаций.

#### Легкость в расширении:

Добавление новых измерений (например, новая таблица измерений для "Поставщиков") не требует значительных переработок существующей структуры. Это позволяет легко масштабировать хранилище данных по мере роста бизнеса.

#### Оптимизация для OLAP:

Схема "звезда" хорошо подходит для многомерного анализа (OLAP). Она позволяет пользователям эффективно выполнять операции "drill down", "roll up", "slice", и "dice", обеспечивая гибкость анализа данных.

#### Упрощенное выполнение ETL-процессов:

Процесс извлечения, трансформации и загрузки данных (ETL) может быть более простым и понятным, поскольку данные из различных источников можно агрегировать в таблицу фактов, а затем связывать с измерениями.

#### Снижение избыточности данных:

Схема "звезда" позволяет избежать избыточности данных, так как факты и измерения хранятся в отдельных таблицах. Это также облегчает управление изменениями в данных.



## 🛠 Упражнение 1: Проектирование ER-диаграммы для Data Warehouse
Цель: Научиться проектировать структуру данных для хранилища данных с помощью ER-диаграммы.

Задание:

 - Определите бизнес-сценарий (например, хранилище данных для интернет-магазина, банка или учебного заведения).
 - Определите основные сущности (например, Клиенты, Заказы, Продукты, Категории).
 - Определите атрибуты для каждой сущности и их взаимосвязи.
 - Создайте ER-диаграмму, используя инструменты, такие как Lucidchart или draw.io.
 - Опишите, как связи между сущностями будут представлять бизнес-правила.
 
### ✅РЕШЕНИЕ ✅ 
#### Бизнес-сценарий использования хранилища данных:
В базе данных ресторанного холдинга несколько таблиц с данными о заказах. Изучая данные о клиентской активности и информации о заказах, ресторан сможет сделать вывод о том, какие блюда пользуются спросом, какой город лидирует по продажам, есть ли влияние пола клиента на спрос того или иного блюда,  и т.д. 

#### Основные сущности хранилища данных для интернет-магазина:
**orders** - Таблица с информацией о заказах<br>
**dishes** - Таблица с информацией о блюдах<br>
**order_items** - Таблица с информацией о количестве блюд в заказе<br>
**order_statuses** - Таблица с информацией о статусе заказа <br>
**statuses** - Содержит информацию о статусах заказов.<br>
**users** - Таблица с информацией о клиентах<br>
**cities** - Таблица cодержит информацию о названии городов.<br>
**dishes_price** - Таблица cодержит  информацию о ценах на блюда.<br>
#### Атрибуты для каждой сущности и их взаимосвязи.
**Атрибуты сущностей:**<br>
![](../images/1.png)<br>
![](../images/2.png)<br>
![](../images/3.png)<br>
![](../images/4.png)<br>
**Взаимосвязи между сущностями:**
 
Виды связей между таблицами в реляционных БД.<br>
В реляционных базах данных предусмотрено три вида связей:
 - «один к одному», который ещё обозначают 1:1 или one-to-one;
 - «многие к одному» (M:1 или many-to-one) или «один ко многим» (1:M или one-to-many);
 - «многие ко многим» (M:M или many-to-many). 


Среди данных ресторанного холдинга нет таблиц, которые связаны между собой по принципу «один к одному» или " многие ко многим".

Например, связь «многие к одному» в таблице cities каждой записи (а именно каждому PK city_id) может принадлежать несколько записей (несколько FK city_id) из таблицы users. Это логично, ведь разные пользователи могут быть из одного города.

**Таблицы и типы данных:**
 - В базе несколько таблиц: orders, users, order_items и так далее.
 - Для каждой таблицы указана информация о типах данных полей. Они помогают определить, какие данные хранятся в каждом поле. Например, int используется для целых чисел, numeric для чисел с фиксированной точностью, а bigserial для больших целых чисел — число при этом автоматически увеличивается с каждым добавленным значением. Тип varchar используют для строк переменной длины, timestamptz для даты и времени с указанием часового пояса.
 - Для типов данных указаны псевдонимы. Псевдоним int8 обозначает тип для целых чисел, который позволяет хранить большие значения. Псевдоним varchar(128) обозначает тип для строк переменной длины до 128 символов. Псевдоним numeric(14, 2) означает число с фиксированной точностью, где 14 — это общее количество значимых цифр в числе, а 2 — количество значимых цифр после точки.

**Ключи:**
 - Первичные ключи, или Primary Keys, обозначены фиолетовым и выделены полужирным. Такие ключи идентифицируют каждую запись в таблице. Например, order_id в таблице orders и user_id в таблице users.
 - Внешние ключи, или Foreign Keys, также выделены фиолетовым. Такие ключи создают связь между таблицами. Например, user_id в таблице orders, который ссылается на user_id в таблице users.
**Связи между данными:**
- Таблицы orders и users связаны в базе. Один клиент может сделать несколько заказов, и эта связь отображается через внешний ключ user_id в таблице orders, который ссылается на user_id из таблицы users.
- Таблицы orders и order_items также связаны. Один заказ может содержать несколько элементов. Эта связь осуществляется через внешний ключ order_id в таблице order_items, который ссылается на order_id из таблицы orders.<br>
**Условные обозначения связей:**
По линейным обозначениям можно определить вид связи между таблицами. В базе данных холдинга используется только связь «один ко многим».

![](../images/01_03_04.png)<br>
 
#### ER-диаграмма
ER-диаграмма данных ресторанного холдинга визуализирует данные одной большой схемы — rest_orders.

Схема в базе данных определяет:
 - какие таблицы существуют в базе;
 - какие поля, или атрибуты, есть в каждой таблице и какие у них типы данных;
 - какие ключи, первичные и внешние, используются для идентификации записей и установления связей между таблицами;
 - какие правила и ограничения применяются к данным.

![](../images/01_03_03.png)<br>




 
### 🛠 Упражнение 2: Создание схемы хранилища данных
Цель: Научиться создавать схему для хранилища данных.

Задание:

 - Используя ER-диаграмму, разработанную в предыдущем упражнении, создайте логическую и физическую схему хранилища данных.
 - Определите таблицы фактов и измерений.
 - Опишите, какие меры будут храниться в таблицах фактов и какие атрибуты будут храниться в таблицах измерений.
 - Создайте SQL-скрипты для создания таблиц в реляционной базе данных (например, PostgreSQL).
 
### ✅РЕШЕНИЕ ✅ 
в прошлом задании подробно описаны хранящиеся таблицы в схеме rest_orders, составлена ER-диаграмма, создана логическая и физическая схема хранилища данных.

в таблицах фактов  будут храниться меры

 - order_id  bigint  идентификатор заказа(первичный ключ)
 - order_dt  timestamp  дата и время создания заказа
 - user_id uuid  идентификатор клиента (внешний ключ, связан с первичным ключом
 - user_id таблицы users) device_type varchar тип устройства,с которого был сделан заказ (Desktop — заказ был сделан из компьютерного приложения, Mobile — заказ был сделан из мобильного приложения)
 - city_id integer идентификатор города (внешний ключ, связан с первичным ключом city_id таблицы cities)
 - total_cost numeric(14,2) стоимость заказа без учёта скидки
 - discount numeric(14,2) размер скидки
 - final_cost numeric(14,2) стоимость заказа с учётом скидки

В других  таблицах будут харниться остальные атрибуты 

**SQL-скрипт** для создания таблиц в реляционной базе данных (например, PostgreSQL).
![](../images/5.png)<br>
 
[скрипт create_rest_orders.sql ](files/create_rest_orders.sql)

### 🛠 Упражнение 3: Загрузка данных в хранилище данных
Цель: Научиться загружать данные в хранилище данных с помощью ETL-процесса.

Задание:

Выберите набор данных (например, CSV-файл с данными о продажах).
 - Создайте ETL-процесс, используя инструменты, такие как Apache NiFi, Talend или SQL Server Integration Services (SSIS).
 - -E (Extract): Извлеките данные из CSV-файла.
 
 - -T (Transform): Преобразуйте данные (например, очистка, фильтрация).
 
 
 - -L (Load): Загрузите данные в таблицы фактов и измерений, созданные в предыдущем упражнении.
 
Проверьте, что данные были загружены корректно.
### ✅РЕШЕНИЕ ✅

In [1]:
import pandas as pd
import psycopg2

In [None]:
# Параметры подключения к локальной базе PostgreSQL
db_params = {
    "host": "localhost",
    "database": "Data Warehouse",
    "user": "postgres",
    "password": "edaqura",
    "port": "5432"
}

# Подключение к базе данных
connection = psycopg2.connect(**db_params)
cursor = connection.cursor()

# 1. Extract: Извлечение данных из CSV
def extract_data(file_path):
    print("Извлечение данных из CSV...")
    df = pd.read_csv(file_path)
    return df

# 2. Transform: Преобразование данных
def transform_data(df):
    print("Преобразование данных...")
    
    # Очистка данных (удаление пропусков)
    df = df.dropna()

    # Преобразование даты
    df['sale_date'] = pd.to_datetime(df['sale_date'])
    df['month'] = df['sale_date'].dt.month
    df['quarter'] = df['sale_date'].dt.quarter
    df['year'] = df['sale_date'].dt.year

    # Уникальные записи для таблиц измерений
    date_df = df[['sale_date', 'month', 'quarter', 'year']].drop_duplicates()
    product_df = df[['product_name', 'category', 'price']].drop_duplicates()
    customer_df = df[['customer_name', 'city', 'country']].drop_duplicates()
    sales_df = df[['sale_date', 'product_name', 'customer_name', 'quantity_sold', 'total_amount']]

    return date_df, product_df, customer_df, sales_df

# 3. Load: Загрузка данных в PostgreSQL
def load_data(date_df, product_df, customer_df, sales_df):
    # Загрузка таблицы Date
    print("Загрузка данных в таблицу Date...")
    for _, row in date_df.iterrows():
        cursor.execute("""
            INSERT INTO Date (Date, Month, Quarter, Year)
            VALUES (%s, %s, %s, %s)
            ON CONFLICT DO NOTHING
            RETURNING DateKey;
        """, (row['sale_date'], row['month'], row['quarter'], row['year']))
        connection.commit()

    # Загрузка таблицы Product
    print("Загрузка данных в таблицу Product...")
    product_keys = {}
    for _, row in product_df.iterrows():
        cursor.execute("""
            INSERT INTO Product (ProductName, Category, Price)
            VALUES (%s, %s, %s)
            ON CONFLICT DO NOTHING
            RETURNING ProductKey;
        """, (row['product_name'], row['category'], row['price']))
        product_key = cursor.fetchone()[0]
        product_keys[row['product_name']] = product_key
        connection.commit()

    # Загрузка таблицы Customer
    print("Загрузка данных в таблицу Customer...")
    customer_keys = {}
    for _, row in customer_df.iterrows():
        cursor.execute("""
            INSERT INTO Customer (CustomerName, City, Country)
            VALUES (%s, %s, %s)
            ON CONFLICT DO NOTHING
            RETURNING CustomerKey;
        """, (row['customer_name'], row['city'], row['country']))
        customer_key = cursor.fetchone()[0]
        customer_keys[row['customer_name']] = customer_key
        connection.commit()

    # Загрузка таблицы Sales
    print("Загрузка данных в таблицу Sales...")
    for _, row in sales_df.iterrows():
        cursor.execute("""
            SELECT DateKey FROM Date WHERE Date = %s;
        """, (row['sale_date'],))
        date_key = cursor.fetchone()[0]

        product_key = product_keys[row['product_name']]
        customer_key = customer_keys[row['customer_name']]

        cursor.execute("""
            INSERT INTO Sales (DateKey, ProductKey, CustomerKey, QuantitySold, TotalSalesAmount)
            VALUES (%s, %s, %s, %s, %s);
        """, (date_key, product_key, customer_key, row['quantity_sold'], row['total_amount']))
        connection.commit()

    print("Данные успешно загружены!")

# Основной процесс ETL
def run_etl(file_path):
    # Extract
    raw_data = extract_data(file_path)
    # Transform
    date_df, product_df, customer_df, sales_df = transform_data(raw_data)
    # Load
    load_data(date_df, product_df, customer_df, sales_df)

In [None]:
# Запуск ETL-процесса
if __name__ == "__main__":
    file_path = "sales_data.csv"
    run_etl(file_path)

    # Закрытие соединения
    cursor.close()
    connection.close()

### 🛠 Упражнение 4: Создание отчетов и аналитики
Цель: Научиться создавать отчеты и аналитические запросы на основе данных в хранилище данных.

Задание:

Используя SQL, создайте несколько аналитических запросов для получения информации из вашего хранилища данных.
 - Например, запрос для подсчета общего объема продаж по месяцам.
 
 - Запрос для получения средней цены товара по категориям.
 
 - Запрос для получения списка лучших клиентов по сумме заказов.
 
 - Создайте визуализации на основе этих запросов с помощью инструментов BI, таких как Tableau, Power BI или Looker.
 - Создайте интерактивные панели мониторинга, чтобы пользователи могли видеть ключевые показатели.
 
### ✅РЕШЕНИЕ ✅ 
База данных в Postgres, настроено подключение к DataLens  в котором будут запросы  с визуализацией и дашбордом.
![](../images/6.png)<br>

Было расчитано несколько рандомных паказателей и собрано в дашборде в Даталенз с использованием SQL запросов напрямую в базу (QL-чарт)

несколько скринов запросов
![](../images/8.png)<br>
![](../images/9.png)<br>
![](../images/10.png)<br>
![](../images/11.png)<br>

Скрин дашборда <br>
![скрин дашборда](../images/7.png)<br>
[ссылка на дашборд](https://datalens.yandex.cloud/elihb94qjdyo0-monitoring-zakazov-restoranov?_no_controls=1&_theme=light)
### 🛠 Упражнение 5: Оптимизация производительности
Цель: Научиться оптимизировать производительность хранилища данных. Задание:

 - Проведите анализ производительности запросов, используя инструменты для мониторинга (например, AWS CloudWatch, SQL Server Profiler).
 - Определите медленные запросы и узкие места.
 - Оптимизируйте запросы, используя индексы, партиционирование или другие методы.
 - Проведите повторный анализ производительности и сравните результаты до и после оптимизации.
### ✅РЕШЕНИЕ ✅ 

Анализ производительности запросов
![](../images/12.png)<br>
Запросы написаны хорошо с точки зрения оптимизации, но можно было бы попробовать оптимизировать их дополнительными инструментами

Например, добавив индексы
CREATE INDEX idx_orders_order_date ON orders (order_dt);
CREATE INDEX idx_orders_client_id ON orders (user_id);

Если таблица orders или какая-то другая содержали бы большое количество записей, можно было бы применить порционирование, но в нашем случае они достаточно маленькие.

### 🛠 Упражнение 6: Управление метаданными
Цель: Научиться управлять метаданными в хранилище данных.

Задание:

 - Используйте инструменты для управления метаданными, такие как Apache Atlas или Amazon Glue.
 - Создайте каталог данных для вашего хранилища данных, включая метаданные для таблиц фактов и измерений.
 - Определите и документируйте источники данных, типы данных и описания для каждого атрибута.
 - Проведите аудит метаданных и определите, какие дополнительные метаданные могут быть полезны для пользователей.
![](../images/14.png)<br>
![](../images/13.png)<br>
скрипт [create_metadata.sql](files/create_metadata.sql)

дополнительные метаданные могут быть полезны для пользователей - сформировать данные по остальным таблицам. Возможно было бы интересно добавить, ответственное лицо(должность), срок хранения данных.