Мы создадим DataFrame с данными о продажах, который будем использовать для создания OLAP-куба.

In [1]:
import pandas as pd

# Создаем пример данных о продажах
data = {
    'OrderID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Product': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],
    'Quantity': [10, 20, 15, 5, 10, 25, 10, 30, 5, 20],
    'Price': [100, 200, 150, 300, 250, 100, 300, 200, 150, 300],
    'Date': pd.to_datetime([
        '2023-01-01', '2023-01-02', '2023-01-02',
        '2023-01-03', '2023-01-03', '2023-01-04',
        '2023-01-04', '2023-01-05', '2023-01-05', '2023-01-06'
    ])
}

df = pd.DataFrame(data)
print("Исходные данные:")
print(df)


Исходные данные:
   OrderID Product  Quantity  Price       Date
0        1       A        10    100 2023-01-01
1        2       B        20    200 2023-01-02
2        3       A        15    150 2023-01-02
3        4       C         5    300 2023-01-03
4        5       B        10    250 2023-01-03
5        6       A        25    100 2023-01-04
6        7       C        10    300 2023-01-04
7        8       B        30    200 2023-01-05
8        9       A         5    150 2023-01-05
9       10       C        20    300 2023-01-06


Мы создадим сводную таблицу, которая будет представлять наш OLAP-куб.

В этой сводной таблице мы будем агрегировать данные по продуктам и датам, чтобы получить общую сумму продаж и количество проданных единиц.

In [2]:
# Создаем OLAP-куб (сводную таблицу)
olap_cube = pd.pivot_table(
    df,
    values='Quantity',  # Значения, которые мы хотим агрегировать
    index=['Date'],     # Строки (по датам)
    columns=['Product'], # Столбцы (по продуктам)
    aggfunc='sum',      # Функция агрегации
    fill_value=0        # Заполняем пустые значения нулями
)

# Добавляем общую сумму продаж
olap_cube['Total'] = olap_cube.sum(axis=1)

print("\nOLAP-куб (сводная таблица):")
print(olap_cube)



OLAP-куб (сводная таблица):
Product      A   B   C  Total
Date                         
2023-01-01  10   0   0     10
2023-01-02  15  20   0     35
2023-01-03   0  10   5     15
2023-01-04  25   0  10     35
2023-01-05   5  30   0     35
2023-01-06   0   0  20     20


Теперь мы можем выгрузить данные из OLAP-куба в виде DataFrame.

Например, мы можем получить данные по определенному продукту.

In [3]:
# Выгружаем данные по продукту A
product_a_data = olap_cube[['A']]
print("\nДанные по продукту A:")
print(product_a_data)



Данные по продукту A:
Product      A
Date          
2023-01-01  10
2023-01-02  15
2023-01-03   0
2023-01-04  25
2023-01-05   5
2023-01-06   0


Мы можем выполнять различные запросы к нашему OLAP-кубу.

Например, давайте посмотрим на общую сумму продаж за каждую дату.

In [4]:
# Общая сумма продаж по датам
total_sales_per_date = olap_cube['Total']
print("\nОбщая сумма продаж по датам:")
print(total_sales_per_date)

# Общая сумма продаж по продуктам
total_sales_per_product = olap_cube.sum(axis=0)
print("\nОбщая сумма продаж по продуктам:")
print(total_sales_per_product)



Общая сумма продаж по датам:
Date
2023-01-01    10
2023-01-02    35
2023-01-03    15
2023-01-04    35
2023-01-05    35
2023-01-06    20
Name: Total, dtype: int64

Общая сумма продаж по продуктам:
Product
A         55
B         60
C         35
Total    150
dtype: int64
