# Демонстрация инструмента последовательного снятия снимков агрегированных данных из потоковых данных

Импортируем необходимые библиотеки.

In [1]:
import time

import requests
import IPython.display

import constants
from _development.tests.test_utilities import print_response, print_tables_side_by_side
from _development.tests.subprocess_utilities import start_subprocess, terminate_shell_subprocess

Запустим генератор потоковых данных.

Потоковые данные содержат 3 поля:
- a: int
- b: int
- c: float

Генератор потоковых данных работает по следующему алгоритму:
1. Добавление 10 новых объектов, где:
    - a – случайное целое число от 0 до 10
    - b – случайное целое число от 0 до 20
    - с – случайное число от 0 до 10
2. Обновление 1 случайного объекта:
    - a задается равным 1000
    - b и c умножаются на 10
3. Удаление 1 случайного объекта

Данные изменения применяются к таблице базы данных PostgreSQL. Оттуда данные выгружаются в Apache Kafka инструментом CDC Debezium. Далее данные поступают в разработанный инструмент.

In [2]:
stream_generator = start_subprocess('python stream_generator.py')

Запустим разработанный инструмент.

In [3]:
main = start_subprocess('python ../../main.py')

Зададим имя топика Apache Kafka, откуда инструмент будет получать данные.

In [4]:
topic_name = 'postgres_source.public.demo_table'

Подготовим JSON запроса подключения к источнику данных CREATE SOURCE.

In [5]:
create_source = {'query_type': 'CREATE SOURCE',
                 'name': 'demo_source', 'type': 'DebeziumSource',
                 'parameters': {'kafka_topic_name': topic_name, 'group_id': None, 'auto_offset_reset': 'earliest',
                                'bootstrap_servers': ['kafka:9092'], 'consumer_timeout_ms': 1000}}

Подготовим JSON запроса создания материализованного представления CREATE MATERIALIZED VIEW.



In [6]:
create_view = {'query_type': 'CREATE MATERIALIZED VIEW',
               'name': 'demo_view', 'view_source_name': 'demo_source', 'groupby_columns': ['a'],
               'parameters': {'extrapolation': True, 'extrapolation_method': 'linear'},
               'aggregates': [{'function': 'Sum', 'column': 'c'}, {'function': 'Avg', 'column': 'c'},
                              {'function': 'CountDistinctCBF', 'column': 'b', 'parameters': {'expected_element_count': 100, 'false_positive_probability': 0.01}}]}

Подготовим JSON запроса получения данных SELECT.

In [7]:
select = {'query_type': 'SELECT', 'name': 'demo_view', 'orderby': [['a', 'DESC']], 'format': 'tabulate'}

In [8]:
select_extrapolated = {'query_type': 'SELECT EXTRAPOLATED', 'name': 'demo_view', 'orderby': [['a', 'DESC']], 'format': 'tabulate', 'extrapolation_offset': 0.1}

In [9]:
print_response(requests.post(f'http://127.0.0.1:{constants.SERVER_PORT}', json=create_source))

200 OK


In [10]:
print_response(requests.post(f'http://127.0.0.1:{constants.SERVER_PORT}', json=create_view))

200 OK


In [11]:
while True:
    select_response = requests.post(f'http://127.0.0.1:{constants.SERVER_PORT}', json=select).content.decode()
    select_extrapolated_response = requests.post(f'http://127.0.0.1:{constants.SERVER_PORT}', json=select_extrapolated).content.decode()
    print_tables_side_by_side(select_response, select_extrapolated_response, 'SELECT', 'SELECT EXTRAPOLATED')
    time.sleep(5)
    IPython.display.clear_output()

SELECT                                                        SELECT EXTRAPOLATED                                      
╭─────┬──────────┬──────────┬───────────────────────────╮     ╭─────┬──────────┬──────────┬───────────────────────────╮
│   a │   sum(c) │   avg(c) │   count_distinct_c_b_f(b) │     │   a │   sum(c) │   avg(c) │   count_distinct_c_b_f(b) │
├─────┼──────────┼──────────┼───────────────────────────┤     ├─────┼──────────┼──────────┼───────────────────────────┤
│   5 │       17 │        1 │                   11.0016 │     │   5 │  17.0333 │        1 │                   11.0272 │
│   4 │       49 │        1 │                   18.4776 │     │   4 │ 227.861  │        1 │                   18.4776 │
│   3 │       49 │        1 │                   21.4524 │     │   3 │  86.9506 │        1 │                   46.7528 │
│   2 │       61 │        1 │                   23.6417 │     │   2 │  61.0332 │        1 │                   23.6417 │
│   1 │       55 │        1 │           

KeyboardInterrupt: 

In [None]:
terminate_shell_subprocess(main)

In [None]:
terminate_shell_subprocess(stream_generator)

In [None]:
import kafka_utilities

kafka_utilities.delete_topic(topic_name)