## Schema registry

In [7]:
import requests
import json

In [8]:
## Список 
response = requests.get("http://localhost:8081/subjects")
response.json()

['my-avro-topic-value']

In [1]:
### УДАЛЕНИЕ
import requests

# URL для удаления схемы
url = 'http://localhost:8081/subjects/my-avro-topic-value'

# Отправляем DELETE-запрос
response = requests.delete(url)

# Проверяем результат
if response.status_code == 200:
    print(f"Схема для 'my-topic4-value' успешно удалена.")
else:
    print(f"Ошибка при удалении схемы: {response.status_code[:10]}\n{response.text[:10]}")


Схема для 'my-topic4-value' успешно удалена.


In [9]:
response = requests.get("http://localhost:8081/subjects/my-avro-topic-value/versions/latest")
str(response.json())[:100]

'{\'subject\': \'my-avro-topic-value\', \'version\': 1, \'id\': 1, \'schema\': \'{"type":"record","name":"User",'

In [67]:
schema_id = 1  # Замените на нужный ID
url = f'http://localhost:8081/schemas/ids/{schema_id}'
response = requests.get(url)

if response.status_code == 200:
    schema = response.json().get('schema')
    print('Полученная схема:', schema)
else:
    print('Ошибка при получении схемы:', response.text)


Полученная схема: {"title":"UserList","type":"array","items":{"type":"object","properties":{"name":{"type":"string"},"age":{"type":"integer"},"email":{"type":"string"}},"required":["name","age"]}}


AVRO-схема

In [45]:
#пробуем зарегистрировать несколько разновидностей

In [2]:
##
import requests
import json

url = 'http://localhost:8081/subjects/my-topic-value/versions'
schema = {
    "schema": json.dumps({
        "type": "record",
        "name": "User",
        "fields": [
            {"name": "name", "type": "string"},
            {"name": "age", "type": "int"}
            ,
            {"name": "email", "type": "int", "default": ""}
        ]
    })
}
## POST-запрос!!!
response = requests.post(url, json=schema)

if response.status_code == 200:
    schema_id = response.json().get('id')
    print('Схема зарегистрирована с ID:', schema_id)
else:
    print('Ошибка при регистрации схемы:', response.text)

Схема зарегистрирована с ID: 4


In [10]:
response = requests.get("http://localhost:8081/subjects/my-avro-topic-value/versions")
response.json()

[1]

In [15]:
response = requests.get("http://localhost:8081/subjects/my-avro-topic-value/versions/latest")
response.json()

{'subject': 'my-avro-topic-value',
 'version': 1,
 'id': 1,
 'schema': '{"type":"record","name":"User","fields":[{"name":"name","type":"string"},{"name":"favorite_number","type":"long"},{"name":"favorite_color","type":"string"}]}'}

Для AVRO - Консюмер определит версию схемы по магическим байтикам.

Для JSON надо делать ручками, например - писать версию в само соообщение

In [6]:
# ================================================

AVRO

Avro-файл — это бинарный файл, который используется для хранения данных, сериализованных в формате Avro. Он состоит из двух основных частей:

Заголовок (Header): содержит метаданные и схему данных, которая описывает формат записей в файле.
Тело (Data Blocks): содержит сами данные (записи), закодированные в соответствии с указанной схемой.

In [28]:
#Структура Avro-файла
# 1. Заголовок (Header)
# Каждый Avro-файл начинается с заголовка, который включает в себя:

# Магическое число (magic): первые 4 байта файла — это последовательность байт
#  0x4F 0x62 0x6A 0x01 (или строка "Obj\x01"). Это используется для идентификации файла 
# как Avro-файл.
#Метаданные (Metadata): хранит JSON-объект с информацией о схеме (например, "avro.schema") 
# и другую служебную информацию.
#Синхронизационный маркер (Sync Marker): случайная последовательность из 16 байт, которая используется для синхронизации при чтении файла блоками.

In [5]:
## работа с avro 
import fastavro

# Определение схемы
schema = {
    "type": "record",
    "name": "User",
    "fields": [
        {"name": "name", "type": "string"},
        {"name": "age", "type": "int"}
    ]
}

# Данные, которые будут сериализованы
records = [
    {"name": "Alice", "age": 25},
    {"name": "Bob", "age": 30}
]

# Запись данных в Avro-файл
with open('test.avro', 'wb') as out:
    fastavro.writer(out, schema, records)


In [5]:
import fastavro

# Чтение Avro-файла
with open('test.avro', 'rb') as f:
    reader = fastavro.reader(f)
    for record in reader:
        print(record)


{'name': 'Alice', 'age': 25}
{'name': 'Bob', 'age': 30}


In [36]:
from uuid import uuid4
str(uuid4())

'11d10a2c-1188-48bf-9540-0a866c711adb'

#### Пример в kafka_avro_producer.py 
======================================

In [13]:
### Читаем сырые байтики
from confluent_kafka import Consumer

# Конфигурация консьюмера
conf = {
    'bootstrap.servers': 'localhost:9092',
    'group.id': 'my_group111111',
    'auto.offset.reset': 'earliest'  # Чтение сообщений с начала, если нет сохранённых оффсетов
}

# Создаем консьюмера
consumer = Consumer(conf)

# Подписка на топик
topic = "my-avro-topic"
consumer.subscribe([topic])

print(f"Listening to topic '{topic}'...")

# Чтение сообщений
try:
    for x in range(10):
        msg = consumer.poll(1.0)  # Ожидание сообщений

        if msg is None:
            continue

        if msg.error():
            print(f"Consumer error: {msg.error()}")
            continue

        # Получение "сырых" данных сообщения
        raw_key = msg.key()  # Байты ключа
        raw_value = msg.value()  # Байты значения

        # Вывод байтов сообщения
        print(f"Raw key (bytes): {raw_key}")
        print(f"Raw value (bytes): {raw_value}")

        # Если хотите вывести их в текстовом виде (для строк):
        print(f"Key (decoded): {raw_key.decode('utf-8') if raw_key else None}")
        print(f"Value (decoded): {raw_value.decode('utf-8') if raw_value else None}")

except KeyboardInterrupt:
    print("Consumer interrupted.")
finally:
    consumer.close()


Listening to topic 'my-avro-topic'...
Raw key (bytes): b'7105d34f-40e7-4588-8e74-d70c8f2989e0'
Raw value (bytes): b'\x00\x00\x00\x00\x01\x06qwe\x02\x08red '
Key (decoded): 7105d34f-40e7-4588-8e74-d70c8f2989e0
Value (decoded):     qwered 
Raw key (bytes): b'4c5d96d9-3046-47f4-b5d9-a145733e553d'
Raw value (bytes): b'\x00\x00\x00\x00\x01\x06qwe\x02\x08red '
Key (decoded): 4c5d96d9-3046-47f4-b5d9-a145733e553d
Value (decoded):     qwered 
Raw key (bytes): b'9a764074-df69-45ee-b833-540168d61e8d'
Raw value (bytes): b'\x00\x00\x00\x00\x01\x06qwe\x02\x08red '
Key (decoded): 9a764074-df69-45ee-b833-540168d61e8d
Value (decoded):     qwered 
Raw key (bytes): b'75593f37-3e89-4e1d-a00f-e2efbc986dac'
Raw value (bytes): b'\x00\x00\x00\x00\x01\x06qwe\x02\x08red '
Key (decoded): 75593f37-3e89-4e1d-a00f-e2efbc986dac
Value (decoded):     qwered 
Raw key (bytes): b'ede0bc9e-1067-48c7-b93b-16568092615a'
Raw value (bytes): b'\x00\x00\x00\x00\x01\x06qwe\x02\x08red '
Key (decoded): ede0bc9e-1067-48c7-b

## Пытаемся читать обычным консюмером AVRO

In [16]:
from confluent_kafka import Consumer
from confluent_kafka.avro import AvroConsumer

# Конфигурация консьюмера
conf = {
    'bootstrap.servers': 'localhost:9092',
    'group.id': 'my_group1111',
    'auto.offset.reset': 'earliest',  # Начинать чтение с самого начала, если нет смещений
    'schema.registry.url': 'http://localhost:8081',  # Schema Registry URL
}

# Создаем Avro-консьюмера
consumer = AvroConsumer(conf)

# Подписываемся на топик
consumer.subscribe(['my-avro-topic'])

# Чтение сообщений
try:
    for x in range(10):
        msg = consumer.poll(1.0)

        if msg is None:
            continue

        # Выводим полученное сообщение
        print(f"Получено сообщение: {msg.value()}")

except KeyboardInterrupt:
    pass
finally:
    consumer.close()


  consumer = AvroConsumer(conf)


SerializerError: Message deserialization failed for message at my-avro-topic [0] offset 0: message does not start with magic byte

In [5]:
response = requests.get("http://localhost:8081/subjects/my-avro-topic-value/versions/latest")
response.json()

{'subject': 'my-avro-topic-value',
 'version': 2,
 'id': 3,
 'schema': '{"type":"record","name":"User","fields":[{"name":"name","type":"string"},{"name":"favorite_number","type":"long"},{"name":"favorite_color","type":"string"}]}'}

## ДОПОЛНИТЕЛЬНЫЕ МАТЕРИАЛЫ

In [None]:
import requests
import json

# Конфигурация Schema Registry
schema_registry_url = 'http://localhost:8081'
subject = 'my-json-topic-value'  # Название subject для вашей схемы

# JSON-схема с массивом пользователей
json_schema = {
    "title": "UserList",
    "type": "array",
    "items": {
        "type": "object",
        "properties": {
            "name": {"type": "string"},
            "age": {"type": "integer"},
            "email": {"type": "string"}
        },
        "required": ["name", "age"]
    }
}

# Подготовка данных для регистрации схемы
data = {
    "schema": json.dumps(json_schema),
    "schemaType": "JSON"  # Указываем тип схемы
}

# Запрос на регистрацию схемы
response = requests.post(
    f'{schema_registry_url}/subjects/{subject}/versions',
    headers={'Content-Type': 'application/json'},
    data=json.dumps(data)
)

# Проверка ответа
if response.status_code == 200:
    print(f"Схема успешно зарегистрирована: {response.json()}")
else:
    print(f"Ошибка регистрации схемы: {response.status_code} {response.text}")

In [None]:
from confluent_kafka import Producer
from confluent_kafka.schema_registry import SchemaRegistryClient
from confluent_kafka.schema_registry.json_schema import JSONSerializer
from confluent_kafka.serialization import SerializationContext, MessageField
import json
import uuid

# Конфигурация Schema Registry
schema_registry_conf = {'url': "http://localhost:8081"}
schema_registry_client = SchemaRegistryClient(schema_registry_conf)

# Получаем последнюю версию схемы из Schema Registry
subject = 'my-json-topic-value'  # Субъект (subject), под которым схема зарегистрирована
schema_response = schema_registry_client.get_latest_version(subject)
schema_id = schema_response.schema_id
json_schema_str = schema_response.schema.schema_str
print(json_schema_str)

In [None]:
# Создаем JSONSerializer с использованием загруженной схемы
json_serializer = JSONSerializer(json_schema_str, schema_registry_client)

# Конфигурация продюсера Kafka
producer_conf = {
    'bootstrap.servers': 'localhost:9092'
}
producer = Producer(producer_conf)

# Топик Kafka
topic = 'my-json-topic'

# Пример JSON-сообщения, которое соответствует схеме
data = [
    {"name": "Alice", "age": 30, "email": "alice@example.com"},
    {"name": "Bob", "age": 25, "email": "bob@example.com"}
]

# Функция для обратного вызова при доставке сообщения
def delivery_report(err, msg):
    if err is not None:
        print(f"Delivery failed for record {msg.key()}: {err}")
    else:
        print(f"Record {msg.key()} successfully produced to {msg.topic()} [{msg.partition()}] at offset {msg.offset()}")

# Производство сообщений в топик Kafka
try:
    key = str(uuid.uuid4())  # Генерация уникального ключа для каждого сообщения
    serialized_value = json_serializer(data, SerializationContext(topic, MessageField.VALUE))
    
    producer.produce(
        topic=topic,
        key=key,
        value=serialized_value,
        on_delivery=delivery_report
    )
    producer.flush()  # Дождаться отправки всех сообщений
except Exception as e:
    print(f"Error: {e}")

print("Message sent successfully.")

In [None]:
## пишем другую схему
# Создаем JSONSerializer с использованием загруженной схемы
json_serializer = JSONSerializer(json_schema_str, schema_registry_client)

# Конфигурация продюсера Kafka
producer_conf = {
    'bootstrap.servers': 'localhost:9092'
}
producer = Producer(producer_conf)

# Топик Kafka
topic = 'my-json-topic'

# Пример JSON-сообщения, которое соответствует схеме
data = [
    {"name1": "Alice", "age": 30, "email": "alice@example.com"},
    {"name2": "Bob", "age": 25, "email": "bob@example.com"}
]

# Функция для обратного вызова при доставке сообщения
def delivery_report(err, msg):
    if err is not None:
        print(f"Delivery failed for record {msg.key()}: {err}")
    else:
        print(f"Record {msg.key()} successfully produced to {msg.topic()} [{msg.partition()}] at offset {msg.offset()}")

# Производство сообщений в топик Kafka
try:
    key = str(uuid.uuid4())  # Генерация уникального ключа для каждого сообщения
    serialized_value = json_serializer(data, SerializationContext(topic, MessageField.VALUE))
    
    producer.produce(
        topic=topic,
        key=key,
        value=serialized_value,
        on_delivery=delivery_report
    )
    producer.flush()  # Дождаться отправки всех сообщений
except Exception as e:
    print(f"Error: {e}")

print("Message sent successfully.")