I. Выделение подмножества тематик и их описания из общего корпуса цитат Объяснение кода:

Импорт библиотек: Импортируются необходимые библиотеки.

Инициализация модели: Загружаются предобученные токенизатор и модель BERT.

Функция get_embedding: Эта функция принимает текст, токенизирует его и извлекает эмбеддинги.

Входной текст: Определяется текст, из которого будем извлекать тематики.

Корпус цитат: Создается словарь, где ключи — это тематики, а значения — их описания.

Вычисление схожести: Для каждой темы из корпуса вычисляется косинусное сходство с вектором входного текста.

Сортировка и вывод результатов: Темы сортируются по схожести и выводятся на экран.

In [None]:
import torch
from transformers import BertTokenizer, BertModel
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# Инициализация модели и токенизатора
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Функция для получения векторов эмбеддингов из текста
def get_embedding(text):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True)
    with torch.no_grad():
        outputs = model(**inputs)
    # Используем эмбеддинг [CLS] токена
    return outputs.last_hidden_state[:, 0, :].numpy()

# Исходный текст
input_text = "Такой подход позволит создать гибкую и адаптивную систему для обработки цитат, которая будет эффективно справляться с новыми данными и поддерживать актуальность информации о темах и тегах."

# Корпус цитат с темами
corpus = {
    "гибкость": "Способность системы адаптироваться к изменениям.",
    "адаптивность": "Способность системы изменять свои параметры в зависимости от условий.",
    "обработка данных": "Процесс анализа и интерпретации данных для извлечения информации.",
    "актуальность": "Степень соответствия информации современным требованиям.",
}

# Получаем вектор для входного текста
input_embedding = get_embedding(input_text)

# Получаем векторы для тем из корпуса
corpus_embeddings = {theme: get_embedding(theme) for theme in corpus.keys()}

# Сравниваем входной текст с темами из корпуса
similarities = {}
for theme, embedding in corpus_embeddings.items():
    similarity = cosine_similarity(input_embedding, embedding)[0][0]
    similarities[theme] = similarity

# Сортируем темы по убыванию схожести
sorted_themes = sorted(similarities.items(), key=lambda x: x[1], reverse=True)

# Выводим результаты
for theme, similarity in sorted_themes:
    print(f"Тема: {theme}, Схожесть: {similarity:.4f}, Описание: {corpus[theme]}")

II. Легковесная система обработки новых цитат

1. Архитектура системы:

• Хранение данных в базе данных (например, PostgreSQL или MongoDB) для удобного доступа и управления.

2. Обработка новых данных:

• При добавлении новых цитат система должна автоматически обрабатывать их и сравнивать с уже существующими темами.

• Использование алгоритмов для определения схожести новых цитат с уже существующими темами (например, cosine similarity на основе векторных представлений текста).

3. Адаптация к новым данным:

• Регулярное обновление модели тематического моделирования с учетом новых данных.

• Возможность ручной корректировки тем и тегов сотрудниками компании для улучшения качества.

4. Интерфейс пользователя:

• Создание простого веб-интерфейса для сотрудников, где они могут загружать новые цитаты, просматривать существующие темы и добавлять новые теги или описания.

5. Обучение модели:

• Разработка механизма для периодического переобучения модели на основе накопленных данных, чтобы учитывать изменения в языке и тематике.

Заключение

Такой подход позволит создать гибкую и адаптивную систему для обработки цитат, которая будет эффективно справляться с новыми данными и поддерживать актуальность информации о темах и тегах. 
