In [2]:
import os
import sys
from dotenv import load_dotenv

In [3]:
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)


load_dotenv()

if not os.environ.get("GEMINI_API_KEY"):
    print("❌ Ошибка: Установите переменную окружения GEMINI_API_KEY")
    raise RuntimeError("GEMINI_API_KEY environment variable is not set")

In [4]:
from src.llm_keywords.load_and_sample_data import load_and_sample_data

print("🔄 Загрузка данных...")
df = load_and_sample_data("../data/df_cleaned.parquet", sample_size=200)

🔄 Загрузка данных...
Загружено 19276 аннотаций
Выбрано 200 аннотаций для обработки


In [5]:
from src.llm_keywords.process_all_abstracts import process_all_abstracts_async

print("⚡ Запуск параллельной обработки...")
df_processed = await process_all_abstracts_async(
    df, 
    batch_size=20, 
    max_concurrent=10,
    max_retries=3
)

⚡ Запуск параллельной обработки...
Будет обработано 10 батчей по 20 аннотаций
Максимум одновременных запросов: 10
Максимум повторных попыток: 3

🚀 Запуск параллельной обработки...
Отправка батча 1 (аннотации 1-20)
Отправка батча 2 (аннотации 21-40)
Отправка батча 3 (аннотации 41-60)
Отправка батча 4 (аннотации 61-80)
Отправка батча 5 (аннотации 81-100)
Отправка батча 6 (аннотации 101-120)
Отправка батча 7 (аннотации 121-140)
Отправка батча 8 (аннотации 141-160)
Отправка батча 9 (аннотации 161-180)
Отправка батча 10 (аннотации 181-200)
⚠️  Ошибка в батче 9 (попытка 1): 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The model is overloaded. Please try again later.', 'status': 'UNAVAILABLE'}}
   Повтор через 5 секунд...
⚠️  Ошибка в батче 3 (попытка 1): 503 UNAVAILABLE. {'error': {'code': 503, 'message': 'The model is overloaded. Please try again later.', 'status': 'UNAVAILABLE'}}
   Повтор через 5 секунд...
✓ Батч 10 обработан успешно
Отправка батча 9 (аннотации 161-180) - попытка 

In [6]:
from src.llm_keywords.on_result import save_results
from src.llm_keywords.on_result import display_sample_results

save_results(df_processed)
display_sample_results(df_processed)


💾 Результаты сохранены в ../data/df_with_llmkeyphrases.parquet

=== ПРИМЕРЫ РЕЗУЛЬТАТОВ ===

--- Аннотация 23 ---
Текст: Рассматриваются способы использования потенциала фразеологических единиц при создании юмористического высказывания посредством языковой игры. Материалом исследования является художественная проза врач...
Ключевые фразы: ['фразеологические единицы', 'юмористическое высказывание', 'языковая игра', 'художественная проза', 'приемы использования фразеологизмов']
--------------------------------------------------

--- Аннотация 75 ---
Текст: Данная статья посвящена анализу изучения положения языка в современных политических процессах. Рассматривается специфика исследования языка с позиций инструмента и объекта политической власти. В работ...
Ключевые фразы: ['язык', 'политические процессы', 'политическая власть', 'языковая политика', 'политический дискурс']
--------------------------------------------------

--- Аннотация 132 ---
Текст: Публикация представляет собой анали