In [7]:
import os
import sys
from dotenv import load_dotenv

In [8]:
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)


load_dotenv()

if not os.environ.get("GEMINI_API_KEY"):
    print("❌ Ошибка: Установите переменную окружения GEMINI_API_KEY")
    raise RuntimeError("GEMINI_API_KEY environment variable is not set")

In [9]:
from src.llm_keywords.load_and_sample_data import load_and_sample_data

print("🔄 Загрузка данных...")
df = load_and_sample_data("../data/df_cleaned.parquet", sample_size=200)

🔄 Загрузка данных...
Загружено 19276 аннотаций
Выбрано 200 аннотаций для обработки


In [10]:
from src.llm_keywords.process_all_abstracts import process_all_abstracts_async

print("⚡ Запуск параллельной обработки...")
df_processed = await process_all_abstracts_async(
    df, 
    batch_size=20, 
    max_concurrent=10,
    max_retries=3
)

⚡ Запуск параллельной обработки...
Будет обработано 10 батчей по 20 аннотаций
Максимум одновременных запросов: 10
Максимум повторных попыток: 3

🚀 Запуск параллельной обработки...
Отправка батча 1 (аннотации 1-20)
Отправка батча 2 (аннотации 21-40)
Отправка батча 3 (аннотации 41-60)
Отправка батча 4 (аннотации 61-80)
Отправка батча 5 (аннотации 81-100)
Отправка батча 6 (аннотации 101-120)
Отправка батча 7 (аннотации 121-140)
Отправка батча 8 (аннотации 141-160)
Отправка батча 9 (аннотации 161-180)
Отправка батча 10 (аннотации 181-200)
✓ Батч 8 обработан успешно
✓ Батч 2 обработан успешно
✓ Батч 7 обработан успешно
✓ Батч 10 обработан успешно
✓ Батч 3 обработан успешно
✓ Батч 9 обработан успешно
✓ Батч 5 обработан успешно
✓ Батч 1 обработан успешно
✓ Батч 6 обработан успешно
✓ Батч 4 обработан успешно

⏱️  Обработка завершена за 20.9 секунд

=== 📊 ДЕТАЛЬНАЯ СТАТИСТИКА ===
✅ Успешно обработано: 10/10 батчей
❌ Не удалось обработать: 0/10 батчей
📈 Процент успеха: 100.0%


In [11]:
from src.llm_keywords.on_result import save_results
from src.llm_keywords.on_result import display_sample_results

save_results(df_processed)
display_sample_results(df_processed)


💾 Результаты сохранены в ../data/df_with_llmkeyphrases.parquet

=== ПРИМЕРЫ РЕЗУЛЬТАТОВ ===

--- Аннотация 68 ---
Текст: На основе новых геологических материалов рассматривается вопрос о возникновении реки Невы, весьма необычной и исключительной по ряду показателей среди остальных рек Европейской части России. Предлагае...
Ключевые фразы: ['река Нева', 'возникновение реки', 'ладожские воды', 'Финский залив', 'природные опасности']
--------------------------------------------------

--- Аннотация 12 ---
Текст: Вводятся в научный оборот материалы позднего строительного горизонта поселения Двухозерное-1, расположенного на территории комплекса древних и средневековых памятников Ингальская долина. На площади ра...
Ключевые фразы: ['поселение Двухозерное-1', 'Ингальская долина', 'энеолит', 'керамика', 'лыбаевский тип памятников']
--------------------------------------------------

--- Аннотация 37 ---
Текст: В статье представлена специфика использования электронных образовательных ресурсов 