In [1]:
import base64

import os
import sys
import pandas as pd
from google import genai
from google.genai import types
from tqdm.auto import tqdm
from dotenv import load_dotenv

In [2]:
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)


load_dotenv()

if not os.environ.get("GEMINI_API_KEY"):
    print("❌ Ошибка: Установите переменную окружения GEMINI_API_KEY")
    raise RuntimeError("GEMINI_API_KEY environment variable is not set")

In [3]:
from src.llm_keywords.load_and_sample_data import load_and_sample_data

print("🔄 Загрузка данных...")
df = load_and_sample_data("../data/df_cleaned.parquet", sample_size=200)

🔄 Загрузка данных...
Загружено 19276 аннотаций
Выбрано 200 аннотаций для обработки


In [4]:
from src.llm_keywords.process_all_abstracts import process_all_abstracts_async

print("⚡ Запуск параллельной обработки...")
df_processed = await process_all_abstracts_async(
    df, 
    batch_size=20, 
    max_concurrent=5,
    max_retries=3
)

⚡ Запуск параллельной обработки...
Будет обработано 10 батчей по 20 аннотаций
Максимум одновременных запросов: 5
Максимум повторных попыток: 3

🚀 Запуск параллельной обработки...
Отправка батча 1 (аннотации 1-20)
Отправка батча 2 (аннотации 21-40)
Отправка батча 3 (аннотации 41-60)
Отправка батча 4 (аннотации 61-80)
Отправка батча 5 (аннотации 81-100)
✓ Батч 5 обработан успешно
Отправка батча 6 (аннотации 101-120)
✓ Батч 2 обработан успешно
Отправка батча 7 (аннотации 121-140)
✓ Батч 3 обработан успешно
Отправка батча 8 (аннотации 141-160)
✓ Батч 4 обработан успешно
Отправка батча 9 (аннотации 161-180)
✓ Батч 1 обработан успешно
Отправка батча 10 (аннотации 181-200)
✓ Батч 6 обработан успешно
✓ Батч 10 обработан успешно
✓ Батч 7 обработан успешно
✓ Батч 9 обработан успешно
✓ Батч 8 обработан успешно

⏱️  Обработка завершена за 31.2 секунд

=== 📊 ДЕТАЛЬНАЯ СТАТИСТИКА ===
✅ Успешно обработано: 10/10 батчей
❌ Не удалось обработать: 0/10 батчей
📈 Процент успеха: 100.0%


In [5]:
from src.llm_keywords.on_result import save_results
from src.llm_keywords.on_result import display_sample_results

save_results(df_processed)
display_sample_results(df_processed)


💾 Результаты сохранены в df_with_keyphrases.parquet

=== ПРИМЕРЫ РЕЗУЛЬТАТОВ ===

--- Аннотация 62 ---
Текст: Предложено обобщение класса экспоненциально-степенных распределений (обобщенных распределений Лапласа) на несимметричный случай. Класс скошенных экспоненциально-степенных распределений (скошенных обоб...
Ключевые фразы: ['экспоненциально-степенные распределения', 'обобщенные распределения Лапласа', 'скошенные распределения', 'асимптотические аппроксимации', 'сходимость распределений']
--------------------------------------------------

--- Аннотация 181 ---
Текст: В данном исследовании доказана эффективность применения в отдаленном периоде двух новых малоинвазивных методик для возможности оперативного выявления, адекватного и интенсивного лечения острого перика...
Ключевые фразы: ['малоинвазивные методики', 'острый перикардит', 'перикардиоскопия', 'микро дренаж']
--------------------------------------------------

--- Аннотация 163 ---
Текст: В работе дается обзор существующих