Система для оценки качества поиска документов с метриками, независимыми от чанкинга.
- Метрики оценки:
metrics.py- FlexBench для оценки качества поиска - Базовый пайплайн:
baseline/- полный пайплайн индексации и оценки - Данные:
ragflow_docs/- документация RAGflow для тестирования - Тесты:
tests/- юнит-тесты и тестовые данные
# 1. Установить зависимости
uv sync --extra baseline
# 2. Настроить OpenAI API ключ
export OPENAI_API_KEY=your_key_here# Полный пайплайн (индексация + оценка)
uv run python baseline/run.py
# Только индексация документов
uv run python baseline/ingest.py
# Только оценка
uv run python baseline/evaluate.py
# Тесты
uv run pytestРезультаты сохраняются в tests/data/baseline_results.json с метрикой:
flexible_rate- доля запросов где все golden spans пересекаются с результатами