-
Notifications
You must be signed in to change notification settings - Fork 2
Open
Labels
Description
Сейчас статьи не оптимизированы под обучение ассистента под LLM (оптимизация - задача #156 )
Как будет обучаться ассистент
В текущей системе ассистента все загружаемые документы автоматически разбиваются на чанки (фрагменты) размером до 1000 символов (возможно увеличение до 1500 символов). Это приводит к тому, что одна статья разбивается на 2–6 частей, из которых в контекст может попасть только первая, а остальные могут быть отброшены, что снижает качество ответа ассистента.
Как будет работать ассистент
Первый ИИ (GPT-3.5):
- Определяет язык,
- Переводит на английский,
- Убирает смолтолк.
- Выполняется поиск по векторной базе кэша (были ли похожие вопросы ранее)
- Если не найдено — идёт поиск по векторной базе документации.
- Собранные чанки + вопрос подаются в GPT-4o, который формирует финальный ответ.
Второй ИИ (GPT-4+)
- формирует финальный ответ
- если ответ не найден - формирует запрос на дальнейшие дейтсвия