Skip to content

Обучение LLM по доке #158

@ccErrors

Description

@ccErrors

Сейчас статьи не оптимизированы под обучение ассистента под LLM (оптимизация - задача #156 )

Как будет обучаться ассистент

В текущей системе ассистента все загружаемые документы автоматически разбиваются на чанки (фрагменты) размером до 1000 символов (возможно увеличение до 1500 символов). Это приводит к тому, что одна статья разбивается на 2–6 частей, из которых в контекст может попасть только первая, а остальные могут быть отброшены, что снижает качество ответа ассистента.

Как будет работать ассистент

Первый ИИ (GPT-3.5):

  • Определяет язык,
  • Переводит на английский,
  • Убирает смолтолк.
  • Выполняется поиск по векторной базе кэша (были ли похожие вопросы ранее)
  • Если не найдено — идёт поиск по векторной базе документации.
  • Собранные чанки + вопрос подаются в GPT-4o, который формирует финальный ответ.

Второй ИИ (GPT-4+)

  • формирует финальный ответ
  • если ответ не найден - формирует запрос на дальнейшие дейтсвия

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions