Обучение LLM по доке

Сейчас статьи не оптимизированы под обучение ассистента под LLM (оптимизация - задача #156 )

**Как будет обучаться ассистент**

В текущей системе ассистента все загружаемые документы автоматически разбиваются на чанки (фрагменты) размером до 1000 символов (возможно увеличение до 1500 символов). Это приводит к тому, что одна статья разбивается на 2–6 частей, из которых в контекст может попасть только первая, а остальные могут быть отброшены, что снижает качество ответа ассистента.

**Как будет работать ассистент**

_Первый ИИ (GPT-3.5):_

- Определяет язык,
- Переводит на английский,
- Убирает смолтолк.
- Выполняется поиск по векторной базе кэша (были ли похожие вопросы ранее)
- Если не найдено — идёт поиск по векторной базе документации.
- Собранные чанки + вопрос подаются в GPT-4o, который формирует финальный ответ.

_Второй ИИ (GPT-4+)_

- формирует финальный ответ
- если ответ не найден - формирует запрос на дальнейшие дейтсвия


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Обучение LLM по доке #158

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Обучение LLM по доке #158

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions