# План решения ML System Design

Вот универсальный план для решения **ML system design** задачи, который поможет тебе структурировать решение и ориентироваться при различных задачах:

### 1. **Понимание задачи**

   - **Определение цели**: Что именно нужно сделать? (например, предсказание, классификация, рекомендации, детекция аномалий)
   - **Кто будет использовать систему?** Какие требования предъявляет бизнес или конечный пользователь?
   - **Входные данные**: Какие типы данных есть? Это временные ряды, текст, изображения, табличные данные?
   - **Требования к выходу**: Что должно быть на выходе системы? Прогноз, метки, вероятности?

### 2. **Сбор и хранение данных**

   - Какие данные необходимы для построения системы? Откуда их брать (источники данных)?
   - Как будут собираться данные? (Batch или Streaming)
   - Как организовать хранение данных (реляционные базы данных, NoSQL, специализированные хранилища для временных рядов)?
   - Необходимо ли предварительное агрегирование данных или обработка данных в реальном времени?

### 3. **Предобработка данных**

   - Какие шаги предобработки данных нужно реализовать?
     - Очистка данных (удаление выбросов, заполнение пропусков).
     - Приведение данных к нужному формату (нормализация, стандартизация, кодирование категорий).
     - Декомпозиция данных на отдельные компоненты (например, извлечение признаков).
   - Как обрабатывать аномальные данные и справляться с пропущенными значениями?

### 4. **Выбор моделей**

   - **Классификация моделей**: Какая модель лучше всего подходит для задачи? (регрессия, деревья решений, нейронные сети, глубокое обучение)
   - Как учитывать специфику данных: временные ряды, текстовые данные, изображения?
   - Будет ли использовано классическое машинное обучение или нужно применять методы глубокого обучения?
   - Если задача слишком сложная, возможно использование ансамблей моделей (stacking, boosting).

### 5. **Архитектура системы**

   - Как выглядит end-to-end архитектура системы? Какие компоненты будут включены?
   - Как связать компоненты между собой (например, сбор данных, предобработка, обучение, деплой)?
   - Как организовать поток данных через систему (batch или stream processing)?
   - Какие дополнительные модули понадобятся (например, для мониторинга и логирования)?

### 6. **Масштабируемость и оптимизация**

   - Как система будет масштабироваться при увеличении объема данных или нагрузки?
   - Какой тип инфраструктуры использовать? (локальная инфраструктура или облачные решения: AWS, GCP, Azure)
   - Как снизить latency и повысить производительность системы?
   - Какие технологии можно использовать для масштабирования? (например, распределенные вычисления — Spark, Dask, распределенные базы данных)

### 7. **Модели деплоя и интеграция**

   - Как и где будет происходить деплой модели?
     - **REST API** или **gRPC API** для обращения к модели.
     - Инструменты деплоя: **Triton Inference Server**, **TensorFlow Serving**, **ONNX Runtime**.
   - Как будет реализована система версионирования моделей?
   - Как обновлять модель на новых данных? (поддержка online learning или переобучение через регулярные обновления)

### 8. **Мониторинг и метрики**

   - Какие метрики используются для оценки качества модели? (accuracy, precision, recall, AUC-ROC, F1-score)
   - Как будет отслеживаться drift данных и деградация модели со временем?
   - Как следить за производительностью системы (время ответа, использование ресурсов)?
   - Какие инструменты мониторинга использовать? (Prometheus, Grafana)

### 9. **Обработка ошибок и отказоустойчивость**

   - Как система справляется с нештатными ситуациями? (например, сбой модели, недоступность данных)
   - Каковы планы на случай возникновения сбоев? (резервные копии, системы мониторинга для своевременной реакции)
   - Какие механизмы нужно внедрить для обеспечения отказоустойчивости? (репликация данных, fallback-модели)

### 10. **Обратная связь и улучшение**

   - Как будет организован сбор обратной связи от пользователей для улучшения модели?
   - Как будет происходить обновление модели на основе новой информации и фидбэка?
   - Какой процесс A/B тестирования для проверки эффективности обновленных моделей?

### Пример применения плана:

**Задача**: Построить систему предсказания клиентской активности в реальном времени на основе транзакционных данных.

1. **Понимание задачи**: Необходимо предсказать, какие клиенты увеличат или снизят свою активность на основе их транзакций за последний месяц.
   
2. **Сбор данных**: Данные поступают из транзакционной базы в режиме реального времени через Apache Kafka.

3. **Предобработка**: Транзакционные данные агрегируются по дням и нормализуются.

4. **Выбор моделей**: Используем ансамбль моделей (Random Forest и XGBoost) для обработки табличных данных.

5. **Архитектура системы**: Система состоит из стриминга данных (Kafka + Spark), деплоя модели через FastAPI, и системы мониторинга.

6. **Масштабируемость**: Используем облачное решение с Kubernetes для автоматического масштабирования под нагрузку.

7. **Деплой и интеграция**: Модель деплоится с помощью Triton Inference Server и доступна через REST API.

8. **Мониторинг**: Метрики Precision/Recall отслеживаются через Prometheus, а результаты визуализируются в Grafana.

9. **Обработка ошибок**: Система автоматически переключается на резервные модели в случае сбоя.

10. **Обратная связь**: Результаты предсказаний анализируются, модель периодически переобучается на новых данных.

Этот план поможет тебе структурировать процесс решения любой **ML system design** задачи, начиная от понимания проблемы до реализации и мониторинга решения.

# Из каких этапов состоит проектирование системы?


Задача обычно ставилась довольно широко, больше с точки зрения бизнеса. Например, нужно сделать поиск или рекомендации по товарам в е-коммерсе.

1) **Уточнение задачи**
Не нужно сразу бросаться решать задачу, а лучше задать как можно больше правильных уточняющих вопросов. В зависимости от интервьюера, можно получить чуть больше информации сразу, но обычно стоит задать несколько вопросов:

- Какую бизнес метрику оптимизируем? Чего в принципе хотят добиться этой системой?
- Функциональные требования. Что именно должен уметь твой сервис с точки зрения пользователей?
- Какие есть ограничения на время ответа? С какой нагрузкой (RPS) будем работать? Какие ограничения на ресурсы (CPU/RAM)?

Будет плюсом, если вместо вопросов вы сможете выдвинуть предположения по каждому пункту, а затем спросить насколько в правильную сторону мыслите. Таким образом покажете, что у вас широкий опыт как с технической точки зрения, так и с продуктовой.

2) **Постановка ML задачи**

Прежде чем вдаваться в подробности нужно сразу определиться:

- Что будет фичами (признаками)?
- Что будет таргетом (лейблами)?
- Какой тип обучения будем использовать (классификация, регрессия и т.д)?

**Детальная проработка системы**

3) **Данные**

- Данные влияют на решение всей задачи, поэтому им стоит уделить достаточно времени.
- Какие есть данные на текущий момент? Скорее всего разработчики настроили хоть какое-то логирование, из которого можно собрать датасет.
- Как собирать данные? Это может быть ручная разметка, парсинг логов системы и т.п
- Как разбивать данные? Стоит учесть природу данных при ответе на этот вопрос. Не стоит разбивать рандомно, если у вас данные имеют зависимость от времени.

Какие особенности еще стоит учесть в фичах и таргете? Самые популярные: сезонность, cold start, выбросы.

4) **Обучение модели**

- Как представить фичи для модели, т.е как именно будем энкодить разные типы фичей? Стоит узнать стандартные подходы для каждого типа данных. Это может быть One-Hot Encoding, эмбеддинги и т.д
- Как представить таргет для модели? Как его нужно преобразовать, чтобы модели было легче обучаться?
- Какую модель использовать как бейзлайн?
- Как бороться с дисбалансом, если он предполагается? Можно упомянуть различные методы оверсемплинга и аугментации (SMOTE, ADASYN), взвешивание классов или использование специальных лоссов.
- Как бороться с выбросами и некачественной разметкой? Стоит использовать алгоритмы поиска аномалий и здравый смысл.
- Как бороться с изменением распределения из-за сезонности, мировых событий, праздников?
- Как можно улучшить бейзлайн? Можно придумать более хитрый лосс, другую архитектуру модели и т.д.

5) **Инференс модели**

- Как будет происходить инференс? Если у нас офлайн система, то процессить будем батчами. При онлайне - поэлементно, но в реальности скорее всего микс обоих подходов.
- Какую информацию стоит держать предпосчитанной и подтягивать при инференсе? Например, при персонализированном поиске для инференса необходимо подтягивать вектора пользователей.
- Какие проблемы могут быть при инференсе? Можно упомянуть извечную проблему training-serving skew (расхождение между тренировкой и инференсом модели) и как ее можно решить с помощью фича сторов.

6) **Подсчет офлайн метрик**

- Какую офлайн метрику выбрать, чтобы она максимально коррелировала с потребностями бизнеса? Можно предложить несколько метрик, которые будут показать качество модели с разных сторон.
- Как учесть дисбаланс классов в метриках и не дать им помешать сделать правильные выводы?
- Как определить guard метрики, которые не должны быть сломаны ни при каком случае?

7) **Подсчет онлайн метрики**

Прежде чем выкатить новую модель на всех пользователей, необходимо сделать A/B тесты. Для этого стоит ответить на несколько вопросов:

- Какую метрику считать (CR, CTR, revenue и т.д)?
- Какие статистические критерии использовать (t-test, Манна-Уитни и т.д)?
- Как разбивать пользователей на тестовую и контрольную выборки?
- Как долго проводить тест?

8) **Деплой модели**

- Как сервить модель? Для того чтобы обернуть модель в сервис в большинстве случаев работает следующая связка - конвертация модели в ONNX, сервинг через Flask/FastAPI, подготовки образа с помощью Docker и деплой на Kubernetes/Heroku/AWS.
- Какие еще компоненты нужны для работы модели? Зачастую добавляются сторонние источники данных (Redis, Postgres, S3), необходимые для инициализации модели и ее инференса.
- Как проверить работоспособность сервиса перед деплоем? Рассказать, какие тесты стоит написать (юнит, интеграционные, системные тесты).
- Как не вызвать просадки в работоспособности системы при деплое? Есть разные сценарии деплоя (canary/rolling), при котором сервис с моделью обновляется постепенно и не вызывает даунтайм.
- Как скалировать, чтобы выдерживать высокую нагрузку? Например, поднять несколько инстансов и распределять нагрузку через балансировщик или очередь.
- Как собирать логи из сервиса? Стоит знать базовый ELK стек и его альтернативы. 
- Как мониторить данные? Хорошо бы знать такие термины, как Data drift, Concept drift, Target Drift. Почему они могут вызвать проблемы с системой? Какими фреймворками их считать?

9) **Мониторинг сервиса**
Кроме чтения логов стоит проверять, что:

- Доля неуспешных запросов не превышает заранее установленное значение.
- Каждый запрос не превышает заранее установленное время ответа.
- Используется разумное количество ресурсов (CPU, GPU, memory).
- Проходит хелфчеки.
- Обычно на это не остается время, но можно упомянуть
- Как организовать хранение моделей и данных?
- Как организовать пайплайн переобучения?
- Как мониторить деградацию модели? Можно пересчитывать офлайн метрики на новых данных или считать онлайн метрики, базируясь на логах взаимодействия пользователя с системой.

# Какие есть онлайн метрики для оценки качества модели?

Оценка качества модели в режиме онлайн требует использования метрик, которые позволяют отслеживать производительность модели в реальных условиях эксплуатации, когда данные поступают в режиме реального времени. Вот основные онлайн метрики для оценки качества моделей машинного обучения:

 1. **Latency (Задержка)**
   - **Описание**: Время, которое требуется модели для обработки запроса и возврата ответа.
   - **Зачем это важно**: В реальных системах, особенно для сервисов, работающих в режиме реального времени (например, чат-боты, рекомендательные системы), низкая задержка важна для обеспечения быстрой реакции системы.

 2. **Throughput (Пропускная способность)**
   - **Описание**: Количество запросов, которые модель может обработать за единицу времени.
   - **Зачем это важно**: Помогает измерить эффективность модели в условиях высоких нагрузок и определить, может ли система обрабатывать поступающие данные в реальном времени.

 3. **Click-through Rate (CTR)**
   - **Описание**: Отношение количества кликов на предложенные моделью рекомендации или результаты к общему числу показов.
   - **Зачем это важно**: Часто используется в рекомендательных системах и поисковых движках. Высокий CTR говорит о том, что модель предоставляет релевантные результаты.

 4. **Conversion Rate**
   - **Описание**: Процент пользователей, которые совершили целевое действие (например, покупку) после взаимодействия с результатами, предложенными моделью.
   - **Зачем это важно**: Для систем, работающих в e-commerce или других бизнес-приложениях, эта метрика показывает, насколько рекомендации модели способствуют бизнес-целям.


 5. **A/B Testing Metrics**
   - **Описание**: В A/B тестировании сравниваются две версии модели (A и B), чтобы понять, какая модель обеспечивает лучшие результаты по бизнес-показателям (например, увеличение продаж или снижение оттока пользователей).
   - **Зачем это важно**: A/B тестирование — это основной метод оценки моделей в онлайн-условиях, позволяющий оценить, какая модель более эффективна для бизнеса.

 6. **User Engagement**
   - **Описание**: Взаимодействие пользователя с продуктом или сервисом после взаимодействия с результатами модели (например, время, проведенное в приложении, количество просмотренных страниц).
   - **Зачем это важно**: Высокий уровень вовлеченности может указывать на то, что модель предоставляет полезную и релевантную информацию.

 7. **Customer Satisfaction (NPS — Net Promoter Score)**
   - **Описание**: Мера удовлетворенности пользователей, основанная на том, как они оценивают работу системы и модельных результатов.
   - **Зачем это важно**: Для оценки конечного опыта пользователя и того, как результаты модели влияют на восприятие продукта.

 8. **Model Drift Detection**
   - **Описание**: Изменение производительности модели с течением времени из-за изменения входных данных (distribution shift). Используются такие методы как PSI (Population Stability Index) для оценки стабильности данных.
   - **Зачем это важно**: Если модель теряет точность в новых условиях, это может требовать переобучения или калибровки.

 8. **Uptime (Время безотказной работы)**
   - **Описание**: Процент времени, когда модель доступна для использования.
   - **Зачем это важно**: Критически важно для систем, работающих в режиме реального времени, чтобы модель была доступна и работала стабильно.

 9. **Model Resource Usage (Использование ресурсов)**
   - **Описание**: Количество ресурсов (процессор, память, GPU) для обработки запроса.
   - **Зачем это важно**: Важно отслеживать использование ресурсов, чтобы оптимизировать стоимость развертывания модели и избежать сбоев в высоконагруженных системах.

 10. **Confidence Score**
   - **Описание**: Оценка уверенности модели в своих предсказаниях.
   - **Зачем это важно**: Использование confidence score позволяет оценить, насколько уверена модель в своем ответе и применить дополнительные логики в случае низкой уверенности.

 11. **Number of support tickets** 
    - **Описание**: Количество обращений в службу поддержки
    - **Зачем это важно**: Позволяет оценить качество работы диалоговых систем, например на базе RAG и LLM, и эффективность их использования в реальных условиях.

Эти метрики позволяют не только оценивать качество моделей в реальных условиях, но и оптимизировать их работу, повышая пользовательскую ценность и бизнес-результаты системы.

## training-serving skew - что это за проблема и как ее можно решить?

**Training-serving skew** — это проблема несоответствия между данными или обработкой данных во время обучения модели (training) и при её использовании на этапе инференса (serving). Это расхождение может негативно влиять на производительность модели и снижать её точность в реальных условиях.

 **Причины возникновения:**
1. **Различия в предобработке данных**:
   - На этапе обучения и в продакшене данные могут проходить через разные процессы предобработки. Например, использование различных версий библиотек для нормализации или категоризации данных может привести к несоответствиям.

2. **Использование различных наборов данных**:
   - Модель обучается на одном наборе данных, а затем применяются данные, которые не полностью соответствуют обучающим данным по структуре или характеристикам (например, из-за сезонности, демографических изменений и т.д.).

3. **Feature leakage (утечка признаков)**:
   - На этапе обучения могут использоваться признаки, которые недоступны в реальном времени при инференсе (например, будущее значение переменной или результат, который можно получить только постфактум).

4. **Влияние времени**:
   - В случае временных данных (например, временные ряды) распределение данных может меняться со временем. Модель обучается на одном временном промежутке, а используется на другом, что приводит к проблемам со стабильностью модели.

5. **Изменения в процессе подачи данных**:
   - Источники данных могут изменяться со временем или вводить новые атрибуты. Например, данные могут поступать из разных систем, и даже небольшие изменения в структуре или формате данных могут повлиять на работу модели.

**Последствия:**
- **Снижение точности предсказаний**: Модель может демонстрировать хорошую производительность на этапе обучения и валидации, но давать менее точные результаты на этапе инференса из-за несовпадения данных.
- **Неправильные решения**: Это особенно критично в чувствительных приложениях, таких как финансовые прогнозы, медицина или системы безопасности.
  
**Как решить проблему training-serving skew:**

1. **Единый код для предобработки данных**:
   - Использовать один и тот же код для предобработки данных как на этапе обучения, так и на этапе инференса. Например, можно вынести весь процесс предобработки данных в одну библиотеку или модуль, который будет использоваться как во время обучения, так и в продакшене.

2. **Использование feature stores**:
   - Feature store (например, **Feast**) — это централизованное хранилище признаков (features), которое обеспечивает одинаковую обработку признаков как на этапе обучения, так и на этапе инференса. Это позволяет гарантировать, что модель получает одинаково обработанные данные на всех этапах её жизненного цикла.

3. **Модели с онлайн-обучением**:
   - Модели с возможностью дообучения (online learning) могут корректироваться на новых данных по мере их поступления. Это уменьшает вероятность сильного расхождения между тренировочными данными и теми, что поступают в продакшен.

4. **Мониторинг данных в продакшене**:
   - Важно внедрять системы мониторинга данных, поступающих на инференс, чтобы отслеживать любые изменения в данных и своевременно реагировать на потенциальные проблемы (например, распределение признаков, появление новых значений категориальных признаков).
   
5. **A/B-тестирование и канареечные развёртывания**:
   - Перед полноценным внедрением модели в продакшене стоит протестировать её на небольшом количестве данных (canary deployment) или с помощью A/B-тестирования, чтобы оценить, как она справляется с реальными данными.

6. **Регулярное обновление модели**:
   - При обнаружении значительных различий в данных нужно регулярно дообучать модель на актуальных данных, чтобы учесть изменения в распределении признаков или данных в целом.

7. **Data versioning (версионирование данных)**:
   - Внедрение системы версионирования данных, которая отслеживает изменения данных как на этапе обучения, так и в продакшене, поможет гарантировать, что модель всегда видит одинаковые версии данных на разных этапах.

Решение проблемы **training-serving skew** требует целостного подхода, включающего в себя грамотную предобработку данных, мониторинг работы модели в продакшене и регулярное обновление модели на актуальных данных.

# Практичкские кейсы

## Создание RAG системы на базе LLM для службы поддержки

Создание RAG (Retrieval-Augmented Generation) системы на базе LLM для службы поддержки банка с использованием современных фреймворков, таких как LangChain и векторные базы данных, включает несколько этапов. Эта система будет обеспечивать генерацию ответов на запросы клиентов с использованием языковых моделей (LLM) и поиска релевантной информации в базе знаний банка.

**Основные компоненты системы:**

1. **Чат-интерфейс** (веб или мобильный).
2. **Обработчик запросов** (принимает запросы и передает в RAG-пайплайн).
3. **LLM для генерации текста** (например, LLaMA3).
4. **Векторная база данных** (для поиска релевантных документов).
5. **LangChain** (для связывания компонентов и управления логикой поиска и генерации).

**Этапы разработки**:

 1. **Архитектура системы**

Основная архитектура системы состоит из следующих шагов:
- Пользователь вводит запрос.
- Система находит релевантные документы в векторной базе данных.
- LLM сгенерирует ответ на основе найденной информации.
- Ответ отправляется пользователю через интерфейс.

Основные компоненты:

1. **Frontend**:
   - Веб или мобильный интерфейс для взаимодействия с пользователем.
   - Реализовать интерфейс можно с помощью React, Vue или Flutter для мобильных приложений.

2. **Backend**:
   - Обработка запросов и взаимодействие с компонентами системы.
   - FastAPI или Flask для реализации API.
   
3. **RAG-пайплайн**:
   - LangChain для интеграции моделей и управления пайплайном.
   - Векторная база данных для быстрого поиска релевантных документов (например, **Pinecone**, **Weaviate**, **Faiss**).

 2. **Обработка и индексация данных**

**Источники данных:**
- Внутренняя база знаний банка (документы, инструкции, ответы на частые вопросы).
- Контракты, финансовые документы, техническая документация.

 **Преобразование данных:**
1. **Предобработка текста**:
   - Удаление дубликатов, очистка HTML-разметки, извлечение ключевой информации.
   - Токенизация текста и нормализация (например, приведение всех текстов к нижнему регистру).
  
2. **Индексация документов**:
   - Использование векторных баз данных для хранения текстовых данных в виде векторов.
   - Например, **Pinecone** или **Weaviate** можно использовать для хранения и поиска по векторным представлениям текстов.
   - Текстовые документы преобразуются в векторы с помощью моделей типа **Sentence Transformers** или других подходящих энкодеров.

**Пример настройки Pinecone:**
```python
import pinecone
from sentence_transformers import SentenceTransformer

# Инициализация Pinecone
pinecone.init(api_key="your-api-key", environment="your-environment")
index = pinecone.Index("bank-support-documents")

# Инициализация модели энкодера
model = SentenceTransformer('all-mpnet-base-v2')

# Индексация документов
documents = ["document1 text", "document2 text", "document3 text"]
document_embeddings = model.encode(documents)
index.upsert([(str(i), embedding) for i, embedding in enumerate(document_embeddings)])
```

3. **Модель генерации текста (LLM)**

Использование **LLaMA3** или других моделей на базе Transformer для генерации текстов.

1. **Подготовка модели**:
   - Модель LLaMA3 будет использовать данные, извлеченные из базы знаний, для генерации ответов.
   - LangChain предоставляет функционал для интеграции LLM и управления процессом генерации.

2. **Интеграция с LangChain**:
   - LangChain связывает поиск релевантных документов и генерацию ответов.
   - Использовать его для интеграции LLM и поиска в векторной базе данных.

**Пример интеграции LLM с LangChain:**

```python
from langchain.chains import RetrievalQA
from langchain.vectorstores import Pinecone
from langchain.llms import HuggingFaceHub

# Инициализация Pinecone и модели
vector_store = Pinecone(index, model)
llm = HuggingFaceHub(model="LLaMA3")

# Создание цепочки RAG
rag_chain = RetrievalQA(llm=llm, retriever=vector_store.as_retriever())

# Обработка запроса
query = "Как мне заблокировать карту?"
response = rag_chain.run(query)
print(response)
```

4. **Настройка RAG (Retrieval-Augmented Generation)**

1. **Поиск релевантных документов**:
   - Пользователь вводит запрос.
   - Векторная база данных (например, **Pinecone** или **Weaviate**) ищет наиболее подходящие документы на основе запроса.
   - Для улучшения поиска можно использовать гибридные методы (например, комбинацию BM25 и dense retrieval).

2. **Генерация ответа**:
   - Извлеченные документы передаются в LLaMA3 или другую LLM для генерации ответа на основе предоставленной информации.
   - Важно, чтобы модель использовала извлеченные документы для точного и содержательного ответа.

5. **Интеграция с внешними системами**

Для интеграции с внутренними системами банка (например, CRM или системами обработки транзакций) может понадобиться разработка дополнительных API:

- **FastAPI** для создания интерфейса взаимодействия между внешними системами и ботом.
- Использование OAuth 2.0 или других методов аутентификации для обеспечения безопасности взаимодействия с внутренними системами банка.

6. **Безопасность и конфиденциальность данных**

- **Шифрование данных**: TLS для шифрования трафика и шифрование данных в базе данных.
- **Аутентификация и авторизация**: Использование JWT или OAuth для аутентификации пользователей и ограничения доступа.
- **GDPR**: Соответствие требованиям защиты данных.

7. **Мониторинг и поддержка**

- **Мониторинг метрик**: Использовать **Prometheus** для мониторинга системы и **Grafana** для визуализации производительности и ошибок.
- **Логирование**: Логировать ошибки и взаимодействие клиентов с ботом с помощью **ELK stack** или **CloudWatch**.

8. **Масштабирование**

- **Горизонтальное масштабирование**: Использовать контейнеризацию (Docker, Kubernetes) для обеспечения отказоустойчивости и масштабируемости системы.
- **Автоматическое масштабирование**: Настроить автомасштабирование для обработки пиковых нагрузок.

9. **Тестирование и оптимизация**

- **A/B тесты**: Проводить тестирование различных версий системы для оптимизации качества ответов.
- **Кэширование**: Внедрить кэширование часто задаваемых вопросов с помощью Redis или Memcached для ускорения ответа.

10. **Деплой и CI/CD**

- Настроить пайплайн CI/CD для автоматического деплоя изменений с использованием GitLab CI, Jenkins или GitHub Actions.
- Автоматизировать процесс обновления модели и базы знаний по мере изменения данных.

**Пример работы RAG системы для поддержки:**

1. **Пользователь**: "Как мне открыть новый счет?"
2. **Система**: Извлекает документы, связанные с открытием счетов, из базы данных.
3. **LLM** (LLaMA3): Генерирует ответ на основе извлеченной информации.
4. **Пользователь**: Получает ответ, который включает инструкцию и ссылки на соответствующие ресурсы.

Этот план охватывает все этапы разработки RAG системы с использованием современных фреймворков для решения задачи банка по обслуживанию клиентов.