# KARPOV-GUIDE

## Построение системы рекомендаций курсов с использованием RAG

**Трек:** ML  
**Сложность:** Medium  
**Темы:** BERT, Векторизация, RAG, LLM, Vector Database

![image.png](attachment:13f85b81-47d3-43bd-b934-60611de1ad55.png)

## Шаг 1: Введение

### Цель:
Это вступительная часть без заданий, она лишь нужна для того, чтобы познакомить с общей информацией того, что будет делаться и применяться на этом курсе. Так же дана информация по поводу установки требуемых библиотек в контексте построения RAG-системы.

### Установка библиотек

Убедитесь в том, что у вас установлены все требуемые библиотеки для работы:

```bash
sentence-transformers==3.3.1
tqdm==4.67.1
beautifulsoup4==4.12.3
qdrant-client==1.13.2
langchain==0.3.16
langchain-community==0.3.16
langchain-mistralai==0.2.4
requests==2.32.3
transformers==4.47.0
pandas==2.2.2
numpy==1.26.4
streamlit==1.41.1
streamlit-chat==0.1.1
```

### Описание задачи:

Для начала, вам нужно создать сервис рекомендаций, который будет использовать технологии RAG (retrieval-augmented generation) для поиска и предложения курсов.
Мы будем использовать данные о курсах с платформы karpov.courses для поиска релевантных предложений.

![image.png](attachment:d7e86c61-c7db-4a1d-90f6-4b3bf0ab10b2.png)

### Что нужно сделать:

#### 1. Парсинг курсов с платформы karpov.courses:

* Используйте BeautifulSoup и requests для извлечения информации о курсах. Необходимо собрать данные, такие как название курса, описание, темы и другие параметры, которые будут полезны для рекомендаций.

#### 2. Чанкование текста курсов:

* Для каждого курса разбейте текст (описания, темы и другие текстовые данные) на отдельные части (чанки) с помощью регулярных выражений. Это поможет эффективно работать с большими текстами.

#### 3. Векторизация текста:

* Преобразуйте текстовые данные (чанки) в векторное представление с помощью модели SentenceTransformer. Это позволит искать похожие курсы на основе запроса студента.

#### 4. Хранение векторов курсов:

* Сохраните векторные представления курсов в базе данных Qdrant, что позволит эффективно искать и извлекать релевантные курсы на основе запросов.

#### 5. Составление промптов для LLM:

* Используйте LangChain для составления промптов для модели, которая будет генерировать рекомендации на основе запросов студентов.

#### 6. Обработка запросов пользователей:

* Реализуйте обработку запросов пользователей с использованием LLM через API. Модель будет использовать сохраненные векторы для нахождения наиболее релевантных курсов и генерировать ответы на запросы.

![image.png](attachment:682e4aad-8e58-429f-8ce7-4975db6ef55c.png)

#### Рекомендации по реализации:

Ожидается, что вы создадите интерфейс для взаимодействия с пользователем с использованием Streamlit. Интерфейс должен позволять пользователям вводить запросы, а сервис будет предоставлять соответствующие рекомендации по курсам.

#### Пример задачи:

Напишите программу для парсинга курса с сайта karpov.courses.
Примените регулярные выражения для чанкования текста каждого курса.
Используйте модель SentenceTransformer для векторизации каждого курса.
Сохраните векторные представления в базе данных Qdrant.
Создайте простой интерфейс в Streamlit, который будет позволять студентам вводить запросы и получать рекомендации на основе анализа текста курсов.

#### Что будет проверяться:

Так как построение своей RAG-системы - задача творческая и экспериментальная, то проверяться будут лишь следующие аспекты:

* Корректность парсинга данных.
* Эффективность разделения и чанкования текста.
* Работоспособность использования базы данных для поиска релевантных документов.

#### Что не будет проверяться:

Как уже было сказано, задача творческая, поэтому точно не будет проверяться следующее:

- **Векторизация текста**: Векторизация большого числа текстов требует значительных вычислительных ресурсов и времени. Кроме того, сам процесс векторизации можно считать "предобработкой", которая, как правило, не вызывает ошибок при корректной настройке и использовании модели, что делает её проверку нецелесообразной в рамках тестов.
  
- **Работа самой LLM по API**: Ответы, генерируемые моделью, могут сильно варьироваться из-за особенностей генерации текста, контекста и случайных факторов (например, температурных параметров). Это делает невозможным точное предсказание ответа на конкретный запрос. Проверять точность модели в данном случае бессмысленно, так как ответы могут быть правильными, но формулировка будет разной, что создает трудности для тестирования.