Привет! Мы команда СП4, занимаемся

## 🚀 Gigachat+RAG: Асессор качества чат-бота для студентов НИУ ВШЭ

### 📖 Описание проекта
Gigachat+RAG — это интеллектуальный чат-бот, разработанный для студентов НИУ ВШЭ. Он использует архитектуру Retrieval-Augmented Generation (RAG), чтобы отвечать на вопросы, опираясь на релевантные документы. Качество работы бота оценивается с помощью системы метрик, анализирующей ответы, контексты и удовлетворённость пользователей.

**Основные функции модели:**
- Генерация ответов с метаданными источников.
- Отслеживание пользовательской удовлетворённости (лайк/дизлайк).
- Оценка качества через метрики: корректность ответа, релевантность контекста, точность и полнота извлечения информации.

---

## 🎯 Цель и задачи хакатона

### 🚩 Зачем нашей команде этот сервис?

Для успешной работы чат-бота Gigachat+RAG необходимо не только генерировать ответы, но и гарантировать их качество. Без системы мониторинга сложно определить, насколько бот соответствует требованиям пользователей и бизнес-логики.

**Основные причины разработки сервиса мониторинга:**
1. **Контроль качества:** Отслеживание метрик поможет быстро выявлять ухудшение работы модели.
2. **Улучшение пользовательского опыта:** Сбор данных о лайках/дизлайках позволяет понять, какие ответы не удовлетворяют студентов.
3. **Автоматизация оценки:** Автоматическое тестирование модели после обновлений и развёртываний.
4. **Прозрачность:** Наглядные дашборды позволят бизнесу и техническим командам видеть текущее состояние модели.

### 📜 Задачи команды

#### 1. **Разработка автоматических скриптов**
- Реализовать API для сбора и обработки метрик.
- Написать скрипты для автоматической визуализации данных.
- Обернуть решение в удобные скрипты для передачи команде MLOps.

#### 2. **Расширение набора метрик**
- Использовать базовые метрики (`ROUGE`, `BLEU`, `chrF`, `BERTScore`).
- Подключить `Ragas` для комплексной оценки (`answer_correctness`, `answer_relevancy`, `context_precision`, `context_recall`).
- Разработать собственные метрики, включая:
  - **Semantic Drift:** Измерение расхождения смысла ответа относительно вопроса.
  - **Latency:** Время генерации ответа.
  - **Confidence Score:** Оценка уверенности модели в ответе.

#### 3. **Создание дашборда**
- Визуализация метрик на интерактивном дашборде (например, через `Streamlit` или `Dash`).
- Мониторинг метрик в реальном времени.
- Агрегация данных для анализа трендов и проблемных зон.

---

## 📊 Требования к итоговому решению

1. **Мониторинг метрик в боте:**
   - Отслеживание пользовательской удовлетворённости (лайк/дизлайк).
   
2. **Оценка работы модели при срабатывании цензора:**
   - Анализ качества ответов, когда бот не может предоставить корректный ответ.

3. **Оценка метрик относительно эталона (`ground_truth`):**
   - Проверка корректности, релевантности и точности контекста.

4. **Продвинутая диагностика модели (⭐):**
   - Обнаружение случаев, когда бот выдаёт противоречивые или некорректные ответы.

---

## 🛠️ Стек технологий

- **Python** — основной язык разработки.
- **RAGAS** — для комплексной оценки.
- **Pandas, NumPy** — обработка данных.
- **Streamlit / Dash** — визуализация.
- **Airflow** — для автоматического запуска пайплайнов.
- **Docker** — контейнеризация проекта.

---

## ✅ Критерии успеха

1. **Дашборд:** Интерактивная визуализация метрик: удовлетворённость, корректность ответов, качество контекста.
2. **API:** Автоматический запуск пайплайнов для оценки.
3. **Интеграция:** Код, готовый к передаче команде MLOps.

---

## 🚩 Дополнительные задания (со звёздочкой)

1. **Диагностика «путаницы» модели:** Анализ ошибок с помощью кастомных метрик.
2. **Предиктивный анализ:** Выявление потенциальных «слабых» зон модели до возникновения проблемы.

---

## 📦 Пример структуры проекта

```bash
├── api                # Реализация API для сбора данных
├── dashboards         # Код для визуализации метрик
├── metrics            # Скрипты для расчёта базовых и кастомных метрик
├── models             # Конфигурации моделей и пайплайнов
├── pipelines          # Автоматизация процессов (Airflow)
└── README.md          # Документация проекта
```

---

## 📝 Пример API для оценки метрик

```python
from fastapi import FastAPI, Request
from validator import Validator
import pandas as pd

app = FastAPI()
validator = Validator(neural=True)

@app.post("/evaluate")
async def evaluate(request: Request):
    data = await request.json()
    dataset = pd.DataFrame(data)
    scores = validator.validate_dataset(dataset, use_ragas=True)
    return {"scores": scores}
```

---

## 🎬 Итог

После хакатона все скрипты проходят финальную ревизию и передаются команде MLOps для интеграции с Airflow. В результате мы получаем полноценный сервис для мониторинга качества работы Gigachat+RAG. 🎓🚀

