# Домашнее задание: архитектура систем текстовой классификации

Добро пожаловать на бизнес-кейс по текстовой классификации!

В рамках данного домашнего задания вам предстоит пройти по всем этапам решения кейса, которые обычно затрагиваются при решении реальных продуктовых задач, а также кейсов на секциях по ML System Design.

Часть заданий требует текстового ответа в свободной форме, часть заданий - написания кода, обучения и инференса моделей и тп. В большинстве разделов нет сугубо правильных ответов или единственно верной реализации, однако есть хорошие практики и возможность выбрать из нескольких вариантов оптимальный. Поэтому в рамках задания местами надо будет делать выбор, от которого будет зависеть качество вашего потенциального продакшн-решения, возможности его поддержки и масштабирования.

Детали реализации вы можете выбирать любые, которые вам больше нравятся или кажется более удобными, в том числе по принципу "работает быстрее аналогов без существенной потери в качестве". Однако важное требование - **соблюдать структуру разделов в данном ноутбуке** -- это поможет решить задачу правильно, а также упростить проверку и написание фидбека по решению.

Представьте, что к вам пришел бизнес и попросил сделать супер-крутую систему по категоризации новостей. Как обычно бывает, единственное, что у вас есть - это формулировка задачи от продакт-менеджера; всё остальное он ожидает от вас.

Приятного кодинга!

## 1. Формулировка бизнес-задачи

**Контекст (от лица бизнеса):**  
Мы хотим автоматически распределять публикации нашего новостного портала по трем главным темам — политика, экономика, культура — чтобы:

- Улучшить таргетинг рекламных блоков.  
- Персонализировать ленту для пользователей.  
- Снизить ручные затраты редакторов.

**Чёткое описание задачи:**
> «Для каждой новости (заголовок + текст) автоматически определить, относится ли она к разделам `политика`, `экономика`, `культура`. Возможна множественная классификация (одна новость может быть сразу в нескольких разделах).»

## 2. Бизнес-метрики - 1 балл

Предложите бизнес-метрики, которые может хотеть оптимизировать бизнес в соответствии с формулировкой задачи. Предложите хотя три метрики, и постарайтесь их оцифровать, чтобы результаты были измеримы (насколько процентов что-то должно увеличиться?). Воспринимайте это как "прицелочные" цифры, к которым можно реалистично стремиться (реальные цифры на старте часто непонятно, но измеримые цели помогают четче формировать ожидания и текущее положение относительно них; в дальнейшем эти цифры можно корректировать на реальность).

In [3]:
# ваш ответ тут
# ---- Ваш код здесь ----
print("""
По задачам:
1) улучшить targetting рекламы -> улучшить CTR (процент кликов) на рекламу, базирующийся на наших предсказаниях
2) Персонализировать ленту для пользователей. -> ожидаем что пользователи чаще выбирают статьи из рекомендуемых, а не ищут сами. Также смотреть на процент дочитываемости статей против открытия и закрытия сразу
3) Снизить затраты времени редакторов -> сравнить маркировку редакторов с предсказаниями моделью. 

Оцифровываевым метрики
1) CTR. Нашел статью https://cordelialabs.com/blog/uncovering-the-truth-behind-ctr/ при холодном показе рекламы CTR может состовлять доли процента: 0.5 - 0.8%, при выдаче поисковых результатов 5 - 10%. Так как мы оптимисты, целимся на 10%
2) Трекаем поведение юзеров на сайте, для каждой открытой статьи смотрим откуда человек перешел. В идеале процент переходов с рекомендаций должно быть 0.8 - 0.9, возьмем это за цель. Процент дочитываемости статей до конца пусть стремится к 1
3) Сделать тестовую разметку статей редакторами и прогнать модель, чем точнее предсказания тем лучше
""")
# ---- Конец кода ----


По задачам:
1) улучшить targetting рекламы -> улучшить CTR (процент кликов) на рекламу, базирующийся на наших предсказаниях
2) Персонализировать ленту для пользователей. -> ожидаем что пользователи чаще выбирают статьи из рекомендуемых, а не ищут сами. Также смотреть на процент дочитываемости статей против открытия и закрытия сразу
3) Снизить затраты времени редакторов -> сравнить маркировку редакторов с предсказаниями моделью. 

Оцифровываевым метрики
1) CTR. Нашел статью https://cordelialabs.com/blog/uncovering-the-truth-behind-ctr/ при холодном показе рекламы CTR может состовлять доли процента: 0.5 - 0.8%, при выдаче поисковых результатов 5 - 10%. Так как мы оптимисты, целимся на 10%
2) Трекаем поведение юзеров на сайте, для каждой открытой статьи смотрим откуда человек перешел. В идеале процент переходов с рекомендаций должно быть 0.8 - 0.9, возьмем это за цель. Процент дочитываемости статей до конца пусть стремится к 1
3) Сделать тестовую разметку статей редакторами и прогнать мо

## 3. Сведение к ML-задаче - 2 балла

Сведите бизнес-задачу к задаче машинного обучения, опишите входные данные и метки:

- **Тип задачи**:
- **Объект**:
- **Метки**:


In [2]:
# ваш ответ тут
# ---- Ваш код здесь ----
print("""
- **Тип задачи**: Multilabel classification
- **Объект**: Новостная статья (заголовок, текст, дата публикации, источник)
- **Метки**: политика, экономика, культура
""")
# ---- Конец кода ----


- **Тип задачи**: Multilabel classification
- **Объект**: Новостная статья (заголовок, текст, дата публикации, источник)
- **Метки**: политика, экономика, культура



## 4. ML-метрики - 2 балла

Сформулируйте какие метрики вашей модели машинного обучения вы будете отслеживать в соответствии с ML-задачей, к которой вы свели бизнес-задачу. Укажите оффлайн метрики и предложите онлайн-метрики, которые вы в теории могли бы замерять в рамках A/B и в проде.

In [4]:
# ваш ответ тут
# ---- Ваш код здесь ----
print("""
- Оффлайн
  - Соответствие предсказаний разметке редакторов (precision, recall, f1, subset accuracy)
- Онлайн
  - бизнес метрики: CTR, удержание юзера на сайте
""")
# ---- Конец кода ----


- Оффлайн
  - Соответствие предсказаний разметке редакторов (precision, recall, f1, subset accuracy)
- Онлайн
  - бизнес метрики: CTR, удержание юзера на сайте



## 5. Данные и разметка - 8 баллов

В данном пункте нам будет необходимо сделать магию -- за 0 рублей и две чашки кофе получить неплохую разметку, на которой можно будет обучаться.

Тк у вашего новостного агенства пока еще нет ни новостей, ни логов для них, ваши коллеги уже собрали по разным новостным сайтам логи с заголовком и текстом новости (а также источником и датой на всякий) в файле crawled_data.tsv. Необходимо считать и обработать данные из этого файла, в идеале с помощью pandas DataFrame.

Как мы обсуждали на лекции, по-хорошему, работа с данными должна идти немного в другой последовательности, нежели будем делать мы: обычно сначала мы собираемся с бизнесом, пишем и оттачиваем инструкцию и собираем golden dataset. В рамках данной задачи будем считать, что у нас такой возможности нет, и нам будет ок получить MVP-разметку с помощью LLM -- это быстро, задача не самая сложная для LLM, плюс в целом качество такой разметки можно контролировать и улучшать при необходимости.

В этом пункте необходимо выбрать какую-нибудь open-source LLM, написать к ней промпт (можно простой и небольшой) и разметить какое-то количество данных, которое вам может показаться достаточным для обучения в этой задаче. Можете начать с небольшого количества, и постепенно его увеличивать, отслеживая, как при этом меняется качество.

LLM для разметки можно выбирать любую, но вам предстоит соблюсти баланс между качеством и возможостью инферить ее на GPU. В качестве неплохой модели для разметки русскоязычных текстов можете использовать https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b: ее несложно проинферить кодом и она уже оптимизирована и влезает в GPU T4 на колабе. Можно выбирать и любую другую модель, но, возможно, вам придется повозиться с ее инференсом.

Далее вам необходимо будет реализовать функцию для инференса этой LLM с учетом промпта и входа, и циклом получить разметку по всем трем категориям из задачи. Будьте максимально аккуратны с используемой памятью, иначе в середине цикла инференс может падать с ошибкой Cuda Out of Memory. Для избежания этого можете после каждого инференса делать следующее:
- torch.cuda.empty_cache()
- перетаскивать **всё** вычисленное с GPU на CPU
- удалять все уже использованное переменные через del
- ограничивать размер входа и выхода
- если падают единичные примеры -- выкидывать их

В конечном счете в вашем датафрейме должны оказаться следующие колонки:

`['source', 'title', 'text', 'publication_date', 'politics', 'economy',
       'culture', 'generation']`,
где `generation` -- ответ генеративной модели в сыром виде; 'politics', 'economy', 'culture' -- наличие категории со значением 1/0, полученные из generation.

Отлаживайте разметку на небольшом семпле данных. Как только разметите нужное вам количество примеров, не забудьте сохранить их в отдельный файл, чтобы не потерять разметку.

Для искушенных - можно пользоваться vLLM для ускорения инференса или together https://api.together.xyz/signin?redirectUrl=%2F (они дают один доллар бесплатно)

In [9]:
url = "https://fs16.getcourse.ru/fileservice/file/download/a/208089/sc/254/h/eb4e7e4b8fa16455e493beb38c54747a.tsv"
!wget --no-check-certificate https://fs16.getcourse.ru/fileservice/file/download/a/208089/sc/254/h/eb4e7e4b8fa16455e493beb38c54747a.tsv

SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
syswgetrc = c:/progra~1/wget/etc/wgetrc
--2025-06-02 15:41:01--  https://fs16.getcourse.ru/fileservice/file/download/a/208089/sc/254/h/eb4e7e4b8fa16455e493beb38c54747a.tsv
Resolving fs16.getcourse.ru... 5.182.6.123
Connecting to fs16.getcourse.ru|5.182.6.123|:443... connected.
OpenSSL: error:1407742E:SSL routines:SSL23_GET_SERVER_HELLO:tlsv1 alert protocol version
Unable to establish SSL connection.


In [6]:
# ---- Ваш код здесь ----
print("""
Считываем данные
""")

import pandas as pd

# Read a tab-separated file (e.g., .tsv)
df = pd.read_csv('crawled_data.tsv', sep='\t', dtype=str)  # Forces all columns to be read as strings

a = 5

# If you want to infer types but preserve strings correctly:
# df = pd.read_csv('your_file.tsv', sep='\t', dtype={'your_column_name': str})



# ---- Конец кода ----


Считываем данные



In [None]:

# ---- Ваш код здесь ----
print("""
    Загружаем выбранную LLM
    В некоторых случаях может понадобиться !pip install -U accelerate bitsandbytes transformers
""")
# ---- Конец кода ----

In [None]:
# Промпт


# ---- Ваш код здесь ----
prompt_template = (
    "Текст промпта для разметки"
    )
# ---- Конец кода ----

In [None]:
 # Функция разметки

# @torch.no_grad() # можно включить декоратор
def annotate(text: str, max_length:int=512) -> dict:
    """
    Формат markup следующий
        markup = {
        'politics': 0/1,
        'economy': 0/1,
        'culture': 0/1,
        'corrupted': 0/1, # сломалось ли что-то при получении разметки
        'generation': llm_generation # чтобы можно было раздебажить закоррапченные разметки
    }
    """
    try:
        # вставляем текст в шаблон, обрезаем на всякий чтоб не падало по памяти лишний раз
        prompt_input = prompt_template.format(text=text[:1500]) # обрезаем слишком длинные новости


        # может понадобиться, может нет -- зависит от выбранной вами модели
        # prompt = tokenizer.apply_chat_template([{
        #     "role": "user",
        #     "content": prompt_input
        # }], tokenize=False, add_generation_prompt=True)

        # markup = {}
        # with torch.no_grad():
        #     # inference tokenizer, model ...

        #     del ... # удаляем ненужные переменные
        #     torch.cuda.empty_cache()

        #     return markup

        # ---- Ваш код здесь ----
        print("""
            непосредственно разметка одного текста text с помощью выбранной LLM
        """)
        # ---- Конец кода ----


        return markup

    except torch.cuda.OutOfMemoryError:
        print("CUDA OOM. Освобождаем память...")
        torch.cuda.empty_cache()
        return {
            'politics': 0, 'economy': 0, 'culture': 0,
            'corrupted': 1,
            'generation': 'OOM_ERROR'
        }

In [None]:
# ---- Ваш код здесь ----
print("""
    прокачиваем в цикле выбранную LLM для разметки данных через функцию annotate, добавляем разметку в исходный датасет и сохраняем в файл
""")
# ---- Конец кода ----



### Разделение данных на трейн и тест - 2 балла

Проведите минимальный EDA и реализуйте разделение на трейн и тест в соответствии с природой данных и постановкой задачи. В результате получите два датафрема: train_df и test_df.

In [None]:
# ---- Ваш код здесь ----
print("EDA и разделение на трейн-тест")
# ---- Конец кода ----



## 6. Архитектура и пайплайн - 5 баллов

Самое существенное в данном задании - правильно выбрать ML-архитектуру решения. Подумайте, с учетом постановки задачи и целей бизнеса, как стоит построить обучение и инференс вашей модели.

В любом случае вам понадобится какая-то предобученная модель. В случае, если вы остановитесь на BERT-подобной, можно выбрать любую подходящую под задачу отсюда: https://huggingface.co/models?pipeline_tag=feature-extraction&sort=trending. Вспомните, на что стоит ориентироваться при выборе эмбеддера.

Если хочется выбрать BERT полегче, можете посмотреть в сторону такой модели: https://huggingface.co/cointegrated/rubert-tiny2

В качестве ответа:
- опишите, как будет выглядеть пайплайн подготовки данных, обучения и инференса вашей классификации для всех категорий.
- опишите, почему вы выбрали именно такую архитектуру, какие у нее преимущества и какие недостатки.
- если используете предобученную модель, то напишите какую и как ее найти, а также почему вы выбрали именно ее.

In [None]:

# ---- Ваш код здесь ----
print("Вот так будет выглядеть пайплайн: такая архитектура, такое на вход, так обрабатывается, вот такое на выход. Вот поэтому я считаю, что это самая подходящая под задачу архитектура")
# ---- Конец кода ----

## 7. Обучение модели - 10 баллов

Реализуйте архитектуру и пайплайн, описанный в предыдущем пункте. Реализуйте все классы и методы, необходимые для обработки данных, обучения и инференса.

Обучите модель предсказывать все указанные категории на полученных вами данных. Не забывайте считать train и val лоссы в процессе обучения. В выводе ячеек крайне желательно отобразить процесс обучения (tqdm или принты с лоссами каждую эпоху).

### Классы для обучения и подготовки данных

In [None]:
import torch
import torch.nn as nn
from transformers import AutoTokenizer, AutoModel
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F
import numpy as np
from tqdm import tqdm

import torch
import torch.nn as nn
from transformers import AutoTokenizer, AutoModel
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
import numpy as np
from tqdm import tqdm
import os
import joblib


# ---- Ваш код здесь ----
print("Пишем классы, обучаем")
# ---- Конец кода ----

## 8. Оценка и интерпретация - 5 баллов

Постройте и посчитайте следующие вещи на тесте для каждой категории:
- Графики: roc-кривую, распределение вероятностей для класса 1 и 0 (на одном графике), confusion matrix
- Метрики: precision, recall, f1 при оптимально подобранном пороге, roc auc

In [None]:
from sklearn.metrics import roc_curve, roc_auc_score
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix, classification_report

# ---- Ваш код здесь ----

def evaluate_heads_with_plots_and_roc(
    # ...,
    label_dict: dict,
    threshold: float = 0.5,
    verbose: bool = True,
    save_path: str = None
):
    # ...
    #     if save_path:
    #         plt.savefig(f"{save_path}/{category}_cm.png", dpi=150, bbox_inches='tight')
    #     plt.show()

    #     if verbose:
    #         print(f"\n===== Категория: {category} =====")
    #         print(classification_report(y_true, y_pred, zero_division=0))

    #     metrics.append({
    #         "category": category,
    #         "accuracy": acc,
    #         "precision": pr,
    #         "recall": rc,
    #         "f1_score": f1,
    #         "auc_roc": auc
    #     })

    # return pd.DataFrame(metrics)

_ = evaluate_heads_with_plots_and_roc(...)
print("метрики и графики")
# ---- Конец кода ----



## 9. Деплой и мониторинг, A/B - 2 балла

Опишите, как вы будете выкатывать в модель в прод:
- как будет выглядеть пайплайн от момента, когда вам пришел текст и заголовок новости, до передачи вердиктов по категориям новости.
- как вы распределите железо для инференса: будет использоваться GPU или CPU (или какая-то комбинация), и как вы это обоснуете.
- как бы вы проводили A/B тест с учетом вашего ML и бизнес-целей? Что бы замеряли? Как бы делили на группы? Как измеряли бы значимость изменений?
- как бы вы настраивали мониторинг? Что бы отслеживали? Для чего бы вы это делали?

In [None]:

# ---- Ваш код здесь ----
print("вот так будет выглядеть деплой, вот это на GPU или CPU, а вот это будем мониторить")
# ---- Конец кода ----

## 10. Итерации улучшения - 3 балла

Проанализируйте внимательно ваше решение, какие в нем есть проблемы и что можно улучшить. Придумайте (сами) максимально полный список того, что можно в модели сделать по-другому и улучшить, чтобы повысить качество модели.

**При желании** (это не повлияет на оценку), выберите одно из таких улучшений, внедрите, после чего выведите в одной ячейке метрики на тесте вашего прошлого и нового решений -- удалось ли улучшить результат?

In [None]:

# ---- Ваш код здесь ----
print("Вот так будем улучшать")
# ---- Конец кода ----

## 11. Расширение категорий (10 баллов)

Как это часто бывает, к вам пришел бизнес и сказал: "мы передумали".

Всё тщательно обсудив на встрече, главный продакт-менеджер заявил, что новостное агентство нуждается в другом наборе категорий, а именно: нужно выделить новые категории, "технологии" и "спорт", а три старые в целом могут оставаться на месте (правда никто не знает, надолго ли).

Итого, **новый список:** `["политика","экономика","технологии","спорт","культура"]`

Реализуйте это изменение и выведите новые метрики по всем категориям (старым и новым), но перед этим посмотрите на архитектуру своего решения и ответьте на вопрос -- насколько легко и удобно будет а) добавлять новые категории в вашем ML б) перекатывать сервис?

In [None]:

# ---- Ваш код здесь ----
print("Масштабируем на новые классы")
# ---- Конец кода ----