# Домашнее задание: архитектура систем текстовой классификации

Добро пожаловать на бизнес-кейс по текстовой классификации!

В рамках данного домашнего задания вам предстоит пройти по всем этапам решения кейса, которые обычно затрагиваются при решении реальных продуктовых задач, а также кейсов на секциях по ML System Design.

Часть заданий требует текстового ответа в свободной форме, часть заданий - написания кода, обучения и инференса моделей и тп. В большинстве разделов нет сугубо правильных ответов или единственно верной реализации, однако есть хорошие практики и возможность выбрать из нескольких вариантов оптимальный. Поэтому в рамках задания местами надо будет делать выбор, от которого будет зависеть качество вашего потенциального продакшн-решения, возможности его поддержки и масштабирования.

Детали реализации вы можете выбирать любые, которые вам больше нравятся или кажется более удобными, в том числе по принципу "работает быстрее аналогов без существенной потери в качестве". Однако важное требование - **соблюдать структуру разделов в данном ноутбуке** -- это поможет решить задачу правильно, а также упростить проверку и написание фидбека по решению.

Представьте, что к вам пришел бизнес и попросил сделать супер-крутую систему по категоризации новостей. Как обычно бывает, единственное, что у вас есть - это формулировка задачи от продакт-менеджера; всё остальное он ожидает от вас.

Приятного кодинга!

## 1. Формулировка бизнес-задачи

**Контекст (от лица бизнеса):**  
Мы хотим автоматически распределять публикации нашего новостного портала по трем главным темам — политика, экономика, культура — чтобы:

- Улучшить таргетинг рекламных блоков.  
- Персонализировать ленту для пользователей.  
- Снизить ручные затраты редакторов.

**Чёткое описание задачи:**
> «Для каждой новости (заголовок + текст) автоматически определить, относится ли она к разделам `политика`, `экономика`, `культура`. Возможна множественная классификация (одна новость может быть сразу в нескольких разделах).»

## 2. Бизнес-метрики - 1 балл

Предложите бизнес-метрики, которые может хотеть оптимизировать бизнес в соответствии с формулировкой задачи. Предложите хотя три метрики, и постарайтесь их оцифровать, чтобы результаты были измеримы (насколько процентов что-то должно увеличиться?). Воспринимайте это как "прицелочные" цифры, к которым можно реалистично стремиться (реальные цифры на старте часто непонятно, но измеримые цели помогают четче формировать ожидания и текущее положение относительно них; в дальнейшем эти цифры можно корректировать на реальность).

In [26]:
# ваш ответ тут
# ---- Ваш код здесь ----
print("""
По задачам:
1) улучшить targetting рекламы -> улучшить CTR (процент кликов) на рекламу, базирующийся на наших предсказаниях
2) Персонализировать ленту для пользователей. -> ожидаем что пользователи чаще выбирают статьи из рекомендуемых, а не ищут сами. Также смотреть на процент дочитываемости статей против открытия и закрытия сразу
3) Снизить затраты времени редакторов -> сравнить маркировку редакторов с предсказаниями моделью. 

Оцифровываевым метрики
1) CTR. Нашел статью https://cordelialabs.com/blog/uncovering-the-truth-behind-ctr/ при холодном показе рекламы CTR может состовлять доли процента: 0.5 - 0.8%, при выдаче поисковых результатов 5 - 10%. Так как мы оптимисты, целимся на 10%
2) Трекаем поведение юзеров на сайте, для каждой открытой статьи смотрим откуда человек перешел. В идеале процент переходов с рекомендаций должно быть 0.8 - 0.9, возьмем это за цель. Процент дочитываемости статей до конца пусть стремится к 1
3) Сделать тестовую разметку статей редакторами и прогнать модель, чем точнее предсказания тем лучше
""")
# ---- Конец кода ----


По задачам:
1) улучшить targetting рекламы -> улучшить CTR (процент кликов) на рекламу, базирующийся на наших предсказаниях
2) Персонализировать ленту для пользователей. -> ожидаем что пользователи чаще выбирают статьи из рекомендуемых, а не ищут сами. Также смотреть на процент дочитываемости статей против открытия и закрытия сразу
3) Снизить затраты времени редакторов -> сравнить маркировку редакторов с предсказаниями моделью. 

Оцифровываевым метрики
1) CTR. Нашел статью https://cordelialabs.com/blog/uncovering-the-truth-behind-ctr/ при холодном показе рекламы CTR может состовлять доли процента: 0.5 - 0.8%, при выдаче поисковых результатов 5 - 10%. Так как мы оптимисты, целимся на 10%
2) Трекаем поведение юзеров на сайте, для каждой открытой статьи смотрим откуда человек перешел. В идеале процент переходов с рекомендаций должно быть 0.8 - 0.9, возьмем это за цель. Процент дочитываемости статей до конца пусть стремится к 1
3) Сделать тестовую разметку статей редакторами и прогнать мо

## 3. Сведение к ML-задаче - 2 балла

Сведите бизнес-задачу к задаче машинного обучения, опишите входные данные и метки:

- **Тип задачи**:
- **Объект**:
- **Метки**:


In [27]:
# ваш ответ тут
# ---- Ваш код здесь ----
print("""
- **Тип задачи**: Multilabel classification
- **Объект**: Новостная статья (заголовок, текст, дата публикации, источник)
- **Метки**: политика, экономика, культура
""")
# ---- Конец кода ----


- **Тип задачи**: Multilabel classification
- **Объект**: Новостная статья (заголовок, текст, дата публикации, источник)
- **Метки**: политика, экономика, культура



## 4. ML-метрики - 2 балла

Сформулируйте какие метрики вашей модели машинного обучения вы будете отслеживать в соответствии с ML-задачей, к которой вы свели бизнес-задачу. Укажите оффлайн метрики и предложите онлайн-метрики, которые вы в теории могли бы замерять в рамках A/B и в проде.

In [10]:
# ваш ответ тут
# ---- Ваш код здесь ----
print("""
- Оффлайн
  - Соответствие предсказаний разметке редакторов (precision, recall, f1, subset accuracy)
- Онлайн
  - бизнес метрики: CTR, удержание юзера на сайте
""")
# ---- Конец кода ----


- Оффлайн
  - Соответствие предсказаний разметке редакторов (precision, recall, f1, subset accuracy)
- Онлайн
  - бизнес метрики: CTR, удержание юзера на сайте



## 5. Данные и разметка - 8 баллов

В данном пункте нам будет необходимо сделать магию -- за 0 рублей и две чашки кофе получить неплохую разметку, на которой можно будет обучаться.

Тк у вашего новостного агенства пока еще нет ни новостей, ни логов для них, ваши коллеги уже собрали по разным новостным сайтам логи с заголовком и текстом новости (а также источником и датой на всякий) в файле crawled_data.tsv. Необходимо считать и обработать данные из этого файла, в идеале с помощью pandas DataFrame.

Как мы обсуждали на лекции, по-хорошему, работа с данными должна идти немного в другой последовательности, нежели будем делать мы: обычно сначала мы собираемся с бизнесом, пишем и оттачиваем инструкцию и собираем golden dataset. В рамках данной задачи будем считать, что у нас такой возможности нет, и нам будет ок получить MVP-разметку с помощью LLM -- это быстро, задача не самая сложная для LLM, плюс в целом качество такой разметки можно контролировать и улучшать при необходимости.

В этом пункте необходимо выбрать какую-нибудь open-source LLM, написать к ней промпт (можно простой и небольшой) и разметить какое-то количество данных, которое вам может показаться достаточным для обучения в этой задаче. Можете начать с небольшого количества, и постепенно его увеличивать, отслеживая, как при этом меняется качество.

LLM для разметки можно выбирать любую, но вам предстоит соблюсти баланс между качеством и возможостью инферить ее на GPU. В качестве неплохой модели для разметки русскоязычных текстов можете использовать https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b: ее несложно проинферить кодом и она уже оптимизирована и влезает в GPU T4 на колабе. Можно выбирать и любую другую модель, но, возможно, вам придется повозиться с ее инференсом.

Далее вам необходимо будет реализовать функцию для инференса этой LLM с учетом промпта и входа, и циклом получить разметку по всем трем категориям из задачи. Будьте максимально аккуратны с используемой памятью, иначе в середине цикла инференс может падать с ошибкой Cuda Out of Memory. Для избежания этого можете после каждого инференса делать следующее:
- torch.cuda.empty_cache()
- перетаскивать **всё** вычисленное с GPU на CPU
- удалять все уже использованное переменные через del
- ограничивать размер входа и выхода
- если падают единичные примеры -- выкидывать их

В конечном счете в вашем датафрейме должны оказаться следующие колонки:

`['source', 'title', 'text', 'publication_date', 'politics', 'economy',
       'culture', 'generation']`,
где `generation` -- ответ генеративной модели в сыром виде; 'politics', 'economy', 'culture' -- наличие категории со значением 1/0, полученные из generation.

Отлаживайте разметку на небольшом семпле данных. Как только разметите нужное вам количество примеров, не забудьте сохранить их в отдельный файл, чтобы не потерять разметку.

Для искушенных - можно пользоваться vLLM для ускорения инференса или together https://api.together.xyz/signin?redirectUrl=%2F (они дают один доллар бесплатно)

In [11]:
#url = "https://fs16.getcourse.ru/fileservice/file/download/a/208089/sc/254/h/eb4e7e4b8fa16455e493beb38c54747a.tsv"
#!wget -O news.tsv --no-check-certificate https://fs16.getcourse.ru/fileservice/file/download/a/208089/sc/254/h/eb4e7e4b8fa16455e493beb38c54747a.tsv

In [12]:
#!pip install -U accelerate bitsandbytes transformers

In [13]:
# data preprocessing


import re
from datetime import datetime
from dateutil import parser


RU_MONTHS = {
    'января': '01', 'февраля': '02', 'марта': '03',
    'апреля': '04', 'мая': '05', 'июня': '06',
    'июля': '07', 'августа': '08', 'сентября': '09',
    'октября': '10', 'ноября': '11', 'декабря': '12',
}


def parse_timestamp(ts: str) -> datetime:
    ts = ts.strip()

    # Case 1: Unix timestamp
    if ts.isdigit():
        return datetime.fromtimestamp(int(ts))

    # Case 2: Strip updated parts like "(обновлено: 21:13 31.08.2020)"
    ts = re.sub(r"\(обновлено:.*?\)", "", ts).strip()

    # Case 3: Russian date with month name (with or without comma)
    if any(month in ts for month in RU_MONTHS):
        parts = ts.replace(",", "").split()
        if len(parts) >= 4:
            time_part = parts[0]
            day, month_ru, year = parts[1:4]
            month = RU_MONTHS.get(month_ru)
            if not month:
                raise ValueError(f"Unrecognized Russian month: '{month_ru}'")
            return datetime.strptime(f"{year}-{month}-{day} {time_part}", "%Y-%m-%d %H:%M")

    # Case 4: DD.MM.YYYY format
    match = re.search(r"(\d{1,2}:\d{2})\s+(\d{1,2})\.(\d{1,2})\.(\d{4})", ts)
    if match:
        time_str, day, month, year = match.groups()
        return datetime.strptime(f"{year}-{month}-{day} {time_str}", "%Y-%m-%d %H:%M")

    # Case 5: ISO or fallback
    try:
        return parser.parse(ts)
    except Exception as e:
        raise ValueError(f"Unrecognized timestamp format: {ts}") from e
    

def normalize_text(text: str) -> str:
    # Replace non-breaking space and other similar characters
    text = text.replace('\xa0', ' ')
    
    # Remove leading/trailing whitespace including newlines
    text = text.strip()

    # Collapse multiple whitespace and newlines into a single space
    text = re.sub(r'\s+', ' ', text)

    return text


In [14]:
import pandas as pd

# ---- Ваш код здесь ----
print("""
Считываем данные
""")

# Note: Will fail if input file is too large to fit into RAM, stream processing will help, but works ok this input
# data is dirty, some article content has \n, so it's not possible to do simple \n split and then \t split, pd.read_csv('file.tsv') does not work


def load_content_from_file() -> list[dict]:
    with open('news.tsv', 'r', encoding='utf-8') as f:
        entries = f.read().split("\t")

    parsed = []

    for entry_idx in range(0, len(entries) - 1, 3):
        if '\n' in entries[entry_idx]:
            src = entries[entry_idx].split("\n")[1]
        else:
            src = entries[entry_idx]

        title = entries[entry_idx + 1]
        content = entries[entry_idx + 2]
        posted_ts = entries[entry_idx + 3].split("\n")[0]  

        parsed.append(
            {
                "source": src,
                "title": normalize_text(title),
                "content": normalize_text(content),
                "posted_ts": parse_timestamp(posted_ts).strftime("%Y-%m-%d %H:%M:%S")
            }
        )
    
    return parsed


def to_dataframe(data: list[dict]) -> pd.DataFrame:
    # Create DataFrame
    df = pd.DataFrame(data)
    # Ensure column types
    df = df.astype({
        "source": "string",
        "title": "string",
        "content": "string"
    })
    df["posted_ts"] = pd.to_datetime(df["posted_ts"], errors="coerce")  # handle invalid timestamps gracefully

    return df


data_json = load_content_from_file()
df = to_dataframe(data_json)

print(df.dtypes)
print(df.head())

df

# ---- Конец кода ----


Считываем данные

source       string[python]
title        string[python]
content      string[python]
posted_ts    datetime64[ns]
dtype: object
     source                                           title  \
0  lenta.ru                                  Синий богатырь   
1  lenta.ru  Загитова согласилась вести «Ледниковый период»   
2  lenta.ru       Объяснена опасность однообразного питания   
3  lenta.ru                      «Предохраняться? А зачем?»   
4  lenta.ru     Ефремов систематически употреблял наркотики   

                                             content           posted_ts  
0  В 1930-е годы Советский Союз охватила лихорадк... 2020-08-30 00:01:00  
1  Олимпийская чемпионка по фигурному катанию Али... 2020-08-31 20:04:00  
2  Российский врач-диетолог Римма Мойсенко объясн... 2020-08-31 20:07:00  
3  В 2019 году телеканал «Ю» запустил адаптацию з... 2020-08-30 00:04:00  
4  Актер Михаил Ефремов систематически употреблял... 2020-08-31 18:27:00  


Unnamed: 0,source,title,content,posted_ts
0,lenta.ru,Синий богатырь,В 1930-е годы Советский Союз охватила лихорадк...,2020-08-30 00:01:00
1,lenta.ru,Загитова согласилась вести «Ледниковый период»,Олимпийская чемпионка по фигурному катанию Али...,2020-08-31 20:04:00
2,lenta.ru,Объяснена опасность однообразного питания,Российский врач-диетолог Римма Мойсенко объясн...,2020-08-31 20:07:00
3,lenta.ru,«Предохраняться? А зачем?»,В 2019 году телеканал «Ю» запустил адаптацию з...,2020-08-30 00:04:00
4,lenta.ru,Ефремов систематически употреблял наркотики,Актер Михаил Ефремов систематически употреблял...,2020-08-31 18:27:00
...,...,...,...,...
21668,tjournal.ru,Россия прекратила поставки нефти на белорусски...,Россия прекратила поставки нефти на белорусски...,2020-01-03 14:04:34
21669,tjournal.ru,Во Владивостоке в новогоднюю ночь сожгли фигур...,Светодиодную конструкцию не хотели убирать из-...,2020-01-01 09:22:31
21670,tjournal.ru,Дым от австралийских лесных пожаров достиг Нов...,Власти направили военные корабли и авиацию для...,2020-01-01 08:35:24
21671,tjournal.ru,Около 200 жителей закрытого Новоуральска встре...,"С каждым годом количество горожан, выбирающих ...",2020-01-01 16:56:08


In [15]:
for i in range(0,7,3):
    print(i)

0
3
6


Разметка данных

In [16]:
# Use together ai
from dotenv import load_dotenv
from together import Together

load_dotenv()
client = Together()

In [17]:
def classify_article(title: str, content: str) -> str:
    prompt = """
    Given article title and article text, determine which categories does the article fall into.

    There are available categories:
    politics, economy, culture

    Each article can fall into zero or more categories.

    Answer should contain only comma separated category names, nothing else
    """.dedent().strip()

    # Combine title and content for classification
    text_for_classification = f"Title: ```{title}```\nContent: ```{content}```"

    # Send to LLM for classification
    messages = [
        {"role": "system", "content": prompt},
        {"role": "user", "content": text_for_classification}
    ]

    chat_completion = client.chat.completions.create(
        model="meta-llama/Llama-3.3-70B-Instruct-Turbo-Free",
        messages=messages,
        stream=False,
    )

    response_text = chat_completion.choices[0].message.content

    return response_text


def annotate_articles(df: pd.DataFrame, limit: int | None = None) -> pd.DataFrame:
    # Check if classification columns exist, if not add them
    if "politics" not in df.columns:
        df["politics"] = 0
    if "economy" not in df.columns:
        df["economy"] = 0
    if "culture" not in df.columns:
        df["culture"] = 0
    if "generation_result" not in df.columns:
        df["generation_result"] = ""

    # Get count of non-empty generation results
    non_empty_count = df["generation_result"].notna().sum()
    if limit is None:
        limit = len(df)

    

    print(f"Number of articles already classified: {non_empty_count}")
    


    df["generation"] = df.apply(lambda row: classify_article(row["title"], row["content"]), axis=1)
    return df



In [18]:
# ---- Ваш код здесь ----
print("""
    Загружаем выбранную LLM
    В некоторых случаях может понадобиться !pip install -U accelerate bitsandbytes transformers
""")
# ---- Конец кода ----


    Загружаем выбранную LLM
    В некоторых случаях может понадобиться !pip install -U accelerate bitsandbytes transformers



In [19]:
# Промпт


# ---- Ваш код здесь ----
prompt_template = (
    "Текст промпта для разметки"
    )
# ---- Конец кода ----

In [20]:
 # Функция разметки

# @torch.no_grad() # можно включить декоратор
def annotate(text: str, max_length:int=512) -> dict:
    """
    Формат markup следующий
        markup = {
        'politics': 0/1,
        'economy': 0/1,
        'culture': 0/1,
        'corrupted': 0/1, # сломалось ли что-то при получении разметки
        'generation': llm_generation # чтобы можно было раздебажить закоррапченные разметки
    }
    """
    try:
        # вставляем текст в шаблон, обрезаем на всякий чтоб не падало по памяти лишний раз
        prompt_input = prompt_template.format(text=text[:1500]) # обрезаем слишком длинные новости


        # может понадобиться, может нет -- зависит от выбранной вами модели
        # prompt = tokenizer.apply_chat_template([{
        #     "role": "user",
        #     "content": prompt_input
        # }], tokenize=False, add_generation_prompt=True)

        # markup = {}
        # with torch.no_grad():
        #     # inference tokenizer, model ...

        #     del ... # удаляем ненужные переменные
        #     torch.cuda.empty_cache()

        #     return markup

        # ---- Ваш код здесь ----
        print("""
            непосредственно разметка одного текста text с помощью выбранной LLM
        """)
        # ---- Конец кода ----


        return markup

    except torch.cuda.OutOfMemoryError:
        print("CUDA OOM. Освобождаем память...")
        torch.cuda.empty_cache()
        return {
            'politics': 0, 'economy': 0, 'culture': 0,
            'corrupted': 1,
            'generation': 'OOM_ERROR'
        }

In [21]:
# ---- Ваш код здесь ----
print("""
    прокачиваем в цикле выбранную LLM для разметки данных через функцию annotate, добавляем разметку в исходный датасет и сохраняем в файл
""")
# ---- Конец кода ----


    прокачиваем в цикле выбранную LLM для разметки данных через функцию annotate, добавляем разметку в исходный датасет и сохраняем в файл



In [1]:
# Data preprocessing done in a separate file, loading results
!wget -O annotated.csv https://github.com/vackuzn/deepschool-llm/raw/refs/heads/master/llm-pro/hw01/intermediate_results.csv

--2025-06-07 12:34:48--  https://github.com/vackuzn/deepschool-llm/raw/refs/heads/master/llm-pro/hw01/intermediate_results.csv
Resolving github.com (github.com)... 140.82.121.4
Connecting to github.com (github.com)|140.82.121.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/vackuzn/deepschool-llm/refs/heads/master/llm-pro/hw01/intermediate_results.csv [following]
--2025-06-07 12:34:49--  https://raw.githubusercontent.com/vackuzn/deepschool-llm/refs/heads/master/llm-pro/hw01/intermediate_results.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.108.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 62633668 (60M) [text/plain]
Saving to: 'annotated.csv'

     0K .......... .......... .......... .......... ..........  0% 4,91M 12s
    50K .........

In [2]:
import pandas as pd

df = pd.read_csv("annotated.csv")

### Разделение данных на трейн и тест - 2 балла

Проведите минимальный EDA и реализуйте разделение на трейн и тест в соответствии с природой данных и постановкой задачи. В результате получите два датафрема: train_df и test_df.

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split

# ---- Ваш код здесь ----
print("EDA и разделение на трейн-тест")

random_state = 42
test_ratio = 0.2
max_items : int | None = 10000


def prepare_balanced_binary_classification_df(df: pd.DataFrame, category: str) -> tuple[pd.DataFrame, pd.DataFrame]:
    """
    Prepares train and validation DataFrames for binary classification on a specific category,
    ensuring a 50/50 distribution of the category in both sets.

    Returns:
        train_df (pd.DataFrame), val_df (pd.DataFrame): Balanced training and validation DataFrames.
    """
    # Split into positive and negative samples
    pos_samples = df[df[category] == 1]
    neg_samples = df[df[category] == 0]

    # Determine balanced count
    n_samples = min(len(pos_samples), len(neg_samples))
    if max_items is not None:
        n_samples = min(n_samples, max_items // 2)

    # Sample equally from both classes
    pos_balanced = pos_samples.sample(n=n_samples, random_state=random_state)
    neg_balanced = neg_samples.sample(n=n_samples, random_state=random_state)

    # Combine and shuffle
    balanced_df = pd.concat([pos_balanced, neg_balanced]).sample(frac=1, random_state=random_state)

    # Stratified split into train and validation sets
    train_df, val_df = train_test_split(
        balanced_df,
        test_size=test_ratio,
        stratify=balanced_df[category],
        random_state=random_state
    )

    return train_df, val_df


train_df, test_df = prepare_balanced_binary_classification_df(df, 'politics')

EDA и разделение на трейн-тест


## 6. Архитектура и пайплайн - 5 баллов

Самое существенное в данном задании - правильно выбрать ML-архитектуру решения. Подумайте, с учетом постановки задачи и целей бизнеса, как стоит построить обучение и инференс вашей модели.

В любом случае вам понадобится какая-то предобученная модель. В случае, если вы остановитесь на BERT-подобной, можно выбрать любую подходящую под задачу отсюда: https://huggingface.co/models?pipeline_tag=feature-extraction&sort=trending. Вспомните, на что стоит ориентироваться при выборе эмбеддера.

Если хочется выбрать BERT полегче, можете посмотреть в сторону такой модели: https://huggingface.co/cointegrated/rubert-tiny2

В качестве ответа:
- опишите, как будет выглядеть пайплайн подготовки данных, обучения и инференса вашей классификации для всех категорий.
- опишите, почему вы выбрали именно такую архитектуру, какие у нее преимущества и какие недостатки.
- если используете предобученную модель, то напишите какую и как ее найти, а также почему вы выбрали именно ее.

In [25]:

# ---- Ваш код здесь ----
print("Вот так будет выглядеть пайплайн: такая архитектура, такое на вход, так обрабатывается, вот такое на выход. Вот поэтому я считаю, что это самая подходящая под задачу архитектура")
# ---- Конец кода ----

Вот так будет выглядеть пайплайн: такая архитектура, такое на вход, так обрабатывается, вот такое на выход. Вот поэтому я считаю, что это самая подходящая под задачу архитектура


## 7. Обучение модели - 10 баллов

Реализуйте архитектуру и пайплайн, описанный в предыдущем пункте. Реализуйте все классы и методы, необходимые для обработки данных, обучения и инференса.

Обучите модель предсказывать все указанные категории на полученных вами данных. Не забывайте считать train и val лоссы в процессе обучения. В выводе ячеек крайне желательно отобразить процесс обучения (tqdm или принты с лоссами каждую эпоху).

### Классы для обучения и подготовки данных

In [28]:
import os
import torch


default_model_file = "news_classifier.pt"
drive_path = '/content/drive'


def save_model(model, file_name: str = default_model_file, to_google_drive=False):
    full_path = file_name
    try:
        if to_google_drive:
            from google.colab import drive
            drive.mount(drive_path)
            full_path = '/content/drive/MyDrive/deepschool/llm-pro/hv01/' + file_name
        
        torch.save(model.state_dict(), full_path)
        print(f"Model saved to {full_path}")
        
    finally:
        if to_google_drive:
            drive.flush_and_unmount()
            print("Google Drive unmounted.")


def load_model(model_class, encoder_name, file_name: str = default_model_file, to_google_drive=False):
    """
    Load model state_dict from local filesystem or Google Drive.

    Args:
        model_class: Class of the model to initialize.
        encoder_name (str): Name of encoder to pass to model constructor.
        path (str): Relative path under root (e.g., 'Models/news_classifier.pt').
        to_google_drive (bool): Whether to load from Google Drive.
        device (str or torch.device): Device to map the model to.

    Returns:
        model (torch.nn.Module): Loaded model.
    """
    full_path = file_name
    try:
        if to_google_drive:
            from google.colab import drive
            drive.mount(drive_path)
            full_path = '/content/drive/MyDrive/deepschool/llm-pro/hv01/' + file_name

        model = model_class(encoder_name)
        model.load_state_dict(torch.load(full_path, map_location=device))
        model.to(device)
        model.eval()
        print(f"Model loaded from {full_path}")
        return model
        
    finally:
        if to_google_drive:
            drive.flush_and_unmount()
            print("Google Drive unmounted.")

#save_model(model)
#load_model(NewsClassifierModel, "cointegrated/rubert-tiny2")

Model saved to news_classifier.pt
Model loaded from news_classifier.pt


NewsClassifierModel(
  (encoder): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(83828, 312, padding_idx=0)
      (position_embeddings): Embedding(2048, 312)
      (token_type_embeddings): Embedding(2, 312)
      (LayerNorm): LayerNorm((312,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-2): 3 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=312, out_features=312, bias=True)
              (key): Linear(in_features=312, out_features=312, bias=True)
              (value): Linear(in_features=312, out_features=312, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=312, out_features=312, bias=True)
              (LayerNorm): LayerNorm((312,), eps=1e-12, ele

In [None]:
import torch.nn.functional as F

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
import numpy as np
from tqdm import tqdm
import os
import joblib
import matplotlib.pyplot as plt


# ---- Ваш код здесь ----
print("Пишем классы, обучаем")


class NewsDataset(Dataset):
    def __init__(self, df, tokenizer_name: str, max_token_length=2048):
        self.df = df
        self.tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
        self.max_token_length = max_token_length

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        row = self.df.iloc[idx]
        text = row['title'] + ' [SEP] ' + row['content']
        labels = torch.FloatTensor([row[c] for c in categories])

        encoding = self.tokenizer(
            text,
            truncation=True,
            padding='max_length',
            max_length=self.max_token_length,
            return_tensors='pt'
        )

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': labels
        }

  
class NewsClassifierModel(nn.Module):
    def __init__(self, encoder_name: str):
        super().__init__()

        self.encoder = AutoModel.from_pretrained(encoder_name)
        for p in self.encoder.parameters():  # freeze encoder
            p.requires_grad = False

        n_hidden = self.encoder.config.hidden_size
        self.head = nn.Sequential(
            nn.Dropout(0.1),
            nn.Linear(n_hidden, 1),
        )

    def forward(self, input_ids, attention_mask):
        last_hidden = self.encoder(input_ids=input_ids, attention_mask=attention_mask).last_hidden_state
        cls = last_hidden[:, 0]         # [CLS]
        
        return self.head(cls).squeeze(-1)  # logits


# Settings
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

batch_size = 32
lr = 5e-4
epochs = 3
seed = 42
encoder_name = "cointegrated/rubert-tiny2"
categories = ["politics", "economy", "culture"]
category_to_train = "politics"


# Data
train_dataset = NewsDataset(train_df, encoder_name)
train_data_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Training
model = NewsClassifierModel(encoder_name).to(device)
loss_fn = nn.BCEWithLogitsLoss()
optimizer = torch.optim.AdamW(model.head.parameters(), lr=lr)


def train_step(model, batch, optimizer, loss_fn):
    model.train()
    optimizer.zero_grad()

    label_idx = categories.index(category_to_train)

    logits = model(batch['input_ids'], batch['attention_mask'])
    loss = 0

    y_true = batch["labels"][:,label_idx].float()   # shape: (batch,)
    y_pred = logits                                 # shape: (batch,)
    loss += loss_fn(y_pred, y_true)

    loss.backward()
    optimizer.step()

    return loss.item()


def train():
    model.train()
    optimizer.zero_grad()

    for epoch in tqdm(range(epochs), desc='Epochs'):
        running_loss = 0.0
        batch_bar = tqdm(train_data_loader, desc=f'Epoch {epoch+1}', leave=False)
        for step, batch in enumerate(batch_bar, 1):
            # send tensors to device
            batch = {k: v.to(device) if torch.is_tensor(v) else v for k, v in batch.items()}
            loss = train_step(model, batch, optimizer, loss_fn)
            running_loss += loss

            # update inner bar postfix every few batches
            if step % 10 == 0 or step == len(train_data_loader):
                batch_bar.set_postfix(loss=running_loss / step, refresh=False)


train()

Пишем классы, обучаем


Epochs:   0%|          | 0/3 [00:27<?, ?it/s]


KeyboardInterrupt: 

## 8. Оценка и интерпретация - 5 баллов

Постройте и посчитайте следующие вещи на тесте для каждой категории:
- Графики: roc-кривую, распределение вероятностей для класса 1 и 0 (на одном графике), confusion matrix
- Метрики: precision, recall, f1 при оптимально подобранном пороге, roc auc

In [None]:
from sklearn.metrics import roc_curve, roc_auc_score
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix, classification_report

# ---- Ваш код здесь ----

def evaluate_heads_with_plots_and_roc(
    # ...,
    label_dict: dict,
    threshold: float = 0.5,
    verbose: bool = True,
    save_path: str = None
):
    # ...
    #     if save_path:
    #         plt.savefig(f"{save_path}/{category}_cm.png", dpi=150, bbox_inches='tight')
    #     plt.show()

    #     if verbose:
    #         print(f"\n===== Категория: {category} =====")
    #         print(classification_report(y_true, y_pred, zero_division=0))

    #     metrics.append({
    #         "category": category,
    #         "accuracy": acc,
    #         "precision": pr,
    #         "recall": rc,
    #         "f1_score": f1,
    #         "auc_roc": auc
    #     })

    # return pd.DataFrame(metrics)

_ = evaluate_heads_with_plots_and_roc(...)
print("метрики и графики")
# ---- Конец кода ----



## 9. Деплой и мониторинг, A/B - 2 балла

Опишите, как вы будете выкатывать в модель в прод:
- как будет выглядеть пайплайн от момента, когда вам пришел текст и заголовок новости, до передачи вердиктов по категориям новости.
- как вы распределите железо для инференса: будет использоваться GPU или CPU (или какая-то комбинация), и как вы это обоснуете.
- как бы вы проводили A/B тест с учетом вашего ML и бизнес-целей? Что бы замеряли? Как бы делили на группы? Как измеряли бы значимость изменений?
- как бы вы настраивали мониторинг? Что бы отслеживали? Для чего бы вы это делали?

In [None]:

# ---- Ваш код здесь ----
print("вот так будет выглядеть деплой, вот это на GPU или CPU, а вот это будем мониторить")
# ---- Конец кода ----

## 10. Итерации улучшения - 3 балла

Проанализируйте внимательно ваше решение, какие в нем есть проблемы и что можно улучшить. Придумайте (сами) максимально полный список того, что можно в модели сделать по-другому и улучшить, чтобы повысить качество модели.

**При желании** (это не повлияет на оценку), выберите одно из таких улучшений, внедрите, после чего выведите в одной ячейке метрики на тесте вашего прошлого и нового решений -- удалось ли улучшить результат?

In [None]:

# ---- Ваш код здесь ----
print("Вот так будем улучшать")
# ---- Конец кода ----

## 11. Расширение категорий (10 баллов)

Как это часто бывает, к вам пришел бизнес и сказал: "мы передумали".

Всё тщательно обсудив на встрече, главный продакт-менеджер заявил, что новостное агентство нуждается в другом наборе категорий, а именно: нужно выделить новые категории, "технологии" и "спорт", а три старые в целом могут оставаться на месте (правда никто не знает, надолго ли).

Итого, **новый список:** `["политика","экономика","технологии","спорт","культура"]`

Реализуйте это изменение и выведите новые метрики по всем категориям (старым и новым), но перед этим посмотрите на архитектуру своего решения и ответьте на вопрос -- насколько легко и удобно будет а) добавлять новые категории в вашем ML б) перекатывать сервис?

In [None]:

# ---- Ваш код здесь ----
print("Масштабируем на новые классы")
# ---- Конец кода ----