In [None]:
!pip install transformers datasets accelerate scikit-learn

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch>=2.0.0->accelerate)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.wh

In [None]:
import pandas as pd
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from torch.optim import AdamW
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import train_test_split
import torch.nn as nn

In [None]:
train_df = pd.read_csv("drive/MyDrive/train_dataset_train.csv")
test_df = pd.read_csv("drive/MyDrive/test_dataset_test.csv")

In [None]:
train_df.head()

Unnamed: 0,id,Текст Сообщения,Тематика,Ответственное лицо,Категория
0,2246,Помогите начальник Льговского рэс не реагирует...,"Нарушения, связанные с содержанием электросети...",Администрация Льговского района,3
1,380,<p>По фасаду дома по адресу ул. Урицкого 22 пр...,Аварийные деревья,Администрация города Курска,3
2,2240,Агресивные собаки. На радуге там стая из подро...,Безнадзорные животные,Администрация города Курска,1
3,596,<p>На пересечении &nbsp;улиц Сосновская и Бере...,Нескошенная сорная растительность в местах общ...,Комитет дорожного хозяйства города Курска,3
4,1797,<p style=`text-align:justify;`><span style=`ba...,Аварийные деревья,Комитет городского хозяйства города Курска,3


In [None]:
train_df = train_df.rename(columns={
    'Текст Сообщения': 'text',
    'Категория': 'label'
})

In [None]:
# Преобразуем текстовые метки в числовые
label_encoder = LabelEncoder()
train_df['label'] = label_encoder.fit_transform(train_df['label'])

In [None]:
# Разбиение на train и val
X_train, X_val, y_train, y_val = train_test_split(train_df['text'], train_df['label'], test_size=0.2, random_state=42)


In [None]:
# Токенизатор и модель
model_name = "DeepPavlov/rubert-base-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=len(label_encoder.classes_))


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at DeepPavlov/rubert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
# Кастомный Dataset
class TextDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_length=256):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length
    def __len__(self):
        return len(self.texts)
    def __getitem__(self, idx):
        encoding = self.tokenizer(self.texts[idx], truncation=True, padding='max_length', max_length=self.max_length, return_tensors='pt')
        return {
            "input_ids": encoding["input_ids"].squeeze(0),
            "attention_mask": encoding["attention_mask"].squeeze(0),
            "labels": torch.tensor(self.labels[idx], dtype=torch.long)
        }

# Создание датасетов и загрузчиков
train_dataset = TextDataset(X_train.tolist(), y_train.tolist(), tokenizer)
val_dataset = TextDataset(X_val.tolist(), y_val.tolist(), tokenizer)

train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=16, shuffle=False)

# Определяем устройство (GPU, MPS, CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu")
model.to(device)

# Оптимизатор и loss
optimizer = AdamW(model.parameters(), lr=2e-5)
criterion = nn.CrossEntropyLoss()

# Функция обучения
def train(model, dataloader, optimizer, criterion):
    model.train()
    total_loss = 0
    for batch in dataloader:
        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        labels = batch["labels"].to(device)

        optimizer.zero_grad()
        outputs = model(input_ids, attention_mask=attention_mask)
        loss = criterion(outputs.logits, labels)
        loss.backward()
        optimizer.step()

        total_loss += loss.item()
    return total_loss / len(dataloader)

In [None]:
# Функция оценки
def evaluate(model, dataloader):
    model.eval()
    predictions, true_labels = [], []
    with torch.no_grad():
        for batch in dataloader:
            input_ids = batch["input_ids"].to(device)
            attention_mask = batch["attention_mask"].to(device)
            labels = batch["labels"].to(device)

            outputs = model(input_ids, attention_mask=attention_mask)
            preds = torch.argmax(outputs.logits, dim=1)

            predictions.extend(preds.cpu().numpy())
            true_labels.extend(labels.cpu().numpy())

    acc = accuracy_score(true_labels, predictions)
    unique_labels = sorted(set(true_labels))
    target_names = [str(label_encoder.classes_[i]) for i in unique_labels]
    report = classification_report(
        true_labels,
        predictions,
        labels=unique_labels,
        target_names=target_names
    )
    return acc, report


In [None]:
# Цикл обучения
num_epochs = 3
for epoch in range(num_epochs):
    train_loss = train(model, train_loader, optimizer, criterion)
    val_acc, val_report = evaluate(model, val_loader)
    print(f"Epoch {epoch+1}/{num_epochs} - Train Loss: {train_loss:.4f} - Val Accuracy: {val_acc:.4f}")

print("Validation classification report:\n", val_report)

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Epoch 1/3 - Train Loss: 0.7325 - Val Accuracy: 0.8250


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Epoch 2/3 - Train Loss: 0.4608 - Val Accuracy: 0.8250
Epoch 3/3 - Train Loss: 0.3151 - Val Accuracy: 0.8450
Validation classification report:
               precision    recall  f1-score   support

           0       0.82      0.84      0.83        99
           1       0.86      1.00      0.92         6
           2       0.00      0.00      0.00         2
           3       0.87      0.88      0.87       183
           4       0.96      0.92      0.94        24
           5       0.00      0.00      0.00         3
           7       0.40      0.67      0.50         3
           8       0.89      0.97      0.93        32
           9       0.00      0.00      0.00         1
          10       1.00      0.83      0.91        12
          11       0.00      0.00      0.00         4
          13       0.00      0.00      0.00         2
          15       1.00      0.50      0.67         2
          16       0.71      0.81      0.76        27

   micro avg       0.85      0.84      0.85  

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


**Вывод:**
Вывод по результатам обучения и валидации модели
В ходе выполнения эксперимента была обучена модель на основе предобученного трансформера DeepPavlov/rubert-base-cased для задачи классификации текстовых сообщений по 17 категориям. Обучение проводилось с использованием PyTorch, с разбиением данных на обучающую и валидационную выборки в соотношении 80:20.

Основные результаты:

Модель достигла точности (accuracy) на валидационном наборе около 82–85% за 3 эпохи обучения, что свидетельствует о достаточно хорошем качестве классификации для многоклассовой задачи.
Однако, для некоторых классов, особенно с малым количеством примеров в выборке, наблюдаются случаи, когда модель не смогла корректно их распознать. Это выразилось в предупреждениях UndefinedMetricWarning и нулевых значениях метрик precision и recall для ряда классов.
Дисбаланс классов, характерный для исходного датасета (отсутствие некоторых классов в валидационной выборке), влияет на качество предсказаний для редких категорий.
Метрики macro-average (усреднённые по классам) показывают пониженные значения по сравнению с weighted-average, что указывает на снижение качества для менее представленных классов.

Рекомендации для улучшения качества модели:

Собрать и добавить дополнительные данные для редких классов с целью выравнивания представительства.
Рассмотреть использование методов балансировки выборки (oversampling, class weights).
Провести дополнительную настройку гиперпараметров и исследовать более глубокие или специализированные модели.
Анализировать ошибки модели для выявления специфических сложностей в распознавании отдельных категорий.
В целом, полученные результаты демонстрируют успешную базовую реализацию задачи классификации текстов на русском языке с помощью современных трансформерных моделей. При дальнейшем улучшении данных и оптимизации подходов можно добиться более стабильной и качественной работы модели по всем классам.