In [1]:
!pip install transformers
!pip install datasets
!pip install scikit-learn
!pip install nlpaug
!pip install transformers




In [2]:
import pandas as pd
import torch
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
from torch.utils.data import Dataset


In [3]:
df = pd.read_csv('/content/разметка_готовая.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1970 entries, 0 to 1969
Data columns (total 6 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   comment                               1970 non-null   object 
 1   Нравится скорость отработки заявок    1970 non-null   int64  
 2   Нравится качество выполнения заявки   1969 non-null   float64
 3   Нравится качество работы сотрудников  1970 non-null   int64  
 4   Понравилось выполнение заявки         1969 non-null   float64
 5   Вопрос решен                          1967 non-null   float64
dtypes: float64(3), int64(2), object(1)
memory usage: 92.5+ KB


In [4]:

text_col = 'comment'
label_cols = [
    'Нравится скорость отработки заявок',
    'Нравится качество выполнения заявки',
    'Нравится качество работы сотрудников',
    'Вопрос решен',
    "Понравилось выполнение заявки"
]
df = df[[text_col] + label_cols].dropna()
df = df[df[label_cols].sum(axis=1) > 0]

In [5]:
import nlpaug.augmenter.word as naw

def augment_texts(texts, augmenter, num_aug=3):
    augmented_texts = []
    for text in texts:
        for _ in range(num_aug):
            new_text = augmenter.augment(text)
            augmented_texts.append(new_text)
    return augmented_texts

aug = naw.ContextualWordEmbsAug(
    model_path='DeepPavlov/rubert-base-cased',
    action="substitute"
)


def augment_rare_classes(df, label_cols, target_count=100, augmenter=None, num_aug=3):
    dfs = [df.copy()]

    for label in label_cols:
        df_label = df[df[label] == 1]
        n_current = len(df_label)
        n_to_add = target_count - n_current
        if n_to_add <= 0:
            continue

        # Берём тексты и соответствующие метки
        texts_to_augment = df_label['text'].tolist()
        labels_to_copy = df_label[label_cols]

        # Аугментируем
        augmented_texts = []
        augmented_labels = []

        for idx, text in enumerate(texts_to_augment):
            for _ in range(num_aug):
                new_text = augmenter.augment(text)
                augmented_texts.append(new_text)
                augmented_labels.append(labels_to_copy.iloc[idx].values)

                # Достаточно примеров? — прерываем
                if len(augmented_texts) >= n_to_add:
                    break
            if len(augmented_texts) >= n_to_add:
                break

        # Формируем аугментированный датафрейм
        augmented_df = pd.DataFrame(augmented_texts, columns=['text'])
        for i, col in enumerate(label_cols):
            augmented_df[col] = [label[i] for label in augmented_labels]

        dfs.append(augmented_df)

    # Объединяем и перемешиваем
    return pd.concat(dfs).sample(frac=1).reset_index(drop=True)

df = augment_rare_classes(df, label_cols, target_count=100, augmenter=aug, num_aug=5)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


In [6]:
df[label_cols].sum()




Unnamed: 0,0
Нравится скорость отработки заявок,808.0
Нравится качество выполнения заявки,150.0
Нравится качество работы сотрудников,228.0
Вопрос решен,1267.0
Понравилось выполнение заявки,271.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1671 entries, 0 to 1670
Data columns (total 6 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   comment                               1671 non-null   object 
 1   Нравится скорость отработки заявок    1671 non-null   int64  
 2   Нравится качество выполнения заявки   1671 non-null   float64
 3   Нравится качество работы сотрудников  1671 non-null   int64  
 4   Вопрос решен                          1671 non-null   float64
 5   Понравилось выполнение заявки         1671 non-null   float64
dtypes: float64(3), int64(2), object(1)
memory usage: 78.5+ KB


In [8]:


X = df['comment'].values
y = df[label_cols].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



In [9]:
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-cased")

class CommentDataset(Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        encoding = tokenizer(self.texts[idx],
                             truncation=True,
                             padding='max_length',
                             max_length=128,
                             return_tensors="pt")
        item = {key: val.squeeze() for key, val in encoding.items()}
        item['labels'] = torch.tensor(self.labels[idx], dtype=torch.float)
        return item

train_dataset = CommentDataset(X_train, y_train)
test_dataset = CommentDataset(X_test, y_test)


In [10]:

import numpy as np


label_counts = np.sum(y_train, axis=0)
total_counts = y_train.shape[0]

pos_weights = total_counts / (label_counts + 1e-6)
pos_weights = torch.tensor(pos_weights, dtype=torch.float32)


In [11]:
from transformers import Trainer
import torch.nn as nn
class WeightedTrainer(Trainer):
    def __init__(self, pos_weight, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.pos_weight = pos_weight.to(self.args.device)  # переводим веса на нужное устройство
        self.loss_fn = nn.BCEWithLogitsLoss(pos_weight=self.pos_weight)

    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
        labels = inputs.pop("labels")

        # Переводим labels на то же устройство, что и модель
        labels = labels.to(model.device)

        outputs = model(**inputs)
        logits = outputs.logits
        loss = self.loss_fn(logits, labels.float())

        return (loss, outputs) if return_outputs else loss



In [12]:
import os
os.environ["WANDB_DISABLED"] = "true"


model = BertForSequenceClassification.from_pretrained(
    "bert-base-multilingual-cased",
    num_labels=len(label_cols),
    problem_type="multi_label_classification"
)

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=8,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    logging_dir="./logs",
    logging_steps=100,
    #evaluation_strategy="epoch"
)

trainer = WeightedTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    tokenizer=tokenizer,
    pos_weight=pos_weights,

)


trainer.train()


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Using the `WANDB_DISABLED` environment variable is deprecated and will be removed in v5. Use the --report_to flag to control the integrations used for logging result (for instance --report_to none).
  super().__init__(*args, **kwargs)


Step,Training Loss
100,0.9972
200,0.8164
300,0.7159
400,0.6404
500,0.604
600,0.5656
700,0.4661
800,0.4462
900,0.3656
1000,0.3708


TrainOutput(global_step=1336, training_loss=0.5095037875061263, metrics={'train_runtime': 375.8515, 'train_samples_per_second': 28.437, 'train_steps_per_second': 3.555, 'total_flos': 703051676663808.0, 'train_loss': 0.5095037875061263, 'epoch': 8.0})

In [13]:
from sklearn.metrics import classification_report
import numpy as np
from sklearn.metrics import classification_report
from sklearn.preprocessing import MultiLabelBinarizer
preds= trainer.predict(test_dataset)

y_pred = (preds.predictions > 0.5).astype(int)
y_true = np.asarray(y_test).astype(int)

# Заменим 2 → 1
y_true[y_true == 2] = 1

print("Unique values in y_true (after fix):", np.unique(y_true))
print(classification_report(y_true, y_pred, target_names=label_cols))






Unique values in y_true (after fix): [0 1]
                                      precision    recall  f1-score   support

  Нравится скорость отработки заявок       0.96      0.95      0.96       168
 Нравится качество выполнения заявки       0.82      0.66      0.73        35
Нравится качество работы сотрудников       0.62      0.52      0.57        48
                        Вопрос решен       0.96      0.97      0.96       243
       Понравилось выполнение заявки       0.58      0.62      0.60        52

                           micro avg       0.89      0.87      0.88       546
                           macro avg       0.79      0.74      0.76       546
                        weighted avg       0.88      0.87      0.88       546
                         samples avg       0.91      0.90      0.89       546



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))



```
                 precision    recall  f1-score   support

  Нравится скорость отработки заявок       0.94      0.97      0.96       153
 Нравится качество выполнения заявки       0.81      0.54      0.65        24
Нравится качество работы сотрудников       0.65      0.59      0.62        51
                        Вопрос решен       0.98      0.96      0.97       257
       Понравилось выполнение заявки       0.69      0.49      0.57        49

                           micro avg       0.91      0.87      0.89       534
                           macro avg       0.82      0.71      0.75       534
                        weighted avg       0.91      0.87      0.88       534
                         samples avg       0.93      0.90      0.90       534
                         

```



In [14]:
from sklearn.metrics import roc_auc_score

# preds.predictions — это логиты, подаём их как вероятности
# y_true — бинарные истинные метки (после исправлений)
# y_pred_proba — вероятности принадлежности к классу (до округления)

y_pred_proba = preds.predictions
y_true = np.asarray(y_test).astype(int)
y_true[y_true == 2] = 1  # На всякий случай ещё раз

# ROC-AUC по каждому классу
roc_auc_per_class = roc_auc_score(y_true, y_pred_proba, average=None)

# Средние оценки
roc_auc_macro = roc_auc_score(y_true, y_pred_proba, average="macro")
roc_auc_micro = roc_auc_score(y_true, y_pred_proba, average="micro")
roc_auc_weighted = roc_auc_score(y_true, y_pred_proba, average="weighted")

# Выводим
print("ROC-AUC по каждому классу:")
for label, score in zip(label_cols, roc_auc_per_class):
    print(f"{label}: {score:.3f}")

print("\nROC-AUC (macro):", round(roc_auc_macro, 3))
print("ROC-AUC (micro):", round(roc_auc_micro, 3))
print("ROC-AUC (weighted):", round(roc_auc_weighted, 3))


ROC-AUC по каждому классу:
Нравится скорость отработки заявок: 0.984
Нравится качество выполнения заявки: 0.892
Нравится качество работы сотрудников: 0.801
Вопрос решен: 0.960
Понравилось выполнение заявки: 0.849

ROC-AUC (macro): 0.897
ROC-AUC (micro): 0.946
ROC-AUC (weighted): 0.938




```
ROC-AUC по каждому классу:
Нравится скорость отработки заявок: 0.984
Нравится качество выполнения заявки: 0.892
Нравится качество работы сотрудников: 0.801
Вопрос решен: 0.960
Понравилось выполнение заявки: 0.849

ROC-AUC (macro): 0.897
ROC-AUC (micro): 0.946
ROC-AUC (weighted): 0.938

```

