In [None]:
import pandas as pd
from tqdm.notebook import tqdm
import numpy as np
import torch
from sklearn.metrics import classification_report, f1_score
import transformers
import torch.nn as nn
from transformers import AutoModel, BertTokenizer, BertForSequenceClassification
from torch.utils.data import TensorDataset, DataLoader, RandomSampler, SequentialSampler
from torch.utils.checkpoint import checkpoint
from torch.utils.data import Dataset
from transformers import TrainingArguments, Trainer
import random
import time
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline
import pickle
import torch.nn.functional as F
from sklearn.metrics import roc_auc_score

В первой задаче необходимо оценить вероятность наличия в объявлении контактной информации. Результатом работы модели является pd.DataFrame с колонками:

index: int, положение записи в файле;
prediction: float от 0 до 1.

Пример:

index	prediction
0	0.12
1	0.95
...	...
N	0.68

В качестве метрики качества работы вашей модели мы будем использовать усредненный ROC-AUC по каждой категории объявлений.

In [None]:
train=pd.read_csv('./data/get_train_data.sh')

In [None]:
val = pd.read_csv('./data/val.csv')

In [None]:
train.head()

Unnamed: 0,title,description,subcategory,category,price,region,city,datetime_submitted,is_bad
0,Диван-кровать,Продаем диван-кровать. Удобный механизм - евро...,Мебель и интерьер,Для дома и дачи,7000.0,Россия,Москва,2019-06-01 00:00:15.180656,0
1,Кожух рулевой колонки Даф хф 91 4509834,Кожух рулевой колонки DAF XF 94 (60066004)/\n ...,Запчасти и аксессуары,Транспорт,2290.0,Россия,Москва,2019-06-01 00:00:44.317933,0
2,Дешёвый буст аккаунтов Dota 4,! Буст аккаунтов с ммр выше 1000ммр не беру ! ...,Предложение услуг,Услуги,200.0,Северная Осетия,Владикавказ,2019-06-01 00:00:50.249692,1
3,Телевизор sharp.Смарт тв.Интернет,Продам телевизор . Диагональ 450.наличие входа...,Аудио и видео,Бытовая электроника,25000.0,Калининградская область,Советск,2019-06-01 00:00:50.325799,1
4,Открытка-конверт,Открытки-конверты ручной работы/\nВыполнены в ...,Коллекционирование,Хобби и отдых,150.0,Ставропольский край,Ессентукская,2019-06-01 00:00:56.632655,0


In [None]:
train[train.is_bad==1].shape #238k из 984к

(238266, 9)

Посмотрим на максимальную длину объявлений в поле description, чтобы понимать, какую длину брать для модели

In [None]:
seq_len = [len(str(i).split()) for i in pd.concat([train['description'], val['description']], axis=0)]
max_seq_len = max(seq_len)
max_seq_len

1146

In [None]:
np.quantile(seq_len,0.75),np.quantile(seq_len,0.90),np.quantile(seq_len,0.95),np.quantile(seq_len,0.97),np.quantile(seq_len,0.99)

(95.0, 180.0, 261.0, 315.0, 403.0)

In [None]:
pd.Series(seq_len_train).hist(bins = 50)


In [None]:
sum(i >402 for i in seq_len_train)

9839

In [None]:
np.median(seq_len_train)

33.0

Выглядит так, что максимальная длина объявления - это выброс. 97% объявлений не привышают 315, поэтому дальше будем использовать эту цифру в модели

In [None]:
max_seq_len=315 #97% quantile

### BERT training

Оригинальный код закомментила, оставляю только загрузку pre-trained модели:

In [None]:
#model_name = 'DeepPavlov/rubert-base-cased-sentence'
#access_token='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'

#model = BertForSequenceClassification.from_pretrained(model_name,token=access_token, num_labels=2).to('cuda')
tokenizer = BertTokenizer.from_pretrained('tokenizer_config.json')
model = BertForSequenceClassification.from_pretrained('model.safetensors').to('cuda')

In [None]:
train_text = train['description'].astype(str)
train_labels = train['is_bad']
val_text = val['description'].astype(str)
val_labels = val['is_bad']

#train_encodings = tokenizer4(train_text.tolist(), truncation=True, padding=True, max_length=max_seq_len, return_tensors="pt")
#val_encodings = tokenizer4(val_text.tolist(), truncation=True, padding=True, max_length=max_seq_len, return_tensors="pt")


In [None]:
# Загрузим готовые токены
with open('train_encodings.pickle', 'rb') as handle:
    train_encodings = pickle.load(handle)

# Загрузим готовые токены
with open('val_encodings.pickle', 'rb') as handle:
    val_encodings = pickle.load(handle)

In [None]:
class CustomDataset(Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        return {
            'input_ids': torch.tensor(self.encodings['input_ids'][idx]),
            'attention_mask': torch.tensor(self.encodings['attention_mask'][idx]),
            'labels': torch.tensor(self.labels[idx])
        }

train_dataset = CustomDataset(train_encodings, train['is_bad'])
val_dataset = CustomDataset(val_encodings, val['is_bad'])

In [None]:
def compute_metrics(pred):
    labels = pred.label_ids
    preds = pred.predictions.argmax(-1)
    roc_auc = roc_auc_score(labels, preds)
    return {'roc_auc': roc_auc}

In [None]:
# training_args4 = TrainingArguments(
    # output_dir='./results',
    # num_train_epochs=5,
    # per_device_train_batch_size=32,
    # per_device_eval_batch_size=32,
    # warmup_steps=500,
    # weight_decay=0.01,
    # logging_dir='./logs',
    # evaluation_strategy='epoch',
    # logging_strategy='epoch',
    # save_strategy='epoch',
    # save_total_limit=1,
    # seed=42,
    # max_steps=2000,
    # disable_tqdm=False,
    # load_best_model_at_end=True,
    # learning_rate=2e-5,
    # logging_steps=100
# )

In [None]:
# trainer4 = Trainer(model=model4,
#     args=training_args4,
#     train_dataset=train_dataset,
#     eval_dataset=val_dataset,
#     compute_metrics=lambda pred: {'f1_score': f1_score(pred.label_ids, np.argmax(pred.predictions, axis=1))},
# )

In [None]:
# trainer4.train()

  'input_ids': torch.tensor(self.encodings['input_ids'][idx]),
  'attention_mask': torch.tensor(self.encodings['attention_mask'][idx]),


Epoch,Training Loss,Validation Loss,F1 Score
0,0.158,0.160451,0.912347


TrainOutput(global_step=2000, training_loss=0.15802607727050783, metrics={'train_runtime': 3477.4576, 'train_samples_per_second': 18.404, 'train_steps_per_second': 0.575, 'total_flos': 1.03599978048e+16, 'train_loss': 0.15802607727050783, 'epoch': 0.07})

In [None]:
# def get_prediction(trainer):
#     val_pred = trainer.predict(val_dataset)
#     labels = np.argmax(val_pred.predictions, axis = -1)
#     return val_pred,labels

# logits4,pred4 = get_prediction(trainer4)

  'input_ids': torch.tensor(self.encodings['input_ids'][idx]),
  'attention_mask': torch.tensor(self.encodings['attention_mask'][idx]),


In [None]:
# print(classification_report(val_labels, pred4))
# print(roc_auc_score(val_labels, pred4))

              precision    recall  f1-score   support

           0       0.97      0.97      0.97     12256
           1       0.91      0.92      0.91      3981

    accuracy                           0.96     16237
   macro avg       0.94      0.94      0.94     16237
weighted avg       0.96      0.96      0.96     16237

0.9427800779223504


Получили ROC-AUC score 0.943 на валидационном датасете - бейзлайн побит

В оригинальном коде модель сохранилась здесь

In [None]:
#model_path = "/content/drive/MyDrive/Colab Notebooks/avito/fine-tune-bert4"
#model4.save_pretrained(model_path)
#tokenizer.save_pretrained(model_path)
#with open('/content/drive/MyDrive/Colab Notebooks/avito/val_encodings4.pickle', 'wb') as handle:
#    pickle.dump(val_encodings, handle, protocol=pickle.HIGHEST_PROTOCOL)
#with open('/content/drive/MyDrive/Colab Notebooks/avito/train_encodings4.pickle', 'wb') as handle:
    #pickle.dump(train_encodings, handle, protocol=pickle.HIGHEST_PROTOCOL)


### Prediction

In [None]:
def task1(df):

  batch_size = 32
  text = df['description'].astype(str)

  encodings = tokenizer(text.tolist(), truncation=True, padding=True, max_length=max_seq_len, return_tensors="pt")

  if df['is_bad']:
    dataset = CustomDataset(encodings, df['is_bad'])
    test_labels = df['is_bad']
  else:
    dataset = CustomDataset(encodings, [])
  batch_size = 32
  # Будем грузить данные для предсказания по чуть-чуть
  loader = DataLoader(dataset, batch_size=batch_size)

  # Итерируем по батчам и используем градиент чекпоинт, чтобы памяти хватило
  logits_list = []
  with torch.no_grad():
      for batch in tqdm(loader):
          batch_inputs = {key: value.to('cuda') for key, value in batch.items()}  # Move batch to GPU
          logits = checkpoint(model, batch_inputs['input_ids'], batch_inputs['attention_mask']).logits
          logits_list.append(logits)

  # Объединим все логиты
  logits = torch.cat(logits_list, dim=0)

  #Предсказанные вероятности
  pred_probs = torch.softmax(logits, dim=1)
  #для позитивного класса
  probabilities=pred_probs[:, 1].tolist()
  #Предсказанные классы
  pred_labels = probs.argmax(dim=1)
  return probabilities


In [None]:
from typing import Tuple, Union


def task2(description: str) -> Union[Tuple[int, int], Tuple[None, None]]:
    description_size = len(description)
    if description_size % 2 == 0:
        return None, None
    else:
        return 0, description_size