In [1]:
import warnings
warnings.filterwarnings("ignore", category=UserWarning)

In [2]:
# Установка необходимых библиотек:
!pip install scikit-learn
!pip install numpy
!pip install pandas
!pip install transformers[torch]



In [3]:
import pandas as pd
import numpy as np
import random
from transformers import TrainingArguments, Trainer, BertTokenizer, BertForSequenceClassification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, classification_report
import torch

In [4]:
# Фиксирование рандома, чтобы результат был более менее воспроизводим
def seed_all(seed_value):
    random.seed(seed_value)
    np.random.seed(seed_value)
    torch.manual_seed(seed_value)
    if torch.cuda.is_available():
        torch.cuda.manual_seed(seed_value)
        torch.cuda.manual_seed_all(seed_value)
        torch.backends.cudnn.benchmark = True
        torch.backends.cudnn.deterministic = False

seed_all(1234)

In [5]:
# Загрузка данных
BASE_DIR = "/home/alexandr/PycharmProjects/NLP_homework/homework3"
data = pd.read_csv(BASE_DIR + "/in_domain_train.csv", usecols=['sentence', 'acceptable'])
test_data = pd.read_csv(BASE_DIR + "/in_domain_dev.csv")
test_data = test_data[['sentence', 'acceptable']]

train_data, val_data = train_test_split(data, test_size=0.2)
train_data = train_data.reset_index()[['sentence', 'acceptable']]
val_data = val_data.reset_index()[['sentence', 'acceptable']]

train_text = train_data['sentence']
train_labels = train_data['acceptable']
val_text = val_data['sentence']
val_labels = val_data['acceptable']
test_text = test_data['sentence']
test_labels = test_data['acceptable']

# Новый раздел

In [6]:
train_data

Unnamed: 0,sentence,acceptable
0,Приближался нечеловеческие рев и топот.,0
1,В котором часу завтра утром начинается конфере...,1
2,Она сидела на диване рядом с мужем.,1
3,"Это были студенты, сами сведущие в эскимосском...",1
4,"При всем том я оптимист и думаю, что мой конфл...",1
...,...,...
6290,Она хочет поговорить с каким-нибудь хорошим сп...,1
6291,"При расставании я целовал три раза чудесные, с...",1
6292,"Парк в старом русле реки Турии, раскинувшиеся ...",0
6293,Страны НАТО хотят взять с Ирана обязательство ...,0


In [7]:
# Загружаем нужную модель
model_checkpoint = "ai-forever/ruBert-base"
model = BertForSequenceClassification.from_pretrained(model_checkpoint, num_labels=2)
tokenizer = BertTokenizer.from_pretrained(model_checkpoint)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
if device.type == 'cuda':
    model = model.to("cuda")

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at ai-forever/ruBert-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [8]:
# Данная модель принимает предложения длиной, не больше 512 токенов, поэтому сначала проверю,
# какая максимальная длина в train, val и test
seq_len_train = [len(str(i).split()) for i in train_data['sentence']]
seq_len_val = [len(str(i).split()) for i in val_data['sentence']]
seq_len_test = [len(str(i).split()) for i in test_data['sentence']]
max_seq_len = max(max(seq_len_test), max(seq_len_train), max(seq_len_val))
max_seq_len

26

In [9]:
tokens_train = tokenizer.batch_encode_plus(
    train_text.values,
    max_length = max_seq_len,
    padding = 'max_length',
    truncation = True
)
tokens_val = tokenizer.batch_encode_plus(
    val_text.values,
    max_length = max_seq_len,
    padding = 'max_length',
    truncation = True
)
tokens_test = tokenizer.batch_encode_plus(
    test_text.values,
    max_length = max_seq_len,
    padding = 'max_length',
    truncation = True
)

In [10]:
# Данный код оборачивает токенизированные текстовые данные в torch Dataset
class Data(torch.utils.data.Dataset):
    def __init__(self, encodings, labels):
        self.encodings = encodings
        self.labels = labels

    def __getitem__(self, idx):
        item = {k: torch.tensor(v[idx]) for k, v in self.encodings.items()}
        item["labels"] = torch.tensor(self.labels[idx])
        return item

    def __len__(self):
        return len(self.encodings["input_ids"])

train_dataset = Data(tokens_train, train_labels)
val_dataset = Data(tokens_val, val_labels)
test_dataset = Data(tokens_test, test_labels)

In [11]:
# Функция для расчета метрики
def compute_metrics(p):
    pred, labels = p
    pred = np.argmax(pred, axis=1)

    accuracy = accuracy_score(y_true=labels, y_pred=pred)
    recall = recall_score(y_true=labels, y_pred=pred)
    precision = precision_score(y_true=labels, y_pred=pred)
    f1 = f1_score(y_true=labels, y_pred=pred)

    return {"accuracy": accuracy, "precision": precision, "recall": recall, "f1": f1}

In [12]:
# Параметры, которые будут использоваться для обучения
training_args = TrainingArguments(
    output_dir = BASE_DIR + '/fine-tuning_RuBERT_results', #Выходной каталог
    num_train_epochs = 3, #Кол-во эпох для обучения
    per_device_train_batch_size = 16, #Размер пакета для каждого устройства во время обучения
    per_device_eval_batch_size = 8, #Размер пакета для каждого устройства во время валидации
    weight_decay =5e-2, #Понижение весов
    load_best_model_at_end = True, #Загружать ли лучшую модель после обучения
    learning_rate = 2e-5, #Скорость обучения
    eval_strategy ='epoch', #Валидация после каждой эпохи (можно сделать после конкретного кол-ва шагов)
    logging_strategy = 'epoch', #Логирование после каждой эпохи
    save_strategy = 'epoch', #Сохранение после каждой эпохи
    gradient_accumulation_steps = 16,
    save_total_limit = 1,
    )

In [13]:
trainer = Trainer(model=model,
                  args = training_args,
                  train_dataset = train_dataset,
                  eval_dataset = val_dataset,
                  compute_metrics = compute_metrics)

In [14]:
trainer.train()

Epoch,Training Loss,Validation Loss,Accuracy,Precision,Recall,F1
0,0.5746,0.567117,0.723634,0.724204,0.998244,0.839424
1,0.5205,0.559787,0.737611,0.737255,0.990342,0.84526
2,0.4805,0.542597,0.743329,0.746479,0.977173,0.846388


TrainOutput(global_step=72, training_loss=0.525193002488878, metrics={'train_runtime': 3119.3639, 'train_samples_per_second': 6.054, 'train_steps_per_second': 0.023, 'total_flos': 249264836071680.0, 'train_loss': 0.525193002488878, 'epoch': 2.974619289340102})

In [15]:
# Оцениваем точность на проверенном наборе val_data
eval_results = trainer.evaluate()
print(f'Точность в наборе для проверки: {eval_results["eval_accuracy"]:.3f}')

Точность в наборе для проверки: 0.743


In [16]:
# Написание функции для получения предикта
def get_prediction():
    test_pred = trainer.predict(test_dataset)
    labels = np.argmax(test_pred.predictions, axis = -1)
    return labels
pred = get_prediction()

In [17]:
# Проверка полученного результата
print(classification_report(test_labels, pred))
print(f1_score(test_labels, pred))

              precision    recall  f1-score   support

           0       0.73      0.14      0.24       250
           1       0.77      0.98      0.86       733

    accuracy                           0.77       983
   macro avg       0.75      0.56      0.55       983
weighted avg       0.76      0.77      0.71       983

0.8638272345530894


In [18]:
# Сохранение обученной модели
model_path = BASE_DIR + '/fine-tune-RuBert'
model.save_pretrained(model_path)
tokenizer.save_pretrained(model_path)

('/home/alexandr/PycharmProjects/NLP_homework/homework3/fine-tune-RuBert/tokenizer_config.json',
 '/home/alexandr/PycharmProjects/NLP_homework/homework3/fine-tune-RuBert/special_tokens_map.json',
 '/home/alexandr/PycharmProjects/NLP_homework/homework3/fine-tune-RuBert/vocab.txt',
 '/home/alexandr/PycharmProjects/NLP_homework/homework3/fine-tune-RuBert/added_tokens.json')

In [21]:
data_pred = test_data.copy()
data_pred['pred'] = pred
data_pred

Unnamed: 0,sentence,acceptable,pred
0,Иван вчера не позвонил.,1,1
1,"У многих туристов, кто посещают Кемер весной, ...",0,0
2,Лесные запахи набегали волнами; в них смешалос...,1,1
3,Вчера президент имел неофициальную беседу с ан...,1,1
4,Коллега так и не признал вину за катастрофу пе...,1,1
...,...,...,...
978,Мысли отказываются остановиться на всяком пред...,0,1
979,"Не должно быть подозрений, что судью привлекаю...",0,1
980,"Хорошо, что он купил что-нибудь.",0,1
981,"Если бы я не потерял очков, не пришлось бы пок...",0,1


Результат получился неплохим f1=0.863, данную модель можно улучшить подбирая гиперпараметры.