In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import torch
import datasets
from datasets import load_metric
from transformers import AutoTokenizer, AutoModelForSequenceClassification

from transformers import DataCollatorWithPadding



In [2]:
data = datasets.load_dataset('merionum/ru_paraphraser')

In [3]:
data

DatasetDict({
    train: Dataset({
        features: ['id', 'id_1', 'id_2', 'text_1', 'text_2', 'class'],
        num_rows: 7227
    })
    test: Dataset({
        features: ['id', 'id_1', 'id_2', 'text_1', 'text_2', 'class'],
        num_rows: 1924
    })
})

In [4]:
model_name = "IlyaGusev/xlm_roberta_large_headline_cause_simple"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

In [5]:
label_list = sorted(set(data['train']['class']))
labels2id = { key:id for id, key in enumerate(label_list)}

def tokenize_and_align_labels(tokenizer, labels2id):    
    def tokenize_and_align_labels_(examples):
#         tokenized_inputs = tokenizer([[text_1, text_2] for (text_1, text_2) in zip(examples['text_1'],examples['text_2'])])
        tokenized_inputs = tokenizer(examples['text_1'],examples['text_2'], truncation=True)
#         tokenized_inputs["labels"] = [[labels2id[label] for _ in range(len(tokenized_inputs["input_ids"][i]))] for i, label in enumerate(examples['class'])]
        tokenized_inputs["labels"] = [labels2id[label] for label in examples['class']]
#         tokenized_inputs["labels"] = [label for label in examples['class']]
        return tokenized_inputs
    return tokenize_and_align_labels_
tokenized_datasets = data.map(tokenize_and_align_labels(tokenizer, labels2id), batched=True)    

In [6]:
metric = load_metric("accuracy")
def compute_metrics(eval_pred):

    logits, labels = eval_pred

    predictions = np.argmax(logits, axis=-1)
    
    return metric.compute(predictions=predictions, references=labels)

  metric = load_metric("accuracy")


In [7]:
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [8]:
from transformers import Trainer, TrainingArguments

args = TrainingArguments(
    "paraphras",
    evaluation_strategy = "epoch",
    learning_rate=2e-6,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.05,
    save_strategy='no',
    report_to='none',
)

trainer = Trainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"].select(range(500)),
    eval_dataset=tokenized_datasets["test"].select(range(500)),
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

In [9]:
trainer.train()

  0%|          | 0/96 [00:00<?, ?it/s]

You're using a XLMRobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


In [None]:
def get_similarity(text1, text2):
    """ Predict the probability that two Russian sentences are paraphrases of each other. """
    with torch.inference_mode():
        batch = tokenizer(
            text1, text2, 
            truncation=True, max_length=model.config.max_position_embeddings, return_tensors='pt',
        ).to(model.device)
        proba = torch.softmax(model(**batch).logits, -1)
    return proba[0][1].item()

In [None]:
text1 = "Я не помню тебя"
text2 = "Я не знаю тебя"
get_similarity(text1, text2)

0.05976682901382446

In [None]:
text1 = "Это красивая машина"
text2 = "Эта машина выглядит красиво"
get_similarity(text1, text2)

0.7301298379898071

In [None]:
text1 = "Твой отец говорил, что не любит футбол"
text2 = "Твой отец рассказал о своей нелюбви к футболу"
get_similarity(text1, text2)

0.6921333074569702

In [None]:
text1 = "Моя сестра любит животных"
text2 = "Моя сестра любит собаку"
get_similarity(text1, text2)

0.49897482991218567

In [None]:
text1 = "Моя сестра любит животных"
text2 = "Моя сестра любит программировать на Python"
get_similarity(text1, text2)

0.1102612093091011

In [None]:
text1 = "Моя сестра любит животных"
text2 = "Моя сестра любит программировать"
get_similarity(text1, text2)

0.08786703646183014

In [None]:
id2labels = { id:key for id, key in enumerate(label_list)}
example = tokenized_datasets["test"][0:15]
tokens = tokenizer(example['text_1'], example['text_1'], padding=True, truncation=True, return_tensors='pt')
tokens = tokens.to('cuda:0')
with torch.no_grad():
    outputs = model(**tokens)

predicted = outputs.logits.argmax(dim=-1).cpu().numpy()
classes = [id2labels[id_label] for id_label in predicted]
df_example =pd.DataFrame({'text_1':example['text_1'], 'text_2':example['text_2'], 'class':example['class'], 'predict':classes})
df_example

Unnamed: 0,text_1,text_2,class,predict
0,Цены на нефть восстанавливаются,Парламент Словакии поблагодарил народы бывшего...,-1,1
1,"""Гоголь-центр"" покажет видеозапись скандальног...",Кехман запретил «Гоголь-центру» показывать вид...,-1,1
2,Агент: РФС вновь задерживает зарплату Фабио Ка...,СМИ: Агент Фабио Капелло грозится подать в суд...,-1,1
3,День Победы в Москве обещает выдаться облачным,Любляна отпразднует День Победы вместе с Москвой,-1,1
4,Посол РФ в США: Россия будет бороться с попытк...,Правительство запланировало заработать на лоте...,-1,1
5,Вертолет с 11 иностранцами на борту упал в Пак...,В Пакистане упал вертолет с 11 иностранцами,1,1
6,Самолет вернулся в аэропорт Новосибирска из-за...,Самолет вернулся в новосибирский аэропорт из-з...,1,1
7,Васильева признана виновной в мошенничестве и ...,Васильева признана виновной в хищениях и отмыв...,0,1
8,Путин перед Днем Победы подписал указ о присво...,СК РФ: Официальный сайт Следственного комитета...,-1,1
9,Суд оправдал Васильеву в хищении акций на два ...,Суд оправдал Васильеву в хищении акций на 2 мл...,1,1
