### See dataset

input: the folder with data needed for corresponding part of the competition:

train.tsv: 3,539 pairs of toxic sentences and their non-toxic references;


dev.tsv: 800 pairs of toxic sentences and their non-toxic references;

output: 

the folder where you can store the outputs of your model and then evaluate it. We provide an example output for the proposed baselines.

In [10]:
train_data_path = "russe_detox_2022/data/input/train.tsv"
dev_data_path = "russe_detox_2022/data/input/dev.tsv"
test_data_path = "russe_detox_2022/data/input/test.tsv"

delete_dev_path = "russe_detox_2022/data/output/delete_dev.txt"
delete_test_path = "russe_detox_2022/data/output/delete_test.txt"
ruprompts_test_path = "russe_detox_2022/data/output/ruprompts_test.txt"
t5_base_10000_dev_path = "russe_detox_2022/data/output/t5_base_10000_dev.txt"
t5_base_10000_test_path = "russe_detox_2022/data/output/t5_base_10000_test.txt"

In [11]:
import pandas as pd

In [12]:
train_data = pd.read_csv (train_data_path, sep = '\t')
dev_data = pd.read_csv (dev_data_path, sep = '\t')
test_data = pd.read_csv (test_data_path, sep = '\t')

In [13]:
train_data

Unnamed: 0,index,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
0,0,"и,чё,блядь где этот херой был до этого со свои...","Ну и где этот герой был,со своими доказательст...",Где этот герой был до этого со своими доказате...,"и,где этот герой был до этого со своими доказа..."
1,1,"О, а есть деанон этого петуха?","О, а есть деанон",,
2,2,"херну всякую пишут,из-за этого лайка.долбоебизм.","Чушь всякую пишут, из- за этого лайка.","Ерунду всякую пишут,из-за этого лайка.",
3,3,из за таких пидоров мы и страдаем,из за таких плохих людей мы и страдаем,Из-за таких людей мы и страдаем,из за таких как он мы и страдаем
4,4,гондон путинский он а не артист,"Человек Путина он, а не артист",,
...,...,...,...,...,...
6943,6943,"Блядь, пусть его уже закроют до конца его дней...","Пусть его уже закроют до конца его дней, он же...",,
6944,6944,твоя химия это тотальный пиздец(,твоя химия - это просто кошмар,,
6945,6945,"меня изнасиловали, мудилка, а тебе пох(((","меня изнасиловали,а тебе всё равно (((",,
6946,6946,когда наплоюсь на пидораса и маньяка похож((((...,Когда напьюсь - на маньяка похож...,,


In [14]:
dev_data

Unnamed: 0,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
0,пиздеж! температуры горения хватит чтобы её ра...,Враньё! Температуры горения хватит чтобы ее ра...,"неправда,температуры горения хватит чтобы расп...",Враньё! Температуры горения хватит на чтобы её...
1,а ты чмо там был.ты вообще служил.гандон,А ты там был? Ты вообще служил?,,
2,пиздабол ---- а сам где кормишься ?,а сам где кормишься ?,,
3,"этому сайту я давно не доверяю, пишут разную х...","Этому сайту давно не доверяю, пишут всякую ерунду",,
4,у меня сегодня подобный звонок был. достали го...,у меня сегодня подобный звонок был. Достали.,"У меня сегодня подобный звонок был,надоели",
...,...,...,...,...
795,"киргиз украл, она сбежала, так он ее зарезал с...","киргиз украл, она сбежала, так он ее зарезал","киргиз украл, она сбежала, так он ее зарезал",
796,это не от того что желающих работать нет. а от...,Это не от того что желающих работать нет а от ...,,
797,"долбаеб, решил ресонуться, купил бы кольцо, цв...","Если хочешь показать себя , купи кольцо, цветы...",,
798,такому уроду пасти баранов страшно доверить а ...,такому плохому человеку ничего нельзя доверит...,,


In [15]:
# интересно, что там со смайликами
list(dev_data[39:]['toxic_comment'])[0]

'она с этими скринами ей адресованными годами носиться будет. пиздец ебанутая жаба😂😂😂😂😂😂😂'

In [16]:
test_data

Unnamed: 0,toxic_comment
0,какой дебил эту придумывает
1,В такой ситуации виноваты пидарасы из Ростелек...
2,"актёр может и не плохой,но как человек - хуйло..."
3,мочите всех кто нарушает общественный порядок
4,такие же твари и привели этих тварей
...,...
870,это наш местный дурачок из фага
871,лживая хамелеонша судить ее надо за такое голо...
872,2)Это что стих про них что-ли? Это они диванны...
873,дааааа......муж моей знакомой говорит......мне...


### Install some packages

In [None]:
!pip install transformers[torch]==4.3

In [2]:
!pip install ufal.udpipe

Collecting ufal.udpipe
  Downloading ufal.udpipe-1.3.0.1-cp36-cp36m-win_amd64.whl (940 kB)
Installing collected packages: ufal.udpipe
Successfully installed ufal.udpipe-1.3.0.1


In [1]:
!pip install ruprompts



In [None]:
!pip install datasets

### Obtain baseline solutions

#### Delete

In [3]:
import pandas as pd
import numpy as np
from tqdm import tqdm_notebook as tqdm
import random

import gensim
from ufal.udpipe import Model, Pipeline

In [6]:
with open('toxic_vocab_extended.txt', 'rb') as file:
    toxic_words = file.readlines()
toxic_words = [sentence.decode('utf-8') for sentence in toxic_words]
toxic_words = [sentence.strip() for sentence in toxic_words]
toxic_words, len(toxic_words)

(['подмандошись',
  'помандячивавшийся',
  'жидоебём',
  'вымандюривалась',
  'перемандюлившихся',
  'блядиадою',
  'подхуякнулась',
  'вымандившаяся',
  'упиздяшивающую',
  'помандяхивавшее',
  'обмандохивался',
  'отмандимтесь',
  'припиздюривавшее',
  'выхуякивавши',
  'напиздошивающая',
  'припиздиться',
  'отпиздякающий',
  'распиздяшимся',
  'пропизживающеюся',
  'пиздонуло',
  'перепиздюрены',
  'размандохивают',
  'нахуяривавшему',
  'бздюшке',
  'обмандякать',
  'мандячьими',
  'промандюриваетесь',
  'мандюля',
  'помудохает',
  'изъебашившееся',
  'отпиздохивающего',
  'вымандюливавшуюся',
  'замандярю',
  'дотрахаемого',
  'обпиздоболенном',
  'допиздюкающимся',
  'отпиздячащие',
  'вмандярящие',
  'подпиздякавшиеся',
  'обпиздюривавшегося',
  'припизживающимися',
  'подпиздяхивайте',
  'попиздюливаться',
  'вздрачиваетесь',
  'хуяста',
  'пропиздюривающую',
  'измандяхавшихся',
  'испиздячивал',
  'отмандюривших',
  'обмандяриваемся',
  'приссущая',
  'уебуривающие',
  'обп

In [7]:
modelfile = 'udpipe_syntagrus.model'
model_udpipe = Model.load(modelfile)
process_pipeline = Pipeline(model_udpipe, 'tokenize', Pipeline.DEFAULT, Pipeline.DEFAULT, 'conllu')

In [17]:
def tokenize(text, tags=False, lemmas=False):
    processed = process_pipeline.process(text)
    content = [l for l in processed.split('\n') if not l.startswith('#')]
    tagged = [w.split('\t') for w in content if w]
    
    tokens = []
    for token in tagged:
        if token[3] == 'PUNCT':
            continue
        
        token_res = ''
        if lemmas:
            token_res = token[2]
        else:
            token_res = token[1]
        if tags:
            token_res += '_' + token[3]
        tokens.append(token_res)
        
    return tokens

In [18]:
dev_data.head()

Unnamed: 0,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
0,пиздеж! температуры горения хватит чтобы её ра...,Враньё! Температуры горения хватит чтобы ее ра...,"неправда,температуры горения хватит чтобы расп...",Враньё! Температуры горения хватит на чтобы её...
1,а ты чмо там был.ты вообще служил.гандон,А ты там был? Ты вообще служил?,,
2,пиздабол ---- а сам где кормишься ?,а сам где кормишься ?,,
3,"этому сайту я давно не доверяю, пишут разную х...","Этому сайту давно не доверяю, пишут всякую ерунду",,
4,у меня сегодня подобный звонок был. достали го...,у меня сегодня подобный звонок был. Достали.,"У меня сегодня подобный звонок был,надоели",


In [19]:
toxic_inputs = dev_data['toxic_comment'].tolist()

In [20]:
processed = process_pipeline.process(toxic_inputs[0])

In [21]:
processed

'# newdoc\n# newpar\n# sent_id = 1\n# text = пиздеж! температуры горения хватит чтобы её расплавить к херам.\n1\tпиздеж\tпиздеж\tNOUN\t_\tAnimacy=Inan|Case=Nom|Gender=Masc|Number=Sing\t5\tnsubj\t_\tSpaceAfter=No\n2\t!\t!\tPUNCT\t_\t_\t1\tpunct\t_\t_\n3\tтемпературы\tтемпература\tNOUN\t_\tAnimacy=Inan|Case=Gen|Gender=Fem|Number=Sing\t1\tnmod\t_\t_\n4\tгорения\tгорение\tNOUN\t_\tAnimacy=Inan|Case=Gen|Gender=Neut|Number=Sing\t3\tnmod\t_\t_\n5\tхватит\tхватать\tVERB\t_\tAspect=Perf|Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin|Voice=Act\t0\troot\t_\t_\n6\tчтобы\tчто\tSCONJ\t_\tMood=Cnd\t8\tmark\t_\t_\n7\tеё\tона\tPRON\t_\tCase=Acc|Gender=Fem|Number=Sing|Person=3\t8\tobj\t_\t_\n8\tрасплавить\tрасплавлять\tVERB\t_\tAspect=Perf|VerbForm=Inf|Voice=Act\t5\tadvcl\t_\t_\n9\tк\tк\tADP\t_\t_\t10\tcase\t_\t_\n10\tхерам.\tхерамя\tNOUN\t_\tAnimacy=Inan|Case=Gen|Gender=Neut|Number=Sing\t8\tobl\t_\tSpaceAfter=No\n\n# sent_id = 2\n# text = .\n1\t.\t.\tPUNCT\t_\t_\t0\troot\t_\tSpacesAfter=\\n\n\n'

In [22]:
results = []

for sample in tqdm(toxic_inputs):
    try:
        tokens_lemmas = tokenize(sample, lemmas=True)
    except:
        print(sample)
        tokens_lemmas = sample.split(' ')
    tokens = tokenize(sample, lemmas=False)
    cleaned_sentence = [tokens[i] for i, word in enumerate(tokens_lemmas) if word not in toxic_words]
        
    results.append(' '.join(cleaned_sentence))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  This is separate from the ipykernel package so we can avoid doing imports until


  0%|          | 0/800 [00:00<?, ?it/s]

In [26]:
results

['пиздеж температуры горения хватит чтобы её расплавить к херам.',
 'а ты чмо там был.ты вообще служил.гандон',
 'а сам где кормишься',
 'этому сайту я давно не доверяю пишут разную х.',
 'у меня сегодня подобный звонок был. достали',
 'это где у неё в россии пушкинская область? долбоебка',
 'вы чо курите',
 'разыскать и расстрелять к едрене фене',
 'да к стенке надо ставить таких врачей извергов',
 'куда смотрят модераторы фотографий как можно было пропустить эту фотографию а этого убила бы',
 'воо а просто в полицию не могла позвонить',
 'украина в канаде крым в россии карабас в',
 'за неделю всё разволилось',
 'ну да вы только можете',
 'посмотреть бы на нее когда будет пенсионеркой идиотка',
 'дебили пару головастиков и',
 'а тем более с',
 'ой не сиди и там на случай если кто то сидит и тvаги ро раге там',
 'Жооора мусик твой Эй уйди Я с вами вижу раааай',
 'свнорылая не хохлятская никто в днр и не собирается в вашу гнидную вонючую усраину не бреши',
 'А вот и совок',
 'Ты не моро

In [28]:
with open('my_delete_dev.txt', 'w', encoding="utf-8") as file:
    file.writelines([f"{sentence}\n" for sentence in results])

#### T5

##### train

In [8]:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

In [9]:
import pandas as pd
from sklearn.utils import shuffle

In [10]:
from transformers import T5ForConditionalGeneration, AutoTokenizer
import torch

In [11]:
from torch.utils.data import Dataset, DataLoader
from transformers import Trainer, TrainingArguments
from transformers.file_utils import cached_property
from typing import Tuple
from sklearn.model_selection import train_test_split
import gc
from tqdm.auto import tqdm, trange

In [12]:
from typing import List, Dict, Union

To solve error while importing `T5ForConditionalGeneration`:

https://stackoverflow.com/questions/66998668/cannot-import-name-t5tokenizer-from-transformers-models-t5

###### Первоначальная подготовка обучающего датасета

In [13]:
train_data = train_data.fillna('')
train_data

Unnamed: 0,index,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
0,0,"и,чё,блядь где этот херой был до этого со свои...","Ну и где этот герой был,со своими доказательст...",Где этот герой был до этого со своими доказате...,"и,где этот герой был до этого со своими доказа..."
1,1,"О, а есть деанон этого петуха?","О, а есть деанон",,
2,2,"херну всякую пишут,из-за этого лайка.долбоебизм.","Чушь всякую пишут, из- за этого лайка.","Ерунду всякую пишут,из-за этого лайка.",
3,3,из за таких пидоров мы и страдаем,из за таких плохих людей мы и страдаем,Из-за таких людей мы и страдаем,из за таких как он мы и страдаем
4,4,гондон путинский он а не артист,"Человек Путина он, а не артист",,
...,...,...,...,...,...
6943,6943,"Блядь, пусть его уже закроют до конца его дней...","Пусть его уже закроют до конца его дней, он же...",,
6944,6944,твоя химия это тотальный пиздец(,твоя химия - это просто кошмар,,
6945,6945,"меня изнасиловали, мудилка, а тебе пох(((","меня изнасиловали,а тебе всё равно (((",,
6946,6946,когда наплоюсь на пидораса и маньяка похож((((...,Когда напьюсь - на маньяка похож...,,


In [14]:
train_data.shape

(6948, 5)

In [15]:
train_data.iloc[0][['neutral_comment1', 'neutral_comment2', 'neutral_comment3']].tolist()

['Ну и где этот герой был,со своими доказательствами?',
 'Где этот герой был до этого со своими доказательствами?',
 'и,где этот герой был до этого со своими доказательствами?']

В датасете одному токсичному высказыванию иногда соответствует несколько вариантов его нейтрального вида. Поэтому делаем пары: одно токсичное --- одно нейтральное. Для случая нескольких нейтральных высказываний просто берём и каждому присваиваем одно и то же токсичное, которое им соответствует.

In [16]:
df_train_toxic = []
df_train_neutral = []

for index, row in train_data.iterrows():
    references = row[['neutral_comment1', 'neutral_comment2', 'neutral_comment3']].tolist()
    
    for reference in references:
        if len(reference) > 0:
            df_train_toxic.append(row['toxic_comment'])
            df_train_neutral.append(reference)
        else:
            break

In [17]:
len(df_train_toxic), len(df_train_neutral)

(11090, 11090)

In [18]:
df_train_toxic

['и,чё,блядь где этот херой был до этого со своими доказательствами?',
 'и,чё,блядь где этот херой был до этого со своими доказательствами?',
 'и,чё,блядь где этот херой был до этого со своими доказательствами?',
 'О, а есть деанон этого петуха?',
 'херну всякую пишут,из-за этого лайка.долбоебизм.',
 'херну всякую пишут,из-за этого лайка.долбоебизм.',
 'из за таких пидоров мы и страдаем',
 'из за таких пидоров мы и страдаем',
 'из за таких пидоров мы и страдаем',
 'гондон путинский он а не артист',
 'как урод такую херню пишет???',
 'в гсвг за такие сапоги пиздюлей получил бы от сослуживцев',
 'Скудоумие это свойство личности проявлять умственную ограниченность. И где здесь обзывание?',
 'Спасибо! Потому что предвзятость модераторов начинает напрягать - модерируют как бык поссал.',
 'Спасибо! Потому что предвзятость модераторов начинает напрягать - модерируют как бык поссал.',
 'У меня бывает говорение о себе в 3-м лице... А может это шизофрения, кто знает?)',
 'Он про марихуану и вооб

In [19]:
df_train_neutral

['Ну и где этот герой был,со своими доказательствами?',
 'Где этот герой был до этого со своими доказательствами?',
 'и,где этот герой был до этого со своими доказательствами?',
 'О, а есть деанон',
 'Чушь всякую пишут, из- за этого лайка.',
 'Ерунду всякую пишут,из-за этого лайка.',
 'из за таких плохих людей мы и страдаем',
 'Из-за таких людей мы и страдаем',
 'из за таких как он мы и страдаем',
 'Человек Путина он, а не артист',
 'кто такую ерунду пишет',
 'В ГСВГ за такие сапоги наказали бы сослуживцы',
 'Слабоумие это свойство личности проявлять умственную ограниченность. И где здесь обзывание?',
 'Спасибо! Потому что предвзятость модераторов начинает раздражать-модерируют спустя рукава.',
 'Спасибо! Потому что предвзятость модераторов начинает напрягать.',
 'У меня бывает говорение о себе в 3-м лице... А может это шизофрения, кто знает?)',
 'Он про марихуану и вообще иди отсюда пока твой батя новый аккаунт не спалил',
 'Что же вы помощники России не едите жить в деревню, а все в 

Ещё и перемешиваем пары...

In [20]:
df = pd.DataFrame({
    'toxic_comment': df_train_toxic,
    'neutral_comment': df_train_neutral
})

df = shuffle(df)
df.head()

Unnamed: 0,toxic_comment,neutral_comment
1921,"- а ты гвоздики возьми, придурок!",А ты гвоздики возьми
4359,тебе доебаться не до кого,тебе докопаться не до кого
6692,"срань господня, на одну шубу нужно 250 белок, ...","Какой ужас, на одну шубу нужно 250 белок,столь..."
5075,У МЕНЯ ТАКОЕ ЧУВСТВО ЧТО МОЯ ШКОЛА САМАЯ ОТСТО...,У МЕНЯ ТАКОЕ ЧУВСТВО ЧТО МОЯ ШКОЛА САМАЯ ПЛОХАЯ:(
3243,"На видео смотри, тупомозгий. Раздел, сортирово...",На видео смотри. Раздел сортировочка. Давай


###### torch Dataset

In [21]:
class PairsDataset(Dataset):
    def __init__(self, x, y):
        """
        x - dict; example (from toxic comment):
            {
                'input_ids': [[55, 27, 103, 172], [157, 24529, 4088, 2], ...],
                'attention_mask': [[1, 1, 1, 1], [1, 1, 1, 1], ...]
            }
        y - the same dict as x (from neutral comment)
        """
        self.x = x
        self.y = y

    def __getitem__(self, idx):
        """
        idx - index of current object
        
        returns dict:
            {
                'input_ids': [157, 24529, 4088, 2] # 'input_ids' from `x` for `idx
                'attention_mask': [1, 1, 1, 1] # 'attention_mask' from `x` for `idx`
                'decoder_attention_mask': [1, 1, 1, 1] # 'attention_mask' from `y` for `idx`
                'labels': [422, 584, 17940, 246] # 'input_ids' from `y` for `idx`
            }
        """
        assert idx < len(self.x['input_ids']) # idx must be less than len of 'toxic' list (list from column `toxic_comment`)
        item = {key: val[idx] for key, val in self.x.items()}
        item['decoder_attention_mask'] = self.y['attention_mask'][idx]
        item['labels'] = self.y['input_ids'][idx]
        return item
    
    @property
    def n(self):
        return len(self.x['input_ids'])

    def __len__(self):
        return self.n # * 2

In [22]:
def cleanup():
    """
    A helpful function to clean all cached batches.
    """
    gc.collect()
    torch.cuda.empty_cache()

###### model

From: https://huggingface.co/docs/transformers/index

Paper: https://arxiv.org/pdf/1910.10683.pdf

In [23]:
model_name = 'sberbank-ai/ruT5-base'

In [24]:
model = T5ForConditionalGeneration.from_pretrained(model_name)
model

T5ForConditionalGeneration(
  (shared): Embedding(32128, 768)
  (encoder): T5Stack(
    (embed_tokens): Embedding(32128, 768)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
              (relative_attention_bias): Embedding(32, 12)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dr

model in docs: https://huggingface.co/docs/transformers/v4.27.2/en/model_doc/t5#transformers.T5ForConditionalGeneration

###### tokenizer

https://huggingface.co/docs/transformers/v4.27.2/en/model_doc/auto#transformers.AutoTokenizer

In [25]:
tokenizer = AutoTokenizer.from_pretrained(model_name)

In [26]:
x, y = df['toxic_comment'].tolist(), df['neutral_comment'].tolist()

In [27]:
tokenizer(x)

{'input_ids': [[33, 37, 118, 28688, 15, 8954, 3, 13186, 2885, 40, 2], [303, 53, 1909, 1560, 10, 53, 649, 2], [11, 987, 159, 6817, 397, 3, 9, 965, 16954, 18, 252, 7896, 21419, 3, 35, 8, 13, 3298, 3, 1434, 3906, 138, 7179, 2739, 4093, 3501, 721, 2], [114, 8, 18083, 618, 26308, 25351, 1346, 517, 253, 27138, 23444, 9463, 618, 625, 6673, 5359, 70, 8846, 20148, 13731, 10971, 8036, 19813, 23, 721, 2], [96, 1347, 8696, 3, 11731, 1076, 17545, 174, 4, 18920, 3, 11320, 3511, 1263, 4, 4742, 4, 2], [48, 266, 4498, 5936, 19, 18937, 3713, 19, 68, 26, 6323, 8, 12344, 4, 2], [8, 1909, 316, 35, 4130, 721, 6753, 3, 11981, 847, 1965, 2], [22, 1909, 494, 3, 10, 3950, 525, 3, 8, 7657, 1038, 8, 23, 14, 721, 2], [109, 145, 5978, 258, 4, 10760, 23, 721, 35, 1449, 258, 4, 14943, 4031, 11757, 10694, 984, 3, 92, 110, 39, 2212, 3, 4691, 449, 18922, 425, 8, 23, 721, 2], [8508, 350, 4421, 6034, 371, 92, 33, 31185, 2888, 10174, 8, 4, 4, 77, 124, 53, 2097, 158, 9, 6125, 17, 334, 4172, 22, 1488, 9, 8385, 16215, 208, 8,

In [28]:
tokenizer(y)

{'input_ids': [[48, 118, 28688, 15, 8954, 2], [303, 53, 18859, 57, 10, 53, 649, 2], [3567, 1559, 3, 9, 965, 16954, 18, 252, 7896, 21419, 3, 102, 8091, 3906, 138, 7179, 2739, 4093, 2159, 721, 2], [114, 8, 18083, 618, 26308, 25351, 1346, 517, 253, 27138, 23444, 9463, 618, 625, 6673, 5359, 70, 8846, 20148, 373, 9996, 22369, 618, 23, 721, 2], [96, 1347, 8696, 4, 18920, 11320, 3511, 1263, 4, 4742, 2], [48, 266, 4498, 347, 18937, 3713, 19, 68, 26, 6323, 8, 12344, 4, 2], [169, 35, 4130, 4, 178, 6385, 3, 11981, 847, 1965, 2], [272, 891, 3, 10, 15406, 13, 3, 2787, 2], [109, 145, 5978, 258, 3, 1062, 35, 1449, 258, 4, 145, 4031, 11757, 10694, 984, 3, 733, 29, 14, 163, 42, 975, 2], [7867, 350, 15295, 117, 10174, 10007, 9, 6125, 16215, 208, 17, 334, 4172, 22, 1488, 9, 8385, 2], [4171, 3, 139, 12243, 7797, 21888, 1453, 3, 35, 4130, 7, 5128, 139, 9489, 2], [243, 195, 61, 2574, 10, 799, 19, 3, 503, 2252, 4420, 10, 68, 204, 1648, 3, 1128, 2406, 58, 268, 2], [54, 80, 389, 10, 54, 7640, 15, 43, 37, 62, 6

In [29]:
tokenizer(y).keys()

dict_keys(['input_ids', 'attention_mask'])

In [30]:
type(tokenizer(x))

transformers.tokenization_utils_base.BatchEncoding

In [31]:
dir(tokenizer(x))

['_MutableMapping__marker',
 '__abstractmethods__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__reversed__',
 '__setattr__',
 '__setitem__',
 '__setstate__',
 '__sizeof__',
 '__slots__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_cache',
 '_abc_negative_cache',
 '_abc_negative_cache_version',
 '_abc_registry',
 '_encodings',
 '_n_sequences',
 'char_to_token',
 'char_to_word',
 'clear',
 'convert_to_tensors',
 'copy',
 'data',
 'encodings',
 'fromkeys',
 'get',
 'is_fast',
 'items',
 'keys',
 'n_sequences',
 'pop',
 'popitem',
 'sequence_ids',
 'setdefault',
 'to',
 'token_to_chars',
 'token_to_sequence',
 'token_to_word',


In [32]:
dir(tokenizer)

['SPECIAL_TOKENS_ATTRIBUTES',
 '__annotations__',
 '__call__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_add_tokens',
 '_additional_special_tokens',
 '_batch_encode_plus',
 '_bos_token',
 '_cls_token',
 '_convert_encoding',
 '_convert_id_to_token',
 '_convert_token_to_id_with_added_voc',
 '_decode',
 '_encode_plus',
 '_eos_token',
 '_eventual_warn_about_too_long_sequence',
 '_extra_ids',
 '_from_pretrained',
 '_get_padding_truncation_strategies',
 '_mask_token',
 '_pad',
 '_pad_token',
 '_pad_token_type_id',
 '_save_pretrained',
 '_sep_token',
 '_tokenizer',
 '_unk_token',
 'add_special_tokens',
 'add_tokens',
 'additional_special_tokens',
 'additio

In [33]:
dataset = PairsDataset(tokenizer(x), tokenizer(y))

In [34]:
dataset.__getitem__(idx=0)

{'input_ids': [33, 37, 118, 28688, 15, 8954, 3, 13186, 2885, 40, 2],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 'decoder_attention_mask': [1, 1, 1, 1, 1, 1],
 'labels': [48, 118, 28688, 15, 8954, 2]}

###### DataCollatorWithPadding

In [36]:
class DataCollatorWithPadding:
    def __init__(self, tokenizer):
        self.tokenizer = tokenizer

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        """
        features example:
            [    
                {"foo": [1, 2, 3], "bar": torch.tensor([0.1, 0.2, 0.3])},
                {"foo": [4, 5, 6], "bar": torch.tensor([0.4, 0.5, 0.6])},
                {"foo": [7, 8, 9], "bar": torch.tensor([0.7, 0.8, 0.9])},
            ]
        """
        batch = self.tokenizer.pad(
            features,
            padding=True,
        )
        ybatch = self.tokenizer.pad(
            {'input_ids': batch['labels'], 'attention_mask': batch['decoder_attention_mask']},
            padding=True,
        ) 
        batch['labels'] = ybatch['input_ids']
        batch['decoder_attention_mask'] = ybatch['attention_mask']
        
        return {k: torch.tensor(v) for k, v in batch.items()}

torch doc about collator: https://pytorch.org/data/main/generated/torchdata.datapipes.iter.Collator.html

here collator is needed to make all sequences the same size in one batch with padding: 

https://plainenglish.io/blog/understanding-collate-fn-in-pytorch-f9d1742647d3


https://medium.com/@canerkilinc/padding-for-nlp-7dd8598c916a


In [47]:
train_dataloader = DataLoader(
    dataset, 
    batch_size=8, 
    drop_last=False, 
    shuffle=True
)

In [48]:
for data in train_dataloader:
    print(data)
    print(data['input_ids'].shape)
    break

RuntimeError: each element in list of batch should be of equal size

In [37]:
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

In [38]:
data_collator

<__main__.DataCollatorWithPadding at 0x250062f0d30>

In [39]:
train_dataloader = DataLoader(
    dataset, 
    batch_size=8, 
    drop_last=False, 
    shuffle=True, 
    collate_fn=data_collator
)

In [40]:
for data in train_dataloader:
    print(data)
    print(data['input_ids'].shape)
    break

{'input_ids': tensor([[  118,    16, 31591,   769,   328,  2708,    10,  1565,     3,    16,
          3881,   599,   547,    43,    11,   795,   197, 28132,  7862,  1467,
            36,     2,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0],
        [   31, 13640,    31,   502,  6005, 18922,     7, 12143,   164,     4,
            28, 18349, 19322,    98,     9,    22, 11051,     2,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0],
        [  449,    10,  8337,    40,    40, 29331,  1677,     7, 13691,  2708,
            38,  8001,   141,  1886,  1785,  3177,   299,     2,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0],
        [15024, 13691,   123,     3,  2473,   293,     3,  1890, 26699,    91,
            23,   7

###### train

In [41]:
cleanup()

In [42]:
def evaluate_model(model, test_dataloader):
    num = 0
    den = 0

    for batch in test_dataloader:
        with torch.no_grad():
            loss = model(**{k: v.to(model.device) for k, v in batch.items()}).loss
            num += len(batch) * loss.item()
            den += len(batch)
    val_loss = num / den
    return val_loss

In [43]:
def train_loop(
    model, train_dataloader, val_dataloader, 
    max_epochs=30, 
    max_steps=1_000, 
    lr=3e-5,
    gradient_accumulation_steps=1, 
    cleanup_step=100,
    report_step=300,
    window=100,
):
    cleanup()
    optimizer = torch.optim.Adam(params = [p for p in model.parameters() if p.requires_grad], lr=lr)

    ewm_loss = 0
    step = 0
    model.train()

    for epoch in trange(max_epochs):
        print(step, max_steps)
        if step >= max_steps:
            break
        tq = tqdm(train_dataloader)
        for i, batch in enumerate(tq):
            try:
                batch['labels'][batch['labels']==0] = -100
                loss = model(**{k: v.to(model.device) for k, v in batch.items()}).loss
                loss.backward()
            except Exception as e:
                print('error on step', i, e)
                loss = None
                cleanup()
                continue
            if i and i % gradient_accumulation_steps == 0:
                optimizer.step()
                optimizer.zero_grad()
                step += 1
                if step >= max_steps:
                    break

            if i % cleanup_step == 0:
                cleanup()

            w = 1 / min(i+1, window)
            ewm_loss = ewm_loss * (1-w) + loss.item() * w # for averaging loss values
            tq.set_description(f'loss: {ewm_loss:4.4f}')

            if (i and i % report_step == 0 or i == len(train_dataloader)-1)  and val_dataloader is not None:
                model.eval()
                eval_loss = evaluate_model(model, val_dataloader)
                model.train()
                print(f'epoch {epoch}, step {i}/{step}: train loss: {ewm_loss:4.4f}  val loss: {eval_loss:4.4f}')
                
            if step % 1000 == 0:
                model.save_pretrained(f't5_base_{dname}_{steps}')
        
    cleanup()

In [44]:
def train_model(x, y, model_name, test_size=0.1, batch_size=8, **kwargs):
    """
    """
    model = T5ForConditionalGeneration.from_pretrained(model_name).cuda()
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    x1, x2, y1, y2 = train_test_split(x, y, test_size=test_size, random_state=42)
    train_dataset = PairsDataset(tokenizer(x1), tokenizer(y1))
    test_dataset = PairsDataset(tokenizer(x2), tokenizer(y2))
    
    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
    train_dataloader = DataLoader(train_dataset, batch_size=batch_size, drop_last=False, shuffle=True, collate_fn=data_collator)
    val_dataloader = DataLoader(test_dataset, batch_size=batch_size, drop_last=False, shuffle=True, collate_fn=data_collator)

    train_loop(model, train_dataloader, val_dataloader, **kwargs)
    return model

In [45]:
datasets = {
    'train': df
}

In [46]:
for steps in [300, 1000, 3000, 10000]:
    for dname, d in datasets.items():
        print(f'\n\n\n  {dname}  {steps} \n=====================\n\n')
        model = train_model(
            d['toxic_comment'].tolist(), 
            d['neutral_comment'].tolist(), 
            model_name=model_name, 
            batch_size=8, 
            max_epochs=1000, 
            max_steps=steps
        )
        model.save_pretrained(f't5_base_{dname}_{steps}')




  train  300 




  0%|          | 0/1000 [00:00<?, ?it/s]

0 300


  0%|          | 0/1248 [00:00<?, ?it/s]

300 300



  train  1000 




  0%|          | 0/1000 [00:00<?, ?it/s]

0 1000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 0, step 300/300: train loss: 3.3331  val loss: 6.2251
epoch 0, step 600/600: train loss: 2.2747  val loss: 6.3469
epoch 0, step 900/900: train loss: 2.0257  val loss: 6.4114
1000 1000



  train  3000 




  0%|          | 0/1000 [00:00<?, ?it/s]

0 3000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 0, step 300/300: train loss: 3.0138  val loss: 6.0447
epoch 0, step 600/600: train loss: 2.1337  val loss: 6.4349
epoch 0, step 900/900: train loss: 1.9089  val loss: 6.3266
epoch 0, step 1200/1200: train loss: 1.8018  val loss: 6.0657
epoch 0, step 1247/1247: train loss: 1.8072  val loss: 6.1299
1247 3000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 1, step 300/1547: train loss: 1.6438  val loss: 6.3388
epoch 1, step 600/1847: train loss: 1.6085  val loss: 6.2702
epoch 1, step 900/2147: train loss: 1.5700  val loss: 6.2581
epoch 1, step 1200/2447: train loss: 1.5254  val loss: 6.2803
epoch 1, step 1247/2494: train loss: 1.5898  val loss: 6.2385
2494 3000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 2, step 300/2794: train loss: 1.3560  val loss: 6.3808
3000 3000



  train  10000 




  0%|          | 0/1000 [00:00<?, ?it/s]

0 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 0, step 300/300: train loss: 3.1476  val loss: 6.2274
epoch 0, step 600/600: train loss: 2.2702  val loss: 6.2559
epoch 0, step 900/900: train loss: 2.0286  val loss: 6.3941
epoch 0, step 1200/1200: train loss: 1.8441  val loss: 6.3908
epoch 0, step 1247/1247: train loss: 1.8374  val loss: 6.1617
1247 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 1, step 300/1547: train loss: 1.7149  val loss: 6.2788
epoch 1, step 600/1847: train loss: 1.6597  val loss: 6.1870
epoch 1, step 900/2147: train loss: 1.5964  val loss: 6.3617
epoch 1, step 1200/2447: train loss: 1.5995  val loss: 6.2509
epoch 1, step 1247/2494: train loss: 1.5662  val loss: 6.4173
2494 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 2, step 300/2794: train loss: 1.4121  val loss: 6.2323
epoch 2, step 600/3094: train loss: 1.4408  val loss: 6.2861
epoch 2, step 900/3394: train loss: 1.3921  val loss: 6.2654
epoch 2, step 1200/3694: train loss: 1.3565  val loss: 6.3599
epoch 2, step 1247/3741: train loss: 1.3955  val loss: 6.2562
3741 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 3, step 300/4041: train loss: 1.2490  val loss: 6.3808
epoch 3, step 600/4341: train loss: 1.2627  val loss: 6.4390
epoch 3, step 900/4641: train loss: 1.2523  val loss: 6.5283
epoch 3, step 1200/4941: train loss: 1.2415  val loss: 6.4108
epoch 3, step 1247/4988: train loss: 1.2479  val loss: 6.4790
4988 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 4, step 300/5288: train loss: 1.1695  val loss: 6.4376
epoch 4, step 600/5588: train loss: 1.1379  val loss: 6.3162
epoch 4, step 900/5888: train loss: 1.1265  val loss: 6.3901
epoch 4, step 1200/6188: train loss: 1.1178  val loss: 6.5846
epoch 4, step 1247/6235: train loss: 1.1222  val loss: 6.4120
6235 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 5, step 300/6535: train loss: 1.0688  val loss: 6.6523
epoch 5, step 600/6835: train loss: 1.0223  val loss: 6.6593
epoch 5, step 900/7135: train loss: 1.0235  val loss: 6.7088
epoch 5, step 1200/7435: train loss: 1.0427  val loss: 6.6841
epoch 5, step 1247/7482: train loss: 1.0426  val loss: 6.6126
7482 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 6, step 300/7782: train loss: 0.9549  val loss: 6.7871
epoch 6, step 600/8082: train loss: 0.9258  val loss: 6.6188
epoch 6, step 900/8382: train loss: 0.9543  val loss: 6.5320
epoch 6, step 1200/8682: train loss: 0.9297  val loss: 6.5191
epoch 6, step 1247/8729: train loss: 0.9536  val loss: 6.7163
8729 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

epoch 7, step 300/9029: train loss: 0.8443  val loss: 6.7604
epoch 7, step 600/9329: train loss: 0.8866  val loss: 6.6613
epoch 7, step 900/9629: train loss: 0.8935  val loss: 6.9480
epoch 7, step 1200/9929: train loss: 0.8880  val loss: 6.8510
epoch 7, step 1247/9976: train loss: 0.8752  val loss: 6.9112
9976 10000


  0%|          | 0/1248 [00:00<?, ?it/s]

10000 10000


##### inference

In [1]:
import pandas as pd
from transformers import T5ForConditionalGeneration, AutoTokenizer
import torch
from tqdm.auto import tqdm, trange
import gc

To solve error while importing `T5ForConditionalGeneration`:

https://stackoverflow.com/questions/66998668/cannot-import-name-t5tokenizer-from-transformers-models-t5

In [50]:
model = T5ForConditionalGeneration.from_pretrained('t5_base_train_10000')

info how to save and load models using `transformers`: https://github.com/huggingface/transformers/issues/9517

In [51]:
model

T5ForConditionalGeneration(
  (shared): Embedding(32128, 768)
  (encoder): T5Stack(
    (embed_tokens): Embedding(32128, 768)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
              (relative_attention_bias): Embedding(32, 12)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dr

In [53]:
base_model_name = 'sberbank-ai/ruT5-base'
tokenizer = AutoTokenizer.from_pretrained(base_model_name)

In [55]:
model.cuda(); # ; - not to print output of cell

params for model.generate: https://huggingface.co/docs/transformers/main_classes/text_generation

In [56]:
def paraphrase(text, model, n=None, max_length='auto', temperature=0.0, beams=3):
    """
    
    """
    texts = [text] if isinstance(text, str) else text
    
    inputs = tokenizer(texts, return_tensors='pt', padding=True)['input_ids'].to(model.device)
    
    if max_length == 'auto':
        max_length = int(inputs.shape[1] * 1.2) + 10
    
    result = model.generate(
        inputs, 
        num_return_sequences=n or 1, 
        do_sample=False, 
        temperature=temperature, 
        repetition_penalty=3.0, 
        max_length=max_length,
        bad_words_ids=[[2]],  # unk # https://stackoverflow.com/questions/45735357/what-is-unk-token-in-vector-representation-of-words
        num_beams=beams,
    )
    
    texts = [tokenizer.decode(r, skip_special_tokens=True) for r in result]
    
    if not n and isinstance(text, str):
        return texts[0]
    return texts

In [59]:
print(paraphrase(['Ебучие кенгуру переебали мне жизнь пополам!'], model, temperature=50.0, beams=10))

  next_indices = next_tokens // vocab_size


['Кенгуру сломали мне жизнь пополам!']


In [60]:
print(paraphrase(['Ненавижу дельфинов - ёбаные утырки!'], model, temperature=50.0, beams=10))

  next_indices = next_tokens // vocab_size


['Ненавижу дельфинов']


In [62]:
print(paraphrase(['Опизденевшая синица всё утро ебёт мои барабанные перепонки'], model, temperature=50.0, beams=10))

  next_indices = next_tokens // vocab_size


['Синица всё утро бьет мои барабанные перепонки']


In [63]:
print(paraphrase(['Хуюмный дом'], model, temperature=50.0, beams=10))

  next_indices = next_tokens // vocab_size


['Плохой дом']


In [65]:
print(paraphrase(['Ярик моего хуя племянник'], model, temperature=50.0, beams=10))

  next_indices = next_tokens // vocab_size


['Ярик мой племянник']


In [66]:
print(paraphrase(['мой кот большой'], model, temperature=50.0, beams=10))

  next_indices = next_tokens // vocab_size


['Мой кот большой']


##### saving preds

In [74]:
para_results = []
problematic_batch = [] #if something goes wrong you can track such bathces
batch_size = 8

toxic_inputs = dev_data['toxic_comment'].tolist()

for i in tqdm(range(0, len(toxic_inputs), batch_size)):
    batch = [sentence for sentence in toxic_inputs[i:i + batch_size]]
    try:
        para_results.extend(paraphrase(batch, model, temperature=0.0))
    except Exception as e:
        print(i)
        para_results.append(toxic_inputs[i:i + batch_size])

  0%|          | 0/100 [00:00<?, ?it/s]

  next_indices = next_tokens // vocab_size


In [81]:
with open('my_t5_base_10000_dev.txt', 'w') as file:
    file.writelines([f"{sentence}\n" for sentence in para_results])

#### ruPrompts

about prompts: https://habr.com/ru/company/sberdevices/blog/596103/

In [6]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

##### Prepare datasets

In [15]:
from datasets import load_dataset

lib `datasets`: https://huggingface.co/docs/datasets/installation

In [16]:
train_data_path = "russe_detox_2022/data/input/train.tsv"
dev_data_path = "russe_detox_2022/data/input/dev.tsv"

In [19]:
import pandas as pd

df = pd.read_csv(train_data_path, sep="\t")
df.drop(["index"], axis=1, inplace=True)
df.to_csv(train_data_path, index=False, sep="\t")

In [20]:
datasets = load_dataset("csv", data_files={"train": train_data_path, "validation": dev_data_path}, sep="\t")
train_dataset = datasets["train"]
valid_dataset = datasets["validation"]

Downloading and preparing dataset csv/default to C:/Users/Igor/.cache/huggingface/datasets/csv/default-12a0058664e6e36c/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317...


Downloading data files: 100%|████████████████████████| 2/2 [00:00<?, ?it/s]
Extracting data files: 100%|████████████████| 2/2 [00:00<00:00, 201.24it/s]
  return pd.read_csv(xopen(filepath_or_buffer, "rb", use_auth_token=use_auth_token), **kwargs)
  return pd.read_csv(xopen(filepath_or_buffer, "rb", use_auth_token=use_auth_token), **kwargs)
                                                             

Dataset csv downloaded and prepared to C:/Users/Igor/.cache/huggingface/datasets/csv/default-12a0058664e6e36c/0.0.0/6b34fb8fcf56f7c8ba51dc895bfa2bfbe43546f190a60fcf74bb5e8afdcc2317. Subsequent calls will reuse this data.


100%|███████████████████████████████████████| 2/2 [00:00<00:00, 105.26it/s]


##### Load the backbone

In [7]:
from transformers import GPT2LMHeadModel, AutoTokenizer

In [8]:
backbone_id = "sberbank-ai/rugpt3large_based_on_gpt2"

model = GPT2LMHeadModel.from_pretrained(backbone_id)
tokenizer = AutoTokenizer.from_pretrained(backbone_id, pad_token="<pad>", eos_token="<pad>")

Downloading: 100%|█████████████████████████| 609/609 [00:00<00:00, 302kB/s]
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Downloading: 100%|████████████████████| 3.14G/3.14G [03:57<00:00, 13.2MB/s]
Downloading: 100%|█████████████████████| 1.71M/1.71M [00:03<00:00, 471kB/s]
Downloading: 100%|█████████████████████| 1.27M/1.27M [00:02<00:00, 596kB/s]
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


##### Prepare prompt

Define the prompt format:

In [21]:
from ruprompts import PromptFormat

prompt_format = PromptFormat("<P*100>{toxic_comment}<P*20>")

Define the parametrization of trainable embeddings:

In [22]:
from ruprompts import TensorPromptProvider
from transformers import set_seed

set_seed(1)

prompt_provider = TensorPromptProvider()

Compose prompt format and prompt provider into prompt object and apply it to the model and tokenizer, i.e. add special tokens to the tokenizer and modify the layer of input embeddings of the model:

In [24]:
from ruprompts import Prompt

prompt = Prompt(prompt_format, prompt_provider)
prompt.patch(model, tokenizer)

Preprocess the data:

format the data entries with the specified prompt format
tokenize the resulting sequences
truncate the truncation_field if sequence length exceeds max_tokens

In [25]:
from ruprompts import Text2TextPreprocessor

preprocessor = Text2TextPreprocessor(
    prompt_format=prompt_format,
    tokenizer=tokenizer,
    target_field="neutral_comment1",
    max_tokens=1792,
    truncation_field="toxic_comment",
)

train_dataset = train_dataset.map(preprocessor)
valid_dataset = valid_dataset.map(preprocessor)

                                                                           

##### Training

Define training arguments:

In [30]:
from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir=".",
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    gradient_accumulation_steps=1,
    eval_steps=50, #1000
    save_steps=50, #1000
    logging_steps=50, #1000
    evaluation_strategy="steps",
    save_strategy="steps",
    logging_strategy="steps",
    save_total_limit=2,
    metric_for_best_model="eval_loss",
    learning_rate=0.1,
    max_steps=1000, #100000
    report_to="tensorboard",
    # report_to=["tensorboard", "wandb"],  # uncomment to log to WandB
    logging_dir="logs",
    seed=1,
)

PyTorch: setting up devices


Choose optimization options:

In [31]:
from transformers.optimization import AdamW, get_linear_schedule_with_warmup

optimizer = AdamW(prompt_provider.parameters(), lr=training_args.learning_rate)
scheduler = get_linear_schedule_with_warmup(
    optimizer,
    num_warmup_steps=2000,
    num_training_steps=training_args.max_steps,
)



Define the callbacks and start training:

In [32]:
from transformers import Trainer
from ruprompts.callbacks import (
    FreezeTransformerUnfreezePrompt,
    ReduceCheckpoint,
    SavePretrainedPrompt,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=valid_dataset,
    data_collator=preprocessor.collate_fn(),
    optimizers=(optimizer, scheduler),
    callbacks=[FreezeTransformerUnfreezePrompt(), ReduceCheckpoint(), SavePretrainedPrompt(prompt)],
)

trainer.train()

max_steps is given, it will override any value given in num_train_epochs
***** Running training *****
  Num examples = 6948
  Num Epochs = 1
  Instantaneous batch size per device = 2
  Total train batch size (w. parallel, distributed & accumulation) = 2
  Gradient Accumulation steps = 1
  Total optimization steps = 1000
  Number of trainable parameters = 184320
The following columns in the training set don't have a corresponding argument in `GPT2LMHeadModel.forward` and have been ignored: toxic_comment, neutral_comment3, neutral_comment2, neutral_comment1. If toxic_comment, neutral_comment3, neutral_comment2, neutral_comment1 are not expected by `GPT2LMHeadModel.forward`,  you can safely ignore this message.


Step,Training Loss,Validation Loss
50,2.9489,2.876423
100,2.9019,2.802942
150,2.835,2.847181
200,2.7797,2.738052
250,2.675,2.751652
300,2.598,2.665265
350,2.5164,2.573436
400,2.662,2.471264
450,2.5835,2.435102
500,2.5788,2.366353


***** Running Evaluation *****
  Num examples = 800
  Batch size = 2
The following columns in the evaluation set don't have a corresponding argument in `GPT2LMHeadModel.forward` and have been ignored: toxic_comment, neutral_comment3, neutral_comment2, neutral_comment1. If toxic_comment, neutral_comment3, neutral_comment2, neutral_comment1 are not expected by `GPT2LMHeadModel.forward`,  you can safely ignore this message.
Saving model checkpoint to .\checkpoint-50
Configuration saved in .\checkpoint-50\config.json
Model weights saved in .\checkpoint-50\pytorch_model.bin
***** Running Evaluation *****
  Num examples = 800
  Batch size = 2
The following columns in the evaluation set don't have a corresponding argument in `GPT2LMHeadModel.forward` and have been ignored: toxic_comment, neutral_comment3, neutral_comment2, neutral_comment1. If toxic_comment, neutral_comment3, neutral_comment2, neutral_comment1 are not expected by `GPT2LMHeadModel.forward`,  you can safely ignore this message.

KeyboardInterrupt: 

##### Inference

Load prompt from the last checkpoint:

In [34]:
from transformers import pipeline

prompt = Prompt.from_pretrained(f"./checkpoint-600")

ppln = pipeline("text2text-generation-with-prompt", prompt=prompt, model=model, tokenizer=tokenizer)

In [36]:
ppln({"toxic_comment": "Ублюдок, мать твою, а ну иди сюда"}, do_sample=True)

Setting `pad_token_id` to `eos_token_id`:0 for open-end generation.


[{'generated_text': 'Ублюдок, мать твою, ану иди сюда\x1bൣ൵൲്൲്൲്൳൳്�൲്�൷\u0d64്്൲്൵�൳്൲്\u0d64്൰�'}]

Run inference:

In [None]:
from tqdm import tqdm
import transformers

transformers.logging.set_verbosity_error()

beam_count = 10

predictions = []
    
for i in tqdm(valid_dataset["toxic_comment"]):
    options = ppln(
        {"toxic_comment": i},
        do_sample=False,
        num_beams=beam_count,
        num_return_sequences=beam_count,
    )

    options = [i["generated_text"].replace("<pad>", "") for i in options]
    answer = sorted(options, key=len)[-1]  # get longest answer
    predictions.append(answer)

In [None]:
with open("subm.txt", "w") as f:
    f.writelines(list(map(lambda x: x.replace("\n", " ") + "\n", predictions)))

### Evaluation

In [35]:
import sys
sys.path.insert(1, 'russe_detox_2022/evaluation')

Description of methods: https://russe.nlpub.org/2022/tox/

#### Style Transfer Accuracy (STA)

In [36]:
from ru_detoxification_evaluation import load_model

In [37]:
from ru_detoxification_metrics import evaluate_style

In [38]:
# loading model for text classification
# to overcome error you should replace 'SkolkovoInstitute/russian_toxicity_classifier' to 's-nlp/russian_toxicity_classifier'
style_model, style_tokenizer = load_model('s-nlp/russian_toxicity_classifier', use_cuda=True)

##### Delete

In [30]:
with open('my_delete_dev.txt', 'r', encoding="utf-8") as file:
    preds = file.readlines()
preds = [sentence.strip() for sentence in preds]

In [32]:
preds

['пиздеж температуры горения хватит чтобы её расплавить к херам.',
 'а ты чмо там был.ты вообще служил.гандон',
 'а сам где кормишься',
 'этому сайту я давно не доверяю пишут разную х.',
 'у меня сегодня подобный звонок был. достали',
 'это где у неё в россии пушкинская область? долбоебка',
 'вы чо курите',
 'разыскать и расстрелять к едрене фене',
 'да к стенке надо ставить таких врачей извергов',
 'куда смотрят модераторы фотографий как можно было пропустить эту фотографию а этого убила бы',
 'воо а просто в полицию не могла позвонить',
 'украина в канаде крым в россии карабас в',
 'за неделю всё разволилось',
 'ну да вы только можете',
 'посмотреть бы на нее когда будет пенсионеркой идиотка',
 'дебили пару головастиков и',
 'а тем более с',
 'ой не сиди и там на случай если кто то сидит и тvаги ро раге там',
 'Жооора мусик твой Эй уйди Я с вами вижу раааай',
 'свнорылая не хохлятская никто в днр и не собирается в вашу гнидную вонючую усраину не бреши',
 'А вот и совок',
 'Ты не моро

In [39]:
accuracy = evaluate_style(
    model = style_model,
    tokenizer = style_tokenizer,
    texts = preds,
    target_label=0,  # 1 is toxic, 0 is neutral
    batch_size=16, 
    verbose=True
)

  0%|          | 0/50 [00:00<?, ?it/s]

In [40]:
print(f'Style transfer accuracy (STA):  {np.mean(accuracy)}')

Style transfer accuracy (STA):  0.5285465717315674


##### T5

In [88]:
with open('my_t5_base_10000_dev.txt', 'r') as file:
    preds = file.readlines()
preds = [sentence.strip() for sentence in preds]

In [89]:
preds

['Враньё! температуры горения хватит, чтобы её расплавить',
 'А ты где был? Ты вообще служил',
 'А сам где кормишься?',
 'этому сайту я давно не доверяю, пишут разную ерунду',
 'у меня сегодня подобный звонок был. достали',
 'Это где у неё в россии, Пушкинская область?',
 'Вы что курите?',
 'Найти и наказать',
 'да к стенке надо ставить таких врачей',
 'куда смотрят модераторы фотографий? как можно было пропустить эту фотографию? а этого человека убила бы',
 'А просто в полицию не могла позвонить?',
 'Украина в канаде, Крым в России, карабас в россии',
 'Врут за неделю всё разволилось',
 'Ну да, вы только испугаться можете',
 'посмотреть бы на нее когда будет пенсионеркой',
 'Пару головастиков и напились',
 'А тем более с нехорошими людьми',
 'Не сиди и там говори на случай если кто то сидит и тvаги ро раге там говорит',
 'Жооора, уйди, Я с вами вижу раааай.',
 'никто в днр и не собирается в вашу страну не бреши',
 'А вот и Советский Союз',
 'Ты не мороси, служил, али как?',
 'А мы про

In [90]:
accuracy = evaluate_style(
    model = style_model,
    tokenizer = style_tokenizer,
    texts = preds,
    target_label=0,  # 1 is toxic, 0 is neutral
    batch_size=16, 
    verbose=True
)

  0%|          | 0/50 [00:00<?, ?it/s]

In [92]:
print(f'Style transfer accuracy (STA):  {np.mean(accuracy)}')

Style transfer accuracy (STA):  0.7309916019439697


#### Meaning Preservation Score (SIM)

In [42]:
from ru_detoxification_metrics import evaluate_cosine_similarity

In [43]:
from transformers import AutoModel

In [44]:
meaning_model, meaning_tokenizer = load_model('cointegrated/LaBSE-en-ru', use_cuda=True, model_class=AutoModel)

##### Delete

In [45]:
similarity = evaluate_cosine_similarity(
    model = meaning_model,
    tokenizer = meaning_tokenizer,
    original_texts = toxic_inputs,
    rewritten_texts = preds,
    batch_size=16,
    verbose=True,
)

  0%|          | 0/50 [00:00<?, ?it/s]

  0%|          | 0/50 [00:00<?, ?it/s]

In [46]:
print(f'Meaning preservation (SIM):  {np.mean(similarity)}')

Meaning preservation (SIM):  0.8739832043647766


##### T5

In [97]:
similarity = evaluate_cosine_similarity(
    model = meaning_model,
    tokenizer = meaning_tokenizer,
    original_texts = toxic_inputs,
    rewritten_texts = preds,
    batch_size=16,
    verbose=True,
)

  0%|          | 0/50 [00:00<?, ?it/s]

  0%|          | 0/50 [00:00<?, ?it/s]

In [99]:
print(f'Meaning preservation (SIM):  {np.mean(similarity)}')

Meaning preservation (SIM):  0.7898738384246826


#### Fluency score (FL)

In [47]:
from ru_detoxification_metrics import evaluate_cola_relative

In [48]:

style_model, style_tokenizer = load_model('s-nlp/russian_toxicity_classifier', use_cuda=True)

In [49]:
# to overcome error you should replace 'SkolkovoInstitute/rubert-base-corruption-detector' to 's-nlp/rubert-base-corruption-detector'
cola_model, cola_tolenizer = load_model('s-nlp/rubert-base-corruption-detector', use_cuda=True)

##### Delete

In [50]:
fluency = evaluate_cola_relative(
    model = cola_model,
    tokenizer = cola_tolenizer,
    original_texts = toxic_inputs,
    rewritten_texts = preds,
    target_label=1,
    batch_size=32,
    verbose=True
)

  0%|          | 0/25 [00:00<?, ?it/s]

  0%|          | 0/25 [00:00<?, ?it/s]

In [51]:
print(f'Fluency score (FL):  {np.mean(fluency)}')

Fluency score (FL):  0.8241544365882874


##### T5

In [104]:
fluency = evaluate_cola_relative(
    model = cola_model,
    tokenizer = cola_tolenizer,
    original_texts = toxic_inputs,
    rewritten_texts = preds,
    target_label=1,
    batch_size=32,
    verbose=True
)

  0%|          | 0/25 [00:00<?, ?it/s]

  0%|          | 0/25 [00:00<?, ?it/s]

In [105]:
print(f'Fluency score (FL):  {np.mean(fluency)}')

Fluency score (FL):  0.7922413349151611


#### Joint score (J)

##### Delete

In [52]:
joint = accuracy * similarity * fluency

In [53]:
print(f'Joint score (J):   {np.mean(joint)}')

Joint score (J):   0.35557323694229126


##### T5

In [106]:
joint = accuracy * similarity * fluency

In [107]:
print(f'Joint score (J):   {np.mean(joint)}')

Joint score (J):   0.46154215931892395


#### ChrF1 with references

In [54]:
from nltk.translate.chrf_score import corpus_chrf

https://www.nltk.org/_modules/nltk/translate/chrf_score.html

In [55]:
dev_data = dev_data.fillna('')

In [56]:
dev_data

Unnamed: 0,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
0,пиздеж! температуры горения хватит чтобы её ра...,Враньё! Температуры горения хватит чтобы ее ра...,"неправда,температуры горения хватит чтобы расп...",Враньё! Температуры горения хватит на чтобы её...
1,а ты чмо там был.ты вообще служил.гандон,А ты там был? Ты вообще служил?,,
2,пиздабол ---- а сам где кормишься ?,а сам где кормишься ?,,
3,"этому сайту я давно не доверяю, пишут разную х...","Этому сайту давно не доверяю, пишут всякую ерунду",,
4,у меня сегодня подобный звонок был. достали го...,у меня сегодня подобный звонок был. Достали.,"У меня сегодня подобный звонок был,надоели",
...,...,...,...,...
795,"киргиз украл, она сбежала, так он ее зарезал с...","киргиз украл, она сбежала, так он ее зарезал","киргиз украл, она сбежала, так он ее зарезал",
796,это не от того что желающих работать нет. а от...,Это не от того что желающих работать нет а от ...,,
797,"долбаеб, решил ресонуться, купил бы кольцо, цв...","Если хочешь показать себя , купи кольцо, цветы...",,
798,такому уроду пасти баранов страшно доверить а ...,такому плохому человеку ничего нельзя доверит...,,


In [57]:
type(dev_data.iloc[1][['neutral_comment1', 'neutral_comment2', 'neutral_comment3']].tolist()[1])

str

In [58]:
df_dev_toxic = []
df_dev_neutral = []

for index, row in dev_data.iterrows():
    references = row[['neutral_comment1']].tolist()
    for reference in references:
        if len(reference) > 0:
            df_dev_toxic.append(row['toxic_comment'])
            df_dev_neutral.append(reference)
        else:
            break

##### Delete

In [61]:
corpus_chrf(df_dev_neutral, preds)

0.6185552799458026

##### T5

In [59]:
len(df_dev_neutral)

800

In [60]:
len(preds)

800

In [133]:
corpus_chrf(df_dev_neutral, preds)

0.6759489017559618