# Detoxification. Preprocessing data

In [1]:
import pandas as pd
import numpy as np
from tqdm import trange

In [2]:
# Load the dataset into a pandas dataframe.
train = pd.read_csv("./content/train.tsv", sep='\t', on_bad_lines='skip', index_col='index')

# Report the number of sentences.
print('Number of training sentences: {:,}\n'.format(train.shape[0]))

# Display 10 random rows from the data.
train.sample(10)

Number of training sentences: 6,948



Unnamed: 0_level_0,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
6581,АХАХАХХАФАКФАААААААКЮЛЯМНЕ НАДО СТИХ УЧИТЬФААА...,"Мне надо стих учить( я пошёл,ночь будет веселой",,
5423,"ащщ ты изверг ХДД аааааа как можно, бля, ааа Н...","Как можно, Никкун, почему он сейчас так похуде...",,
5789,мне самое хуевое досталось - чистить картошку ...,"Мне самое нудное досталось, чистить картошку,н...",,
5078,"Илюш , прости ...(Я идиотка не дала спать тебе...","Илюш, прости, я не дала спать тебе, прости",,
4350,Хочу спать просто пиздец как. Не выспалась воо...,Очень хочу спать не выспалась,Сильно хочу спать.не выспалась вообще,Хочу спать очень сильно. Не выспалась вообще
2803,"Не лезь, она тебя сожрет!!!","не лезь, она тебя съест!!!",,
4407,"Я в шоке от таких действий, твой звонок измени...","Я в шоке от таких действий, твой звонок измени...","Я в шоке от твоих действий, твой звонок измени...",
3676,"Пиздец! Похоже, что кто-то из наших патрулю по...","Ужас! Похоже, что кто-то из наших патрулю попался","Похоже, что кто-то из наших патрулю попался.","Капец! Похоже, что кто-то из наших патрулю поп..."
2539,на митинги ходят проплаченые пиндосы которым з...,На митинг ходят люди которым заняться нечем,,
6429,сегодня на моих глазах мужик убил бездомную со...,сегодня на моих глазах мужик убил бездомную со...,,


In [3]:
# Load the dataset into a pandas dataframe.
dev = pd.read_csv("./content/dev.tsv", sep='\t', on_bad_lines='skip')

# Report the number of sentences.
print('Number of test sentences: {:,}\n'.format(dev.shape[0]))

# Display 10 random rows from the data.
dev.sample(10)

Number of test sentences: 800



Unnamed: 0,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
786,пиздобол ты ! не понимаешь не говори про пролд...,Не понимаешь не говори про продовольствие,,
498,"смотрю в глаза и вижу что.врет,такое желание к...",Смотрю в глаза и вижу что врет. Желание наказать.,"Смотрю в глаза и вижу, что врет. Такое желание...",
323,Дебил Коноплеводство зарубил Хрущ как и многие...,Хрущев коноплеволство запретил как многие друг...,,
374,пивет как твои дела? как поживает твой старый ...,"Привет, как твои дела? Как поживает твой папаша?",привет как твои дела? как поживает твой папа?,
612,в чем новинка? в пластиковом убогом обвесе? бе...,Что нового? Пластиковый обвес?,,
561,и хера толку что задолбал и все равно все ездя...,Бессмысленный пост. Толку-то? Все всë равно пр...,,
4,у меня сегодня подобный звонок был. достали го...,у меня сегодня подобный звонок был. Достали.,"У меня сегодня подобный звонок был,надоели",
77,"что, нужно жить еще хуже? пиздуй сама, куда пи...","что, нужно жить еще хуже? Иди уже",,
421,Данные из тупого идиота и руССкого фашиста Мен...,Данные из Менделеева: русских в 1950 году долж...,,
754,"какие молодцы! пусть там и остаются, сволочи!",Какие молодцы! Пускай там остаются,,


Преобразуем данные из train таким образом, чтобы у нас было только две колонки: toxic_comment и neutral_comment.

In [4]:
def concat_neutral_comments(data):
    data1 = data[~data['neutral_comment1'].isna()][['toxic_comment', 'neutral_comment1']]
    data2 = data[~data['neutral_comment2'].isna()][['toxic_comment', 'neutral_comment2']]
    data3 = data[~data['neutral_comment3'].isna()][['toxic_comment', 'neutral_comment3']]
    data1.columns = ['toxic_comment', 'neutral_comment']
    data2.columns = ['toxic_comment', 'neutral_comment']
    data3.columns = ['toxic_comment', 'neutral_comment']

    return pd.concat([data1, data2, data3], ignore_index=True)

In [5]:
train = concat_neutral_comments(train)

In [6]:
dev = concat_neutral_comments(dev)

In [7]:
# Проверим данные на дубликаты
train.duplicated().sum()

207

In [8]:
# удалим дубликаты
train = train.drop_duplicates().reset_index().drop('index', axis=1)

## Очистка текстов от эмодзи
Уберем из данных смайлики, эмодзи и др.

In [9]:
import re

In [10]:
def remove_emoji(string):
    emoji_pattern = re.compile("["
                           u"\U0001F600-\U0001F64F"  # emoticons
                           u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                           u"\U0001F680-\U0001F6FF"  # transport & map symbols
                           u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           u"\U00002702-\U000027B0"
                           u"\U000024C2-\U0001F251"
                           "]+", flags=re.UNICODE)
    return emoji_pattern.sub(r'', string)

In [11]:
train['toxic_comment'] = train['toxic_comment'].apply(remove_emoji)

In [12]:
dev['toxic_comment'] = dev['toxic_comment'].apply(remove_emoji)

In [13]:
dev[['toxic_comment', 'neutral_comment']].to_csv('dev_preprocessed2.tsv', sep='\t')

## Подсчет метрик на обучающих данных
Мы хотим обучить модели, максимизируя показатели метрик `Style Transfer Accuracy (STA)`, `Meaning Preservation Score (SIM)`, и `Fluency Score (FL)`. Интересно посмотреть, как сейчас обстоит дело с этими метриками в наших обучающих данных. 

На базе https://github.com/s-nlp/russe_detox_2022/blob/main/evaluation/ru_detoxification_evaluation.ipynb

In [14]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, AutoModel

  from .autonotebook import tqdm as notebook_tqdm


In [15]:
import torch

# If there's a GPU available...
if torch.cuda.is_available():

    # Tell PyTorch to use the GPU.
    device = torch.device("cuda")

    print('There are %d GPU(s) available.' % torch.cuda.device_count())

    print('We will use the GPU:', torch.cuda.get_device_name(0))

# If not...
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

No GPU available, using the CPU instead.


In [16]:
def load_model(model_name=None, model=None, tokenizer=None,
               model_class=AutoModelForSequenceClassification, use_cuda=True):
    if model is None:
        if model_name is None:
            raise ValueError('Either model or model_name should be provided')
        model = model_class.from_pretrained(model_name)
        if torch.cuda.is_available() and use_cuda:
            model.cuda()
    if tokenizer is None:
        if model_name is None:
            raise ValueError('Either tokenizer or model_name should be provided')
        tokenizer = AutoTokenizer.from_pretrained(model_name)
    return model, tokenizer

### Style Transfer Accuracy (STA)

In [17]:
def prepare_target_label(model, target_label):
    if target_label in model.config.id2label:
        pass
    elif target_label in model.config.label2id:
        target_label = model.config.label2id.get(target_label)
    elif target_label.isnumeric() and int(target_label) in model.config.id2label:
        target_label = int(target_label)
    else:
        raise ValueError(f'target_label "{target_label}" is not in model labels or ids: {model.config.id2label}.')
    return target_label

In [18]:
def classify_texts(model, tokenizer, texts, second_texts=None, target_label=None, batch_size=32, verbose=False):
    target_label = prepare_target_label(model, target_label)
    res = []
    if verbose:
        tq = trange
    else:
        tq = range
    for i in tq(0, len(texts), batch_size):
        inputs = [texts[i:i+batch_size]]
        if second_texts is not None:
            inputs.append(second_texts[i:i+batch_size])
        inputs = tokenizer(*inputs, return_tensors='pt', padding=True, truncation=True, max_length=512).to(model.device)
        with torch.no_grad():
            preds = torch.softmax(model(**inputs).logits, -1)[:, target_label].cpu().numpy()
        res.append(preds)
    return np.concatenate(res)

In [19]:
def rotation_calibration(data, coef=1.0, px=1, py=1, minimum=0, maximum=1):
    result = (data - px) * coef + py
    if minimum is not None:
        result = np.maximum(minimum, result)
    if maximum is not None:
        result = np.minimum(maximum, result)
    return result

In [20]:
def evaluate_style(
    model,
    tokenizer,
    texts,
    target_label=1,  # 1 is toxic, 0 is neutral
    batch_size=32,
    verbose=False
):
    target_label = prepare_target_label(model, target_label)
    scores = classify_texts(
        model,
        tokenizer,
        texts,
        batch_size=batch_size, verbose=verbose, target_label=target_label
    )
    return rotation_calibration(scores, 0.90)

In [21]:
style_model, style_tokenizer = load_model('SkolkovoInstitute/russian_toxicity_classifier')

In [22]:
accuracy = evaluate_style(
    model = style_model,
    tokenizer = style_tokenizer,
    texts = list(train['neutral_comment']),
    target_label=0,  # 1 is toxic, 0 is neutral
    batch_size=32,
    verbose=True
)

100%|██████████| 341/341 [11:02<00:00,  1.94s/it]


In [23]:
train['sta'] = accuracy

### Meaning Preservation Score (SIM)

In [24]:
def encode_cls(texts, model, tokenizer, batch_size=32, verbose=False):
    results = []
    if verbose:
        tq = trange
    else:
        tq = range
    for i in tq(0, len(texts), batch_size):
        batch = texts[i: i + batch_size]
        with torch.no_grad():
            out = model(**tokenizer(batch, return_tensors='pt', padding=True, truncation=True).to(model.device))
            embeddings = out.pooler_output
            embeddings = torch.nn.functional.normalize(embeddings).cpu().numpy()
            results.append(embeddings)
    return np.concatenate(results)

In [25]:
def evaluate_cosine_similarity(
    model,
    tokenizer,
    original_texts,
    rewritten_texts,
    batch_size=32,
    verbose=False,
):
    scores = (
        encode_cls(original_texts, model=model, tokenizer=tokenizer, batch_size=batch_size, verbose=verbose)
        * encode_cls(rewritten_texts, model=model, tokenizer=tokenizer, batch_size=batch_size, verbose=verbose)
    ).sum(1)
    return rotation_calibration(scores, 1.50)

In [26]:
meaning_model, meaning_tokenizer = load_model('cointegrated/LaBSE-en-ru', model_class=AutoModel)

In [27]:
train.head()

Unnamed: 0,toxic_comment,neutral_comment,sta
0,"и,чё,блядь где этот херой был до этого со свои...","Ну и где этот герой был,со своими доказательст...",0.930739
1,"О, а есть деанон этого петуха?","О, а есть деанон",0.993206
2,"херну всякую пишут,из-за этого лайка.долбоебизм.","Чушь всякую пишут, из- за этого лайка.",0.783893
3,из за таких пидоров мы и страдаем,из за таких плохих людей мы и страдаем,0.995441
4,гондон путинский он а не артист,"Человек Путина он, а не артист",0.650007


In [28]:
similarity = evaluate_cosine_similarity(
    model = meaning_model,
    tokenizer = meaning_tokenizer,
    original_texts = list(train['toxic_comment']),
    rewritten_texts = list(train['neutral_comment']),
    batch_size=32,
    verbose=True,
    )

100%|██████████| 341/341 [17:38<00:00,  3.10s/it]
100%|██████████| 341/341 [13:08<00:00,  2.31s/it]


In [29]:
train['sim'] = similarity

### Fluency score (FL)

In [30]:
def evaluate_cola_relative(
    model,
    tokenizer,
    original_texts,
    rewritten_texts,
    target_label=1,
    batch_size=32,
    verbose=False,
    maximum=0,
):
    target_label = prepare_target_label(model, target_label)
    original_scores = classify_texts(
        model, tokenizer,
        original_texts,
        batch_size=batch_size, verbose=verbose, target_label=target_label
    )
    rewritten_scores = classify_texts(
        model, tokenizer,
        rewritten_texts,
        batch_size=batch_size, verbose=verbose, target_label=target_label
    )
    scores = rewritten_scores - original_scores
    if maximum is not None:
        scores = np.minimum(0, scores)
    return rotation_calibration(scores, 1.15, px=0)

In [31]:
cola_model, cola_tolenizer = load_model('SkolkovoInstitute/rubert-base-corruption-detector')

In [32]:
fluency = evaluate_cola_relative(
    model = cola_model,
    tokenizer = cola_tolenizer,
    original_texts = list(train['toxic_comment']),
    rewritten_texts = list(train['neutral_comment']),
    target_label=1,
    batch_size=32,
    verbose=True
)

100%|██████████| 341/341 [16:38<00:00,  2.93s/it]
100%|██████████| 341/341 [12:16<00:00,  2.16s/it]


In [33]:
train['fl'] = fluency

### Анализ значений метрик

In [34]:
train.describe()

Unnamed: 0,sta,sim,fl
count,10883.0,10883.0,10883.0
mean,0.821271,0.696202,0.822664
std,0.285058,0.226399,0.206701
min,0.103723,0.0,0.0
25%,0.774299,0.5731,0.708361
50%,0.983222,0.75173,0.900892
75%,0.997266,0.873316,1.0
max,0.999765,1.0,1.0


Можем видеть, что есть строки с низкими показателями целевых метрик. Рассмотрим строки с низкими значениями.

Низкое значение `STA` говорит о том, что эти нейтральные примеры с низкой вероятностью классифицируются как нейтральные. Посмотрим на 10 случайных примеров с `STA` < 0.5.

In [35]:
train[train.sta < 0.5].sample(10)

Unnamed: 0,toxic_comment,neutral_comment,sta,sim,fl
1205,Ну сколько можно издеваться над двачерами? Убе...,Ну сколько можно издеваться над двачерами? Убе...,0.153828,0.986082,0.849457
3143,"а зачем нужно было завоевывать, так же крым, д...","А зачем нужно было завоевывать, так же Крым,До...",0.388235,0.858357,0.76061
9951,"Майли, перестань быть НАСТОЛЬКО сексуальной! ...","Майли,перестань быть НАСТОЛЬКО сексуальной! Я ...",0.177754,0.96101,0.92079
1801,У укровоинов дэнь защитника витчызны 14 октября.,У украинских солдат день защитника витчызны 14...,0.243651,0.790081,1.0
3430,"Постой же, уж я кончу — выехавши из Москвы...","Постой же, уж я завершу — выехавши из Москвы...",0.108102,0.988173,0.85766
1996,"ты сам мразь,молодец олечка! прав лукашенко-не...","Молодец, Олечка! Прав Лукашенко- не уподобился...",0.177407,0.658538,0.819223
7863,молодчина! так бы всех насильников кастрироват...,"Молодчина! Так бы всех насильников наказывать,...",0.124589,0.913563,0.788199
9612,ЛУЛ КУДА ТЫ ОПЯТЬ СВАЛИЛАА Я ХОТЕЛ ПОГОВОРИТЬ ...,"Лул, куда ты опять ушла? Я хотел поговорить с...",0.237096,0.604156,1.0
3511,- Что ты делаешь? Положи это дерьмо обратно.,Что ты делаешь? Положи это обратно.,0.353765,0.84602,1.0
3389,долбоёб!)))меня и так устраивает.смотрю тут вс...,Редиска !)) Меня и так устраивает. Смотрю тут ...,0.208826,0.857535,0.884668


В целях максимизации этой метрики, уберем из данных примеры, у которых `STA` меньше 0.5. 

In [36]:
train = train[train.sta >= 0.5]

Теперь посмотрим на низкие значение `SIM`: модель считает, что изначальный "токсичный" комментарий и парафразированный нейтральный комментарий не похожи друг на друга.

In [37]:
train[train.sim < 0.5].sample(10)

Unnamed: 0,toxic_comment,neutral_comment,sta,sim,fl
10217,КАКОГО ХРЕНА МЕНЯ РЕТВИТЯТ? ЕЩЕ И НЕЗНАКОМЫЕ Л...,Почему меня ретвитят ещё и незнакомые люди,0.960952,0.401711,1.0
9630,ну хуй знает(((,не знаю,0.99969,0.343197,0.37036
3228,"ну и чё это за хуйня,автор не наебывай людей.","Автор, ты предоставил ложную информацию",0.797652,0.103416,0.361042
9197,поч вы еще ретвитите этот ебаный твит(((((((((((,Почемы вы ретвитите этот твит,0.715337,0.482092,0.315832
4946,"ЗВОНОК В 3 ЧАСА НОЧИ... - АЛЛО,ПРИВЕТ! Я ТЕБЯ...","Звонок в 3 часа ночи …-Алло, привет ! Я тебя р...",0.683612,0.49759,1.0
2217,когда вы нод моськи проплаченые заткнете свою ...,Когда вы перестанете нести всякую чепуху?,0.768611,0.244617,1.0
6250,НУ КАПЕЦ КАКОГО ХРЕНА ВСЕ ТАК СКЛАДЫВАЕТСЯ((( ...,"почему все так складывается, как же важна была...",0.999745,0.406426,1.0
1708,Если они будут знать что их могут пристрелить ...,будут знать о наказании не будут плохо поступать,0.999718,0.20248,0.799119
2270,"какая нахуй блять забоа,деньги всё решают","Деньги сейчас решают больше, чем забота",0.999472,0.243949,0.581706
5150,СУКА Я Ж САМА ПОСМОТРЕТТ ХОТЕЛА :(,Я ж сама посмотреть хотела,0.997156,0.075913,1.0


In [38]:
# оставим только те примеры, где similarity >= 0.5
train = train[train.sim >= 0.5]

Низкое значение `Fluency` говорит о том, что нейтральный комментарий звучит плохо с точки зрения языка.

In [39]:
train[train.fl < 0.5].sample(10)

Unnamed: 0,toxic_comment,neutral_comment,sta,sim,fl
1008,ему 200 раз советовали купить шлюху,Ему 200 раз советовали купить сексуальные услуги,0.991468,0.739535,0.488317
4335,я буду рыдать как чмо последнее на последних ч...,Я буду сильно рыдать на последних частях,0.925608,0.739061,0.403347
7076,гиря каспыров из героя ссср и чемпиона мира ст...,Гари Каспаров из героя ссср и чемпиона мира ст...,0.950761,0.747783,0.062871
3544,кто напомнил про кровь из пальца тот уёба(((,"Кто напомнил про кровь из пальца, тот нехороши...",0.552389,0.606524,0.458937
4758,ой идите нахуй короче со своими пирогами :-(,Не приставай со своими пирогами,0.9619,0.502166,0.465769
4657,"бляя пизданулась с лестнице,спина болит еще си...","блин упалас лестнице,спина болит еще сильнее(",0.999433,0.920979,0.486056
457,хватит писать хуйню сявки ободранные,Хватит писать бред,0.845002,0.539435,0.39645
3157,"ну что, теперь ты нажрался, ебаный боров сука???","Ну что, теперь ты наелся",0.982246,0.573945,0.310087
7998,"тварь свинина, сидит и ждет сутками, когда ей ...","Она сидит и ждёт сутками когда ей кто-, нибудь...",0.982555,0.755161,0.317839
2080,уберут усатого пизда белорусии.опять поедут на...,"Если уберут президента Белорусии, то снова при...",0.977914,0.591246,0.246256


In [40]:
train = train[train.fl >= 0.5]

In [41]:
train.shape

(6617, 5)

Мы уменьшили количество обучающих примеров до 6617. Сохраним новый датасет.

In [42]:
train[['toxic_comment', 'neutral_comment']].to_csv('train_preprocessed2.tsv', sep='\t')