# Detoxification. Preprocessing data

In [37]:
import pandas as pd
import numpy as np
from tqdm import trange

In [56]:
# Load the dataset into a pandas dataframe.
train = pd.read_csv(r"./content/train.tsv", sep='\t', on_bad_lines='skip', index_col='index')

# Report the number of sentences.
print('Number of training sentences: {:,}\n'.format(train.shape[0]))

# Display 10 random rows from the data.
train.sample(10)

Number of training sentences: 6,948



Unnamed: 0_level_0,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
4715,"ЭТОТ ПЕЧАЛЬНЫЙ МОМЕНТ,КОГДА ХОЧЕШЬ ПОГУЛЯТЬ,А ...","Этот печальный момент, когда хочешь погулять, ...",,
6783,как это??? блять((обрежу все батареи нах,как это??? обрежу все батареи,,
1445,необходимо внедрить практику китая.всех стреля...,необходимо внедрить практику китая.всех судить...,,
1747,"ты, чмошница, живи, как хочешь, ебись с кем хо...","Ну и живи, как хочешь, скоро получите, что хот...",,
5921,"нитрааатище, не пизди тут(( — какого черта?",не ври,Не надо врать. Какой смысл?,
777,Гипно жаба ты ли это??,Ты ли это?,,
643,пиздец как же я ненавижу женщин,Не люблю женщин,,
6833,"-ОНИ СТОЯТ!-ЛАН,ВООБЩЕ ТО ОНИ ИДУТ!!Сук пздц (...","ОНИ СТОЯТ!-ЛАН,ВООБЩЕ ТО ОНИ ИДУТ!!",Они стоят! Ладно! Вообще-то они идут...,"-ОНИ СТОЯТ!-ЛАН,ВООБЩЕ ТО ОНИ ИДУТ!!"
5824,"ОМГ КАКОЙ НАХОЙ ЗАМУЖ, Я ЖЕ МАЛЕНЬКАЯ ДЕВАЧКА ...","ОМГ КАКОЙ МНЕ ЗАМУЖ, Я ЖЕ МАЛЕНЬКАЯ ДЕВАЧКА Х(...",Зачем замуж? Я ещё маленькая девочка,
1803,и что этого пидора не отпорол никто???,И что его никто не наказал?,,


In [57]:
# Load the dataset into a pandas dataframe.
dev = pd.read_csv("./content/dev.tsv", sep='\t', on_bad_lines='skip')

# Report the number of sentences.
print('Number of test sentences: {:,}\n'.format(dev.shape[0]))

# Display 10 random rows from the data.
dev.sample(10)

Number of test sentences: 800



Unnamed: 0,toxic_comment,neutral_comment1,neutral_comment2,neutral_comment3
586,потому что у нас такая власть и дохуе ще долбо...,"потому что у нас такая власть и много людей , ...",,
533,эти пидоры и шлюха спасут только себя.,Эти люди спасут только себя,,
263,"вот ввп не чего делать , как бегать и уродов т...","вот ввп не чего делать , как бегать и травить,...",,
411,"нахуй он там кому нужен, пидор!",Кому он там нужен,,
404,жируют твари и над народом издеваются.,Хорошо живут и над народом издеваются.,Хорошо живут и над народом издеваются,
177,нашим дизайнерам с ирбита руки оторвать.,Наши дизайнеры из Ирбита плохо справились со с...,,
584,"мусора охуели напрочь, дали волю, вот и борзеют","Полицейские перешли грань, дали волю вот и бес...",,
699,"пиздешь чистой воды,задолбали в открытую народ...","Это не правда, есть и другие ее фото во время ...",,
783,"охренел, что ли ваш батька! кем себя возомнил,...",Кем ваш батька себя возомнил? Кто он такой что...,,
418,А что в кастрюле? уххх бля,А что в кастрюле,А что в кастрюле? уххх...,А что в кастрюле?


Преобразуем данные из train таким образом, чтобы у нас было только две колонки: toxic_comment и neutral_comment.

In [58]:
def concat_neutral_comments(data):
    data1 = data[~data['neutral_comment1'].isna()][['toxic_comment', 'neutral_comment1']]
    data2 = data[~data['neutral_comment2'].isna()][['toxic_comment', 'neutral_comment2']]
    data3 = data[~data['neutral_comment3'].isna()][['toxic_comment', 'neutral_comment3']]
    data1.columns = ['toxic_comment', 'neutral_comment']
    data2.columns = ['toxic_comment', 'neutral_comment']
    data3.columns = ['toxic_comment', 'neutral_comment']

    return pd.concat([data1, data2, data3], ignore_index=True)

In [59]:
train = concat_neutral_comments(train)

In [60]:
dev = concat_neutral_comments(dev)

In [61]:
# Проверим данные на дубликаты
train.duplicated().sum()

207

In [62]:
# удалим дубликаты
train = train.drop_duplicates().reset_index().drop('index', axis=1)

Мы хотим обучить модели, максимизируя показатели метрик `Style Transfer Accuracy (STA)`, `Meaning Preservation Score (SIM)`, и `Fluency Score (FL)`. Интересно посмотреть, как сейчас обстоит дело с этими метриками в наших обучающих данных. 

## Подсчет метрик на обучающих данных
На базе https://github.com/s-nlp/russe_detox_2022/blob/main/evaluation/ru_detoxification_evaluation.ipynb

In [63]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, AutoModel

In [64]:
import torch

# If there's a GPU available...
if torch.cuda.is_available():

    # Tell PyTorch to use the GPU.
    device = torch.device("cuda")

    print('There are %d GPU(s) available.' % torch.cuda.device_count())

    print('We will use the GPU:', torch.cuda.get_device_name(0))

# If not...
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")

No GPU available, using the CPU instead.


In [65]:
def load_model(model_name=None, model=None, tokenizer=None,
               model_class=AutoModelForSequenceClassification, use_cuda=True):
    if model is None:
        if model_name is None:
            raise ValueError('Either model or model_name should be provided')
        model = model_class.from_pretrained(model_name)
        if torch.cuda.is_available() and use_cuda:
            model.cuda()
    if tokenizer is None:
        if model_name is None:
            raise ValueError('Either tokenizer or model_name should be provided')
        tokenizer = AutoTokenizer.from_pretrained(model_name)
    return model, tokenizer

### Style Transfer Accuracy (STA)

In [66]:
def prepare_target_label(model, target_label):
    if target_label in model.config.id2label:
        pass
    elif target_label in model.config.label2id:
        target_label = model.config.label2id.get(target_label)
    elif target_label.isnumeric() and int(target_label) in model.config.id2label:
        target_label = int(target_label)
    else:
        raise ValueError(f'target_label "{target_label}" is not in model labels or ids: {model.config.id2label}.')
    return target_label

In [67]:
def classify_texts(model, tokenizer, texts, second_texts=None, target_label=None, batch_size=32, verbose=False):
    target_label = prepare_target_label(model, target_label)
    res = []
    if verbose:
        tq = trange
    else:
        tq = range
    for i in tq(0, len(texts), batch_size):
        inputs = [texts[i:i+batch_size]]
        if second_texts is not None:
            inputs.append(second_texts[i:i+batch_size])
        inputs = tokenizer(*inputs, return_tensors='pt', padding=True, truncation=True, max_length=512).to(model.device)
        with torch.no_grad():
            preds = torch.softmax(model(**inputs).logits, -1)[:, target_label].cpu().numpy()
        res.append(preds)
    return np.concatenate(res)

In [68]:
def rotation_calibration(data, coef=1.0, px=1, py=1, minimum=0, maximum=1):
    result = (data - px) * coef + py
    if minimum is not None:
        result = np.maximum(minimum, result)
    if maximum is not None:
        result = np.minimum(maximum, result)
    return result

In [69]:
def evaluate_style(
    model,
    tokenizer,
    texts,
    target_label=1,  # 1 is toxic, 0 is neutral
    batch_size=32,
    verbose=False
):
    target_label = prepare_target_label(model, target_label)
    scores = classify_texts(
        model,
        tokenizer,
        texts,
        batch_size=batch_size, verbose=verbose, target_label=target_label
    )
    return rotation_calibration(scores, 0.90)

In [45]:
style_model, style_tokenizer = load_model('SkolkovoInstitute/russian_toxicity_classifier')

In [70]:
accuracy = evaluate_style(
    model = style_model,
    tokenizer = style_tokenizer,
    texts = list(train['neutral_comment']),
    target_label=0,  # 1 is toxic, 0 is neutral
    batch_size=32,
    verbose=True
)

100%|██████████| 5442/5442 [07:53<00:00, 11.50it/s]


In [72]:
train['sta'] = accuracy

### Meaning Preservation Score (SIM)

In [76]:
def encode_cls(texts, model, tokenizer, batch_size=32, verbose=False):
    results = []
    if verbose:
        tq = trange
    else:
        tq = range
    for i in tq(0, len(texts), batch_size):
        batch = texts[i: i + batch_size]
        with torch.no_grad():
            out = model(**tokenizer(batch, return_tensors='pt', padding=True, truncation=True).to(model.device))
            embeddings = out.pooler_output
            embeddings = torch.nn.functional.normalize(embeddings).cpu().numpy()
            results.append(embeddings)
    return np.concatenate(results)

In [77]:
def evaluate_cosine_similarity(
    model,
    tokenizer,
    original_texts,
    rewritten_texts,
    batch_size=32,
    verbose=False,
):
    scores = (
        encode_cls(original_texts, model=model, tokenizer=tokenizer, batch_size=batch_size, verbose=verbose)
        * encode_cls(rewritten_texts, model=model, tokenizer=tokenizer, batch_size=batch_size, verbose=verbose)
    ).sum(1)
    return rotation_calibration(scores, 1.50)

In [78]:
meaning_model, meaning_tokenizer = load_model('cointegrated/LaBSE-en-ru', model_class=AutoModel)

In [79]:
train.head()

Unnamed: 0,toxic_comment,neutral_comment,sta
0,"и,чё,блядь где этот херой был до этого со свои...","Ну и где этот герой был,со своими доказательст...",0.930739
1,"О, а есть деанон этого петуха?","О, а есть деанон",0.993206
2,"херну всякую пишут,из-за этого лайка.долбоебизм.","Чушь всякую пишут, из- за этого лайка.",0.783893
3,из за таких пидоров мы и страдаем,из за таких плохих людей мы и страдаем,0.995441
4,гондон путинский он а не артист,"Человек Путина он, а не артист",0.650007


In [80]:
similarity = evaluate_cosine_similarity(
    model = meaning_model,
    tokenizer = meaning_tokenizer,
    original_texts = list(train['toxic_comment']),
    rewritten_texts = list(train['neutral_comment']),
    batch_size=32,
    verbose=True,
    )

100%|██████████| 341/341 [18:19<00:00,  3.22s/it]
100%|██████████| 341/341 [14:26<00:00,  2.54s/it]


In [82]:
train['sim'] = similarity

### Fluency score (FL)

In [83]:
def evaluate_cola_relative(
    model,
    tokenizer,
    original_texts,
    rewritten_texts,
    target_label=1,
    batch_size=32,
    verbose=False,
    maximum=0,
):
    target_label = prepare_target_label(model, target_label)
    original_scores = classify_texts(
        model, tokenizer,
        original_texts,
        batch_size=batch_size, verbose=verbose, target_label=target_label
    )
    rewritten_scores = classify_texts(
        model, tokenizer,
        rewritten_texts,
        batch_size=batch_size, verbose=verbose, target_label=target_label
    )
    scores = rewritten_scores - original_scores
    if maximum is not None:
        scores = np.minimum(0, scores)
    return rotation_calibration(scores, 1.15, px=0)

In [85]:
cola_model, cola_tolenizer = load_model('SkolkovoInstitute/rubert-base-corruption-detector')

In [86]:
fluency = evaluate_cola_relative(
    model = cola_model,
    tokenizer = cola_tolenizer,
    original_texts = list(train['toxic_comment']),
    rewritten_texts = list(train['neutral_comment']),
    target_label=1,
    batch_size=32,
    verbose=True
)

100%|██████████| 341/341 [18:11<00:00,  3.20s/it]
100%|██████████| 341/341 [13:23<00:00,  2.36s/it]


In [87]:
train['fl'] = fluency

### Анализ значений метрик

In [88]:
train.describe()

Unnamed: 0,sta,sim,fl
count,10883.0,10883.0,10883.0
mean,0.821271,0.695179,0.82161
std,0.285058,0.227275,0.207567
min,0.103723,0.0,0.0
25%,0.774299,0.571673,0.706289
50%,0.983222,0.750988,0.900046
75%,0.997266,0.87317,1.0
max,0.999765,1.0,1.0


Можем видеть, что есть строки с низкими показателями целевых метрик. Рассмотрим строки с низкими значениями.

Низкое значение `STA` говорит о том, что эти нейтральные примеры с низкой вероятностью классифицируются как нейтральные. Посмотрим на 10 случайных примеров с `STA` < 0.5.

In [101]:
train[train.sta < 0.5].sample(10)

Unnamed: 0,toxic_comment,neutral_comment,sta,sim,fl
7774,урод ! сам не служил поэтому и не знает что та...,Мужик!Сам не служил поэтому и не знает что так...,0.193771,0.873944,0.899937
3097,долбаебы хотите чтоб было как на украине разру...,"Хотите, чтоб было как на Украине разруха, бара...",0.302872,0.896867,0.91743
1306,Вроде его там на попиле военных бюджетов пойма...,Вроде его там на попиле военных бюджетов пойма...,0.230828,0.991631,1.0
6385,Пошла гулять с поцанами???Знай ты меня потерял...,"Пошла изменять с пацанами??? Знай, ты меня пот...",0.240541,0.819885,0.936491
2103,"война в абхазии,грузии,приднестровье,украине! ...","Война в Абхазии, Грузии, Приднестровье, Украин...",0.250152,0.907297,0.969017
3779,Камила! Прости! Я сволочь( Я очень люблю тебя,Камила! Прости!( Я очень люблю тебя,0.297392,0.933569,0.97398
2198,ничего не напоминает? фашистское скотство. над...,"Ничего не напоминает? Надеюсь, их накажут. Нел...",0.468324,0.298732,0.675685
3424,А ты кто такой?Иди отседова,Вы кто? Уйдите,0.246417,0.725705,0.837017
7173,ты мне не паспорт ты мне телефон скинь блядень...,"Ты мне не паспорт, ты мне телефон скинь.",0.37448,0.908497,0.570649
1549,стрелять того кто их пустил сюда,"Того, кто их сюда пустил следовало бы наказать",0.265943,0.610938,1.0


В целях максимизации этой метрики, уберем из данных примеры, у которых `STA` меньше 0.5. 

In [102]:
train = train[train.sta >= 0.5]

Теперь посмотрим на низкие значение `SIM`: модель считает, что изначальный "токсичный" комментарий и парафразированный нейтральный комментарий не похожи друг на друга.

In [113]:
train[train.sim < 0.5].sample(10)

Unnamed: 0,toxic_comment,neutral_comment,sta,sim,fl
8224,СУКПОДЪЕЗД(( чё в итоге будет-то...кому верить...,Чему верить? Сплошной обман .операция по смене...,0.980938,0.308207,0.822622
4115,Руслан-сучка!!!! всё из-за него...( ПОДАЮ В СУ...,"Все из-за Руслана, подаю в суд",0.992815,0.457258,0.99481
7323,всех блядей кремлев ских поголовно вакцинировать!,Кремль нужно вакцинировать,0.991248,0.396707,0.530743
10507,пиздец в шк в падлу идти :(,Ужас в школу не хочу идти,0.996892,0.147613,0.810904
6733,ДЖАСТИН ТИМБЕРЛЕЙК ! ЕГО КОНЦЕРТ 17 ЯНВАРЯ ! А...,"Джастин тимберлейк, его концерт 17 января, а я...",0.998793,0.46234,0.648291
6673,"дЖАС, НУ НАПИШИ, ЧТО ЗАМЕТИЛ НАС!!! МЫ ТАК ЭТО...","Напиши что заметил нас, мы тебя любим",0.99632,0.368915,0.935828
6981,да ни у кого просто пиздобол.,"Да ни у кого, просто врет",0.976367,0.495184,0.483422
5292,"не настрій, а хуйня якась(((","Не настроение, а какой-то кошмар.",0.994127,0.238506,0.820905
104,а она блядь святая чаще пиздец,"А она святая, ну да.",0.735838,0.391858,0.940171
2671,это ты неваляшка пидоряшка за базаром следи еб...,следи за своими словами,0.996644,0.0,0.335294


In [115]:
# оставим только те примеры, где similarity >= 0.5
train = train[train.sim >= 0.5]

Низкое значение `Fluency` говорит о том, что нейтральный комментарий звучит плохо с точки зрения языка.

In [116]:
train[train.fl < 0.5].sample(10)

Unnamed: 0,toxic_comment,neutral_comment,sta,sim,fl
10100,заебали набирать лайки на чужом горе!!!!,Набирают лайки на чужом горе,0.969777,0.554526,0.235324
7617,хотя думаю этим пидарасам может понравиться:d,Хотя думаю им может понравиться,0.998458,0.575463,0.353498
6986,а она блядь святая чаще пиздец,А она святая вообще,0.974102,0.524247,0.497567
5819,"Сижу дома со Славиком,сидит пиздит хуйню:(",Сидим дома со Славика и разговариваем,0.993682,0.731198,0.419246
3268,этого уебка под суд......без коментов,Этого под суд......без коментов,0.576428,0.857718,0.407362
9436,"мышка пидараска глючит,невозможно играть!(((","Мышка не работает, невозмодно игратт",0.991458,0.56137,0.285812
8691,"очень не хочу на академическую, но бля меня уб...","Не хочу идти на академическую, но надо",0.999004,0.637345,0.29763
6404,"Есть такая категория сук,которые ездят по утра...","Есть такая категория людей, которые ездят по у...",0.984493,0.842713,0.256461
5579,мы любим тех кому похуй на нас(,"Мы любим тех, кто к нам равнодушен",0.998495,0.82665,0.442329
3571,Ты даже не смотришь на меня бесчувственная ско...,Ты даже не смотришь на меня,0.970653,0.652653,0.363853


In [118]:
train = train[train.fl >= 0.5]

In [119]:
train.shape

(6605, 5)

Мы уменьшили количество обучающих примеров до 6605. Сохраним новый датасет.

In [120]:
train[['toxic_comment', 'neutral_comment']].to_csv('train_preprocessed.tsv', sep='\t')