In [1]:
import sys
sys.path.append("../")

# Аугментации на уровне символов

In [2]:
from augmentex import CharAug

In [3]:
char_aug = CharAug(
    unit_prob=0.3,
    min_aug=1,
    max_aug=5,
    mult_num=3,
    random_seed=42,
    lang="rus",
    platform="pc",
    )

text = "Привет, как дела?"

In [4]:
# В методе augment, если не указывать action, то будет применен случайно выбранный
char_aug.augment(text=text)

'Пнривыеут, как ждела?с'

In [5]:
# Список доступных аугментаций
char_aug.actions_list

['shift', 'orfo', 'typo', 'delete', 'multiply', 'swap', 'insert']

In [6]:
# Случайно поменять регистр букв
char_aug.augment(text=text, action="shift")

'ПРивЕт, каК дела?'

In [7]:
# Заменить буквы на ошибочные согласно статистике ошибок
char_aug.augment(text=text, action="orfo")

'Пёевет, как дида?'

In [8]:
# Заменить буквы на их опечатки с соседних клавиш
char_aug.augment(text=text, action="typo")

'Привет, евк дела?'

In [9]:
# Удалить случайную букву
char_aug.augment(text=text, action="delete")

'Приеткк дла?'

In [10]:
# Вставить случайную букву
char_aug.augment(text=text, action="insert")

'Пцриувет, кбак дьелба?'

In [11]:
# Повторение случайной буквы
char_aug.augment(text=text, action="multiply")

'Приивеет, какк дела?'

In [12]:
# Поменять местами соседние буквы
char_aug.augment(text=text, action="swap")

'рПвие,т кка длеа?'

In [31]:
# Аугментации для батча тектов. batch_prob определяет долю элементов списка которые будут изменены
text_list = ["Привет, как дела?"] * 10
char_aug.aug_batch(text_list, batch_prob=0.5)

['Пцрвийвет, как дейлца?',
 'Привнеыт, ксакж удела?',
 'Привет, как дела?',
 'Привет, как дела?',
 'Приве, катк дела?',
 'Привет, как дела?',
 'Пирвет,к акд леа?',
 'Привет, как дела?',
 'Привет, как дела?',
 'Приввет, каак деела?']

In [32]:
# также можно определить тип аугментации который будет применен, по умолчанию будет применена случайный вид аугментации
text_list = ["Привет, как дела?"] * 10
char_aug.aug_batch(text_list, batch_prob=0.5, action="multiply")


['Привет, как дела?',
 'Приивет, как дела?',
 'Привет, как дела?',
 'Привет, как дела?',
 'Прривет, как делла?',
 'Привет, как ддела?',
 'Прриввет, какк делла?',
 'Привет, как дела?',
 'Привет, как дела?',
 'ППривет, как дела?']

# Аугментации на уровне слов

In [16]:
from augmentex import WordAug


In [17]:
word_aug = WordAug(
    unit_prob=0.4,
    min_aug=1,
    max_aug=5,
    random_seed=42,
    lang="rus",
    platform="pc",
    )

text = "Привет, как дела?"

In [18]:
# В методе augment, если не указывать action, то будет применен случайно выбранный
word_aug.augment(text=text)

'Привет, как д е л а ?'

In [19]:
# Список доступных аугментаций
word_aug.actions_list

['replace',
 'delete',
 'swap',
 'stopword',
 'reverse',
 'text2emoji',
 'split',
 'ngram']

In [20]:
# Заменяет правильно написанное слово на такое же с орфографической ошибкой
word_aug.augment(text=text, action="replace")

'пркет, как дела?'

In [21]:
# Удаляет случайные слова из текста
word_aug.augment(text=text, action="delete")

'как дела?'

In [22]:
# Перестановка двух случайных слов
word_aug.augment(text=text, action="swap")

'дела? как Привет,'

In [23]:
# Cлучайная вставка слов-паразитов
word_aug.augment(text=text, action="stopword")

'Привет, скажем как дела?'

In [24]:
# Меняет написание заглавной буквы в словах
word_aug.augment(text=text, action="reverse")

'привет, как дела?'

In [25]:
# Меняет слово на соответствующий эмодзи
word_aug.augment(text=text, action="text2emoji")

'👉, как дела?'

In [26]:
# Добавляет в слово пробелы между буквами
word_aug.augment(text=text, action="split")

'П р и в е т , как дела?'

In [27]:
# Заменяет ngram в слове на ошибочные
word_aug.augment(text=text, action="ngram")

'Привет, как дела?'

In [33]:
text_list = ["Привет, как дела?"] * 10
word_aug.aug_batch(text_list, batch_prob=0.5)

['Привет, как дела?',
 'Привет, как дела?',
 'Привет, как дела?',
 'Прияет, как дела?',
 'Привет, к а к дела?',
 'Привет, как дела?',
 'Привет, как дела?',
 'Привет, как д е л а ?',
 'Привет, как дела?',
 'Привет, как дела?']

In [34]:
# Также можно определить тип аугментации который будет применен, по умолчанию будет применена случайный вид аугментации
text_list = ["Привет, как дела?"] * 10
word_aug.aug_batch(text_list, batch_prob=0.5, action="replace")

['Привет, как дела?',
 'Привет, как делло?',
 'Привет, кн дела?',
 'Привет, как дела?',
 'Привет, как дела?',
 'Привет, как делоъ?',
 'Привет, как дела?',
 'Привет, как дела?',
 'Привет, как вла?',
 'Привет, как делце?']

# Compute own statistic

In [35]:
char_aug = CharAug(
    unit_prob=0.3, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    mult_num=3, # Максимальное количество повторений символов (только для метода multiply)
    random_seed=42,
    lang="eng",
    platform="pc",
    correct_texts_path="correct_texts.txt",
    error_texts_path="error_texts.txt",
    )

text = "Screw you guys, I am going home. (c)"

In [36]:
# Заменить буквы на ошибочные согласно статистике ошибок
char_aug.augment(text=text, action="orfo")

'Ssrew yfu guys, I am going home. (c)'

In [37]:
word_aug = WordAug(
    unit_prob=0.4, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    random_seed=42,
    lang="eng",
    platform="pc",
    correct_texts_path="correct_texts.txt",
    error_texts_path="error_texts.txt",
    )

text = "Screw you guys, I am going home. (c)"

In [38]:
# Заменяет правильно написанное слово на такое же с орфографической ошибкой
word_aug.augment(text=text, action="replace")

'Screw jo guys, I am going home. (c)'

# BlackBox атаки на модели

In [2]:
import json

import torch
from transformers import AutoModel, AutoTokenizer, AutoConfig, GPT2LMHeadModel, GPT2Tokenizer

from augmentex import UnsupervisedDecoderAttack, UnsupervisedEncoderAttack, ClassificationEncoderAttack, RegressionEncoderAttack

In [3]:
class MeanPooling(torch.nn.Module):
    def __init__(self):
        super(MeanPooling, self).__init__()

    def forward(self, last_hidden_state, attention_mask):
        input_mask_expanded = attention_mask.unsqueeze(
            -1).expand(last_hidden_state.size()).float()
        sum_embeddings = torch.sum(last_hidden_state * input_mask_expanded, 1)
        sum_mask = input_mask_expanded.sum(1)
        sum_mask = torch.clamp(sum_mask, min=1e-9)
        mean_embeddings = sum_embeddings / sum_mask
        return mean_embeddings


class UnsupervisedEncoderModel(torch.nn.Module):
    def __init__(self, path, max_len=128) -> None:
        super().__init__()
        self.path = path
        self.max_len = max_len

        self.model = AutoModel.from_pretrained(self.path)
        self.tokenizer = AutoTokenizer.from_pretrained(self.path)
        self.config = AutoConfig.from_pretrained(
            self.path, output_hidden_states=True)

        self.pool = MeanPooling()

    def get_embedding(self, inputs):  # обязательный метод для Attack
        encoded_input = self.tokenizer(
            inputs, padding=True, truncation=True, max_length=self.max_len, return_tensors='pt')
        encoded_input = encoded_input.to(next(self.parameters()).device)

        model_output = self.model(**encoded_input)
        sentence_embeddings = self.pool(
            model_output[0], encoded_input['attention_mask'])

        return sentence_embeddings


class ClassificationEncoderModel(torch.nn.Module):
    def __init__(self, path, max_len=128) -> None:
        super().__init__()
        self.path = path
        self.max_len = max_len

        self.model = AutoModel.from_pretrained(self.path)
        self.tokenizer = AutoTokenizer.from_pretrained(self.path)
        self.config = AutoConfig.from_pretrained(
            self.path, output_hidden_states=True)

        self.pool = MeanPooling()
        self.fc = torch.nn.Linear(self.config.hidden_size, 3)
        self.sm = torch.nn.Softmax(dim=1)

    def get_embedding(self, inputs):  # обязательный метод для Attack
        encoded_input = self.tokenizer(
            inputs, padding=True, truncation=True, max_length=self.max_len, return_tensors='pt')
        encoded_input = encoded_input.to(next(self.parameters()).device)

        model_output = self.model(**encoded_input)
        sentence_embeddings = self.pool(
            model_output[0], encoded_input['attention_mask'])

        return sentence_embeddings

    def forward(self, batch_text):
        sentence_embeddings = self.get_embedding(batch_text)
        output = self.fc(sentence_embeddings)
        output = self.sm(output)
        return output


class RegressionEncoderModel(torch.nn.Module):
    def __init__(self, path, max_len=128) -> None:
        super().__init__()
        self.path = path
        self.max_len = max_len

        self.model = AutoModel.from_pretrained(self.path)
        self.tokenizer = AutoTokenizer.from_pretrained(self.path)
        self.config = AutoConfig.from_pretrained(
            self.path, output_hidden_states=True)

        self.pool = MeanPooling()
        self.fc = torch.nn.Linear(self.config.hidden_size, 1)

    def get_embedding(self, inputs):  # обязательный метод для Attack
        encoded_input = self.tokenizer(
            inputs, padding=True, truncation=True, max_length=self.max_len, return_tensors='pt')
        encoded_input = encoded_input.to(next(self.parameters()).device)

        model_output = self.model(**encoded_input)
        sentence_embeddings = self.pool(
            model_output[0], encoded_input['attention_mask'])

        return sentence_embeddings

    def forward(self, batch_text):
        sentence_embeddings = self.get_embedding(batch_text)
        output = self.fc(sentence_embeddings)
        output = torch.sigmoid(output)
        return output


class DecoderModel(torch.nn.Module):
    def __init__(self, path, max_len=128) -> None:
        super().__init__()
        self.path = path
        self.max_len = max_len

        self.model = GPT2LMHeadModel.from_pretrained(self.path)
        self.tokenizer = GPT2Tokenizer.from_pretrained(self.path)
        self.config = AutoConfig.from_pretrained(
            self.path, output_hidden_states=True)
        self.pool = MeanPooling()

        self.tokenizer.padding_side = "left"
        self.tokenizer.add_special_tokens({'pad_token': '<pad>'})

    def get_embedding(self, inputs):  # обязательный метод для BB
        encoded_input = self.tokenizer(
            inputs, padding=True, return_tensors="pt")
        model_output = self.model.transformer.wte.weight[encoded_input["input_ids"], :]
        sentence_embeddings = self.pool(
            model_output, encoded_input['attention_mask'])

        return sentence_embeddings

    def forward(self, batch_text):
        input_ids = self.tokenizer(
            batch_text, padding=True, return_tensors='pt')
        input_ids = input_ids.to(next(self.parameters()).device)
        outputs = self.model.generate(**input_ids, max_new_tokens=50)
        outputs = self.tokenizer.batch_decode(
            outputs, skip_special_tokens=True)

        return outputs

In [4]:
with open('ru_synonims.json', mode='r') as handle:
    ru_synonims = json.load(handle)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

### Unsupervised Encoder

In [5]:
train_model_name = "cointegrated/LaBSE-en-ru"
train_model = UnsupervisedEncoderModel(train_model_name).to(device)

# Add model for attack module
observer_model_name = "ai-forever/ruElectra-small"
observer_model = UnsupervisedEncoderModel(observer_model_name).to(device)

attack = UnsupervisedEncoderAttack(observer_model=observer_model,
                                   syn_dict=ru_synonims, p_phrase=0.9)

texts = [
    "Сторона защиты уже подготовила список фраз которые будут озвучены в суде пишет издание",
    "Там же отмечается что Киркоров оценил свой моральный ущерб в десять миллионов рублей кроме того с Успенской могут взыскать порядка двух миллионов судебных издержек",
    "Это произошло в ночь на 12 декабря Злоумышленник отпилил голову коня маршала Константина Рокоссовского после чего скрылся с места происшествия",
    "Вернувшись домой Раскольников получил долгожданное письмо от матери и узнал что его младшая сестра собирается замуж за богатого дельца",
    "Это происшествие разбудило в нём желание жить Придя домой с Разумихиным Раскольников застал обеспокоенных маму и сестру"
]

attack.attack(train_model, texts)

['Сторона защиты уже изготовила список фраз которые будут озвучены в суде пишет издание',
 'Там же отмечается что Киркоров оценил свой моральный ущерб в десять миллионов рублей кроме того с Успенской могут взыскать плана двух миллионов судебных издержек',
 'Это произошло в ночь на 12 июня Злоумышленник отпилил голову коня маршала Константина Рокоссовского после чего скрылся с места происшествия',
 'Вернувшись домой Раскольников получил долгожданное письмо от матери и услышал что его младшая сестра собирается замуж за богатого дельца',
 'Это происшествие разбудило в нём желание жить Придя домой с Разумихиным Раскольников застал обеспокоенных маму и сестричку']

### Classification Encoder

In [6]:
train_model_name = "cointegrated/LaBSE-en-ru"
train_model = ClassificationEncoderModel(train_model_name).to(device)

# Add model for attack module
observer_model_name = "ai-forever/ruElectra-small"
observer_model = UnsupervisedEncoderModel(observer_model_name).to(device)

attack = ClassificationEncoderAttack(observer_model=observer_model,
                                     syn_dict=ru_synonims, p_phrase=0.9, norm="mae")  # mse

texts = [
    "Сторона защиты уже подготовила список фраз которые будут озвучены в суде пишет издание",
    "Там же отмечается что Киркоров оценил свой моральный ущерб в десять миллионов рублей кроме того с Успенской могут взыскать порядка двух миллионов судебных издержек",
    "Это произошло в ночь на 12 декабря Злоумышленник отпилил голову коня маршала Константина Рокоссовского после чего скрылся с места происшествия",
    "Вернувшись домой Раскольников получил долгожданное письмо от матери и узнал что его младшая сестра собирается замуж за богатого дельца",
    "Это происшествие разбудило в нём желание жить Придя домой с Разумихиным Раскольников застал обеспокоенных маму и сестру"
]

labels = [0, 1, 2, 0, 1]

attack.attack(train_model, texts, labels)

['Сторона защиты уже подготовила список фраз которые будут озвучены в суде создаёт издание',
 'Там же отмечается что Киркоров посчитал свой моральный ущерб в десять миллионов рублей кроме того с Успенской могут взыскать порядка двух миллионов судебных издержек',
 'Это произошло в ночь на 12 декабря Злоумышленник отпилил голову коня маршала Константина Рокоссовского после чего скрылся с депо происшествия',
 'Вернувшись домой Раскольников получил долгожданное письмо от матери и узнал что его младшая сестра собирается замуж за богатого старателя',
 'Это происшествие родило в нём желание жить Придя домой с Разумихиным Раскольников застал обеспокоенных маму и сестру']

### Regression Encoder

In [7]:
train_model_name = "cointegrated/LaBSE-en-ru"
train_model = RegressionEncoderModel(train_model_name).to(device)

# Add model for attack module
observer_model_name = "ai-forever/ruElectra-small"
observer_model = UnsupervisedEncoderModel(observer_model_name).to(device)

attack = RegressionEncoderAttack(observer_model=observer_model,
                                 syn_dict=ru_synonims, p_phrase=0.9, norm="mae")  # mse

texts = [
    "Сторона защиты уже подготовила список фраз которые будут озвучены в суде пишет издание",
    "Там же отмечается что Киркоров оценил свой моральный ущерб в десять миллионов рублей кроме того с Успенской могут взыскать порядка двух миллионов судебных издержек",
    "Это произошло в ночь на 12 декабря Злоумышленник отпилил голову коня маршала Константина Рокоссовского после чего скрылся с места происшествия",
    "Вернувшись домой Раскольников получил долгожданное письмо от матери и узнал что его младшая сестра собирается замуж за богатого дельца",
    "Это происшествие разбудило в нём желание жить Придя домой с Разумихиным Раскольников застал обеспокоенных маму и сестру"
]

labels = [0.0, 1.0, 2.0, 0.0, 1.0]

attack.attack(train_model, texts, labels)

['часть защиты уже подготовила список фраз которые будут озвучены в суде пишет издание',
 'Там же отмечается что Киркоров оценил свой моральный ущерб в десять миллионов рублей кроме того с Успенской могут взыскать порядка двух миллионов судебных издержек',
 'Это произошло в ночь на 12 декабря Злоумышленник отпилил голову коня маршала Константина Рокоссовского после чего скрылся с места происшествия',
 'Вернувшись домой Раскольников получил долгожданное письмо от матери и узнал что его младшая сестра собирается замуж за богатого дельца',
 'Это происшествие разбудило в нём желание жить Придя домой с Разумихиным Раскольников застал обеспокоенных маму и сестру']

### Unsupervised Decoder

In [8]:
train_model_name = "ai-forever/mGPT"
train_model = DecoderModel(train_model_name).to(device)

# Add model for attack module
observer_model_name = "ai-forever/ruElectra-small"
observer_model = UnsupervisedEncoderModel(observer_model_name).to(device)

attack = UnsupervisedDecoderAttack(observer_model=observer_model,
                                   syn_dict=ru_synonims, p_phrase=0.9)

texts = [
    "Сторона защиты уже подготовила список фраз которые будут озвучены в суде пишет издание",
    "Там же отмечается что Киркоров оценил свой моральный ущерб в десять миллионов рублей кроме того с Успенской могут взыскать порядка двух миллионов судебных издержек",
    "Это произошло в ночь на 12 декабря Злоумышленник отпилил голову коня маршала Константина Рокоссовского после чего скрылся с места происшествия",
    "Вернувшись домой Раскольников получил долгожданное письмо от матери и узнал что его младшая сестра собирается замуж за богатого дельца",
    "Это происшествие разбудило в нём желание жить Придя домой с Разумихиным Раскольников застал обеспокоенных маму и сестру"
]

attack.attack(train_model, texts)

  0%|          | 0/1 [00:00<?, ?it/s]

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

['позиция защиты уже подготовила список фраз которые будут озвучены в суде пишет издание',
 'Там же отмечается что Киркоров посчитал свой моральный ущерб в десять миллионов рублей кроме того с Успенской могут взыскать порядка двух миллионов судебных издержек',
 'Это произошло в ночь на 12 июня Злоумышленник отпилил голову коня маршала Константина Рокоссовского после чего скрылся с места происшествия',
 'Вернувшись домой Раскольников получил долгожданное письмо от матери и признал что его младшая сестра собирается замуж за богатого дельца',
 'Это происшествие разбудило в нём желание жить Придя домой с Разумихиным Раскольников застиг обеспокоенных маму и сестру']