# Аугментации на уровне символов

In [1]:
from augmentex import CharAug

In [2]:
char_aug = CharAug(
    unit_prob=0.3, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    mult_num=3, # Максимальное количество повторений символов (только для метода multiply)
    random_seed=42,
    lang="eng",
    platform="pc",
    )

text = "Screw you guys, I am going home. (c)"

In [3]:
# В методе augment, если не указывать action, то будет применен случайно выбранный
char_aug.augment(text=text)

'Scorew yotu guys,u hI kam going home. (c)'

In [4]:
# Список доступных аугментаций
char_aug.actions_list

['shift', 'orfo', 'typo', 'delete', 'multiply', 'swap', 'insert']

In [5]:
# Случайно поменять регистр букв
char_aug.augment(text=text, action="shift")

'Screw YoU guys, I am going Home. (C)'

In [6]:
# Заменить буквы на ошибочные согласно статистике ошибок
char_aug.augment(text=text, action="orfo")

'Sedew you guya, I am going home. (c)'

In [7]:
# Заменить буквы на их опечатки с соседних клавиш
char_aug.augment(text=text, action="typo")

'Sxrew you gugs, I am going home. (x)'

In [8]:
# Удалить случайную букву
char_aug.augment(text=text, action="delete")

'crew you guys Iam goinghme. (c)'

In [9]:
# Вставить случайную букву
char_aug.augment(text=text, action="insert")

'Screw you ughuys, I vam gcoing hxome. (c)'

In [10]:
# Повторение случайной буквы
char_aug.augment(text=text, action="multiply")

'Screw yyou guyss, I am ggoinng home. (c)'

In [11]:
# Поменять местами соседние буквы
char_aug.augment(text=text, action="swap")

'Srcewy ou guys,I  am oging hmoe. (c)'

In [12]:
# Аугментации для батча тектов. batch_prob определяет долю элементов списка которые будут изменены
text_list = ["Screw you guys, I am going home. (c)"] * 10
char_aug.aug_batch(text_list, batch_prob=0.5)

['Screw you guyss, I am going home. (c)',
 'Screw eou guys, I em goifg home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you yuys, I am goibg hone. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw youg uys,  Iam igong hmoe. (c)',
 'Screw you guys, I am going home. (c)',
 'Srcwe you gyus, Ia m giong home. (c)',
 'Screw you guys, I am going home. (c)']

In [13]:
# также можно определить тип аугментации который будет применен, по умолчанию будет применена случайный вид аугментации
text_list = ["Screw you guys, I am going home. (c)"] * 10
char_aug.aug_batch(text_list, batch_prob=0.5, action="multiply")


['Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guyss, I am goingg home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, II am going home. (c)',
 'Screw you guys, II am going hhome. (c))',
 'Screw you guys, I am going home. (c)',
 'Scrrew you guys, I am goingg home. (c)',
 'Screw you guys, I am going home. (c)']

# Аугментации на уровне слов

In [14]:
from augmentex import WordAug


In [15]:
word_aug = WordAug(
    unit_prob=0.4, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    random_seed=42,
    lang="eng",
    platform="pc",
    )

text = "Screw you guys, I am going home. (c)"

In [16]:
# В методе augment, если не указывать action, то будет применен случайно выбранный
word_aug.augment(text=text)

'S c r e w y o u guys, I am g o i n g home. (c)'

In [17]:
# Список доступных аугментаций
word_aug.actions_list

['replace', 'delete', 'swap', 'stopword', 'reverse', 'text2emoji', 'split']

In [18]:
# Заменяет правильно написанное слово на такое же с орфографической ошибкой
word_aug.augment(text=text, action="replace")

'Screw to guys, I to going com. (c)'

In [19]:
# Удаляет случайные слова из текста
word_aug.augment(text=text, action="delete")

'you I am home. (c)'

In [20]:
# Перестановка двух случайных слов
word_aug.augment(text=text, action="swap")

'Screw I guys, am home. going you (c)'

In [21]:
# Cлучайная вставка слов-паразитов
word_aug.augment(text=text, action="stopword")

'like Screw you guys, I am going completely home. by the way (c)'

In [22]:
# Меняет написание заглавной буквы в словах
word_aug.augment(text=text, action="reverse")

'Screw You guys, i Am going home. (c)'

In [23]:
# Меняет слово на соответствующий эмодзи
word_aug.augment(text=text, action="text2emoji")

'Screw you guys, I am going home. (c)'

In [24]:
# Добавляет в слово пробелы между буквами
word_aug.augment(text=text, action="split")

'Screw y o u guys, I am going h o m e . (c)'

In [25]:
text_list = ["Screw you guys, I am going home. (c)"] * 10
word_aug.aug_batch(text_list, batch_prob=0.5)

['screw You guys, i am going home. (c)',
 'well Screw you guys, I certainly am going anyway home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. c',
 'Screw you guys, I am going home. (c)',
 'Screw I am going (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you (c) guys, home. going am I']

In [26]:
# Также можно определить тип аугментации который будет применен, по умолчанию будет применена случайный вид аугментации
text_list = ["Screw you guys, I am going home. (c)"] * 10
word_aug.aug_batch(text_list, batch_prob=0.5, action="replace")

['Screw to guys, I am going house. at',
 'screws your guys, I am goning home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you gus, to am going house. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I i goning homes. (c)',
 'Screw to guys, I was coming home. (c)',
 'Screw you guys, I am going home. (c)']

# Compute own statistic

In [27]:
char_aug = CharAug(
    unit_prob=0.3, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    mult_num=3, # Максимальное количество повторений символов (только для метода multiply)
    random_seed=42,
    lang="eng",
    platform="pc",
    correct_texts_path="correct_texts.txt",
    error_texts_path="error_texts.txt",
    )

text = "Screw you guys, I am going home. (c)"

In [28]:
# Заменить буквы на ошибочные согласно статистике ошибок
char_aug.augment(text=text, action="orfo")

'Ssrew yfu guys, I am going home. (c)'

In [29]:
word_aug = WordAug(
    unit_prob=0.4, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    random_seed=42,
    lang="eng",
    platform="pc",
    correct_texts_path="correct_texts.txt",
    error_texts_path="error_texts.txt",
    )

text = "Screw you guys, I am going home. (c)"

In [30]:
# Заменяет правильно написанное слово на такое же с орфографической ошибкой
word_aug.augment(text=text, action="replace")

'Screw jo guys, I am going home. (c)'