# Аугментации на уровне символов

In [1]:
from augmentex.char import CharAug

In [2]:
char_aug = CharAug(
    unit_prob=0.3, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    mult_num=3 # Максимальное количество повторений символов (только для метода multiply)
    )

text = "Съешь ещё этих мягких французских булок, да выпей чаю."

In [3]:
# В методе augment, если не указывать action, то будет применен случайно выбранный
char_aug.augment(text=text)

'Съешь ещё этих мягких фрАНцузскИх булок, да выпей чаю.'

In [4]:
# Список доступных аугментаций
char_aug.actions_list

['shift', 'orfo', 'typo', 'delete', 'multiply', 'swap', 'insert']

In [5]:
# Случайно поменять регистр букв
char_aug.augment(text=text, action='shift')

'СъЕшь ещё этих мягКих фраНцузских булок, да выпей Чаю.'

In [6]:
# Заменить буквы на ошибочные согласно статистике ошибок
char_aug.augment(text=text, action='orfo')

'Съешь ещё этиз мягкех французских булок, ла тыпей саю.'

In [7]:
# Заменить буквы на их опечатки с соседних клавиш
char_aug.augment(text=text, action='typo')

'Съель езё этих мягких французскпх булок, да аыпей чпю.'

In [8]:
# Удалить случайную букву
char_aug.augment(text=text, action='delete')

'Съеь щё эих мягких французскх булок, да выей чаю.'

In [9]:
# Вставить случайную букву
char_aug.augment(text=text, action='insert')

'Съешь ещё этих мягкцих фчранцэузскиьх булок, да выпей шчаю.'

In [10]:
# Повторение случайной буквы
char_aug.augment(text=text, action='multiply')

'Съешь ещё этих мяггких французских булок, даа выпей чаю.'

In [11]:
# Поменять местами соседние буквы
char_aug.augment(text=text, action='swap')

'Съешь ещёэ тихм якгих французских буолк, ад выпей чаю.'

In [12]:
# Аугментации для батча тектов. batch_prob определяет долю элементов списка которые будут изменены
text_list = ['Съешь ещё этих мягких французских булок, да выпей чаю.'] * 10
char_aug.aug_batch(text_list, batch_prob=0.5)

['Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Сешь ещёэтих мягких француских булок, да выей чю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съегь ешё этих мягких французских бубнл, да выпей чаю.',
 'Съешь ещё этих мягких французсских булок, да выпей чаю.',
 'Съкшь ещё этих мягких йранцузских булок, да вып62 чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.']

In [13]:
# также можно определить тип аугментации который будет применен, по умолчанию будет применена случайный вид аугментации
text_list = ['Съешь ещё этих мягких французских булок, да выпей чаю.'] * 10
char_aug.aug_batch(text_list, batch_prob=0.5, action='multiply')


['Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягкких французских булок, да выпей чаюю.',
 'Съешь ещё этих мягкиих французских булок, да выпей чаю.',
 'Съешь ещё этих мягких фрранццузских булок, да ввыпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещёё этихх мягкиих французских булок, да выпей чаю.',
 'Съешшь еещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.']

# Аугментации на уровне слов

In [14]:
from augmentex.word import WordAug


In [15]:
word_aug = WordAug(
    unit_prob=0.4, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    )

text = "Съешь ещё этих мягких французских булок, да выпей чаю."

In [16]:
# В методе augment, если не указывать action, то будет применен случайно выбранный
word_aug.augment(text=text)

'Съешь е щ ё этих мягких французских б у л о к , д а выпей чаю.'

In [17]:
# Список доступных аугментаций
word_aug.actions_list

['replace', 'delete', 'swap', 'stopword', 'reverse', 'text2emoji', 'split']

In [18]:
# Заменяет правильно написанное слово на такое же с орфографической ошибкой
word_aug.augment(text=text, action='replace')

'Съешь ещё этих мягких французских булок, дло выпей чаю.'

In [19]:
# Удаляет случайные слова из текста
word_aug.augment(text=text, action='delete')

'Съешь ещё французских булок, да выпей'

In [20]:
# Перестановка двух случайных слов
word_aug.augment(text=text, action='swap')

'Съешь ещё этих мягких французских булок, да чаю. выпей'

In [21]:
# Cлучайная вставка слов-паразитов
word_aug.augment(text=text, action='stopword')

'Съешь да ещё этих во мягких это французских булок, да выпей чаю.'

In [22]:
# Меняет написание заглавной буквы в словах
word_aug.augment(text=text, action='reverse')

'Съешь ещё этих мягких Французских булок, Да выпей Чаю.'

In [23]:
# Меняет слово на соответствующий эмодзи
word_aug.augment(text=text, action='text2emoji')

'Съешь ещё этих мягких французских булок, да выпей чаю.'

In [24]:
# Добавляет в слово пробелы между буквами
word_aug.augment(text=text, action='split')

'С ъ е ш ь ещё этих мягких французских булок, д а в ы п е й чаю.'

In [25]:
text_list = ['Съешь ещё этих мягких французских булок, да выпей чаю.'] * 10
word_aug.aug_batch(text_list, batch_prob=0.5)

['Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё э т и х мягких ф р а н ц у з с к и х булок, д а выпей чаю.',
 'Съешь ишо этих мягких французских булок, да выпей чаю.',
 'Съешь французских ещё мягких булок, этих да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё да этих мягких и французских булок, блин да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.']

In [26]:
# Также можно определить тип аугментации который будет применен, по умолчанию будет применена случайный вид аугментации
text_list = ['Съешь ещё этих мягких французских булок, да выпей чаю.'] * 10
word_aug.aug_batch(text_list, batch_prob=0.5, action='replace')

['Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, дти выпей чаю.',
 'Съешь ещё этих мягких французских булок, доча выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.',
 'Съешь ещё этих мягких французских булок, да выпей чаю.']