# Аугментации на уровне символов

In [1]:
from augmentex import CharAug

In [2]:
char_aug = CharAug(
    unit_prob=0.3,
    min_aug=1,
    max_aug=5,
    mult_num=3,
    random_seed=42,
    lang="rus",
    platform="pc",
    )

# text = "Screw you guys, I am going home. (c)"
text = "Привет, как дела?"

In [3]:
# В методе augment, если не указывать action, то будет применен случайно выбранный
char_aug.augment(text=text)

'Пнривыеут, как ждела?с'

In [4]:
# Список доступных аугментаций
char_aug.actions_list

['shift', 'orfo', 'typo', 'delete', 'multiply', 'swap', 'insert']

In [5]:
# Случайно поменять регистр букв
char_aug.augment(text=text, action="shift")

'ПРивЕт, каК дела?'

In [6]:
# Заменить буквы на ошибочные согласно статистике ошибок
char_aug.augment(text=text, action="orfo")

'Пёевет, как дида?'

In [7]:
# Заменить буквы на их опечатки с соседних клавиш
char_aug.augment(text=text, action="typo")

'Привет, евк дела?'

In [8]:
# Удалить случайную букву
char_aug.augment(text=text, action="delete")

'Приеткк дла?'

In [9]:
# Вставить случайную букву
char_aug.augment(text=text, action="insert")

'Пцриувет, кбак дьелба?'

In [10]:
# Повторение случайной буквы
char_aug.augment(text=text, action="multiply")

'Приивеет, какк дела?'

In [11]:
# Поменять местами соседние буквы
char_aug.augment(text=text, action="swap")

'рПвие,т кка длеа?'

In [12]:
# Аугментации для батча тектов. batch_prob определяет долю элементов списка которые будут изменены
text_list = ["Screw you guys, I am going home. (c)"] * 10
char_aug.aug_batch(text_list, batch_prob=0.5)

['Scre you guy, Iam gng home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'ScRew You guys6 I Am going home. (c)',
 'Screwyu guys, I am goig hoe. ()',
 'Screw you buys, I am go9mg ho,e. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'ScreW you guYs, I Am goIng home. (c0']

In [32]:
text = "Привет, как дела?"
char_aug.aug_batch(
    batch=[text] * 5,
    batch_prob=0.5, 
    action="typo"
    )







['Привет, как дела?',
 'Питвет, как днда?',
 'Пииват, ка5 дела?',
 'Привет, как дела?',
 'Привет, как дела?']

In [13]:
# также можно определить тип аугментации который будет применен, по умолчанию будет применена случайный вид аугментации
text_list = ["Screw you guys, I am going home. (c)"] * 10
char_aug.aug_batch(text_list, batch_prob=0.5, action="multiply")


['Screw you guys, I am going home. (c)',
 'Screw youu guys, II am goingg home. (c)',
 'Scrreew you guys, I am going home. (c)',
 'Screww you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am goinng home. (c)']

# Аугментации на уровне слов

In [14]:
from augmentex import WordAug


In [15]:
word_aug = WordAug(
    unit_prob=0.4,
    min_aug=1,
    max_aug=5,
    random_seed=42,
    lang="rus",
    platform="pc",
    )

# text = "Screw you guys, I am going home. (c)"
text = "Привет, как дела?"

In [16]:
# В методе augment, если не указывать action, то будет применен случайно выбранный
word_aug.augment(text=text)

'Привет, как д е л а ?'

In [17]:
# Список доступных аугментаций
word_aug.actions_list

['replace',
 'delete',
 'swap',
 'stopword',
 'reverse',
 'text2emoji',
 'split',
 'ngram']

In [18]:
# Заменяет правильно написанное слово на такое же с орфографической ошибкой
word_aug.augment(text=text, action="replace")

'пркет, как дела?'

In [19]:
# Удаляет случайные слова из текста
word_aug.augment(text=text, action="delete")

'как дела?'

In [20]:
# Перестановка двух случайных слов
word_aug.augment(text=text, action="swap")

'дела? как Привет,'

In [21]:
# Cлучайная вставка слов-паразитов
word_aug.augment(text=text, action="stopword")

'Привет, скажем как дела?'

In [22]:
# Меняет написание заглавной буквы в словах
word_aug.augment(text=text, action="reverse")

'привет, как дела?'

In [23]:
# Меняет слово на соответствующий эмодзи
word_aug.augment(text=text, action="text2emoji")

'👉, как дела?'

In [24]:
# Добавляет в слово пробелы между буквами
word_aug.augment(text=text, action="split")

'П р и в е т , как дела?'

In [25]:
# Заменяет ngram в слове на ошибочные
word_aug.augment(text=text, action="ngram")

'Привет, как дела?'

In [26]:
text_list = ["Screw you guys, I am going home. (c)"] * 10
word_aug.aug_batch(text_list, batch_prob=0.5)

['Screw you guys, I am going home. (c)',
 'S c r e w you guys, I am going h o m e . ( c )',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw guys, am going (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw am I you guys, going home. (c)',
 'Screw you guys, I am going home. (c)']

In [27]:
# Также можно определить тип аугментации который будет применен, по умолчанию будет применена случайный вид аугментации
text_list = ["Screw you guys, I am going home. (c)"] * 10
word_aug.aug_batch(text_list, batch_prob=0.5, action="replace")

['Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. c',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)',
 'Screw you guys, I am going home. (c)']

# Compute own statistic

In [28]:
char_aug = CharAug(
    unit_prob=0.3, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    mult_num=3, # Максимальное количество повторений символов (только для метода multiply)
    random_seed=42,
    lang="eng",
    platform="pc",
    correct_texts_path="correct_texts.txt",
    error_texts_path="error_texts.txt",
    )

text = "Screw you guys, I am going home. (c)"

In [29]:
# Заменить буквы на ошибочные согласно статистике ошибок
char_aug.augment(text=text, action="orfo")

'Ssrew yfu guys, I am going home. (c)'

In [30]:
word_aug = WordAug(
    unit_prob=0.4, # Процент фразы к которой будут применены аугментации
    min_aug=1, # Минимальное количество аугментаций
    max_aug=5, # Максимальное количество аугментаций
    random_seed=42,
    lang="eng",
    platform="pc",
    correct_texts_path="correct_texts.txt",
    error_texts_path="error_texts.txt",
    )

text = "Screw you guys, I am going home. (c)"

In [31]:
# Заменяет правильно написанное слово на такое же с орфографической ошибкой
word_aug.augment(text=text, action="replace")

'Screw jo guys, I am going home. (c)'