# quick_example

In [1]:
import nlpaug.augmenter.char as nac
import nlpaug.augmenter.word as naw
import nlpaug.augmenter.sentence as nas

In [7]:
text = 'The quick brown fox jumps over the lazy dog .'
print(text)

The quick brown fox jumps over the lazy dog .


## 1 Input and 1 Output

In [9]:
aug = nac.KeyboardAug()
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
The quick brown fox jumps over the lazy dog .
Augmented Text:
The quicu brown fox j6mps oger the lazy dog.


## 1 Input and N Output

In [10]:
aug = nac.KeyboardAug()
augmented_text = aug.augment(text, n=2)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
The quick brown fox jumps over the lazy dog .
Augmented Text:
['The @uick brown fox jum(s over the laXy dog.', 'The quick brown fox jum9s oDer the ?azy dog.']


## N Input and N Output

In [11]:
texts = [
    'The quick brown fox jumps over the lazy dog .',
    'It is proved that augmentation is one of the anchor to success of computer vision model.'
]

In [12]:
aug = nac.KeyboardAug()
augmented_text = aug.augment(texts)
print("Original:")
print(texts)
print("Augmented Text:")
print(augmented_text)

Original:
['The quick brown fox jumps over the lazy dog .', 'It is proved that augmentation is one of the anchor to success of computer vision model.']
Augmented Text:
['The qiick browJ fox jumps ovDr the lazy dog.', 'It is prkved that augnentat&ln is one of the xnchor to success of fomputDr viEion model.']


# Example of Textual Augmenter Usage

In [13]:
import os
os.environ["MODEL_DIR"] = './model'

In [14]:
import nlpaug.augmenter.char as nac
import nlpaug.augmenter.word as naw
import nlpaug.augmenter.sentence as nas
import nlpaug.flow as nafc

from nlpaug.util import Action

In [17]:
text = '与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。'
print(text)

与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。


## Character Augmenter

### OCR Augmenter

In [19]:
# Substitute character by pre-defined OCR error
aug = nac.OcrAug()
augmented_texts = aug.augment(text, n=3)
print("Original:")
print(text)
print("Augmented Texts:")
print(augmented_texts)

Original:
与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。
Augmented Texts:
['与 “ 计算机视觉 ” 中使用图像数据增强的标准做法不同 ， 在NLP中 ， 文本数据的增强非常少见 。', '与 “ 计算机视觉 ” 中使用图像数据增强的标准做法不同 ， 在NLP中 ， 文本数据的增强非常少见 。', '与 “ 计算机视觉 ” 中使用图像数据增强的标准做法不同 ， 在NLP中 ， 文本数据的增强非常少见 。']


### Keyboard Augmenter

#### Substitute character by keyboard distance

In [20]:
aug = nac.KeyboardAug()
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。
Augmented Text:
与 “ 计算机视觉 ” 中使用图像数据增强的标准做法不同 ， 在NL0中 ， 文本数据的增强非常少见 。


#### Random Augmenter

In [21]:
# Insert character randomly
aug = nac.RandomCharAug(action="insert")
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。
Augmented Text:
与 “ 计算机视#觉 ” 中使用图像数据增强的标准做法不同 ， 在_NLP中 ， 文本数0据的增R强非常9少见 。


In [22]:
#### Substitute character randomly
aug = nac.RandomCharAug(action="substitute")
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。
Augmented Text:
与 “ 计算3视觉 ” 中使用图像数据增强的标准做法不同 ， 在NLPm ， 文a数据的增强非_少N 。


In [24]:
# Swap character randomly
aug = nac.RandomCharAug(action="swap")
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。
Augmented Text:
与 “ 计算机觉视 ” 中使用图像数据增强标的做准法不同 ， 在NPL中 ， 文本数据的增强非常少见 。


In [25]:
# Delete character randomly
aug = nac.RandomCharAug(action="delete")
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。
Augmented Text:
与 “ 计机视觉 ” 中使用图像数据增强的标准做法不同 ， 在NP中 ， 文本数据增强常见 。


## Word Augmenter

### Spelling Augmenter

#### Substitute word by spelling mistake words dictionary

In [21]:
aug = naw.SpellingAug()
augmented_texts = aug.augment(text, n=3)
print("Original:")
print(text)
print("Augmented Texts:")
print(augmented_texts)

Original:
与 “ 计算机视觉 ” 中 使用 图像 数据增强 的 标准做法 不同 ， 在 NLP 中 ， 文本数据 的 增强 非常少见 。
Augmented Texts:
['与 “ 计算机视觉 ” 中 使用 图像 数据增强 的 标准做法 不同 ， 在 NLP 中 ， 文本数据 的 增强 非常少见 。', '与 “ 计算机视觉 ” 中 使用 图像 数据增强 的 标准做法 不同 ， 在 NLP 中 ， 文本数据 的 增强 非常少见 。', '与 “ 计算机视觉 ” 中 使用 图像 数据增强 的 标准做法 不同 ， 在 NLP 中 ， 文本数据 的 增强 非常少见 。']


# textual_language_augmenter

In [2]:
%load_ext autoreload
%autoreload 2
import importlib
import nlpaug.augmenter.char as nac
import nlpaug.augmenter.word as naw
import nlpaug.augmenter.sentence as nas
import nlpaug.flow as nafc

from nlpaug.util import Action
import os
os.environ["MODEL_DIR"] = 'F:/document/datasets/nlpData/pretrain/word_embedding/word2vec/'

## Word Embeddings Augmenter (fasttext, China)

In [3]:
# https://github.com/taishi-i/nagisa
import nagisa
def tokenizer(x):
    return nagisa.tagging(text).words

text = '与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。'
aug = naw.WordEmbsAug(model_type='fasttext', tokenizer=tokenizer,
                      model_path=os.path.join(os.environ.get("MODEL_DIR"), 'wiki_zh_word2vec/wiki_zh_300.vec'))
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。
Augmented Text:
与 “ 计算 二号机 视觉 ” 中亦有 出现 图像 数 据 增强 的 标准 选取 法新 不同, 在 N LP 水中, 文 亿个 据 了 增强 非常 衍化 。


## Contextual Word Embeddings Augmenter (BERT)

In [33]:
aug = naw.ContextualWordEmbsAug(model_path='bert-base-multilingual-uncased', aug_p=0.1)

In [9]:
text = "与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。"
augmented_text = aug.augment(text)
print("Original:")
print(text)
print("Augmented Text:")
print(augmented_text)

Original:
与“计算机视觉”中使用图像数据增强的标准做法不同，在NLP中，文本数据的增强非常少见。
Augmented Text:
与 “ 计算 录影机 视觉 ” 中要 使用 缩图 数 媒体报道 增强 的 标准 做 法 不同, 在 N LP 中, 文 百万只 媒体报道 总之 下降 非常 低且 。


- 参考：[Example of Augmentation for Multilingual Textual Inputs](https://github.com/makcedward/nlpaug/blob/master/example/textual_language_augmenter.ipynb)

## 参考