# Text Augmentation

> This contains some text augmentation functionality. 

In [None]:
#| default_exp text_augmentation

In [None]:
#| hide
from nbdev.showdoc import *

In [None]:
#| export
from __future__ import annotations
import unidecode
import random

In [None]:
#| export
def remove_vnmese_accent(sentence:str, # Input sentence
                         prob=1, # Probability that this function is applied to the text
                        ):
    "Perform Vietnamese accent removal"
    return unidecode.unidecode(sentence) if random.random()<prob else sentence

In [None]:
show_doc(remove_vnmese_accent)

---

[source](https://github.com/anhquan0412/that-nlp-library/blob/main/that_nlp_library/text_augmentation.py#L12){target="_blank" style="float:right; font-size:smaller"}

### remove_vnmese_accent

>      remove_vnmese_accent (sentence:str, prob=1)

Perform Vietnamese accent removal

|    | **Type** | **Default** | **Details** |
| -- | -------- | ----------- | ----------- |
| sentence | str |  | Input sentence |
| prob | int | 1 | Probability that this function is applied to the text |

In [None]:
inp = 'hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức'

In [None]:
remove_vnmese_accent(inp)

'hoi cu dan chung cu sen hong - chung cu lotus song than thu duc'

In [None]:
for i in range(10):
    print(remove_vnmese_accent(inp,prob=0.5))

hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hoi cu dan chung cu sen hong - chung cu lotus song than thu duc
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức
hội cư dân chung cư sen hồng - chung cư lotus sóng thần thủ đức


In [None]:
#| export
def fill_mask_augmentation(sentence:str, # Input Sentence,
                           fillmask_pipeline, # HuggingFace fill-mask pipeline
                           prob=1, # Probability that this function is applied to the text
                           random_top_k=1, # To select output randomly from top k mask filled
                          ):
    # References: https://huggingface.co/docs/datasets/v2.14.1/en/process#data-augmentation
    if random.random()>=prob: return sentence
    mask_token = fillmask_pipeline.tokenizer.mask_token
    words = sentence.split(' ')
    K = random.randint(1, len(words)-1)
    masked_sentence = " ".join(words[:K]  + [mask_token] + words[K+1:])
    predictions = fillmask_pipeline(masked_sentence,top_k = random_top_k)
    weights = [p['score'] for p in predictions]
    sentences = [p['sequence'] for p in predictions]
    return random.choices(sentences, weights = weights, k = 1)[0]
    

In [None]:
show_doc(fill_mask_augmentation)

---

[source](https://github.com/anhquan0412/that-nlp-library/blob/main/that_nlp_library/text_augmentation.py#L19){target="_blank" style="float:right; font-size:smaller"}

### fill_mask_augmentation

>      fill_mask_augmentation (sentence:str, fillmask_pipeline, prob=1,
>                              random_top_k=1)

|    | **Type** | **Default** | **Details** |
| -- | -------- | ----------- | ----------- |
| sentence | str |  | Input Sentence, |
| fillmask_pipeline |  |  | HuggingFace fill-mask pipeline |
| prob | int | 1 | Probability that this function is applied to the text |
| random_top_k | int | 1 | To select output randomly from top k mask filled |

In [None]:
from transformers import pipeline

In [None]:
from that_nlp_library.text_transformation import apply_vnmese_word_tokenize

In [None]:
fillmask = pipeline("fill-mask", model='vinai/phobert-base')

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
inp='Tôi vào phòng và mở TV lên. Tìm đến bóng đá là cách duy nhất để tôi thư giãn'
inp = apply_vnmese_word_tokenize(inp) # because we are using phobert
print(inp)

Tôi vào phòng và mở TV lên . Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn


In [None]:
random.seed(1)

In [None]:
%%time
fill_mask_augmentation(inp,fillmask,random_top_k=1)

CPU times: user 957 ms, sys: 17.7 ms, total: 975 ms
Wall time: 94.4 ms


'Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn'

In [None]:
fill_mask_augmentation(inp,fillmask,random_top_k=10)

'Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để bạn thư_giãn'

In [None]:
random.seed(1)

In [None]:
for i in range(10):
    print(fill_mask_augmentation(inp,fillmask,random_top_k=5,prob=1))

Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để bạn thư_giãn
Tôi vào phòng và mở TV lên Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. quan_tâm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi về phòng và mở TV lên. Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên xem Tìm đến bóng_đá là cách duy_nhất để tôi thư_giãn
Tôi vào phòng và mở TV lên. liên_quan đến bóng_đá là cách duy_nhất để tôi thư_giãn


In [None]:
#| hide
import nbdev; nbdev.nbdev_export()

Note nbdev2 no longer supports nbdev1 syntax. Run `nbdev_migrate` to upgrade.
See https://nbdev.fast.ai/getting_started.html for more information.
  warn(f"Notebook '{nbname}' uses `#|export` without `#|default_exp` cell.\n"
