# Text Transformation

> This contains some text transformation functionality

In [None]:
#| default_exp text_transformation

In [None]:
#| hide
from nbdev.showdoc import *

In [None]:
#| export
from __future__ import annotations
from underthesea import word_tokenize, sent_tokenize, text_normalize

In [None]:
#| export
def apply_vnmese_word_tokenize(sentence:str, # Input sentence
                        normalize_text=False, # To 'normalize' the text before tokenization
                        fixed_words=[]
                       ):
    "Applying UnderTheSea Vietnamese word tokenization"
    if normalize_text:
        sentence = text_normalize(sentence)
    sens = sent_tokenize(sentence)

    tokenized_sen = []
    for sen in sens:
        tokenized_sen.append(word_tokenize(sen,format='text',fixed_words=fixed_words))
    return ' '.join(tokenized_sen)

In [None]:
show_doc(apply_vnmese_word_tokenize)

---

[source](https://github.com/anhquan0412/that-nlp-library/blob/main/that_nlp_library/text_transformation.py#L11){target="_blank" style="float:right; font-size:smaller"}

### apply_vnmese_word_tokenize

>      apply_vnmese_word_tokenize (sentence:str, normalize_text=False,
>                                  fixed_words=[])

Applying UnderTheSea Vietnamese word tokenization

|    | **Type** | **Default** | **Details** |
| -- | -------- | ----------- | ----------- |
| sentence | str |  | Input sentence |
| normalize_text | bool | False | To 'normalize' the text before tokenization |
| fixed_words | list | [] |  |

For non-Vietnamese word, it's a hit-or-miss since UnderTheSea works best for Vietnamese sentences

In [None]:
text = 'This is a cat. New York city. San Francisco. New York and San Francisco Bay area. George Bush, Barrack Obama'
apply_vnmese_word_tokenize(text)

'This is a_cat . New_York city . San_Francisco . New_York and_San_Francisco Bay area . George Bush , Barrack Obama'

Here's an example on a clean Vietnamese sentence

In [None]:
text = 'Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò'
apply_vnmese_word_tokenize(text)

'Chàng trai 9X Quảng_Trị khởi_nghiệp từ nấm sò'

What if the sentence is not cleaned?

In [None]:
text = "Chàng trai 9X Quảng Trị khởi nghiệp từ nấm sò.Anh ấy không nuôi   nấm😊. nhưng anh này nuôi. Chị ấy lại không nuôi?(ai biết tại sao 😊😊? )Rồi? Rồi sao?rồi ?Rồi ủa...chứ chị ấy nuôi gì, #mộthaiba cũng không rõ =)) 😊. Haha :) 😊 hehe 😊."

In [None]:
apply_vnmese_word_tokenize(text)

'Chàng trai 9X Quảng_Trị khởi_nghiệp từ nấm sò . Anh ấy không nuôi nấm 😊 . nhưng anh này nuôi . Chị ấy lại không nuôi ? ( ai biết tại_sao 😊_😊 ? ) Rồi ? Rồi sao ? rồi ? Rồi ủa ... chứ chị ấy nuôi gì , #_mộthaiba cũng không rõ =))_😊 . Haha :) 😊 hehe 😊 .'

We need to normalize the text

In [None]:
apply_vnmese_word_tokenize(text,normalize_text=True)

'Chàng trai 9X Quảng_Trị khởi_nghiệp từ nấm sò . Anh ấy không nuôi nấm 😊 . nhưng anh này nuôi . Chị ấy lại không nuôi ? ( ai biết tại_sao 😊_😊 ? ) Rồi ? Rồi sao ? rồi ? Rồi ủa ... chứ chị ấy nuôi gì , #_mộthaiba cũng không rõ =))_😊 . Haha :) 😊 hehe 😊 .'

We can add a list of specific words to tokenize

In [None]:
text = "Viện Nghiên Cứu chiến lược quốc gia về học máy"
apply_vnmese_word_tokenize(text)

'Viện Nghiên_Cứu chiến_lược quốc_gia về học máy'

In [None]:
apply_vnmese_word_tokenize(text,fixed_words=["Viện Nghiên Cứu", "học máy"])

'Viện_Nghiên_Cứu chiến_lược quốc_gia về học_máy'

In [None]:
#| hide
import nbdev; nbdev.nbdev_export()