Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
__init__.py		__init__.py
__main__.py		__main__.py
apply_subword.py		apply_subword.py
clean_tok_mono_corpus.py		clean_tok_mono_corpus.py
clean_tok_para_corpus.py		clean_tok_para_corpus.py
learn_subword.py		learn_subword.py

README.md

Data Preprocessing Toolkit in GluonNLP

Clean and Tokenize a Parallel Corpus

To clean and tokenize a parallel corpus, use

nlp_preprocess clean_tok_para_corpus --help

Learn/Apply Subwords

To learn a subword tokenizer, use

nlp_preprocess learn_subword --help

To apply the learned subword tokenizer, user

nlp_preprocess apply_subword --help