Transformer-based Text Normalization Models #2415

laituan245 · 2021-06-28T17:00:26Z

Added code for training/evaluating a text normalization system which consists of:
(1) A tagger - for identifying semiotic classes in the input
(2) A decoder - for decoding the spans of semiotic classes into spoken form.

@yzhang123 @ekmb

lgtm-com · 2021-06-28T17:11:01Z

This pull request introduces 75 alerts when merging 1577ddb into 5fcfa9e - view on LGTM.com

new alerts:

62 for Unused import
11 for 'import *' may pollute namespace
1 for Unused local variable
1 for Explicit export is not defined

lgtm-com · 2021-06-28T17:43:06Z

This pull request introduces 15 alerts when merging 4c53304 into 5fcfa9e - view on LGTM.com

new alerts:

11 for 'import *' may pollute namespace
4 for Unused import

lgtm-com · 2021-06-28T18:16:01Z

This pull request introduces 15 alerts when merging 86c8cb4 into 5fcfa9e - view on LGTM.com

new alerts:

11 for 'import *' may pollute namespace
4 for Unused import

yzhang123

Could you add docstrings to classes and functions? following the format we use? https://github.com/NVIDIA/NeMo/blob/main/nemo/collections/nlp/data/dialogue_state_tracking/sgd/dataset.py#L54-L58
make sure you sign your commits for CI
add a small dummy test for ci/jenkins on a dummy dataset to make sure training works

I'll review details in the meantime

examples/nlp/neural_text_normalization/utils.py

nemo/collections/nlp/data/text_normalization/decoder_dataset.py

nemo/collections/nlp/data/text_normalization/tagger_dataset.py

nemo/collections/nlp/data/text_normalization/test_dataset.py

nemo/collections/nlp/models/neural_text_normalization/neural_decoder.py

examples/nlp/neural_text_normalization/neural_text_normalization_test.py

examples/nlp/neural_text_normalization/neural_text_normalization_train.py

examples/nlp/duplex_text_normalization/conf/duplex_tn_config.yaml

examples/nlp/duplex_text_normalization/duplex_text_normalization_test.py

examples/nlp/duplex_text_normalization/duplex_text_normalization_train.py

nemo/collections/nlp/data/text_normalization/constants.py

nemo/collections/nlp/data/text_normalization/decoder_dataset.py

nemo/collections/nlp/models/duplex_text_normalization/duplex_decoder.py

nemo/collections/nlp/models/duplex_text_normalization/duplex_tagger.py

* Added a notebook with best practices for telephony speech * Added datasets detaiils * Added training recommendations * Emptied out cells with results * Added tutorial to docs Signed-off-by: jbalam <jbalam@nvidia.com> * Addressed review comments Signed-off-by: jbalam <jbalam@nvidia.com> * Added a line to note original sampling rate of an4 Signed-off-by: jbalam <jbalam@nvidia.com> * Made changes suggested in review Signed-off-by: jbalam <jbalam@nvidia.com> Signed-off-by: Tuan Lai <tuanl@nvidia.com>

* Temp commit Signed-off-by: smajumdar <titu1994@gmail.com> * Initial code for fastemit forward pass Signed-off-by: smajumdar <titu1994@gmail.com> * Correct return reg value Signed-off-by: smajumdar <titu1994@gmail.com> * Initial cpu impl Signed-off-by: smajumdar <titu1994@gmail.com> * Try gpu impl Signed-off-by: smajumdar <titu1994@gmail.com> * Try gpu impl Signed-off-by: smajumdar <titu1994@gmail.com> * Correct few impl Signed-off-by: smajumdar <titu1994@gmail.com> * Update fastemit scaling Signed-off-by: smajumdar <titu1994@gmail.com> * Cleanup fastemit Signed-off-by: smajumdar <titu1994@gmail.com> * Finalize FastEmit regularization PR Signed-off-by: smajumdar <titu1994@gmail.com> * Refactor code to support fastemit regularization Signed-off-by: smajumdar <titu1994@gmail.com> Co-authored-by: Samuel Kriman <samuelkriman@gmail.com> Signed-off-by: Tuan Lai <tuanl@nvidia.com>