WFST

WFST (Weighted Finite-State Transducers) is one of the best solutions for LVCSR. This toolkit is to construct a ASR decoder which is based on WFST, to recognize large vocabulary continurous Mandarin speech.

The toolkit includes:

pinyinStandard2Variant.py:

input: .pys file

output: .pyv file
transposeText.py

input: text file

output: .tt file
pinyinVariant2Word.py

input: .pyv file

output: .pyw file
pinyinWord2Sentence.py

input: .pyw file

output: .sent file
promptsGenerator.py

input: .sent file

output: prompts file
toneExtraction.py

input: .pys file

output: .tone file

Decoder Construction

Pre-processing:

1.1. Speech Transcription Construction:

Text extraction -> Stanford Segmentation -> transposeText.py -> Google Translate -> pinyinStandard2Variant.py -> pinyinVariant2Word.py -> pinyinWord2Sentence.py -> promptsGenerator.py

1.2. Lexicon Construction

... pinyinStandard2Variant.py -> pinyinVariant2Pronunciation.py -> pinyinVariant2Word -> Shell: paste -d " " .pyw .pyp > .lex

1.3. Dic

... pinyinStandard2Variant.py -> pinyinVariant2Word.py

Name		Name	Last commit message	Last commit date
Latest commit History 54 Commits
scripts		scripts
voxforge		voxforge
.gitignore		.gitignore
README.md		README.md
autoLexiconGenerator.py		autoLexiconGenerator.py
autoPinyinStandard2LexiconVariant.py		autoPinyinStandard2LexiconVariant.py
autoPinyinStandard2Variant.py		autoPinyinStandard2Variant.py
autoPinyinVariant2LexiconPronunciation.py		autoPinyinVariant2LexiconPronunciation.py
autoPinyinVariant2LexiconPronunciationWithoutTone.py		autoPinyinVariant2LexiconPronunciationWithoutTone.py
autoPinyinVariant2LexiconWord.py		autoPinyinVariant2LexiconWord.py
autoPinyinVariant2Pronunciation.py		autoPinyinVariant2Pronunciation.py
autoPinyinVariant2PronunciationWithoutTone.py		autoPinyinVariant2PronunciationWithoutTone.py
autoPinyinVariant2Word.py		autoPinyinVariant2Word.py
autoPinyinWord2Sentence.py		autoPinyinWord2Sentence.py
autoSegmentor.py		autoSegmentor.py
autoTransposeText.py		autoTransposeText.py
autoVoxforgeLexiconGenerator.py		autoVoxforgeLexiconGenerator.py
cleanData.sh		cleanData.sh
cleanNewsBackup.sh		cleanNewsBackup.sh
codetrainSCPGenerator.py		codetrainSCPGenerator.py
joinRefine.py		joinRefine.py
lexiconRobotWithTone.sh		lexiconRobotWithTone.sh
lexiconRobotWithoutTone.sh		lexiconRobotWithoutTone.sh
pinyinStandard2Variant.py		pinyinStandard2Variant.py
pinyinVariant2Pronunciation.py		pinyinVariant2Pronunciation.py
pinyinVariant2PronunciationWithoutTone.py		pinyinVariant2PronunciationWithoutTone.py
pinyinVariant2Word.py		pinyinVariant2Word.py
pinyinWord2Sentence.py		pinyinWord2Sentence.py
preprocessing.sh		preprocessing.sh
promptsGenerator.py		promptsGenerator.py
toneExtraction.py		toneExtraction.py
transposeText.py		transposeText.py
withTone.sh		withTone.sh
withoutTone.sh		withoutTone.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WFST

Decoder Construction

About

Releases

Packages

Languages

ifamille/WFST

Folders and files

Latest commit

History

Repository files navigation

WFST

Decoder Construction

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages