HKCantonese_models

This is a repository dedicated for pre-trained acoustic models of Hong Kong Cantonese and Cantonese forced alignment using Montreal Forced Aligner (MFA).

Acoustic models

The pre-trained acoustic models of Hong Kong Cantonese are available in pretrained_models/:

acoustic_model_cv15_train.zip: model trained using the train set (~10 hrs) from Common Voice Hong Kong Chinese Corpus (Common Voice Corpus 15.0 updated on 9/14/2023).
acoustic_model_cv15_validated.zip: model trained using the validated set (~106.5 hrs, 2325 speakers) from Common Voice Hong Kong Chinese Corpus (Common Voice Corpus 15.0 updated on 9/14/2023).

Dictionaries

cv15_validated_lexicon.txt and cv15_validated_lexicon.dict contain the lexicon in the Common Voice Hong Kong Chinese Corpus 15.0, which is over 4800 entries. The former is in non-probabilistic format and the latter includes pronunciation and silence probabilities.

Alignment using Montreal Forced Aligner

An example of using the pre-trained acoustic model is as follows:

mfa align [OPTIONS] corpus_directory dictionary acoustic_model_cv15_validated.zip
          output_directory

Tutorials

Training acoustic models using the Kaldi recipe

The relevant scripts are available in kaldi_tutorial_scripts/.
Training acoustic models with MFA (Kaldi) implementation

The relevant scripts are available in mfa_tutorial_scripts/.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

HKCantonese_models

Acoustic models

Dictionaries

Alignment using Montreal Forced Aligner

Tutorials

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
kaldi_tutorial_scripts		kaldi_tutorial_scripts
mfa_tutorial_scripts		mfa_tutorial_scripts
pretrained_models		pretrained_models
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
cv15_validated_lexicon.dict		cv15_validated_lexicon.dict
cv15_validated_lexicon.txt		cv15_validated_lexicon.txt
lexicon.txt		lexicon.txt

License

chenchenzi/HKCantonese_models

Folders and files

Latest commit

History

Repository files navigation

HKCantonese_models

Acoustic models

Dictionaries

Alignment using Montreal Forced Aligner

Tutorials

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages