Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
SCTK		SCTK
build		build
docs		docs
examples		examples
fairseq.egg-info		fairseq.egg-info
fairseq		fairseq
fairseq_cli		fairseq_cli
scripts		scripts
00.train_conformer_audio_only.sh		00.train_conformer_audio_only.sh
01.train_conformer_audio_only_no_position.sh		01.train_conformer_audio_only_no_position.sh
02.train_conformer_audio_only_no_position_hidden_plus.sh		02.train_conformer_audio_only_no_position_hidden_plus.sh
03.train_conformer_audio_only_with_transformer.sh		03.train_conformer_audio_only_with_transformer.sh
03.train_conformer_audio_only_with_transformer_3layer.sh		03.train_conformer_audio_only_with_transformer_3layer.sh
03.train_conformer_audio_only_with_transformer_6layer.sh		03.train_conformer_audio_only_with_transformer_6layer.sh
04.train_conformer_audio_only_with_transformer.sh		04.train_conformer_audio_only_with_transformer.sh
05.train_vggconformer.sh		05.train_vggconformer.sh
05.train_vggconformer2.sh		05.train_vggconformer2.sh
05.train_vggconformer3.sh		05.train_vggconformer3.sh
05.train_vggconformer4.sh		05.train_vggconformer4.sh
05.train_vggconformer5.sh		05.train_vggconformer5.sh
05.train_vggconformer6.sh		05.train_vggconformer6.sh
06.train_vggtransformer_aonly.sh		06.train_vggtransformer_aonly.sh
06.train_vggtransformer_ce.sh		06.train_vggtransformer_ce.sh
06.train_vggtransformer_norm.sh		06.train_vggtransformer_norm.sh
06.train_vggtransformer_norm_ce.sh		06.train_vggtransformer_norm_ce.sh
06.train_vggtransformer_vonly.sh		06.train_vggtransformer_vonly.sh
07.train_vggconformer_av.sh		07.train_vggconformer_av.sh
10.libri_conformer_rnnt.sh		10.libri_conformer_rnnt.sh
11.libri_conformer_ctc.sh		11.libri_conformer_ctc.sh
12.libri_conformer_rnnt2.sh		12.libri_conformer_rnnt2.sh
13.libri_transformer.sh		13.libri_transformer.sh
14.train_conformer_rnnt.sh		14.train_conformer_rnnt.sh
21.train_avse_avsr_transformer.sh		21.train_avse_avsr_transformer.sh
22.train_avse_avsr_transformer_norm_ce.sh		22.train_avse_avsr_transformer_norm_ce.sh
22_1.train_avse_avsr_transformer_norm_ce.sh		22_1.train_avse_avsr_transformer_norm_ce.sh
22_2.train_avse_avsr_transformer_norm_ce.sh		22_2.train_avse_avsr_transformer_norm_ce.sh
22_3.train_avse_avsr_transformer_norm_ce.sh		22_3.train_avse_avsr_transformer_norm_ce.sh
23.train_avse_avsr_transformer_aonly.sh		23.train_avse_avsr_transformer_aonly.sh
24.train_avse_avsr_transformer_norm_hybrid.sh		24.train_avse_avsr_transformer_norm_hybrid.sh
51.train_jungwook.sh		51.train_jungwook.sh
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
SNR_avse_avsr.py		SNR_avse_avsr.py
SNR_avse_avsr.sh		SNR_avse_avsr.sh
SNR_avse_avsr_speech.py		SNR_avse_avsr_speech.py
SNR_avse_avsr_speech.sh		SNR_avse_avsr_speech.sh
SNR_avsr.py		SNR_avsr.py
SNR_avsr.sh		SNR_avsr.sh
SNR_avsr2.py		SNR_avsr2.py
SNR_avsr2.sh		SNR_avsr2.sh
SNR_avsr_libri.py		SNR_avsr_libri.py
SNR_avsr_libri.sh		SNR_avsr_libri.sh
WER.py		WER.py
WER.sh		WER.sh
WER2.py		WER2.py
WER2.sh		WER2.sh
WER_avse_avsr.py		WER_avse_avsr.py
WER_avse_avsr.sh		WER_avse_avsr.sh
calculate_flops.py		calculate_flops.py
conda_env.yml		conda_env.yml
generate.py		generate.py
hubconf.py		hubconf.py
interactive.py		interactive.py
jw_avse_avsr_transformer.sh		jw_avse_avsr_transformer.sh
jw_avse_avsr_transformer_aonly.sh		jw_avse_avsr_transformer_aonly.sh
jw_avse_avsr_transformer_norm_ce.sh		jw_avse_avsr_transformer_norm_ce.sh
jw_avse_avsr_transformer_norm_ce_1.sh		jw_avse_avsr_transformer_norm_ce_1.sh
jw_avse_avsr_transformer_norm_ce_2.sh		jw_avse_avsr_transformer_norm_ce_2.sh
jw_avse_avsr_transformer_norm_ce_3.sh		jw_avse_avsr_transformer_norm_ce_3.sh
jw_avse_avsr_transformer_norm_hybrid.sh		jw_avse_avsr_transformer_norm_hybrid.sh
jw_conformer_audio_only.sh		jw_conformer_audio_only.sh
jw_conformer_audio_only_no_position.sh		jw_conformer_audio_only_no_position.sh
jw_conformer_audio_only_no_position_hidden_plus.sh		jw_conformer_audio_only_no_position_hidden_plus.sh
jw_conformer_audio_only_with_transformer.sh		jw_conformer_audio_only_with_transformer.sh
jw_conformer_audio_only_with_transformer_3layer.sh		jw_conformer_audio_only_with_transformer_3layer.sh
jw_conformer_audio_only_with_transformer_6layer.sh		jw_conformer_audio_only_with_transformer_6layer.sh
jw_conformer_rnnt.sh		jw_conformer_rnnt.sh
jw_flops.sh		jw_flops.sh
jw_libri_conformer_ctc.sh		jw_libri_conformer_ctc.sh
jw_libri_conformer_rnnt.sh		jw_libri_conformer_rnnt.sh
jw_libri_conformer_rnnt2.sh		jw_libri_conformer_rnnt2.sh
jw_libri_transformer.sh		jw_libri_transformer.sh
jw_practice.sh		jw_practice.sh
jw_test.sh		jw_test.sh
jw_vggconformer.sh		jw_vggconformer.sh
jw_vggconformer2.sh		jw_vggconformer2.sh
jw_vggconformer3.sh		jw_vggconformer3.sh
jw_vggconformer4.sh		jw_vggconformer4.sh
jw_vggconformer5.sh		jw_vggconformer5.sh
jw_vggconformer6.sh		jw_vggconformer6.sh
jw_vggconformer_av.sh		jw_vggconformer_av.sh
jw_vggconformer_espnet_av.sh		jw_vggconformer_espnet_av.sh
jw_vggtransformer_vonly.sh		jw_vggtransformer_vonly.sh
make_SNR_result.py		make_SNR_result.py
meltest.py		meltest.py
preprocess.py		preprocess.py
score.py		score.py
setup.py		setup.py
test.py		test.py

Repository files navigation

Audio-visual speech recognition based on DCM

this repo is implementing AVSR task in Fairseq==0.8.0 toolkit.

The dependencies are noticed in conda_env.yml file.
Arguments about train or inference same with speech_recognition example in the original Fairseq toolkit.
The model is composed about three blocks. 1) self-attention transformer based modality encoder, 2) dual-cross modality attention layer and 3) transformer based attention decoder.
The mel-filterbank audio features and pre-trained CNN video features are fed in the model, then the model creates character-based sentence.
WER and CER calculated by Sclite package using prediction and ground-truth sentences.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Audio-visual speech recognition based on DCM

About

Contributors 2

Languages

License

IIP-Sogang/Audio-Visual-Speech-Recognition

Folders and files

Latest commit

History

Repository files navigation

Audio-visual speech recognition based on DCM

About

Resources

License

Stars

Watchers

Forks

Contributors 2

Languages