SMT-LowRec

This repository is for the following paper:

Enhancing Statistical Machine Translation For Low-ResourceLanguages Using Semantic Similarity

The repository includes:

Corpora

Bilingual corpora: training, tuning, and test sets for language pairs: Japanese-Vietnamese, Indonesian-Vietnamese, Malay-Vietnamese, Filipino-Vietnamese.

Sentence alignment

The Java implementation of [Moore, 2002] for sentence alignment.
Extending word alignment by word similarity using word2vec

Pivot translation

The Java implementation of [Wu and Wang, 2007].

References

[1] Moore, Robert C. "Fast and accurate sentence alignment of bilingual corpora." Conference of the Association for Machine Translation in the Americas. Springer Berlin Heidelberg, 2002.

[2] Wu, Hua, and Haifeng Wang. "Pivot language approach for phrase-based statistical machine translation." Machine Translation 21.3 (2007): 165-181.

Name		Name	Last commit message	Last commit date
Latest commit History 51 Commits
corpora		corpora
pivot-translation/triangulation		pivot-translation/triangulation
sentence-alignment-similarity		sentence-alignment-similarity
smt-baseline-scripts		smt-baseline-scripts
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

corpora

corpora

pivot-translation/triangulation

pivot-translation/triangulation

sentence-alignment-similarity

sentence-alignment-similarity

smt-baseline-scripts

smt-baseline-scripts

README.md

README.md

Repository files navigation

SMT-LowRec

References

About

Releases

Packages

Languages

nguyenlab/SMT-LowRec

Folders and files

Latest commit

History

Repository files navigation

SMT-LowRec

References

About

Resources

Stars

Watchers

Forks

Languages