InformalMT

Project for my master thesis "Improving Nerual Machine Translation Robustness via Data Augmentation"

We experimented with data augmentation methods (Back-translation, forward-translation, fuzzy match) and external datasets from speech transcripts to improve the neural machine translation model's performance on noisy test sets. We followed the WMT19 Robustness Shared Task in Fr-En directions.

The training and preprocessing scripts for all systems are provided in this repository.

Tools used

OpenNMT-py
PyTorch
fairseq

Data Preparation

You may run this script and it will download data needed automatically.

bash prepare_data.sh

Datasets used in the experiments can be catogorized as in-domain and out-of-domain. The in-domain data is MTNT dataset. For out-of-domain data, we use WMT15 fr-en News Translation data.

Preprocessing

The preprocessing include tokenization with Moses tokenizer.perl along with BPE.

Experiments

We conducted 4 experiments, namely:

Model comparison (RNN, CNN and Transformer) on noisy texts
Data agumentation (back-translation, forward-translation, fuzzy match)
External data (human transcripts from IWSLT and MuST-C, ASR generated transcripts)
Submissions to WMT19 Leaderboard

Citation

Details about the experiments and results can be found here (TODO: add thesis link)

Name		Name	Last commit message	Last commit date
Latest commit History 86 Commits
1_Model_comparison		1_Model_comparison
2_Augmented_data		2_Augmented_data
runs		runs
tools		tools
.gitignore		.gitignore
README.md		README.md
prepare_data.sh		prepare_data.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

InformalMT

Tools used

Data Preparation

Preprocessing

Experiments

Citation

About

Releases

Packages

Languages

Nickeilf/InformalMT

Folders and files

Latest commit

History

Repository files navigation

InformalMT

Tools used

Data Preparation

Preprocessing

Experiments

Citation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages