How is your WMT16 EN-Ro Dataset Preprocessed? #10

ictnlp-wshugen · 2019-11-26T02:20:25Z

Thank you for providing us the preprocessed dataset.
Could do please tell me How is your WMT16 EN-Ro Dataset Preprocessed?
From raw 612422 sentence pairs to 608319 sentence pairs?
Also, it seems that the dataset (En-Ro) has been shuffled or reorganized?

jaseleephd · 2019-12-04T18:11:50Z

We used the preprocessing scripts provided by Rico Sennrich, which filters out sentences too long or too short.

jaseleephd closed this as completed Dec 4, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

How is your WMT16 EN-Ro Dataset Preprocessed? #10

How is your WMT16 EN-Ro Dataset Preprocessed? #10

ictnlp-wshugen commented Nov 26, 2019 •

edited

Loading

jaseleephd commented Dec 4, 2019

How is your WMT16 EN-Ro Dataset Preprocessed? #10

How is your WMT16 EN-Ro Dataset Preprocessed? #10

Comments

ictnlp-wshugen commented Nov 26, 2019 • edited Loading

jaseleephd commented Dec 4, 2019

ictnlp-wshugen commented Nov 26, 2019 •

edited

Loading