機械翻訳自動評価指標の比較, 今村+, NLP'04 #393

AkihikoWatanabe · 2021-06-25T03:41:52Z

https://www.anlp.jp/proceedings/annual_meeting/2004/pdf_dir/P4-8.pdf

AkihikoWatanabe · 2021-06-25T03:44:36Z

BLEUスコア、NISTスコア、WordErrorRate(WER)などに関して丁寧かつ簡潔に解説してある。
BLEUスコア算出に利用するN-gramは一般的にはN=4が用いられる、といった痒いところに手が届く情報も書いてある。
普段何気なく使っているBLEUスコアで、あれ定義ってどんなだっけ？と立ち帰りたくなった時に読むべし。

AkihikoWatanabe · 2021-06-27T07:58:35Z

実際に研究等でBLEUスコアを測りたい場合は、mosesの実装を使うのが間違いない:
https://github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl

AkihikoWatanabe added Metrics NLP MachineTranslation labels Jun 25, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

機械翻訳自動評価指標の比較, 今村+, NLP'04 #393

機械翻訳自動評価指標の比較, 今村+, NLP'04 #393

AkihikoWatanabe commented Jun 25, 2021

AkihikoWatanabe commented Jun 25, 2021 •

edited

AkihikoWatanabe commented Jun 27, 2021

機械翻訳自動評価指標の比較, 今村+, NLP'04 #393

機械翻訳自動評価指標の比較, 今村+, NLP'04 #393

Comments

AkihikoWatanabe commented Jun 25, 2021

AkihikoWatanabe commented Jun 25, 2021 • edited

AkihikoWatanabe commented Jun 27, 2021

AkihikoWatanabe commented Jun 25, 2021 •

edited