Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N/A, arXiv'22 #615

Open
AkihikoWatanabe opened this issue May 4, 2023 · 0 comments
Labels

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented May 4, 2023

URL

Affiliations

  • Yang Chen, N/A
  • Chao Jiang, N/A
  • Alan Ritter, N/A
  • Wei Xu, N/A

Abstract

  • Translating training data into many languages has emerged as a practicalsolution for improving cross-lingual transfer. For tasks that involvespan-level annotations, such as information extraction or question answering,an additional label projection step is required to map annotated spans onto thetranslated texts. Recently, a few efforts have utilized a simplemark-then-translate method to jointly perform translation and projection byinserting special markers around the labeled spans in the original sentence.However, as far as we are aware, no empirical analysis has been conducted onhow this approach compares to traditional annotation projection based on wordalignment. In this paper, we present an extensive empirical study across 57languages and three tasks (QA, NER, and Event Extraction) to evaluate theeffectiveness and limitations of both methods, filling an important gap in theliterature. Experimental results show that our optimized version ofmark-then-translate, which we call EasyProject, is easily applied to manylanguages and works surprisingly well, outperforming the more complex wordalignment-based methods. We analyze several key factors that affect theend-task performance, and show EasyProject works well because it can accuratelypreserve label span boundaries after translation. We will publicly release allour code and data.

Translation (by gpt-3.5-turbo)

  • 多言語へのトレーニングデータの翻訳は、クロスリンガル転移の改善の実用的な解決策として現れています。情報抽出や質問応答などのスパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要です。最近、いくつかの取り組みが、元の文の注釈付きスパンの周りに特別なマーカーを挿入することによって、翻訳とプロジェクションを同時に実行する単純なマーク-翻訳法を利用しています。しかし、私たちの知る限りでは、このアプローチが単語アラインメントに基づく従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析は行われていません。本論文では、57の言語と3つのタスク(QA、NER、およびEvent Extraction)にわたる広範な実験的研究を行い、両方の方法の有効性と限界を評価し、文献上の重要なギャップを埋めます。実験結果は、私たちがEasyProjectと呼ぶマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、驚くほどうまく機能し、より複雑な単語アラインメントベースの方法を上回ることを示しています。私たちは、エンドタスクのパフォーマンスに影響を与えるいくつかの重要な要因を分析し、EasyProjectが翻訳後に正確にラベルスパンの境界を保持できるためうまく機能することを示します。私たちは、すべてのコードとデータを公開します。

Summary (by gpt-3.5-turbo)

    • 多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つ
  • スパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要
  • マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行った
  • EasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示した
  • すべてのコードとデータが公開される
@AkihikoWatanabe AkihikoWatanabe changed the title Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N/A, arXiv'22 May 4, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

1 participant