Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23 #1174

Open
AkihikoWatanabe opened this issue Dec 4, 2023 · 0 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Dec 4, 2023

URL

Affiliations

  • Shikhar Murty, N/A
  • Pratyusha Sharma, N/A
  • Jacob Andreas, N/A
  • Christopher D. Manning, N/A

Abstract

  • Recursion is a prominent feature of human language, and fundamentallychallenging for self-attention due to the lack of an explicit recursive-statetracking mechanism. Consequently, Transformer language models poorly capturelong-tail recursive structure and exhibit sample-inefficient syntacticgeneralization. This work introduces Pushdown Layers, a new self-attentionlayer that models recursive state via a stack tape that tracks estimated depthsof every token in an incremental parse of the observed prefix. Transformer LMswith Pushdown Layers are syntactic language models that autoregressively andsynchronously update this stack tape as they predict new tokens, in turn usingthe stack tape to softly modulate attention over tokens -- for instance,learning to "skip" over closed constituents. When trained on a corpus ofstrings annotated with silver constituency parses, Transformers equipped withPushdown Layers achieve dramatically better and 3-5x more sample-efficientsyntactic generalization, while maintaining similar perplexities. PushdownLayers are a drop-in replacement for standard self-attention. We illustratethis by finetuning GPT2-medium with Pushdown Layers on an automatically parsedWikiText-103, leading to improvements on several GLUE text classificationtasks.

Translation (by gpt-3.5-turbo)

  • 再帰は人間の言語の顕著な特徴であり、明示的な再帰状態の追跡メカニズムの欠如により、自己注意機構にとって基本的な課題となっています。
    その結果、Transformer言語モデルは長尾の再帰構造をうまく捉えることができず、サンプル効率の悪い構文的な一般化を示します。
    本研究では、Pushdown Layersという新しい自己注意層を導入し、観測された接頭辞の増分構文解析において、トークンごとの推定深度を追跡するスタックテープを介して再帰状態をモデル化します。
    Pushdown Layersを備えたTransformer言語モデルは、新しいトークンを予測する際にこのスタックテープを自己回帰的かつ同期的に更新し、トークン上の注意を柔軟に制御します。例えば、閉じられた構成要素を「スキップ」することを学習します。
    銀の構成解析を付与した文字列のコーパスで訓練された場合、Pushdown Layersを備えたTransformerは、著しく改善された構文的な一般化と3〜5倍のサンプル効率を実現し、同様の困惑度を維持します。
    Pushdown Layersは、標準の自己注意の代替として使用できます。これを示すために、自動的に解析されたWikiText-103でGPT2-mediumをPushdown Layersでfine-tuningし、いくつかのGLUEテキスト分類タスクで改善を実現しました。

Summary (by gpt-3.5-turbo)

  • 本研究では、再帰構造をうまく捉えるために新しい自己注意層であるPushdown Layersを導入しました。
    Pushdown Layersは、再帰状態をモデル化するためにスタックテープを使用し、トークンごとの推定深度を追跡します。
    このモデルは、構文的な一般化を改善し、サンプル効率を向上させることができます。
    さらに、Pushdown Layersは標準の自己注意の代替としても使用でき、GLUEテキスト分類タスクでも改善を実現しました。
@AkihikoWatanabe AkihikoWatanabe changed the title Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, arXiv'23 Dec 4, 2023
@AkihikoWatanabe AkihikoWatanabe changed the title Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, arXiv'23 Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23 Dec 4, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant