Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23 #1174

AkihikoWatanabe · 2023-12-04T12:41:40Z

URL

https://arxiv.org/abs/2310.19089

Affiliations

Shikhar Murty, N/A
Pratyusha Sharma, N/A
Jacob Andreas, N/A
Christopher D. Manning, N/A

Abstract

Recursion is a prominent feature of human language, and fundamentallychallenging for self-attention due to the lack of an explicit recursive-statetracking mechanism. Consequently, Transformer language models poorly capturelong-tail recursive structure and exhibit sample-inefficient syntacticgeneralization. This work introduces Pushdown Layers, a new self-attentionlayer that models recursive state via a stack tape that tracks estimated depthsof every token in an incremental parse of the observed prefix. Transformer LMswith Pushdown Layers are syntactic language models that autoregressively andsynchronously update this stack tape as they predict new tokens, in turn usingthe stack tape to softly modulate attention over tokens -- for instance,learning to "skip" over closed constituents. When trained on a corpus ofstrings annotated with silver constituency parses, Transformers equipped withPushdown Layers achieve dramatically better and 3-5x more sample-efficientsyntactic generalization, while maintaining similar perplexities. PushdownLayers are a drop-in replacement for standard self-attention. We illustratethis by finetuning GPT2-medium with Pushdown Layers on an automatically parsedWikiText-103, leading to improvements on several GLUE text classificationtasks.

Translation (by gpt-3.5-turbo)

再帰は人間の言語の顕著な特徴であり、明示的な再帰状態の追跡メカニズムの欠如により、自己注意機構にとって基本的な課題となっています。
その結果、Transformer言語モデルは長尾の再帰構造をうまく捉えることができず、サンプル効率の悪い構文的な一般化を示します。
本研究では、Pushdown Layersという新しい自己注意層を導入し、観測された接頭辞の増分構文解析において、トークンごとの推定深度を追跡するスタックテープを介して再帰状態をモデル化します。
Pushdown Layersを備えたTransformer言語モデルは、新しいトークンを予測する際にこのスタックテープを自己回帰的かつ同期的に更新し、トークン上の注意を柔軟に制御します。例えば、閉じられた構成要素を「スキップ」することを学習します。
銀の構成解析を付与した文字列のコーパスで訓練された場合、Pushdown Layersを備えたTransformerは、著しく改善された構文的な一般化と3〜5倍のサンプル効率を実現し、同様の困惑度を維持します。
Pushdown Layersは、標準の自己注意の代替として使用できます。これを示すために、自動的に解析されたWikiText-103でGPT2-mediumをPushdown Layersでfine-tuningし、いくつかのGLUEテキスト分類タスクで改善を実現しました。

Summary (by gpt-3.5-turbo)

本研究では、再帰構造をうまく捉えるために新しい自己注意層であるPushdown Layersを導入しました。
Pushdown Layersは、再帰状態をモデル化するためにスタックテープを使用し、トークンごとの推定深度を追跡します。
このモデルは、構文的な一般化を改善し、サンプル効率を向上させることができます。
さらに、Pushdown Layersは標準の自己注意の代替としても使用でき、GLUEテキスト分類タスクでも改善を実現しました。

AkihikoWatanabe added the Pocket label Dec 4, 2023

AkihikoWatanabe changed the title あ Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, arXiv'23 Dec 4, 2023

AkihikoWatanabe changed the title ~~Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, arXiv'23~~ Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23 Dec 4, 2023

AkihikoWatanabe added NLP Transformer labels Dec 4, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23 #1174

Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23 #1174

AkihikoWatanabe commented Dec 4, 2023 •

edited

Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23 #1174

Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23 #1174

Comments

AkihikoWatanabe commented Dec 4, 2023 • edited

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

AkihikoWatanabe commented Dec 4, 2023 •

edited