You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Recursion is a prominent feature of human language, and fundamentallychallenging for self-attention due to the lack of an explicit recursive-statetracking mechanism. Consequently, Transformer language models poorly capturelong-tail recursive structure and exhibit sample-inefficient syntacticgeneralization. This work introduces Pushdown Layers, a new self-attentionlayer that models recursive state via a stack tape that tracks estimated depthsof every token in an incremental parse of the observed prefix. Transformer LMswith Pushdown Layers are syntactic language models that autoregressively andsynchronously update this stack tape as they predict new tokens, in turn usingthe stack tape to softly modulate attention over tokens -- for instance,learning to "skip" over closed constituents. When trained on a corpus ofstrings annotated with silver constituency parses, Transformers equipped withPushdown Layers achieve dramatically better and 3-5x more sample-efficientsyntactic generalization, while maintaining similar perplexities. PushdownLayers are a drop-in replacement for standard self-attention. We illustratethis by finetuning GPT2-medium with Pushdown Layers on an automatically parsedWikiText-103, leading to improvements on several GLUE text classificationtasks.
AkihikoWatanabe
changed the title
あ
Pushdown Layers: Encoding Recursive Structure in Transformer Language
Models, Shikhar Murty+, N/A, arXiv'23
Dec 4, 2023
AkihikoWatanabe
changed the title
Pushdown Layers: Encoding Recursive Structure in Transformer Language
Models, Shikhar Murty+, N/A, arXiv'23
Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N/A, EMNLP'23
Dec 4, 2023
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
その結果、Transformer言語モデルは長尾の再帰構造をうまく捉えることができず、サンプル効率の悪い構文的な一般化を示します。
本研究では、Pushdown Layersという新しい自己注意層を導入し、観測された接頭辞の増分構文解析において、トークンごとの推定深度を追跡するスタックテープを介して再帰状態をモデル化します。
Pushdown Layersを備えたTransformer言語モデルは、新しいトークンを予測する際にこのスタックテープを自己回帰的かつ同期的に更新し、トークン上の注意を柔軟に制御します。例えば、閉じられた構成要素を「スキップ」することを学習します。
銀の構成解析を付与した文字列のコーパスで訓練された場合、Pushdown Layersを備えたTransformerは、著しく改善された構文的な一般化と3〜5倍のサンプル効率を実現し、同様の困惑度を維持します。
Pushdown Layersは、標準の自己注意の代替として使用できます。これを示すために、自動的に解析されたWikiText-103でGPT2-mediumをPushdown Layersでfine-tuningし、いくつかのGLUEテキスト分類タスクで改善を実現しました。
Summary (by gpt-3.5-turbo)
Pushdown Layersは、再帰状態をモデル化するためにスタックテープを使用し、トークンごとの推定深度を追跡します。
このモデルは、構文的な一般化を改善し、サンプル効率を向上させることができます。
さらに、Pushdown Layersは標準の自己注意の代替としても使用でき、GLUEテキスト分類タスクでも改善を実現しました。
The text was updated successfully, but these errors were encountered: